Este post apresenta as notas de aula da semana 7 do curso online Probabilistic Graphical Models.
Estimativa de parâmetros em Redes Bayesianas
Estimativa de verossimilhança máxima
Dada uma amostra obtida de maneira independente de uma distribuição desconhecida, queremos estimar que represente .
Uma medida da qualidade dessa distribuição é a verossimilhança, denotada por e definida como a probabilidade de se obter dada a distribuição , ou seja
Definimos estatística suficiente como uma estatística que provê a mesma informação de uma amostra, sendo suficiente para calcularmos a verossimilhança. Vamos defini-la em termos de uma função que recebe uma amostra e retorne uma tupla .
Um exemplo é a estatística suficiente para uma distribuição multinomial de valores. Podemos definir a função que recebe um valor e retorna uma tupla apenas com a i-ésima posição contendo 1 e o resto 0.
Agora calculamos a verossimilhança definindo . Note que representa o número de amostras com o valor . Logo, a verossimilhança é dada por
Outro exemplo é a distribuição Gaussiana com média e variância . A distribuição pode ser dada por
Podemos definir a estatística suficiente como . Seja
podemos escrever a função de verossimilhança como
O problema da estimativa de verossimilhança máxima (Maximum Likelihood Estimation, MLE) consiste em, dado um conjunto de amostras , encontrar a distribuição que maximiza a verossimilhança .
No caso da distribuição multinomial, podemos mostrar que o MLE é
No caso da distribuição Gaussiana, temos
Estimativa de verossimilhança máxima em Redes Bayesianas
Podemos generalizar a estimativa de verossimilhança para as distribuições em Redes Bayesianas. Suponha que tenhamos uma rede Bayesiana e queremos estimar as distribuições de probabilidades, nesse caso, os CPDs.
Novamente, dado um conjunto de amostras, , definimos a verossimilhança
Podemos fatorar essa distribuição em um produto dos CPDs de cada nó usando a regra da cadeia.
Neste caso representa os pais da variável na rede. Re-arranjando os fatores, podemos trocar a ordem dos produtórios e obter,
Definindo a verossimilhança local como
Temos finalmente que
Supondo inicialmente que os CPDs não são compartilhados por nenhuma variável, temos um para cada variável. Vamos mostrar como determinar esses CPDs de maneira independente.
Re-arranjando os produtos para agrupá-los por valores de e (buckets), temos
Observamos que corresponde a uma entrada do CPD dado por , que denotamos por , portanto,
Note que o termo será multiplicado pelo número de amostras tais que e , que denotamos por ,
Finalmente, vemos que a distribuição corresponde à distribuição multinomial, então podemos calcular o MLE como
CPDs compartilhados. Note que a fórmula que obtivemos depende apenas dos valores de e e do CPD . Assim, se tivermos CPDs compartilhados entre variáveis, como no modelo temporal, a única diferença é que podemos contar as ocorrências em múltiplas vezes para uma mesma amostra.
Observamos finalmente que o número de buckets cresce exponencialmente com o número de pais da variável. Isso faz com que os valores de fiquem muito pequenos, levando à ocorrência da fragmentação e requerendo um maior número de amostras.
Estimativa Bayesiana
Uma maneira alternativa de se fazer estimativas das distribuições dos CPDs é usando uma outra rede Bayesiana. Neste caso supomos que cada amostra de representa um nó da rede e elas dependem de uma variável contínua que representa a distribuição .
Neste caso a variável tem um CPD correspondente a uma distribuição inicial . A ideia é usar a rede para determinar a distribuição a posteriori de uma vez que observamos . Usando a regra de Bayes temos que,
(1)
Veja que o primeiro termo do numerador corresponde à verossimilhança. é a distribuição a priori e a distribuição a posteriori. Uma vez que temos o conjunto de amostragem, o denominador é uma constante normalizadora.
Portanto, podemos reescrever (1) como
(2)
Distribuição multinomial
Suponha que é uma distribuição multinomial sobre valores. Como um valor a priori da distribuição de , em geral utiliza-se a distribuição de Dirichlet, denotada por , onde é chamado de hiper-parâmetro. Basicamente, a distribuição é proporcional a um produtório,
Intuitivamente os hiper-parâmetros correspondem às frequências de variáveis amostradas discriminadas por valor.
Usando a distribuição de Dirichlet como a distribuição a priori e lembrando que para uma distribuição multinomial a verossimilhança é dada por
Por (2), concluímos que a distribuição a posteriori é dada por,
Note que , ou seja, a distribuição a posteriori continuou sendo uma distribuição de Dirichlet. Devido a essa característica, dizemos que a distribuição de Dirichlet é um conjugado a priori para a distribuição multinomial.
Previsão Bayesiana
Considere uma rede bayesiana simples como a da Figura 1. Suponha que a variável tem distribuição .
Figura 1: Variável condicionada por uma distribuição de Dirichlet
Podemos calcular a distribuição em multiplicando os CPD’s e marginalizando , ou seja,
(3)
Para um valor específico de , temos que . Substituindo também pela definição da eq. de Dirichlet teremos
Que segundo as aulas é igual a
(4)
Agora, suponha que tenhamos um conjunto de variáveis condicionadas por , que novamente supomos possuir a distribuição , conforme a Figura 2.
Figura 2: Rede Bayesiana com M+1 variáveis condicionadas a uma distribuição de Dirichlet
Imagine que observamos as primeiras variáveis (conjunto ) e queremos prever a distribuição da -ésima, temos que
Dado , é independente de , logo
Vimos anteriormente que . Note então que o lado direito da equação acima é idêntico ao lado direito da equação (3). Portanto, podemos calcular $P(X[M+1] = x_i |{\cal D})$, mas usando , levando a
(5)
Definimos como o tamanho da amostra equivalente a soma . Observe que se , teríamos o MLE.
Usando redes Bayesianas, damos um “chute” inicial na distribuição, que eventualmente converge para o mesmo valor que o MLE conforme o número de iterações aumenta. A vantagem é que temos uma maior robustez nas iterações iniciais, quando temos poucas amostras. O gráfico da Figura 3 mostra bem esse fenômeno.
Figura 3: Gráfico de estimativa de uma distribuição de Bernoulli, usando diferentes métodos.
Note que a magnitude de define o quanto a distribuição inicial terá efeito sobre as distribuições obtidas a priori. Veja como a Dir(.5,.5) (verde-claro) quase não tem diferença sobre a MLE, enquanto Dir(10,10) (preto) muda bastante.
Estimativas Bayesianas para Redes Bayesianas
Podemos generalizar as ideias apresentadas anteriormente para estimar as distribuições dos CPDs de toda uma rede Bayesiana. Consideremos uma rede Bayesiana com uma variável e uma variável que depende condicionalmente de .
Para estimar os CPDs dessas duas variáveis usando um conjunto de amostras, podemos construir outra rede Bayesiana conforme a Figura 4.
Figura 4: Estimativa de parâmetros para uma rede Bayesiana”
Note que corresponde ao CPD de e corresponde ao CPD de . Se partirmos de distribuições iniciais para e , temos que as amostras são independentes.
Dado o conjunto de amostras , temos que e são independentes. Assim, a distribuição a posteriori de pode ser dada por
Podemos refinar o modelo e considerar os possíveis valores de , criando um CPD de para cada valor. Por exemplo, se for uma variável binária teremos a rede Bayesiana da Figura 5
Figura 5: Estimativa refinada de parâmetros para uma rede Bayesiana
Neste caso, dado o conjunto , não fica evidente pela rede que é independente de , mas aqui temos independência específica por contexto, pois quando o valor de é conhecido, uma das duas arestas incidentes a cada some.
De qualquer maneira, podemos computar as probabilidades a posteriori de independentemente. Se a distribuição a priori de for , a distribuição a posteriori será
Uma escolha inicial dos hiper-parâmetros das distribuições de Dirichlet, consiste em escolher um tamanho de amostra equivalente e para cada CPD distribuí-lo pelo número de entradas. Por exemplo, se o CPD for sobre uma única variável binária, teremos . Se tivermos uma variável binária dependendo de outra, fazemos a divisão de por 4.
Estimativa de parâmetros em Redes de Markov
Vamos apresentar métodos para a estimativa de parâmetros em redes de Markov ou MRF (Markov Random Fields) e para redes de Markov condicionais ou CRF (Conditional Random Fields). Ao invés de um produto de fatores, vamos considerar a representação mais genéricas através de modelos log-lineares.
Verossimilhança máxima para modelos log-lineares
Considere uma distribuição conjunta de um modelo log-linear
Note que para simplificar a notação, estamos supondo que ignora todas as entradas de que não pertencem a seu domínimo . Aqui é a constante normalizadora dada pela soma de para todos as possíveis atribuições , ou seja
Podemos definir a log-verossimilhança de um conjunto de amostras , denotado por como
Substituindo pela distribuição log-linear temos
podemos re-arrajar os somatórios e obter:
Diferentemente do caso de redes Bayesianas, aqui não podemos decompor em verossimilhanças locais porque o termo acopla os termos .
Porém, podemos mostrar que essa função é côncava, podendo ser resolvida numericamente por um método de descida de gradiente, por exemplo. Na prática, costuma-se utilizar o L-BFGS (Low Memory Broyden Fletcher Goldfarb Shanno).
Para computar os gradientes, vamos considerar a derivada da log-verossimilhança.
Note que dividimos a log-verossimilhança pela constante antes de derivar. Isso é para simplificar o resultado. Como estamos derivando com relacão a , o único termo que restará do primeiro somatório é
que corresponde à média dos valores de considerando todas as amostras. Definimos esse termo como esperança empírica, denotada por . Veja que este valor independe da distribuição .
Já para o segundo termo, aplicamos inicialmente a regra da cadeia para obter
Podemos aplicar novamente a regra da cadeia para , obtendo
Rearranjando os termos ficamos com
Veja que o priimeiro termo do somatório é exatamente nossa distribuição original, com . Reescrevendo temos:
Esse termo representa a esperança de considerando a distribuição e será denotado por . Veja que para calcular a probabilidade de cada possível atribuição , podemos usar os métodos de inferência vistos em aulas passadas.
Resumindo, temos o seguinte resultado:
Usando essa diferença para construir o gradiente, obtemos finalmente o seguinte teorema:
Teorema. A distribuição resulta na MLE se e somente se para todo
MLE para CRFs
No caso de CRFs (Conditional Random Fields), temos a distribuição conjunta condicional
,
onde
Considere o conjunto de amostras . Podemos novamente definir a log-verossimilhança:
Note que neste caso não podemos extrair o termo para fora do somatório porque ele depende de .
Para determinar o gradiente, podemos novamente calcular a derivada em relação a :
Usando as mesmas ideias do caso de MRF’s, concluiremos que
Onde
A diferença aqui é que a cada passo do algoritmo, devemos recalcular para cada amostra . Porém, em geral o conjunto será menor para CRF’s.
Estimativa MAP para MRFs e CRFs
Da mesma forma que para redes Bayesianas, podemos “chutar” uma distribuição a priori e obter uma distribuição a posteriori. Entretanto, devido ao acoplamento presente na verossimilhança de redes de Markov, não há uma fórmula fechada para a distribuição, como a de Dirichlet para redes Bayesianas.
O que fazemos é manter um conjunto de parâmetros que maximizem a dstribuição a posteriori, ou seja, uma MAP (Maximum A Posteriori).
Uma possível distribuição a pirori que pode ser usada é a distribuição gaussiana com métia 0.
Intuitivamente, quanto maior o valor de , maior a confiança de que o valor de esteja próximo de 0.
Outra alternativa é usar a distribuição de Laplace,
Queremos encontrar a distribuição que maximiza a distribuição conjunta dado o conjunto de amostras, ou seja,
Neste caso é a verossimilhança e é a distribuição a priori. Como o logaritmo é monotomicamente crescente com sua entrada, podemos aplicar o log ao termo dentro de argmax:
O plot de para a distribuição Gaussiana, é uma função quadrática. Esta curva corresponde a uma penalização da log-verossimilhança e é conhecida como regularização-L2.
De maneira análoga, o plot para a distribuição de Laplace é uma função linear e é equivalente à regularização-L1.
Deverá estar ligado para publicar um comentário.