sábado, 7 de maio de 2011

ABORDAGEM BAYESIANA


· A abordagem bayesiana, de certa forma, é a mais relevante de todas as
metodologias que veremos neste tópico, uma vez que todas, de alguma forma,
serão a ela vinculadas. Isso já indica duas características notáveis do
arcabouço de Bayes: solidez e generalidade.

· Suponhamos a existência de N hipóteses ou categorias ou classes Ci
subjacentes a nosso problema. Suponhamos ainda que haja um conjunto de M
possíveis ações aj a serem tomadas [Duda et al., 2001]. Em muitos casos,
M = N, já que as ações corresponderão simplesmente a opções por uma das
classes (e.g. a2 ® “decida pela classe C2”) diante de um dado recebido (em
geral, aliás, trabalharemos assim ao longo do curso). Entretanto, isso não
precisa ser necessariamente verdade.
· Suponhamos agora que, sabendo da existência dessas classes, recebamos um
dado x para analisar. Tendo em vista o que discutimos no tópico anterior,
poderíamos construir o seguinte raciocínio: dado o vetor recebido x, qual é a
classe / hipótese / categoria que tem a maior “chance” de “tê-lo gerado”? Em
outras palavras, uma vez que x tenha sido recebido, qual classe se torna uma
escolha interessante em termos da probabilidade P(Ci / x), com i = 1, ..., N?
· Essa idéia pode ainda ser estendida da seguinte forma: dada uma ação
adotada aj, sendo válida a classe Ci, qual será o custo associado à decisão?
Isso define uma ponderação do tipo l(aj / Ci), ponderação esta que pode ser
então combinada com a já mencionada probabilidade P(Ci / x), originando
uma medida à qual podemos dar o nome de custo médio ou risco condicional
[Duda et al., 2001]:

R(a / x) l a /C P(C / x)

· Pode-se destarte definir o seguinte problema: encontre, dentre as M possíveis
ações, aquela que minimiza o custo médio. Essa ação será a escolhida, o que
conclui a tarefa de decisão. Caso as ações sejam do tipo aj ® “escolha a
classe Cj”, temos, para cada dado recebido x, uma metodologia sistemática
para classificação.

· Note que dispomos da flexibilidade de escolher as ponderações para penalizar
mais ou menos determinados erros ou valorizar mais ou menos determinados
acertos. Por exemplo, suponha que tenhamos duas hipóteses e que as ações
sejam simplesmente escolhas dessas hipóteses. Podemos fazer l(a1 / C1) =
l(a2 / C2) = 0, indicando que os acertos não são penalizados, e fazer
l(a1 / C2) = l(a2 / C1) = 1, indicando que os dois possíveis erros são
penalizados igualmente. Note que, por exemplo, l(a2 / C1) significa, nesse
caso específico, “o custo associado à escolha da classe C2 quando C1 é a
classe correta”.

Caso Gaussiano e Unidimensional
· Suponhamos, primeiramente, um caso em que os dados são valores reais
pertencentes a duas classes, C1 e C2. Imaginemos ainda que os dados
pertencentes à classe C1 obedecem a uma densidade gaussiana com média
igual a -1 e variância unitária, e que os dados da classe C2 obedecem a uma
densidade gaussiana de média igual a +1 e variância unitária. Assumamos
ainda que P(C1) = 0.8 e P(C2) = 0.2.
· Do enunciado acima percebemos que p(x/C1) ~ N(-1,1), sendo N(m,s2) uma
pdf gaussiana de média m e variância s2 e que p(x/C2) ~ N(+1,1). Se
considerarmos as ponderações que levam à metodologia MAP ou à
metodologia de mínima probabilidade de erro, teremos de fazer uma
comparação, para cada dado x, entre 0.8p(x/C1) e 0.2p(x/C2). Na Fig. 3,
apresentamos ambas as densidades.



Caso e Gaussiano Multidimensional
· Mantenhamo-nos no caso em que há apenas duas classes, C1 e C2, mas agora
assumamos que os dados são multidimensionais, ou seja, que cada dado
corresponde a um vetor x de elementos reais. Consideremos ainda que os
dados gerados na classe C1 obedecem a uma densidade de probabilidade
gaussiana com média m1 e matriz de covariância igual a s2I, sendo I a matriz
identidade, e que os dados gerados na classe C2 obedecem a uma densidade
gaussiana com média m2 e matriz de covariância igual, mais uma vez, a s2I.
· Nesse caso particular, ambas as classes originam vetores de dados com
componentes descorrelacionados (a matriz de covariância é uma versão da
identidade), o que, no caso gaussiano, significa que esse componentes
também serão independentes. Ademais, o valor de s2 é igual para C1 e C2.
· Analisemos, mais uma vez, os valores de p(x/C1)P(C1) e de p(x/C2)P(C2). Um
expediente bastante útil aqui é tomar o ln(.) de ambos os produtos, já que a
densidade gaussiana é determinada por uma exponencial [Duda et al., 2001].
Teremos, então, que ln[p(x/C1)P(C1)] = -[||x-m1||2 / 2s2] + ln[P(C1)] e
ln[p(x/C2)P(C2)] = -[||x-m2||2 / 2s2] + ln[P(C2)].
· Lembrando que ||x-m1||2 = (x-m1)T(x-m1), podemos escrever ln[p(x/C1)P(C1)] =
[1/2s2][xTx - 2m1
Tx + m1
Tm1] + ln[P(C1)]. Como o termo xTx será o mesmo na
análise de todas as classes, não precisamos levá-lo em conta. Assim, vemos
que basta avaliar [1/2s2][-2m1
Tx] + [1/2s2][m1
Tm1] + ln[P(C1)]. Essa expressão
corresponde é linear com respeito ao vetor de dados x, o que nos leva a uma
conclusão muito importante: no caso gaussiano estudado, as funções
discriminantes que compõem o classificador são lineares, ou seja, o
classificador será uma máquina linear. Teremos a chance de falar de
classificadores desse tipo mais adiante, e também discutiremos a relação entre
gaussianidade e linearidade em outro tópico.
· Note que a fronteira de decisão é, no caso de duas classes, corresponde ao
hiperplano que decorre da igualdade entre [1/2s2][-2m1
Tx] + [1/2s2][m1
Tm1] +
ln[P(C1)] e [1/2s2][-2m2
Tx] + [1/2s2][m2
Tm2] + ln[P(C2)].
· É possível mostrar que, caso todas as classes possuam a mesma matriz de
covariância (mesmo que não seja uma matriz diagonal como no caso visto
aqui, ou seja, mesmo que haja correlação entre os componentes dos vetores),
as funções discriminantes e as fronteiras de decisão serão lineares [Duda et
al., 2001]. Por outro lado, a linearidade pode ser perdida caso as matrizes de
covariância das classes sejam distintas. Aliás, mesmo no caso unidimensional,
quando temos variâncias diferentes, surgem regiões de decisão mais
complexas. 

Caso Não-Gaussiano
· Analisemos agora um caso diferente. Imaginemos que a classe C1 gera dados
com densidade N(0,1), e que a outra classe, C2, gera dados segundo uma
densidade uniforme entre –1 e 1. Tomaremos, inicialmente, P(C1) = 0.7 e P(C-
2) = 0.3. 


Nenhum comentário:

Postar um comentário