Why we (usually) don’t have to worry about multiples comparisons. Gelman, Hill e Yajima (forthcoming)

Quando eu apresentei um trabalho sobre modelos hierárquicos Bayesianos no congresso de pós-graduandos de ciência política esse ano, uma das perguntas que me foram feitas é qual era a vantagem do método apresentado. Mas eu tinha tanta pergunta pra responder em 5 minutos, que acabei deixando passar essa. Porém, essa resposta é importante, e o artigo, citado no título do post, oferece uma das razões para usar modelos hirárquicos Bayesianos.

Eis que o Gelman colocou no blog dele um link para um artigo dele, em conjunto com Jennifer Hill e Masanao Yajima justamente sobre como modelos hieráquicos Bayesianos resolvem o problema das múltiplas comparações. E era essa a resposta que eu teria dado no congresso, tivesse mais tempo. Assim, segue abaixo um comentário sobre o artigo.

O problema das múltiplas comparações é o seguinte. Imagine que você tem 100 variáveis e testa a correlação de cada uma dessas variáveis com uma outra de interesse. O pesquisador tem então 100 correlações. E ele descobre que 5% das vezes há significância estatística, isto é, a hipótese nula é rejeitada ao nível usual de 5%. Porém, é fácil perceber que há um problema aí. O p-valor reflete a probabilidade de observar dados tão ou mais extremos do que os coletados, assumindo que a hipótese nula é verdadeira. Porém, se eu fizer esse teste 100 vezes, em 5% dos casos eu terei esses casos extremos e cometerei um erro do tipo I (rejeitar a nula quando ela é verdadeira).* Ou seja, em 5% dos casos tive azar e coletei uma amostra que me leva a uma conclusão diferente do observado na população. Formalmente, se em um teste de hipótese eu tenho 5% de chance de cometer um erro (ao nível usual de 5%), com duas hipótese esse erro é dado por Pr(erro no primeiro teste ou erro no segundo teste) = 1 – Pr(não ter erro em nenhum dos dois testes) = 1 – .95*95 = 9,8%.  Pegando meu exemplo, com 100 testes de hipótese, a chance de pelo menos um erro (um ou mais erros) é 99%! Claro que eu peguei um exemplo extremo (100 testes), mas com 8 testes (exemplo do Gelman et. al.), essa chance é de 34%, bastante alta.

Uma solução usual é a de Bonferroni. Que requer apenas dividir o nível de significância desejado pelo número de testes. No meu exemplo, 0,05/100 = 0,0005 seria o novo nível de significância. De fato, pela computação anterior, teríamos aproximamente 5% de chance de cometer um erro, que era nosso nível de significância original.

Nesse sentido, a solução usual para esse problema, como notam Gelman et. al, é manter a estimativa pontual, mas aumentar o intervalo de confiança ou corrigir o p-valor. A alternativa Bayesiana ajusta não os intervalos (no sentido de aumentá-los), mas faz as estimativas pontuais tenderem uma para a outra, juntamente com os intervalos (procedimento também chamado de shrinkage ou partial pooling).

Gelman et. al. explicam muito bem a intiuição por trás do partial pooling e, não conseguindo falar melhor que eles, cito-os:

Why does partial pooling make sense at an intuitive level? Let’s start
from the basics. The only reason we have to worry about multiple comparisons issues is because we have uncertainty about our estimates. If we knew the true (population-average) treatment effect within each site, we wouldn’t be making any probabilistic statements to begin with—we would just know the true sign and true magnitude of each (and certainly then whether or not each was really different from 0 or from each other). Classical inference in essence uses only the information in each site to get the treatment effect estimate in that site and the corresponding standard error.

A multilevel model, however, recognizes that this site-specific estimate is actually ignoring some important information—the information provided by the other sites. While still allowing for heterogeneity across sites, the multilevel model also recognizes that since all the sites are measuring the same phenomenon it doesn’t make sense to completely ignore what has been found in the other sites. Therefore each site-specific estimate gets “shrunk” or pulled towards the overall estimate (or, in a more general setting, toward a group-level regression fit). The greater the uncertainty in a site, the more it will get pulled towards the overall estimate. The less the uncertainty in a site, the more we trust that individual estimate and the less it gets shrunk.

Os modelos hierárquicos Bayesianos, portanto, ajustam as estimativas e as incertezas “automaticamente”, não sendo necessário corrigir para problemas de múltiplas comparações. Além disso, ao contrário das múltiplas comparações, não requerem preocupação com erro do tipo I ou erro do tipo II, na medida em que o próprio modelo não parte da idéia de uma hipótese nula que pode ser verdadeira. Na verdade, o modelo hierárquico existe justamente porque se acredita que há alguma variação entre os múltiplos testes, porém eles não são completamente independentes. E é justamente a dependência entre os testes (ou entre grupos) que o modelo deve incluir.

Essa é, aliás, uma das razões porque eu prefiro a abordagem Bayesiana à abordagem frequentista. Tradicionalmente, o frequesntista estima modelos e realiza uma série de testes estatísticos para corrigir os problemas dos modelos, ou modelos com correções nas estimativas dos erros-padrão. Porém, parece-me mais sensato – ou pelo menos muito mais transparente – incluir no próprio modelo as correções necessárias, de forma que o pesquisador sabe que o modelo reflete efetivamente o conhecimento dos dados, e as estimativas são limpas e diretamente interpretáveis. Claro que isso aumenta a dificuldade de definir o modelo, post oque mais complexo. Porém, elimina muito da necessidade de correções de erro-padrão típica dos frequentistas. Por exemplo, num modelo hierárquico bem desenhado, não há necessidade de corrigir a incerteza para dados clusterizados nem o problema de múltiplas comparações. Já nos modelos frequentistas, o model é simples mas as correções são complicadas e tenho de empregar mais de uma correção e conhecer mais de uma técnica diferente de correção.

 

 

Anúncios

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em estatística, Manoel Galdino e marcado , , , , , , , , . Guardar link permanente.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s