O fim do p-valor?

A revista de psicologia “Basic and Applied Social Psychology” publicou um editorial em que eles anunciam que o Teste de  Significância da Hipótese Nula (NHST na sigla em inglês) foi banido do journal. De agora em diante, eles dizem:

prior to publication, authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on).

O primeiro problema que eu tenho é que às vezes os testes de significância são feitos não sobre parâmetros (ou hipóteses), mas sob o modelo (ou aspectos do modelo). Ou seja, eu faço um teste de normalidade dos dados, ou um teste de raiz unitária, ou um teste de correlação serial etc. Eles vão banir testes de hipótese sobre a adequação do modelo? Gelman, por exemplo, defendeu por um tempo o uso do p-valor para checar a adequação do modelo (posterior predictive checks).

Sobre Intervalos de Confiança, têm o seguinte a dizer:

Analogous to how the NHSTP fails to provide the probability of the null hypothesis, which is needed to provide a strong case for rejecting it, confidence intervals do not provide a strong case for concluding that the population parameter of interest is likely to be within the stated interval. Therefore, confidence intervals also are banned from BASP.

E o que eu acho de tudo isso? Apesar de Bayesiano e um crítico do NHST, creio que eles estão muito errados. Em primeiro lugar, não acho que “the probability of the null hypothesis (…) is needed to provide a strong case for rejecting it”. De fato, o p-valor é uma medida de evidência contra a hipótese nula. O que provavelmente eles estão falando aqui é de um resultado já antigo, dos anos 80, em que Bayesianos (Berger & Selke, 1987; Casella & Berger, 1987) mostraram que o p-valor exagera a evidência contra a hipótese nula. Mas tudo depende da priori, e a coisa toda é controversa. Eu, pessoalmente, acho a controvérsia meio inútil, pois penso que o problema do p-valor é outro. De todo modo, não acho que o BASP está justificado no argumento deles. Quanto menor o p-valor, para um dado n e um dado modelo (suposto correto), maior a evidência contra H0. Como eles podem achar o contrário disso, eu realmente não entendo.

O segundo argumento deles é que nós estamos interessados em P(hipóteses|dados), e não P(dados|hipóteses). Eu tenho simpatia pelo argumento (afinal sou Bayesiano), mas o pesquisador pode ter interesse nas duas coisas. Ganha-se de um lado, perde-se de outro. O que se ganha e o que se perde com abordagens puras (Bayesiano puro e frequentista puro) está, creio, muito bem sintetizada numa resposta do Stats Exchange. Cito a parte mais relevante aqui.

A Bayesian partisan might criticize the frequentist confidence interval like this: “So what if 95 out of 100 experiments yield a confidence interval that includes the true value? I don’t care about 99 experiments I DIDN’T DO; I care about this experiment I DID DO. Your rule allows 5 out of the 100 to be complete nonsense [negative values, impossible values] as long as the other 95 are correct; that’s ridiculous.” [esse é o argumento da BASP, aparentemente, contra intervalo de confiança. MG]

A frequentist die-hard might criticize the Bayesian credibility interval like this: “So what if 95% of the posterior probability is included in this range? What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time. Your response is, ‘Oh well, that’s ok because according to the prior it’s very rare that the value is 0.37,’ and that may be so, but I want a method that works for ANY possible value of the parameter. I don’t care about 99 values of the parameter that IT DOESN’T HAVE; I care about the one true value IT DOES HAVE. Oh also, by the way, your answers are only correct if the prior is correct. If you just pull it out of thin air because it feels right, you can be way off.”

Em resumo, o método frequentista nada diz sobre o experimento feito, e por outro lado o Bayesiano não tem garantia de cobertura (no longo prazo, meu estimador tem alguma garantia?).

Você talvez esteja se perguntando: “Mas Manoel, você não é um Bayesiano, crítico do p-valor e do NHST?” Sim eu sou, mas como falei, acho que os problemas são outros. Eu não tenho tempo de detalhar minhas visões agora, mas o problema está em primeiro lugar que a hipótese nula não é verdadeira, e a distribuição da estatística (t, digamos) é calculada supondo a verdade da H0. Mas isso é um problema para Bayesianos também, pois se eu for sério no que disse, minha priori dará probabilidade 0 para H0, e então a posteriori também assim o fará, não importam os dados. E o segundo problema está no p-hacking e nas múltiplas comparações, que tornam o p-valor matematicamente errado.

A melhor prática, na verdade, é a replicação, ou estudos pré-registrados. E eu tenho a intuição de que há alguma equivalência formal, sob certas condições, entre a cross-validação e replicação. Assim, a cross-validação também poderia ser uma outra forma de minorar os problemas do NHST.

Berger, J. O. and Sellke, T.  (1987). “Testing a point null hypothesis: The irreconcilability ofp values and evidence,” (with discussion). J. Amer. Statist. Assoc. 82: 112–139.

Cassella G. and Berger, R..  (1987). “Reconciling Bayesian and Frequentist Evidence in the One-sided Testing Problem,” (with discussion). J. Amer. Statist. Assoc. 82 106–111, 123–139.

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em ciência, estatística, Manoel Galdino e marcado , , , , , , . Guardar link permanente.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s