O fim do p-valor?

A revista de psicologia “Basic and Applied Social Psychology” publicou um editorial em que eles anunciam que o Teste de  Significância da Hipótese Nula (NHST na sigla em inglês) foi banido do journal. De agora em diante, eles dizem:

prior to publication, authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on).

O primeiro problema que eu tenho é que às vezes os testes de significância são feitos não sobre parâmetros (ou hipóteses), mas sob o modelo (ou aspectos do modelo). Ou seja, eu faço um teste de normalidade dos dados, ou um teste de raiz unitária, ou um teste de correlação serial etc. Eles vão banir testes de hipótese sobre a adequação do modelo? Gelman, por exemplo, defendeu por um tempo o uso do p-valor para checar a adequação do modelo (posterior predictive checks).

Sobre Intervalos de Confiança, têm o seguinte a dizer:

Analogous to how the NHSTP fails to provide the probability of the null hypothesis, which is needed to provide a strong case for rejecting it, confidence intervals do not provide a strong case for concluding that the population parameter of interest is likely to be within the stated interval. Therefore, confidence intervals also are banned from BASP.

E o que eu acho de tudo isso? Apesar de Bayesiano e um crítico do NHST, creio que eles estão muito errados. Em primeiro lugar, não acho que “the probability of the null hypothesis (…) is needed to provide a strong case for rejecting it”. De fato, o p-valor é uma medida de evidência contra a hipótese nula. O que provavelmente eles estão falando aqui é de um resultado já antigo, dos anos 80, em que Bayesianos (Berger & Selke, 1987; Casella & Berger, 1987) mostraram que o p-valor exagera a evidência contra a hipótese nula. Mas tudo depende da priori, e a coisa toda é controversa. Eu, pessoalmente, acho a controvérsia meio inútil, pois penso que o problema do p-valor é outro. De todo modo, não acho que o BASP está justificado no argumento deles. Quanto menor o p-valor, para um dado n e um dado modelo (suposto correto), maior a evidência contra H0. Como eles podem achar o contrário disso, eu realmente não entendo.

O segundo argumento deles é que nós estamos interessados em P(hipóteses|dados), e não P(dados|hipóteses). Eu tenho simpatia pelo argumento (afinal sou Bayesiano), mas o pesquisador pode ter interesse nas duas coisas. Ganha-se de um lado, perde-se de outro. O que se ganha e o que se perde com abordagens puras (Bayesiano puro e frequentista puro) está, creio, muito bem sintetizada numa resposta do Stats Exchange. Cito a parte mais relevante aqui.

A Bayesian partisan might criticize the frequentist confidence interval like this: “So what if 95 out of 100 experiments yield a confidence interval that includes the true value? I don’t care about 99 experiments I DIDN’T DO; I care about this experiment I DID DO. Your rule allows 5 out of the 100 to be complete nonsense [negative values, impossible values] as long as the other 95 are correct; that’s ridiculous.” [esse é o argumento da BASP, aparentemente, contra intervalo de confiança. MG]

A frequentist die-hard might criticize the Bayesian credibility interval like this: “So what if 95% of the posterior probability is included in this range? What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time. Your response is, ‘Oh well, that’s ok because according to the prior it’s very rare that the value is 0.37,’ and that may be so, but I want a method that works for ANY possible value of the parameter. I don’t care about 99 values of the parameter that IT DOESN’T HAVE; I care about the one true value IT DOES HAVE. Oh also, by the way, your answers are only correct if the prior is correct. If you just pull it out of thin air because it feels right, you can be way off.”

Em resumo, o método frequentista nada diz sobre o experimento feito, e por outro lado o Bayesiano não tem garantia de cobertura (no longo prazo, meu estimador tem alguma garantia?).

Você talvez esteja se perguntando: “Mas Manoel, você não é um Bayesiano, crítico do p-valor e do NHST?” Sim eu sou, mas como falei, acho que os problemas são outros. Eu não tenho tempo de detalhar minhas visões agora, mas o problema está em primeiro lugar que a hipótese nula não é verdadeira, e a distribuição da estatística (t, digamos) é calculada supondo a verdade da H0. Mas isso é um problema para Bayesianos também, pois se eu for sério no que disse, minha priori dará probabilidade 0 para H0, e então a posteriori também assim o fará, não importam os dados. E o segundo problema está no p-hacking e nas múltiplas comparações, que tornam o p-valor matematicamente errado.

A melhor prática, na verdade, é a replicação, ou estudos pré-registrados. E eu tenho a intuição de que há alguma equivalência formal, sob certas condições, entre a cross-validação e replicação. Assim, a cross-validação também poderia ser uma outra forma de minorar os problemas do NHST.

Berger, J. O. and Sellke, T.  (1987). “Testing a point null hypothesis: The irreconcilability ofp values and evidence,” (with discussion). J. Amer. Statist. Assoc. 82: 112–139.

Cassella G. and Berger, R..  (1987). “Reconciling Bayesian and Frequentist Evidence in the One-sided Testing Problem,” (with discussion). J. Amer. Statist. Assoc. 82 106–111, 123–139.

Publicado em ciência, estatística, Manoel Galdino | Marcado com , , , , , , | Deixe um comentário

Incidental Parameters e alguns comentários incidentais sobre Bayes

Para aqueles (alguém?) leitores que adoram estatística, um link de um paper contando a história do problema dos parâmetros incidentais (conectado com nuisance parameters).

Eu achei esse paper por acaso, ao procurar exemplos de introduções à estatística Bayesiana, já que estou tentando escrever um artigo com esse objetivo, para cientistas políticos brasileiros. Aliás, do que tenho visto até agora, surpreende-me não ter visto alguém conseguir resumir em poucas linhas as vantagens da abordagem Bayesiana*.

* Isso não é de todo correto, na medida em que muitos enfatizam a capacidade de analisar dados combinando duas fontes de informação: os dados (via modelo/verossimilhança) e informação a priori. Eu estou cada vez mais convencido dessa vantagem, especialmente que agora advogo em favor do uso de informative priors. Mas em modelos hierárquicos, por exemplo, a vantagem não vem só daí. E sinto falta de argumentos sintetizadores que apresentem essas outra vantagens.

Além disso, há os argumentos filosóficos de que a abordagem Bayesiana é coerente e, para alguns poucos, a única racional. Ou ainda que não viola o princípio da verossimilhança. Mas eu não acho esses argumentos bons/convincentes. Sobre coerência, aliás, veja esse paper do Dawid, no JASA, de 1982. Ele deixa claro que a coerência é uma demanda impossível de ser alcançada (como aliás a racionalidade no sentido Bayesiano subjetivista).

Publicado em estatística, Manoel Galdino | Marcado com , , , , | 1 comentário

Deep Learning – links sobre o tema

Ando sem tempo para postar aqui no blog, mas para quem tem interesse em machine learning ou mais especificamente em deep learning e/ou algoritmos de redes neurais, vale a pena ler esses textos discutindo alguns trabalhos recentes que apresentaram problemas ou limites dos algoritmos de deep learning.

Deep Learning can be easily fooled, que explica como os algoritmos podem ser enganados e classificar imagens incorretamente.

Deep learning’s Deep Flaws, comentário detalhado sobre dois papers que fazem as críticas ao deep learning.

Entrevista sobre o que é o deep learning e arquitetura H20.

Publicado em ciência, estatística, Manoel Galdino | Marcado com , , , , , , | 1 comentário

O futuro sombrio que nos espreita

Li as reflexões do Diego Viana a propósito do atentado ao Charlie Hebdo, e o que mais me chamou a atenção são as pistas do que nos espera o futuro. Uma política do medo, da administração e controle, num contexto de pauperização e discriminação crescentes em todo o mundo ocidental. Eu acrescentaria o ressentimento, juntamente com o medo. Estar do lado dos perdedores e perceber que não foi lhe dada (e não será lhe dada) nenhuma oportunidade justa de estar do lado dos vencedores não cria medo, mas ressentimento. Quem tem medo é quem ainda tem muito a perder, nem que seja o passado.

E não consigo deixar de pensar naquilo que Bill Barnes escreveu, num outro contexto, mas a propósito dos problemas que a humanidade enfrenta e enfrentará com as mudançcas climáticas (que já estamos vivendo aqui em São Paulo com a crise da água):

To realize the scale and seriousness of our problem, you have to appreciate
how bad the present reality already is for the world’s most vulnerable populations,
how locked-in the worsening trends are, and how great are the obstacles to
effective counteraction. Realism means acknowledging that we now face, in much
of the world, a future of increasingly catastrophic environmental and public health
disasters, increasing criminal, predatory, and socially destructive behavior, amidst
unrelenting poverty. Much of the world is dramatically short in coping capacity,
and there is no prospect of the weak and nearly-failing states of the poor world
remedying that shortfall on their own. Some stronger but predatory states will not
only be of no help, but react in ways that make things worse for their neighbors. If
the rich societies and their powerful, quasi-democratic states do not devote
themselves to heading off the full realization of the approaching catastrophes, by
helping to grow coping capacity all over the less developed world, things are
going to get very nasty. The immediate problem is that, by these standards, the
recent policies of the richest of these societies and the strongest of these states
have been, on balance, highly dysfunctional. This deserves to be counted as a form
of state failure – perhaps the most important form.

(…)

Being on the winning side makes a difference. With reassurance from all sides, it is easy to set aside nascent doubts and to join one of the reigning narratives on how
these problems are intractable or disappearing, and on how our noble and
advanced countries are doing all they can (or, at worst, a tiny bit less).

Parece-me óbvio que esses desdobramentos todos vão abrir a porta para uma solução mais ou menos fascista, como sempre tem sido em momentos de crises agudas. Que a esquerda não esteja vendo esses sinais e o futuro sombrio que ele aponta, me assusta muito. Obviamente eu posso estar enganado na minha leitura da realidade, ainda mais que “prediction is hard, especially about the future”. Aqui eu tampouco me dei ao trabalho de argumentar mais detidamente sobre esses riscos futuros, mas apenas fazer mais alguns apontamentos e levantar mais algumas perguntas. Mas os sinais estão aí, juntamente com os ruídos. É preciso apenas extrair os sinais para ter um quadro completo e essa a tarefa que nos espera, embora decididamente não podemos esperar esse quadro para começar a agir. Basta ver o que está acontecendo em São Paulo (e a falta de mobilização real na questão da água) para mostrar como a esquerda está desarticulada nas questões ambientais.

Publicado em Manoel Galdino, meio ambiente, Política e Economia | Marcado com , , , , , , , , | Deixe um comentário

Links

Alguns links sobre o atentado na França, e outros sobre a Líbia. Creio que o contrate é interessante.

Texto de Julho de 2014, sobre a Líbia e o sonho da democracia, por Hisham Matar.
Comentário sobre o livro Evidência, que traz fotografias da Líbia, de novembro de 2014.
No, we are not all charlie (a propósito do ataque terrorista ao semanário Charlie Hebdo).
A post card from Paris (ainda sobre o atentado, no NYT).
Não, não somos todos Charlie Hebdo (não, não é uma tradução do link acima. É outro texto).

update: Tinha me esquecido desse outro link.
Je ne suis pas Charles (em espanhol).

Publicado em Manoel Galdino, Política e Economia | Marcado com , , , , , , | Deixe um comentário

Os números de 2014 – no Blog

Os duendes de estatísticas do WordPress.com prepararam um relatório para o ano de 2014 deste blog.

Aqui está um resumo:

A sala de concertos em Sydney, Opera House tem lugar para 2.700 pessoas. Este blog foi visto por cerca de 59.000 vezes em Se fosse um show na Opera House, levaria cerca de 22 shows lotados para que muitas pessoas pudessem vê-lo.

Clique aqui para ver o relatório completo

Publicado em internet | Marcado com , | Deixe um comentário

10 resoluções de ano novo

1. Não dar indiretas em redes sociais ou blogs
2. Mas essa foi uma indireta pra você que andou mandando indireta.
3. Não explicar piadas ou ironias escritas na internet.
4. Separar o que Deus uniu
5. Unir o que o Diabo separou
6. Não falar em “Deus” ou “Diabo”, porque eles não existem.
7. Não compartilhar minha vida pessoal na internet
8. Conseguir muitas curtidas no insta ou no face de minhas fotos do fim do Ano, foi fantástico!
9. Não fazer listas com resoluções de ano novo.

Publicado em chistes, internet, Manoel Galdino | Marcado com , , | Deixe um comentário