P-valor – again and again

Saiu um comentário, na BPSR, dos colegas Glauco Peres e Fernando Guarnieri, sobre um artigo de Figueiredo Filho et. al. que falava sobre p-valor. Eu até comentei o artigo original aqui no Blog. Eu realmente recomendo que vocês leiam meu comentário original. Embora hoje em dia eu tenha mudado um pouco de opinião (na época do texto eu acreditava mais no uso do p-valor), o meu comentário original explica mais como penso.

Voltando ao texto da BPSR, nós temos uma situação curiosa. Meu post original apresentava minhas discordâncias com Figueiredo Filho et. al. Peres e Guarnieri apresentam críticas ao texto de Figueiredo Filho et. al. E nas conclusões falam coisas que eu concordo quase que integralmente. E no entanto, eu não concordo com a maior parte do argumento utilizados para criticar Figueiredo Filho et. al. Ou seja, eu estou numa situação em que consegui discordar de ambos os trabalhos sobre p-valor! O que aliás reforça meu ponto original de que tenho muitas dúvidas se esse tipo de discussão vai levar a gente a algum lugar. E, pior ainda, apesar disso continuo aqui discutindo o ponto!

***********

O primeiro ponto deles é uma crítica à limitação da análise gráfica, defendida por Figueiredo Filho et. al. O problema atual dos trabalhos de ciência política não é que utilizem muitos gráficos, mas que utilizem poucos! Ora, a análise gráfica não precisa se limitar à análise exploratória de dados (EDA, na sigla em inglês). Conforme Gelman (2003) e Gelman(2004), a análise gráfica pode ser utilizada para avaliar a adequação dos modelos aos dados.  No caso da análise Bayesiana, isso pode ser feito por meio de posterior predictive checks. Mas mesmo que você não seja Bayesiano, é possível pelo menos fazer uma análise de resíduos, no caso de análise de regressão.

O caso deles é ainda mais prejudicado porque o exemplo que utilizam, de uma análise completamente sem teoria, é completamente desvinculado da realidade dos trabalhos em ciência política. Ninguém sai analisando dados sem teoria. A análise gráfica (seja de EDA, seja de posterior predictive checks ou similar) é feita junto com a teoria. O propósito da análise gráfica não é substituir a teoria ou os resultados quantitativos, mas complementá-los.

O segundo ponto deles é que podemos sim usar p-valor em amostras não aleatórias. A situação aqui é curiosa, pois eu concordo com eles – contra Figueiredo Filho et. al -, mas eu discordo dos argumentos apresentados por Peres e Guarnieri!

Eles estão corretos em chamar a atenção para a origem fisheriana do p-valor. Eu inclusive comentei aqui na minha outra postagem esse fato. Mas quando eles dizem que “Conditional upon the null hypothesis being true, if the observed values discern enough from the expected values we can then reject the hypothesis that the difference between them is due to chance“(p. 130), eles deveriam atentar para o “expected values“da frase. De onde afinal vem os valores esperados? Ora, sendo o p-valor um conceito frequentista, vem da ideia da repetição dos dados infinitas vezes sob condições similares. É esse fato que torna a estatística t (ou qualquer outra) uma variável aleatória. Ou seja, é o próprio fato da amostra ser aleatória que uma estatística da amostra é uma variável aleatória, com uma distribuição de probabilidade e sob a qual eu posso calcular o p-valor (que é a probabilidade de encontrar, em outras amostras, sob condições similares, estatística tão ou mais extrema do que a observada). Se a amostra não for aleatória, o p-valor só pode ser calculado se nos modelarmos o processo gerador dos dados com algum modelo probabilístico (e aqui eu discordo de Figueiredo Filho et. al.). Então, sem amostras aleatórias, o p-valor só faz sentido no contexto de uma modelagem do processo de geração dos dados.

O terceiro ponto deles toca em duas questões: tamanho da amostra e p-valor e magnitude dos efeitos. Vou considerar esses dois pontos separadamente.

Sobre o primeiro ponto, Peres e Guarnieri argumentam que não é verdade que sempre é possível achar um p-valor significante aumentando o tamanho da amostra. Embora eles estejam tecnicamente corretos (se a hipótese nula for verdadeira, o p-valor não será significativo aos níveis usuais), é um ponto irrelevante. Pois a hipótese nula nunca é verdadeira. Eu desafio qualquer pessoa a me dar um único exemplo de uma hipótese nula verdadeira em ciências sociais. Ora, nós já sabemos de antemão que modelos nunca são perfeitos e, portanto, estão sempre errados. Mas se eles estão sempre errados, então a hipótese nula nunca poderá ser verdadeira.

O segundo ponto é mais interessante, pois eles não acreditam que a significância estatística tem qualquer relação com a magnitude do efeito estimado. Mas, como Gelman já apontou, achados estatisticamente significantes tendem a superestimar a magnitude dos efeitos. A razão é que se nós estamos procurando estimativas significantes, então em média nossos achados vão ser maior do que o “verdadeiro” valor dos parâmetros. Vale notar que o problema aqui não está no uso do p-valor para quantificar incerteza, mas na prática de reportar achados que são significantes e não reportar achados não-significantes. De todo modo, a lição é clara: significância estatística tende a estimar valores do parâmetro viesados para cima.

No quarto ponto deles, segundo o qual a gente pode sim utilizar o p-valor em populações, eu estou de acordo.

Ao final, Peres e Guarnieri concluem o artigo deles com recomendações que eu concordo inteiramente. E, como eles mesmos argumentam no comentários deles, espero que esse meu comentário mostre que a questão é realmente controversa. Como case in point, lembro aqui uma discussão que ocorreu no blog do Andrew Gelman, sobre a própria definição de p-valor, e que eu comentei aqui no próprio blog. Estatísticos do mais alto gabarito não conseguiram nem mesmo concordar com a definição de p-valor. A definição que usamos aqui (e que Peres e Guarnieri usaram) é a mesma utilizada por Gelman, mas atacada por exemplo por Wasserman, um reconhecido estatístico frequentista.

A dúvida maior, porém, é saber o que fica para o leitor com menos conhecimento do assunto. Diante de três opiniões distintas sobre o p-valor, o que fazer? Eu sinceramente não sei. A minha recomendação é radical e envolve abandonar o p-valor quase inteiramente. O p-valor não serve para determinar se uma variável deve ou não entrar no modelo, a confusão do p-valor com o nível de significância impede que o p-valor seja usado corretamente para quantificar a incerteza de uma variável e, por fim, o filtro da significância estatística e o p-hacking tornam a própria utilizam do p-valor muitas vezes em algo pernicioso.  Mas o que colocar no lugar? Essa a verdadeira questão. Deixemos a resposta para outro dia.

 

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em estatística, Manoel Galdino e marcado , , , , . Guardar link permanente.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s