O que se pode aprender em comentários de blogs de estatística

O Gelman fez dois posts interessantes no blog dele, e os comentários foram, se me permitem, melhores ainda. Começo pelo post em que o Gelman discute sobre fazer uma regressão polinomial (y = a + b1*x + b2*x^2) para testar a hipótese de que o efeito de colocar jogadores talentosos num time de basquete é em formato de U invertido (quanto mais talento melhor, até o ponto em que talento demais atrapalha).

O Daniel Lakeland, então, numa série de comentários, vai defender o modelo polinomial. Primeiro ele argumenta que se restringirmos a análise ao conjunto de times mais talentosos, o formato em U invertido pode aparecer nos dados. A plotagem e modelagem podem sugerir esse caminho. E ele faz um rápido comentário sobre usar expansão de Taylor para justificar essa opção da polinomial.

Após o Gelman fazer uma réplica, ele vai expandir seu comentário sobre a expansão de Taylor. O que eu acho fantástico no comentário do Lakeland é que ele mostra o melhor da forma de pensar de quem é físico. Ele vai construir um modelo formal* (mas sem essas baboseiras de ter que ser microfundamentado) para justificar a modelagem estatística. A vantagem dessa abordagem é que os pressupostos do modelo ficam bem explícitos e, do ponto de vista aplicado, o que tem que ser testado para saber se as aproximações são razoáveis ou não.

**********

O outro comenário do Lakeland foi uma jóia a partir de outro post do Gelman, sobre posterior predictive checks. A parte bacana começa com um comentário do Bob Carpenter sobre a diferença entre machine learners e estatísticos. Machine learners acreditam em separar dados em amostra de treinamento e amostra de teste, e não usar os dados de teste no processo de estimação. No máximo, com cross-validação. Eu mesmo sou particularmente favorável à abordagem dos machine learners, exceto pelo fato de que também sou simpático ao contra-argumento dos estatísticos (quero usar todos os meus dados na minha estimação. Deixar dados fora é obter estimativas piores).

Na linha dos estatísticos, o Lakeland então vai argumentar que muitas vezes nós estamos interessados em aprender sobre o valor de um parâmetro, e não em predição. Cito aqui, porque é muito bom:

On the yet-another-hand, if you are interested in the temperature distribution of the Corona of the sun, this is not an directly observable quantity, so we’re going to have to get some data (maybe spectral data or something) and then we’re going to have to fit a model to the data, and we’re not going to care even a LITTLE bit about predicting future data, we’re ONLY going to be interested in what have we learned about the parameter (Temperature and its distribution in the Corona).

a LOT of good science has this character.

O exemplo dele é no contexto da física, mas o mesmo vale, mutatis mutandis, para as ciência política por exemplo, quando estimamos pontos ideais ou os tópicos de discursos dos deputados.

Quando eu dei meu curso de R e topic models no Rio, no meio de ano, lá no IESP, eu apresentei os resultados do projeto retórica com estimação de tópicos mais enfatizados pelos deputados no pequeno expediente da Câmara dos Deputados Federais. E fui questionado justamente sobre qual o interesse nesse tipo de análise. Se não faltava explicar o conteúdo e tal. Eu acho super importante explicar o conteúdo, mas de verdade eu acho importante em si mesmo aprender sobre o parâmetro em questão, qual seja, quais os temas sobre os quais os deputados falam. Como diz Lakeland, a lot of good science has this character.

ps.: Eu não estou dizendo que o trabalho que fizemos é “good science”. Deixo essa avaliação para os outros. Mas o fato de ser um trabalho puramente descritivo não desvaloriza em nada o trabalho. Essa é a características de muitos bons trabalhos.

* o modelo não é de todo formal porque é um comentário de blog, mas dá para ver que uma análise séria extrairia um modelo formal fácil dali.

Anúncios

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em estatística e marcado , , , , , , , , , , , . Guardar link permanente.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s