impressões sobre tópicos estatísticos

Lá no CAENI, nós estamos dando aulas nuns cursos de matemática (cálculo, álgebra linear) e estatística (básica e regressão) para ciência política. E ontem, assistindo por acaso a uma das aulas, me lembrei de algumas coisas que aprendi mas, que hoje, penso que não é uma boa explanação da prática estatística;

1. inferência. É padrão em livros como o do Moretin e Bussab, de estatísticsa básica, dizer que o objetivo da inferência é fazer afimações sobre parâmetros populacionais ou, de outra forma, generalizar sobre uma população a partir de amostras. O corre que na ciência política freqüentemente temso acesso ao que se poderia pensar que é a população – por exemplo, 513 deputados de uma legislatura. MAs, como fica claro em estudos do tipo Time-Series Cross-Section, na prática, o objetivo da inferência é fazer inferências para conjuntos maiores de dados, de outros anos ou de outros indivíduos. Assim, não acho que precisamos falar que temos a população toda quando analisamos os votos de todos os deputados. Pois podemos imaginar que estamos querendo fazer inferências sobre relações causais que poderiam ocorrer em outros contextos (outras votações, outros deputados) etc. e, portanto, nós nunca teremos acesso a toda a população.

2. Distribuição de probabilidade. Acho que nós devíamos gastar mais tempo discutindo distribuições de probabilidade. Boa parte dos resultados da modelagem estatística é dependente de uma boa escolha da distriuição de probabilidade que governa as variáveis aleatórias. Tanto em termos computacionais -de implementação de pacotes estatísticos – quanto em termos de adequação aos dados. Mas em gerla aprendemos apenas a Normal, Binomial e Bernoulli. Alguma coisa ou outra é falada da poissson e Exponencial, mas bem pouco. Não sei como é no curso de estatística, mas pra economistas e cientistas sociais, isso é muito pobre. Mais probabilidade tem que ser estudada.

3. Chances, nível de confinaça etc. Relacionado com o item anterior, nós freqüentemente somoes enganados pelo significado de nível de confiança, p-valor etc. A ênfase no teste de hipótese e tentativa de rejeitar a H0 por meio do p-valor é ilustrativa a esse respeito. Na prática, raramente um tratamento terá um efeito, na média, igual a zero. Por exemplo, se alguém que estudar o efeito do Bolsa Família em crianças, é óbvio que otratamento não terá efeito zero na média. Muito mais útil é construir intervalos de confiança para ter uma noção da incerteza ou de até onde os efeitos variam em média. Portanto, mais intervalo de confiança e menos p-valor.

4. Estatística descritiva. Muito esforço é devotado em falar de média, desvio padrão, desvio médio etc. Um pouco é falado de gráficos, mas acho que a apresentaçã ode dados por meios gráficos é uma das partes mais improtantes da análise. E não basta apenas saber as possibilidade (histograma, ramo-e-folhas, scatter etc.). É preciso gastar bastante tempo discutindo em casa caso qual deles resume melhor os dados, passa melhor as relações de associação entree variáveis. Na pesquisa prática, freqüentemente me perco sem saber qual gráfico das infinitas opções escolher e temendo não estar apresentando meus dados da melhor maneira possível.

5. Amostragem. Pouco tempo é gasto com as técnicas de amostragem. Ocorre que boa parte da prática estatística é escolher o melhor método que se adeque aos seus dados, tal como eles foram obtidos, e não desenhar amostrar que sejam aleatórias e implementar técnicas clássicas.  Nesse sentido, mais ênfase deveria ser dada à discussão da questão da independência das observações, por exemplo. Em séries de tempo, raramente as observações são independentes. Mesmo em estudos de cross-section, em que as unidade de análises são países ou estados de uma federação, é razoável imaginar que não haja independência espacial. Mesmo em indivíduos, por exemplo de uma empresa, as relações pessoas tendem a tornar dependente as observações.  Então, o que proponho não é mais tempo – que é escasso – com  técnicas de amostragem, mas reconhecer e ensinar ao aluno que os dados raramente serão produzidos de maneira aleatória e, portanto, que boa parte do seu tempo será dedicado a controlar erros resultantes de sua amostra não ser aleatória.

Claro que muitas das coisas que eu estou dizendo não é standard. E também pressupõe um objetivo prático com a estatística. Mas, mesmo quem vai fazer estatística pura (existe isso?), a relevância de algum teorema está relacioinado, em última instância, com a possibilidade de resolver problemas práticos. Deve-se, portanto, ter em mente esses problemas.

Anúncios

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em ciência e marcado , , , . Guardar link permanente.

3 respostas para impressões sobre tópicos estatísticos

  1. Pingback: Intervalo de Confiança (mais sobre estatatística) « Blog Pra falar de coisas

  2. Isabel disse:

    Você deveria fazer Estatística, sério.

  3. Thayana disse:

    Olá, estou loucamente precisando de uma ajuda com a estatística. Sou mestranda de biologia e n tenho a minima ideia de qual parametro escolher para fazer a análise dos meus dados. Vou fazer o levantamento de moscas da minha cidade com coletas coletas mensais durante um ano. Me sugere algo? Obrigada.

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s