Metodologia das Pesquisas de intenção de voto

O Uirá Machado, jornalista da Folha, com quem estudei um tempo na filosofia, fez essa reportagem sobre as vantagens e desvantagens da metodologia atual (quota) que os insititutos utilizam para medir intenção de voto.

Deixe-me aqui registrar minha opinião sobre alguns itens.

1. A reportagem argumenta que as margens de erro são determinada pela legislação e que indicam a incerteza no levantamento. Contudo, como é impossível calcular a margem de erro tecnicamente, a margem reportada é uma ficção completa. Ninguém sabe efetivamente a incerteza envolvida na estimativa.

Nesse sentido, reportar uma incerteza quantiativamente quando na verdade essa incerteza é qualitativa é ruim, pois induz as pessoas a acharem que incerteza é a reportada, quando não há.

2. Não sou especialista em pesquisa de opinião, mas a idéia de que na amostragem probabilítica, se a pessoa sorteada não for encontrada, então deve ser procurada novamente até ser achada é um non-sense completo. Existe uma coisa chamada taxa de não-resposta e esta pode ser modelada, de forma que mesmo que algumas pessoas não sejam encontrada ou não respondam às perguntas, ainda assim isso não compromete a estimativa, desde que a não-resposta seja aleatória ou, caso seja correlacionada com as intenções de voto, seja modelada e correções apropriadas sejam introduzidas.

Toda ciência que trabalha com dados observacionais tem o problema de lidar com dados ausentes (missing data) e que esses dados ausentes não são, em geral, aleatórios. Isso não significa que a margem de erro não possa ser calculada nem que não se possa fazer inferência enquanto esses dados ausentes sejam coletados. Ao contrário, há décadas fazemos inferências estatisticamente rigorosas com missing data. Não sei quem foi o estatístico que ajudou os jornalistas, mas do jeito que está na reportagem, a mim parece completamente errado e, nesse sentido, uma defesa bem fraca dos institutos para não usarem amostragem probabilística, a única realmente séria, em minha humilde opinião.

Um exemplo simples ilustra isso. Suponhamos que estamos interessados em saber o número de pessoas que pretendem votar na Dilma. Chamemos esse número de teta. Nós escolhemos 2000 pessoas aleatoriamente, perguntamso a ela se pretendem votar na dilma e e proporção de pessoas que votam na Dilma é noss estimativa pontual de teta. O intervalo de confiança é bem fácil de calcular.

Agora imginem que 10% das pessoas sorteadas não foram encontradas e, portanto, não responderam à pergunta. Se os não-encontrados não responderam foram por fatores aleatórios (choveu numa cidade, não choveu em outra, era feriado municipal numa cidade, não era em outras etc.), ou seja, não correlacionado com intenção de voto, então a mostra restante (1800) é suficiente para nossa estimativa, exceto que nossa margem de erro será maior*.

Agora imgine que as pessoas não encontradas na pesquisa não o foram porque são jovens e raramente estão em casa. Agora imagine que essas pessoas têm uma probabilidade maior de votar na Dilma que o restante da população. Então, claramente, nossa amostra será viesada e subestimará o voto na Dilma. Se, porém, nós soubermos qual é a probabilidade de uma pessoa votar na Dilma dado que é jovem, então nós podemos corrigir nossa estimativa, pois tais pessoas terão uma probabilidade menor de terem suas respostas. Assim, as poucas pessoas jovens sorteadas e encontradas terão um peso maior na amostragem, peso este determinado matematicamente, e assim, teremos corrigido nosso problema de viés. Isso aumentará um pouco a incerteza (já que há incerteza na probabilidade de jovem votar na Dilma), mas a incerteza (margem de erro) será calculada corretamente.

Assim, a qualidade de nossa inferência dependerá fundamentalmente de entender os determinantes do voto e características dos não-respondentes na amostra. Se conseguirmos coletar dados suficientes sobre os não-respondentes, e nosso modelo sobre o voto for bom, a inferência será boa.

Portanto, a mim parece que falta aos institutos é mais modelagem estatística competente e menos desculpas.

* É possível ter a mesma margem de erro sempre. Mas isso envolve o poder do teste e não quero entrar nesses detalhes aqui.

 

 

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em estatística e marcado , , , , , , . Guardar link permanente.

6 respostas para Metodologia das Pesquisas de intenção de voto

  1. Eduardo Leoni disse:

    Pelo que (pouco) que entendo de estatística de surveys, os institutos de pesquisa deveriam alterar o processo de seleção (a amostragem por quota introduz erros que não são fáceis de modelar) e utilizar mais modelagem. Se o pessoal da YouGov/Polimetrix http://corp.yougov.com/team/ consegue fazer um trabalho razoável via Internet, acho que daria pra fazer um trabalho bom com amostra de conveniência. Agora, ficará bem mais caro, pois sem as quotas a amostra tem que ser bem maior.

  2. Isabel disse:

    Alguns esclarecimentos:

    – A “margem de erro” é determinada previamente por que é usada para calcular o tamanho da amostra. Quanto menor a margem de erro que vc quer, maior deverá ser a amostra.

    – O erro da maioria dos institutos de pesquisa é colher os dados usando quotas, mas fazer o cálculo como se tivesse amostra completamente aleatória.

  3. Bel, ainda que você saiba mais do que eu sobre o assunto, não acho que suas duas afirmações, juntas, façam sentido.

    Matematicamente, a ordem em que você calcula as coisas (se deixa fixa a margem de erro e ajusta o tamanho da amostra ou o contrário) não é relevante. O importante é que o cálculo da margem de erro (ou do tamanho da amostra, se você preferir) depende crucialmente da suposição de que a amostragem é aleatória (ou, se não completamente aleatória, que seja possível modelar a dependência etc.).
    Como a amostragem é por quotas, ergo a margem de erro é sem sentido (ou, se você preferir, o tamanho da amostra definido é sem sentido).

    Do jeito que você escreveu, parece que a margem de erro, pelo mero fato de ter sido determinada antes tem algum significado estatístico, quando não tem. Ela não poderá ser interpretada como um limite de frequência relativa. Em resumo, a margem de erro não quantifica a incerteza corretamente, que é um dos meus pontos.

    E olhe que nem quis criticar aqui a interpretação errada dada aos intervalos de confiança na reportagem. Lá diz que, com um nível de confiança de 95%, 95 em 100 levantamentos terão resultados [que resultados? a estimativa pontual?] dentro da margem de erro. O que, salvo engano meu (é sempre confuso intervalo de confiança), está errado. Pra não ser técnico e falar em limites, digamos que melhor seria dito se: 95 em 100 intervalos conterão o parâmetro, porém nós não sabemos se o intervalo reportado é um desses 95 ou não!

  4. Isabel disse:

    Gal, você está de deixando levar pelo modo como os jornalistas apresentam a margem de erro. Aquilo É SIM um intervalo de confiança definido previamente.
    E não venha me falar que não importa a ordem de escolha (erro ou tamanho da amotra) não importa, eu tive uma matéria só sobre isso (Técnicas de Amostragem). E quando a amostra é por quotas, vc define o erro pra saber o tamanho da amostra em cada quota.

  5. Isabel disse:

    E outra: quem garante que os institutos não calculam o tamanho da amostra como se ela fosse ser aleatória e depois fazem a pesquisa por quotas até dar o número estipulado?

  6. Bel,

    Alguns esclarecimentos.
    1. Eu sei que a margem de erro é um intervalo de confiança. Só usei a terminologia de margem de erro para não introduzir mais jargão para quem não entende de estatística.

    2. Como disse, você sabe mais do que eu, e inclusive teve uma disciplina só de amostragem, o que imaginava.

    3. Pelo que sei, os institutos fazem exatamente como você afirmou em seu último comentário: calculam o tamanho da amostra como se ela fosse aleatória, e então amostram por quota até atingir o número. Mas não vejo como isso muda meu ponto.

    Matematicamente, o que estou dizendo é o seguinte:
    Assumindo que a pesquisa procurar estimar apenas a proporção “p” de pessoas que querem votar na Dilma. O erro padrão é {p (1-p)/n}^.5. Suponha que inicialmente achamos que p é .6. Então, temos {.6*.4/n}^.5 = .49/{n}^.5 .
    Daqui, você pode tanto fixar o n, e achar o erro padrão, ou fixar o erro padrão e achar o n. Fixando o erro padrão em .05, temos: .49/{n}^.5 96.

    Agora, o que é o erro padrão aí, fixado por nós em 0.05? Se a amostra não for aleatória ele faz sentido? Se houver dependência dos dados, o cálculo acima está correto? Creio que não, e portanto, não tem como falar em erro padrão com um significado preciso nessa situação.

    Meu ponto tem sido: Não importa que o erro padrão tenha sido fixado previamente, ele ainda depende da suposição de que a amostra é aleatória para que seu significado seja preciso.

    Se algo tiver errado nesse raciocínio, ficarei feliz de aprender com meu erro!

    Além disso, fiquei curioso de saber como é que, na amostragem por quotas, se calcula o tamanho da amostra. É do mesmo modo que na amostragem aleatória simples?

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s