Viés de Seleção e endogeneidade

Lendo um trabalho sobre o efeito das emendas apresentadas ao orçamento federal pelos deputados na chance de reeleição, deparei-me com uma tentativa do trabalho de enfrentar o problema de viés de seleção. Porém, não sei se o estudo tinha problema de viés de seleção amostral ou se o problema era de endogeneidade dos preditores.

Assim, para os interessados, vou revisar meus conhecimentos sobre os dois problemas e então analisar o tal estudo.

Viés de seleção amostral ocorre quando a amostra não é aleatória e um ou mais subgrupos são menos prováveis de serem incluídos na amostra do que outros. Para ser um problema prático, os grupos sub-representados precisam diferir de maneira importante dos grupos sobre-representados.

Um exemplo pode esclarecer melhor o assunto. Imagine que você quer estudar se pessoas que vão mais ao médico vivem mais que pessoas que vão menos ao médico. Aqui, o preditor é número de vezes que vai ao médico. E a variável resposta ou predita é tempo de vida.

O problema aqui é que quem vai ao médico em geral está doente, de forma que essa é uma variável importante para determinar quem vai ao médico. Se você não puder incluir essa variável (número de vezes que ficou doente), então a proporção de pessoas no seu estudo que vai ao médico pode diferir de forma importante dos que não vão ao médico (outro subgrupo) no quesito número de vezes doente.

Se pessoas que têm mais denças (devido a fatores genéticos/biológicos) vivem menos, então a amostra contém viés de seleção. De fato, o grupo dos que não vão ao médico da amostra terão um tempo de vida maior devido ao baixo número de doenças, e não devido ao número de vezes com que vão ao médico. Assim, o efeito de ir ao médico sobre o tempo de vida será subestimado (diminuído).

Endogeneidade. Esse é um problema aparentemente simples. Está presente quando a varivel preditora influencia na predita e vice-versa.

No nosso exemplo anterior, imagine primeiramente que quanto mais tempo a pessoa vive, mais tempo ela tem para ir ao médico. Ademais, pessoas mais velhas tendem a ter mais doenças, o que pode aumentar e muito o número de idas ao médico apenas por ter vivido mais. Então, claramente há endogeneidade em nosso modelo (menos  tempo de vida ->menos ida ao médico, porém mais ida ao médico -> mais tempo de vida).

Considere agora um caso clássico de endogeneidade. Os estudos que buscam avaliar se ajuda humanitária reduzem probreza tem um problema de endogeneidade óbvio: quanto maior a pobreza, maior a ajuda humanitária recebida. Assim, qualquer outro fator que aumente a probreza pode fazer aumentar a ajuda. E mesmo que a ajuda seja efetiva e faça a probreza não aumntar muito, o fato é que na estatística os efeitos vão se cancelar e parecerá que ajuda humanitária não ajuda a reduzir pobreza.

E porque isso é um problema de endogeneidade e não de viés de seleção amostral? A mim, parece-me que é um problema de endogeneidade porque a seleção de cada grupo se dá não por meio de uma terceira variável não-observada, mas pela própria variável predita. Em outras palavras, endogeneidade seria um caso particular de viés de seleção, em que o mecanismo de seleção de quem recebe o “tratamento” (ajuda humanitária) depende do efeito do tratamento (a variável predita, crescimento).

Para tornar ainda mais claro, se é que não o fui até agora, voltemos ao exemplo médico. Conforme observado, teríamos endogeneidade se as pessoas que fossem mais ao médico assim o fizessem de acordo com o tempo de vida delas. E viés de seleção se as pessoas que vão mais ao médico assim o fazem de acordo com uma terceira variável não observada, doenças, que está correlacionada com a variável predita, tempo de vida.

Se o problema é de viés de seleção, é preciso modelar a seleção com a variável relevante para a seleção (no caso dos médicos, a doença). Se o problema é de endogeneidade, trata-se em geral de achar um instrumento para o tratamento.

Tendo tornado clara a diferença entre endogeneidade e viés de seleção, analisemos como caso em ciência política um estudo real. O objetivo do estudo era identificar o efeito da execução de emendas ao orçamento apresentadas pelos deputados sobre a chance de reeleição.

A variável dependente (ou predita, ou resposta) é dicotômica, que assume valor 1 se o deputado foi reeleito, e zero caso contrário.

Na dissertação, ela diz que está preocupada em “ter certeza de que os deputados que disputam a reeleição não são aqueles, que, justamente, obtiveram maiores taxas de execução do orçamento” (Mesquita, p. 56).

Segundo a autora, esse seria um problema de viés de seleção, que deve ser enfrentado usado a técnica desenvolvida por Heckman, em que se cria um modelo para de seleção e um modelo de regressão principal de interesse.

A questão porém é se de fato ela tem um problema de viés de seleção (caso em que adotar a solução de Heckman é adequada) ou ela tem um problema de endogeneidade, caso em que outra solução é adequada (como variáveis instrumentais).

Eu não estou 100% seguro, mas tenho a impressão de que houve confusão entre endogeneidade e viés de seleção. De acordo com a diferenciação dos dois problemas que fiz anteriormente, endogeneidade ocorre quando a seleção do tratamento depende da variável dependente (ou resposta).

Esse parece ser o caso, já que pode ocorrer que o nível de execução de emendas (o tratamente) dependa da chance de reeleição (a resposta). De fato, a chance de reeleição pode influenciar a taxa de execução de emendas (apresenta emendas e luta por sua execução quem acredita que será reeleito) e a taxa de execução de emendas pode influenciar a chance de releeição. Isso é claramente um problema de endogeneidade, não de viés de seleção.

Poderia haver viés de seleção se houvesse uma terceira variável não observada (omitida) correlacionada com a decisão de se candidatar e com a chance de releeição.

A autora acredita que há viés de seleção já que sua amostra não consiste de todos os deputados de uma dada legislatura, mas tão somente dos candidatos à reeleição. Isso faz sentido, mas sua confusão entre endogeneidade e viés de seleção levou a autor a enfrentar o problema de uma maneira que me parece inadequada.

Ela não dá os dados diretamente de quantos deputados não concorrem à reeleição dentre os 513. Porém, como ela informa que a taxa média de releeição “bruta” (isto é, dividindo reeleitos/513) é 50% e a taxa de reeleição “líquida” (divididno releeitos/candidatos a reeleição) é 66%, é possível inferir queo número de deputados que não tentam a releeição é por volta de 100 ou 20% dos 513.

Esse é um número grande, e caberia entender porque eles não saem candidato à reeleição. No modelo de seleção dela, a decisão de sair candidato à releeição tem como preditores lineares: idade (efeito negativo), se saiu candidato a prefeito (efeito positivo) e execução de emendas (positivo).

Execução e idade foram significativos, mas é difícil avaliar a significância prática já que ela não padrozinou as variáveis (os valores de execução podem ir a milhões de reais por deputado). De todo modo, o teste mostrou que não há correlação entre o modelo de seleção e a regressão de interesse (principal). Isso significa que não há correlação entre o resíduo da regressão de seleção e da regressão principal.

Entretanto, eu não tomo isso como mostra de que não há viés de seleção, mas de que o modelo está mal especificado. Para ver porque, deixe-me apresentar-lhes os resultados da regressão principal. Na regressão principal, execução não é significativa, mas o capital político do candidato é (isto é, votos obtidos na eleição passada relativos ao quociente eleitoral).

Ora, é de se imaginar que para qualquer membro da população sem capital político, as execuções de emenda seriam importantes para a reeleição. Porém, para aquela sub-amostra formada pelos candidatos à releeição, o capital político é tão determinante que execução é deseimportante ou tem efeito negativo.

Então, eu não estou convencido que o modelo de seleção foi especificado corretamente, devendo o capital político ter sido incluído no modelo de seleção. Consistentemente com meu raciocínio, o resultado usual de viés de seleção é que o efeito é diminuído e pode chegar a zero, e em caso extremos o efeito é revertido (sinal negativo) – ver aqui –  que é o que a dissertação de mestrado em questão encontrou.

E a razão para a especificação estar errada, ao meu ver, é que a autora confundiu endogeneidade com viés de seleção, não elaborando portanto um modelo adequado para a decisão de um deputado sair candidato.

Além disso, mesmo que o modelo para viés de seleção seja adequado, o problema de endogeneidade não foi resolvido e ela deveria usar algun instrumento válido. Obviamente é difícil achar um bom instrumento e nem sempre isso é possível. Mas nesse caso as estimativas e conclusões não são muito confiáveis.

ps.: para quem quise ler a dissertação de mestrado, clique aqui.

ps.2: Percebi que não dei a referência do trabalho. A autora do trabalho é a Lara Mesquita, e o título da dissertação é: “Emendas ao Orçamento e Conexão Eleitoral na Câmara dos Deputados Brasileira”, defendida em 2008.

ps.:3 Deixe eu se claro com relação a um aspecto. Se estou criticando o trabalho da Lara é porque o trabalho é bom e importante o suficiente para merecer uma crítica. Se fosse muito ruim e eu esperasse que não tivesse repercução alguma, nem me daria ao trabalho.

Além do que, ainda tô pra ver trabalhos publicados em revistas brasileiras que sequer mencionam o problema de viés de seleção – com raras exceções. O fato dela pelo menos se propor a discutir o assunto coloca o trabalho à frente da maioria dos mestrados que são feitos no Brasil (o meu inclusive, que na parte empírica é bem pobre).

Anúncios

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em ciência, Política e Economia e marcado , , , , , , , . Guardar link permanente.

6 respostas para Viés de Seleção e endogeneidade

  1. Eduardo disse:

    não dá pra fazer isso ficar mais claro com um pouquinho de matemáica? (fico confuso sobre o que está correlacionado com o que…)

  2. Rodolpho disse:

    Acho que a crítica está correta. Você mandou para a Lara?

  3. Não, não mandei.
    Vou enviar…

  4. Pode ter ficado confuso mesmo. Não quis usar matemática para facilitar a alguns leitores, mas creio que deve ter ficado confuso mesmo. Vou fazer um post com as equações…

  5. Pedro Neiva disse:

    Caro Manoel, motivado pela elegância da sua exposição, furto-me um tempo que não estou tendo para lançar algumas provocações.

    Concordo com você que parece haver no trabalho em questão um problema de endogeneidade. Porém, ele parece sugerir também um problema de viés de seleção.
    Ele aparece, a meu ver, pelo fato de que ela está trabalhando apenas com os deputados que se candidataram, deixando de fora aqueles que nem tentaram a reeleição. Como você diz, o número deles não é tão pequeno e o viés parece vir exatamente daí.

    Para ilustrar o que quero dizer, utilizarei o próprio trabalho do Heckman, que é a maior referência na área. O autor utiliza o exemplo do mercado de trabalho feminino. Segundo ele, ao tentar explicar o salário de 1600 mulheres, poderia estar caindo em um viés de seleção, caso deixasse as 400 mulheres que estavam desempregadas de fora. Para ele, a amostra deveria incluir as 2000 mulheres e não apenas as 1600 que estavam empregadas. Isso porque, as 400 estavam fora do mercado por motivos diversos (filhos, marido trabalha, não precisavam etc) e influenciavam também o salário das que estavam no mercado.

    No caso da Lara,aparece uma idéia semelhante: os 100 parlamentares que não se candidataram, o fizeram por motivos diversos (porque estão com medo do concorrente, porque concorrem a cargo estadual, porque fizeram alianças etc). Portanto, eles parecem influenciar o destino dos que concorrem. Posso estar errado, mas penso que ela deveria sim incluir tais deputados na sua amostra.

    Resta saber qual a técnica mais adequada, pois o modelo Heckman tabalha com variavel dependente continua (no caso dele o salario das mulheres) e a VD da autora em discussão é uma variavel categórica (foi ou não reeleito). Uma análise interessante (usando o proprio Heckman) seria, talvez, verificar a proporção de votos obtidos e não simplesmente a eleição/não eleição. Desconheço um modelo que controle um viés de seleção para VD categóricas, mas deve haver algum.

    Como você, também não estou 100% seguro e lanço a dúvida mais como uma provocação, que eu não consegui me furtar.

    Em tempo, elogio a sua iniciativa por promover a discussão, uma raridade ainda maior nas ciências sociais no Brasil do que a própria utilização adequada da técnica. Penso que deveríamos pensar em promover foruns desse tipo em encontros da ABCP, ANPOCS, bem como abrir espaços em revistas especializadas.

    Portanto, parabéns, não apenas pela forma criteriosa como você expõe o seu argumento, mas também pela iniciativa.

  6. Rayanne disse:

    gostei das respostas!!

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s