Ainda viés de seleção

Relendo o post, acho que ficou um pouquinho (ou muito) confuso o que eu escrevi. Então, vou tentar usar outra linguagem, a matemática, como sugeriu o Leoni.

Pra continuar com o estudo de Mesquita, vou trabalhar com um modelo simplificado, pra facilitar a exposição. Embora ela trabalhe com várias legislaturas, vou assumir aqui que é apenas uma legislatura, de forma a poder dispensar o subescrito do tempo:

Seja yi =1 o evento em que o deputado i é eleito, e y=0 quando ele não é eleito. Seja xi o montante executado das emendas do deputado i na legislatura anterior.

Idealmente nós gostaríamos de estimar: P(Yi=1|bxi), ou seja, a probabilidade de cada deputado ser reeeleito, dado o montante de emenda executado. Porém, nós só observamos Y*i, que é se os deputados que decidiram ser candidatos são ou não reeleitos.

Seja zi a decisão do deputado i sair candidato. Temos então dois modelos: 1. Saber se cada deputado sairá candidato ou não; 2. saber a probabilidade de um deputado que saiu candidato ser reeleito.

Na formulação usual de variável latentes,

zi = 1 se z*i > 0

zi = 0 se z*i <0

z*i = bwi + e1i

ui ~N(0, 1)

yi = 1 se zi = 1 e y* > 0

yi = 0 se zi = 1 e y* < 0.

yi não observado se zi = 0.

y* = bxi + e2i

Se Cov(ui, ei) = 0, os dois modelos podem ser estimados separadamente e nãohá viés de seleção.

Porém, o que acontece se:

e1i = n1i + u1i

ei = n2i + u2i

Obviamente, os erros estão correlacionados. Se nós assumirmos que os erros vêm de uma normal bivariada, então é possível estimar os bs dos modelos.

Ou seja, nós assumimos que e1i, e2i ~fi2(0,0,1,1, p), em p que é Cov(e1i, e2i|x1,x2), e fi2 é a normal bivariada.

O teste para checar se há viés de seleção é simplesmente checar se p = 0, pois se = o, não há correlação e é possível estimar os parâmetros rodando a regressão probit pros dois modelos independentemente.

Meu ponto com relação ao modelo de Mesquita é que a equação de seleção dela estava mal-especificada. A equação de seleção dela é:

P(Candidato[i,t]=1) = fi(alpha + b1exec[i,t-1] + b2idade[i,t] + b3cand_pref[i,t-1]).

Eu estava argumentando que capital político (medido pela proporção de votos/ quociente eleitoral na eleição anterior, PQE) deveria entrar na equação de seleção. Possivelmente mais alguma outra variável, para ajudar na identificação do modelo.

Pra resumir meu argumento, vamos assumir que o capital político é muito importante para a reeleição de um deputado – segundo Mesquita, de fato essa é de longe a principal variável explicativa (p. 56). Vamos assumir também que execução de emendas é importante para a reeleição.

Ora, se o capital político é a mais importante variável para explicar reeleição, então é provável que, dentre os deputados com menor montante de emendas executadas, apenas os com alto capital político se candidatem à reeleição. Nesse caso, temos viés de seleção, pois os candidatos com alto capital político e baixa execução terão uma taxa de sucesso muito maior.

De fato, na pág. 50, Mesquita afirma que a taxa de reeleição dos que não apresentaram emendas (ou seja, zero executado) é 75%, superior, portanto, a média geral (66%).

Pra finalizar, uma nota sobre a interpretação dos resultados. No anexo 1, onde se encontra a tabela com o modelo de seleção, rho é significativo. Em princípio isso deve significar que há coorrelação entre a equação de seleção e o modelo de interesse. Porém, Mesquita afirma no texto que o modelo de seleção não é significante.

Como eu não tinha olhado para o teste de significância da tabela, estava assumindo que o modelo dela não era significante. De fato, o tal do “athrho” não é significante. Eu não sei o que ele significa, mas pelo que pude entender rho é calculado indiretamente pelo Stata, a partir de athrho.

A fórmula é a seguinte: athrho = .5*log((1+rho)/(1-rho))
Minha dúvida então é: normalmente nós olhamos para rho para checar se há viés de seleção. Porém, como interpretar o fato de que rho é significativo, mas não athrho, como no caso do trabalho de Mesquita? Nos exemplos que vi, normalmente ambos dão significativos.

Se alguém souber me explicar essa discrepância, ficaria agradecido.

ps.: aqui vão os resultados da tabela com o modelo de seleção:

ps.2: mal pelos números com casas decimais. Preguiça de arredondar.

coef s.e
EXEC 9.34E-08 2.93E-08
IDADE -0.01493 0.004835
CAND_PREF 0.181303 0.165235
CONSTANTE 1.765703 0.267878
/athrho 3.127625 5.393348
Rho -0.99617 0.412697

LR (likelihood ratio) teste de independência de rho = 0: chi^2 = 5.52 Prob>chi^2 = .0188

á
Anúncios

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em Política e Economia. Bookmark o link permanente.

Uma resposta para Ainda viés de seleção

  1. Eduardo Leoni disse:

    Mais exatamente, o standard error do athrho é grande. Se é significativo ou não vai depender de quão aproximadamente normal é a estatística. Como athrho -> (-Inf) quando rho é -1, o standard error de athrho pode ser grande mas rho ainda ser significativo. (Note que rho é quase -1)

    Esse negócio de olhar a t-statistics pra derivar a significância estatística de vez em quando engana 🙂

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s