Missing Data em Análises Bayesianas

Se tem uma coisa que Bayes é muito superior à abordagem frequentista é quando temos missing data. Não que não seja possível fazer imputação de dados na abordagem frequentista. Apenas é muito mais fácil e natural na abordagem Bayesiana.

Aqui no trabalho nós tivemos um exemplo de missing data. Nós enviamos alguns e-mails mas, devido a problemas no trackeamento, perdemos alguns dados. Asim, decidi utilizar Bayes para estimar a taxa de abertura desses e-mails. O código abaixo mostra o que fiz (os dados são fakes, pois não posso mostrar os dados reais).

library('rjags')

dados <- data.frame(id=1:6, mailing=c(3760, 3385, 2594, 2426, 2899, 1593), view=c(NA, NA, 622, 374, 728, 271))
y <- dados$view
n <- dados$mailing

dataList <- list(
  N = length(y) ,
  y = y ,
  n = n
)

foo <- jags.model(file='missingData.bug',
                  data=dataList)
nstore <- 5e3
thin <- 10
fun <- coda.samples(foo,
                    n.iter=nstore*thin,
                    thin=thin,
                    variable.names=c('y','a', 'b'))

summary(fun)

A única coisa que falta no código acima é o modelo para o JAGS. Eu utilizei um modelo beta-binomial hierárquico. Basicamente, assumo que cada disparo de e-mail é condicionalmente iid (são permutáveis). E cada e-mail tem um número de visualizações que segue uma distribuição binomial, com o número de “trials” variável por e-mail (é o tamanho do mailing). O código abaixo especifica o modelo em JAGS.

model{
for (i in 1:N){
y[i] ~ dbin(pi[i], n[i])
pi[i] ~ dbeta(a,b)
}

a ~ dgamma(1, 0.01)
b ~ dgamma(1, 0.02)
}

Como resultado, eu tenho uma distribuição preditiva para dois e-mails com mailing de 3.760 e 3.385 respectivamente. E eu utilizei a média (a mediana seria até mais robusto) como estimativa pontual. Nesse meu exemplo, os resultados são mais sensíveis à priori, devido ao volume pequeno de dados.

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em estatística e marcado , , , , , , , , . Guardar link permanente.

2 respostas para Missing Data em Análises Bayesianas

  1. Eduardo disse:

    Imputação de dados da variável independente só com a variável dependente não ajudá muito. Se for feita sem imputação múltipla prejudica (erro padrão menor do que devia). Não entendi muito bem o ponto do exercício.

  2. Oi Eduardo,

    Não entendi seu comentário. No exemplo do post, não havia variável independente.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s