Se tem uma coisa que Bayes é muito superior à abordagem frequentista é quando temos missing data. Não que não seja possível fazer imputação de dados na abordagem frequentista. Apenas é muito mais fácil e natural na abordagem Bayesiana.
Aqui no trabalho nós tivemos um exemplo de missing data. Nós enviamos alguns e-mails mas, devido a problemas no trackeamento, perdemos alguns dados. Asim, decidi utilizar Bayes para estimar a taxa de abertura desses e-mails. O código abaixo mostra o que fiz (os dados são fakes, pois não posso mostrar os dados reais).
library('rjags') dados <- data.frame(id=1:6, mailing=c(3760, 3385, 2594, 2426, 2899, 1593), view=c(NA, NA, 622, 374, 728, 271)) y <- dados$view n <- dados$mailing dataList <- list( N = length(y) , y = y , n = n ) foo <- jags.model(file='missingData.bug', data=dataList) nstore <- 5e3 thin <- 10 fun <- coda.samples(foo, n.iter=nstore*thin, thin=thin, variable.names=c('y','a', 'b')) summary(fun)
A única coisa que falta no código acima é o modelo para o JAGS. Eu utilizei um modelo beta-binomial hierárquico. Basicamente, assumo que cada disparo de e-mail é condicionalmente iid (são permutáveis). E cada e-mail tem um número de visualizações que segue uma distribuição binomial, com o número de “trials” variável por e-mail (é o tamanho do mailing). O código abaixo especifica o modelo em JAGS.
model{
for (i in 1:N){
y[i] ~ dbin(pi[i], n[i])
pi[i] ~ dbeta(a,b)
}
a ~ dgamma(1, 0.01)
b ~ dgamma(1, 0.02)
}
Como resultado, eu tenho uma distribuição preditiva para dois e-mails com mailing de 3.760 e 3.385 respectivamente. E eu utilizei a média (a mediana seria até mais robusto) como estimativa pontual. Nesse meu exemplo, os resultados são mais sensíveis à priori, devido ao volume pequeno de dados.
Imputação de dados da variável independente só com a variável dependente não ajudá muito. Se for feita sem imputação múltipla prejudica (erro padrão menor do que devia). Não entendi muito bem o ponto do exercício.
Oi Eduardo,
Não entendi seu comentário. No exemplo do post, não havia variável independente.