Teoria de Resposta ao Item: tudo que você queria saber mas tinha medo de perguntar

Sobrou um tempinho e vou tentar explicar, o mais didaticamente possível, o que é a tal Teoria de Resposta ao Item (TRI), usada no Enem. Na verdade o tempo continua exíguo, mas tá sem energia lá em casa (manutenção e tal) e aqui na USP não consigo estudar não. Então vou blogar.

Antes, porém, um disclaimer: eu nunca vi uma aplicação da TRI na área de educação. Conheço ela do ponto de vista estritamente estatístico, isto é, como técnica estatística. Mesmo assim acho que posso contribuir com a melhoria do entendimento do assunto.

O que é, afinal, a teoria da resposta ao item? Bom, a ideia é a seguinte. Imagine um teste com vários itens (questões) do tipo verdadeiro ou falso. Vários indivíduos fazem esse teste e o nosso objetivo é medir a habilidade dos indivíduos tal como mensurado pelo teste.

Nós podemos apenas somar o número de questões acertadas por cada indivíduo e utilizar isso como medida da habilidade dele. Esse é o procedimento usual nas escolas. Ocorre porém que as questões tem dificuldades diferentes e, além disso, o aluno pode errar uma questão mesmo sabendo, por razões bestas (somou errado, trocou o sinal) etc. Ele pode também acertar chutando, mas vamos esquecer por enquanto essa possibilidade para simplificar. Por fim, provas diferentes tem problemas de serem comparadas, pois as questões podem ter dificuldades diferentes. Como resolver esses problemas?

Imaginem que, ao invés de olharmos pra nota na prova, adotássemos o seguinte procedimento. A gente aplica esse teste para um grupo de alunos que tem habilidades altas (digamos, alunos de Medicina da USP), habilidades médias (Alunos de uma particular), habilidades baixas etc.

Nós poderemos estimar qual a dificuldade de cada questão, inclusive criando um índice quantiativo que reflita essa dificuldade. Por exemplo, uma questão que todos acertam (habilidade alta, média e baixa) é uma questão fácil. Uma que quase ninguém acerta é uma questão difícil, e assim por diante.

Tendo feita essa classificação das questões, temos um banco de questões com várias difíceis, várias médias e várias fáceis. Podemos então compor uma ou mais provas com o mesmo grau de dificuldade e, portanto, comparáveis entre si. A técnica estatística específica que faz isso é a Teoria da Resposta ao Item.

Ela funciona (modelo simplificado), mais ou menso assim.

Seja alpha_i a habilidade do aluno i. Seja beta_j a dificuldade do item j. Então, a Probabilidade do aluno i acertar a questão j é função da diferença entre alpha_i e alpha_j. Se nós codificarmos o acerto do aluno i como y_i = 1, e erro como Y_i= 0, matematicamente temos: Pr(Y_i = 1) = f(alpha_i – beta_i).

Mais especificamente, podemos usar a distribuição logística:

Pr(Y_i = 1) =1/(1 + e^{alpha_i – beta_i}). Essa função garante que a probabilidade fica entre zero e 1, e além disso, quanto maior a diferença entre a habilidade e dificuldade, maior a probabilidade do aluno acertar.

Veja que, mesmo que duas provas não tenham dificuldades exatamente iguais (isso é impossível, claro), ainda assim eu posos estimar alpha_i do aluno, ou seja, a habilidade do aluno. E é esse alpha_i que será a nota ou índice de habilidade do aluno.

Na prática, há modelos um pouco mais complicados do que esse, para acomodar diferenças importantes (por exemplo, questões com múltiplias alternativas, possibilidade de acerto por chute, questões cujas respostas são relacionadas, inclusão de mais de uma habilidade a ser estimada, inclusão de quanto cada questão discrimina as habilidades etc.).

Eu não sei dizer qual o modelo específico utilizado no Enem, mas imagino que deve ser um adequado ao tipo de prova. Muitos exames ao redor do mundo utilizam essa teoria, como o Toefl, SAT e GRE. Como se sabe, o toefl é usado por unviersidades americanas para avaliar o conhecimento de inglês (ou habilidades com o idioma) de estrangeiros. Salvo engano, a nota do toefl vale por dois anos e, portanto, são comparáveis por dois anos.

Essa validade temporal do toefl é útil para mostrar que não necessariamente o exame é atemporal, como algumas pessoas falaram. Tudo depende de quais habilidades o exame está (supostamente) mensurando. Se as habilidades dependem fortemente do estudo, memorização etc., então o exame é mais um retrato do momento da pessoa do que de habilidades cognitivas mais estáveis no tempo.

Eu não sei dizer quanto ao Enem, pois desconheço a prova atual (fiz em 1998, uma vez só) e também o modelo específico de quais habilidades estão sendo avaliadas e como se pode modelar essa questão temporal.

Em resumo, temos o seguinte:

A TRI é bem estabelecida e usada no mundo todo sem grandes crises, com várias provas sendo aplicadas em momentos diferentes. E ainda assim ninguém é prejudicado ou beneficiado.

As notas são sim comparáveis e isso não é motivo para preocupação. O governo poderia inclusive utilizar as resposta no novo exame para reestimar as dificuldades das (novas) questões e ajustar os escores dos alunos, se fosse necessário para garantir a comparabilidade dos resultados.

Por fim, encare sua nota no Enem como refletindo suas habilidades (se forem mais de uma a ser medida) em comparação com a média dos outros estudantes. A TRI é uma técnica estatística capaz de posicionar os estudantes em posição relativa um ao outro. Isso é suficiente para ingresso na Universidade.

ps.: uma questão jurídico-estatística. Como a TRI está estimando uma habilidade baseada numa amostra, obviamente existe um erro amostral aí. Minha dúvida é, um candidato que não ingressar na universidade desejada por uma posição (ex. fica em 181 e 180 são chamados), provavelmente não tem um escore estatisticamente diferente do com uma posição acima (está dentro da margem de erro, o famoso empate técnico). Com base nisso, poderia ele obter na justiça o direito de ingresso na universidade, sob alegação de que o escore dele não é diferente do que ficou imediatamente acima?

Relacionado a isso, o MEC solta o erro padrão das estimativas em algum lugar? Ou um intervalo de confiança? Eles calculam?

Dado o tamanho amostral (180 itens e milhões de respondentes) o erro padrão deve ser pequeno. Será que nesse caso raramente há o empate técnico?

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em estatística, Manoel Galdino, Política e Economia e marcado , , , , , , , . Guardar link permanente.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s