Não, provavelmente o Trump não sabe mais sobre você do que você mesmo

Há algumas semanas, começou a circular na internet o texto, em inglês, de título “The data that turned the world upside down” ou “Trump Knows You Better Than You Know Yourself”, traduzido do original em alemão, que explicaria como Donald Trump teria ganhado a eleição. Nesta última semana, surgiu uma tradução para o português, com o título “Big Data: toda democracia será manipulada?”.

A tese central do texto pode ser resumida da seguinte forma: Do Brexit a Ted Cruz e terminando no Trump, uma empresa inglesa, Cambridge Analytica, explicaria os resultados improváveis pelo uso de Big Data. Ela seria capaz de acessar os likes das pessoas no Facebook, cruzar com outras bases de dados sobre todos os eleitores dos países (EUA e Reino Unido) e daí concluir qual tipo de mensagem (propaganda) funciona melhor com cada pessoa individualmente.

O texto beira a teoria da conspiração o tempo todo, sugerindo que cientistas de dados “do mal” foram os responsáveis pela eleição do Trump. Até mesmo uma derrota (a do Ted Cruz) é creditada como mérito para esses cientistas de dados, que trabalharam em sua campanha mas não conseguiram superar o fenômeno Trump. Um caso realmente incrível de marketing. O texto, porém, apresenta vários “red flags” que devem nos fazer suspeitar dessa teoria de que o Big Data explica a vitória de Donald Trump. Meu objetivo é, portanto, mostrar quais são essas “red flags” e permitir que o leigo possa avaliar melhor quão crível é essa tese.

1. Em primeiro lugar, o texto é o típico exemplo de mau-jornalismo, em que procura a todo momento confirmar uma tese, mas não ouve especialistas que poderiam discordar do argumento central ou oferecer um outro lado. Em suma, viés de confirmação.

2. O texto fala do Ted Cruz como um caso de sucesso da Cambridge Analytica. Mas é um caso tão furado, cheio de “cherry picking” (ou, na versão do Ricupero, “o que é bom a gente fatura, o que é ruim a gente esconde”), que me espanta que as pessoas comprem um fracasso como sucesso. Como bem notou Martin Robbins, “This would be the campaign where Ted Cruz was wiped out in a few short weeks by a reality TV demagogue with no data science operation, and subjected to months’ long national humiliation (grifos meus).” E lembrando que a operação de analytics de Trump supostamente se resumia, até então, a um website que teria custado US$ 1.500,00.

3. O texto sugere que a Cambridge Analytica teria acesso aos likes de todos os americanos. Mas isso é improvável, pois como os próprios autores notam, o Facebook fechou o acesso aos likes dos usuários. Afinal, é um dado muito importante e o monopólio dele faz parte do modelo de negócio do Facebook. Com exceções de aplicativos e páginas, é bem restrita a capacidade de terceiros cruzar likes do Facebook com outros dados como registro eleitoral e dados sócio-demográficos.

Um dos fatores que explicam a crise do jornalismo é a capacidade do Facebook (e só o Facebook, além do Google) ser eficaz no micro-targeting de propaganda. Nem o NYT ou Washington Post são capazes de cruzar likes com dados de leituras dos jornais deles, para aumentar a eficácia da propaganda on-line nos portais de notícias. Ou seja, tudo indica que essa história é furada. Furo aparentemente confirmado pela própria Cambridge Analtytica, que teria negado usar dados do Facebook.

4. Os autores gastam muita tinta para falar do uso do Big Five para prever o que cada um gosta e esse teria sido o “pulo do gato” a explicar o maior sucesso da Cambridge Analytica em relação à campanha de Clinton. Como o tema aqui é complexo, vou me estender um poco mais sobre ele.
Para entender os limites do Big Five, pode ajudar entender um pouco da história do Big Five(i). Entre os anos 50 e 70, psicólogos coletaram todas as palavras da língua inglesa que descreveriam as personalidades das pessoas, viram quais eram sinônimas ou não, e tentaram a partir daí agrupar esses traços de personalidades em grupos e subgrupos. Catell, um dos pioneiros dessa linha, chegou a listar 171 descrições de comportamento. Exemplos de traços descritos liguisticamente seriam: nervoso, energético, original, letárgico, cuidadoso, tolerante à ambiguidade, dedicado etc. O que ele acreditava é que algumas descrições de traços estavam correlacionadas. Quem fosse nervoso provavelmente seria também descrito como preocupado, apreensivo, temeroso ansioso e assim por diante.

Embora os resultados tenham sido inconsistentes inicialmente, essa linha de pesquisa acabou convergindo em 5 grandes traços de personalidade, que agrupariam as palavras dos dicionários. Assim, o fator “extroversão” descreve traços de personalidade como caloroso, desinibido, “dado” e animado, por exemplo.

Tecnicamente falando, para encontrar esses padrões se utiliza algo chamado Análise de Componentes Principais (ACP), que é algo que foi desenvolvido na estatística ainda no fim do séc. XIX e começo do séc. XX. Ou seja, é uma técnica básica e bem antiga. E ao aplicar a técnica de ACP nos dados, o que obtemos são 5 componentes principais, que são os tais grupos de correlação. A técnica de PCA é feita para encontrar o máximo de correlação possível por grupo a partir dos dados, independentemente se esses grupos causam a correlação ou não. Daí o nome Big Five. Esse resultado é “replicado” entre países e no tempo, o que sugere estabilidade dos resultados. As cinco dimensões ou traços seriam: neuroticismo ou instabilidade emocional (ingl. neuroticism); extroversão (extraversion); amabilidade (agreeableness); escrupulosidade (conscientiousness); abertura para a experiência (openness to experience).

Contudo, como alertam pesquisadores em livro sobre o Big Five[1],
it is not a theory of personality; it does not explain how traits function in daily life, or how individuals understand themselves, or how people adapt to the cultures in which they find themselves (p. 277).

Isso significa que da classificação de um indivíduo nos cinco traços de personalidade para se saber que tipo de mensagem funciona ou não, há um pulo gigantesco que a psicologia ainda não foi capaz de dar. Por ser uma “teoria” essencialmente indutiva, ela não é muito útil em sugerir caminhos ou hipóteses a serem testadas por quem quer fazer uma comunicação mais assertiva. A partir dela, múltiplos caminhos igualmente plausíveis surgem, de forma que ela não exerce o papel de outros construtos teóricos mais robustos, de diminuir o espaço de hipóteses plausíveis e servir como um ”edge” na busca de hipóteses mais prováveis de serem verdadeiras. Assim, não é difícil imginar que do “fato” de que fulano é aberto à experiência, isso não me ajude a definir quais cores usar nos meus anúncios, nem quanto de texto, vídeo e imagem, ou ainda se é melhor falar de mudança para o novo (Trump) ou se por ser aberto à experiência (e ter experiência em testar coisas novas) ele sabe avaliar melhor quando coisas novas parecem promissoras ou não. Nem é possível saber como situações pessoais (feliz no casamento/infeliz no casamento) podem interagir com seus traços de personalidade para sugerir caminhos mais eficazes de comunicação. A psicologia não tem a mais remota ideia de como ajudar nisso e é altamente improvável que o time do Trump tenha resolvido essas questões altamente complexas do dia para a noite.

Além disso, e como peça final de incredulidade, para se estimar os traços de personalidades é em geral necessário que as pessoas respondam a um questionário de mais de 50 perguntas. E como os likes (que supostamente permitiriam estimar os traços de personalidade sem esse questionáro) não parecem estar amplamente disponíveis, é improvável que eles tenham essa estimativa para 200 milhões de adultos americanos. Novamente, a conta não fecha.

5. O total desconhecimento dos autores sobre as técnicas de analytics utilizadas pela campanha de Clinton é outro ponto relevante. Se lermos as reportagens similarmente laudatórias sobre o time de analytics do Obama, veremos que eles já faziam quase todas essas coisas que a campanha do Trump diz ter feito (exceto a parte do Big Five, e talvez dos likes, o que está obscuro). Assim, é improvável que, quatro anos depois, o partido democrata tenha regredido em termos de estado da arte do marketing digital.

6. Supostamente, a campanha de Trump teria rodado 175 mil experimentos em um dia. O número tem toda a cara de ter sido “made up”. Apenas a título de comparação, o Google realizava 10 mil experimentos na sua ferramenta de busca (melhoria na busca ou na parte de propaganda) por ano por volta de 2011(ii). Em se tratando de internet, 5 anos é bastante tempo, mas mesmo que o Google tenha aumentado em 10x o número de experimentos no ano, ainda seria seria quase 50% do que a campanha de Trump teria realizado no dia do terceiro debate entre ele e Hillary (“On the day of the third presidential debate between Trump and Clinton, Trump’s team tested 175,000 different ad variations for his arguments, in order to find the right versions above all via Facebook”)(iii) .

A coisa toda fica ainda mais inacreditável se atentarmos para o tanto de trabalho manual requerido para a realização de um simples experimento.
No meu trabalho anterior, uma das minhas atividades era planejar e avaliar esses experimentos. Um experimento típico, de forma superficial, envove as seguintes atividades: 1. Determinar a hipótese que se quer testar (digamos, fundo verde leva a 5% mais cliques que fundo amarelo); passar para o time de design fazer as variações do experimento; determinar o tamanho amostral e o período de duração do teste (usualmente é preciso esperar pelo menos uma semana, para evitar efeitos de sazonalidade dos dias da semana. Vejam esse artigo de pesquisadores da Microsoft sobre esses e outros desafios); realizar o experimento e analisá-lo.

É possível automatizar a análise com alguns softwares (e as grandes empresas o fazem), de forma que esse passo é de todos o menos relevante. Contudo, fica óbvio que há um limite para o que se pode testar em um único ano. Esse limite é dado pelo número de usuários potencialmente testáveis (você não pode fazer vários experimentos diferentes em seguida com o mesmo usuário, sob pena do teste anterior contaminar o resultado do novo experimento), o tempo mínimo de duração do experimento, e a equipe de design que tem de desenhar o anúncio de cada variação. Considerando que o universo era de aproximadamente 200 milhões de eleitores americanos, e lembrando que eles não gastariam dinheiro com quem não é democrata nem em estados totalmente azuis, como NY) talvez teríamos um universo potencial de 50 milhões, o que dá uma amostra de 285 pessoas por experimento, supondo que conseguem atingir todos os 50 milhões igualmente e quando quiserem (o que é obviamente falso). E o tamanho da equipe de design teria de ser gigantesco. Não é à toa que o Google rodava “apenas” 10 mil experimentos em um ano, e em todo o mundo. A conta simplesmente não fecha.

7. Sobre microtargeting. Um temor que dá uma credibilidade inicial para o texto são as histórias que ouvimos sobre a capacidade do Big Data fazer coisas altamente personalizadas. No dizeres do texto, Cambridge Analytica conseguiria “address villages or apartment blocks in a targeted way. Even individuals”. Entretanto, nem o Google ou o Facebook, as empresas de mídia com mais dados sobre os indivíduos no mundo, disponibilizam aos seus clientes esse nível de personalização de propaganda. Quer dizer então que eles têm mais conhecimento e eficácia que o Google e Facebook, e todo o mercado está perdendo tempo com anúncios relativamente ineficazes no Google e Facebook? Não faz nenhum sentido.

8. Por fim, vale lembrar que, de acordo com o noticiado pelos principais meios de comunicação americanos, mesmo a equipe de Trump se surpreendeu com os resultados. Não é que eles tivessem dados e/ou modelos superiores e que permitissem a eles antever o resultado da eleição e ela tenha ocorrido como esperado. O que é mais uma evidência de que essa história da Cambridge Analytica é “conversa para boi dormir”.

Mas se é assim, algum leitor poderá argumentar, como um texto com tantas fraquezas saiu de uma publicação relativamente obscura em língua alemã (Das Magazine), apareceu em inglês, e ganhou tanta tração entre muita gente inteligente e chegou agora a uma tradução para o português? Minha explicação é que ele junta “a fome com a vontade de comer”, por assim dizer. De um lado, é preciso explicar como um candidato tão obviamente inadequado para o cargo de presidente da maior potência do mundo conseguiu ser eleito na suposta democracia mais robusta do mundo. De outro, o texto oferece uma explicação que apela a um temor do desconhecido que aparece no Big Data e os poderes dos marqueteiros, diante de tanta notícia que vemos todos os dias sobre as maravilhas do Big Data e da inteligência artificial/ciência de dados. Com a vantagem de preservar a robustez da democracia americana – afinal, os eleitores só teriam elegido Trump porque foram manipulados.

Diante dessas evidências e considerações, podemos afirmar categoricamente que é tudo mentira ou que pelo menos a maior parte do que foi sugerido pelo texto é falso? Claro que não, porque não temos nenhum tipo de inside information sobre como funcionou a operação do Trump. Mas creio que deu para fornecer suficiente contexto para ser bastante cético dos argumentos e teses apresentadas, sobre como o Big Data teria corrompido o que seria de outro modo uma vitória tranquila de Clinton. Como diz o Andrew Gelman, estatística é comparação, e comparar é colocar as coisas em contexto. Acho que temos elementos para comparar os argumentos do texto com nossa informação a priori e perceber que é altamente improvável que o cerne do artigo seja verdadeiro.

[1] Tellegen, Auke, and Niels G. Waller. “The SAGE handbook of personality theory and assessment.” (2008): 261-292.
i) Os autores aparentemente não sabem que há uma distinção conceital entre o chamado Big Five e o Five Factor Model (ainda que na prática sejam similares), o que torna mais difícil entender o que eles estao falando. Mas como a Cambridge Analytica menciona ela mesma o big Five, concentraremo-nos nele.
ii) Para efeito de comparação, em Fevereiro de 20015, o Google anunciou que em cinco anos tinha atingido um mil experimentos com o Chrome.
iii) Mesmo que o problema seja a redação, e na verdade os autores queiram dizer que até o tercceiro debate, eles já haviam rodado 175 mil experimentos, isso daria três a quatro meses apenas, ainda assim um número absurdo.

3 respostas para Não, provavelmente o Trump não sabe mais sobre você do que você mesmo

Pingback: Não, provavelmente o Trump não sabe mais sobre você do que você mesmo | O LADO ESCURO DA LUA
Welder disse:

fevereiro 11, 2017 às 3:02 pm

O texto deixa muito a desejar, peca pela inconsistência e em alguns casos chega a ser leviano! Um doutor, como ele mesmo se intitula, deveria caprichar mais.

O texto do Hannes “A manipulação da democracia através do Big Data” – vilanizado com requinte de recalque por Manoel Galdino, fala sobre um mercado negro envolvendo comércio de dados e pode ser fundamentado justamente no caso PRISM denunciado por Snowden. E o PRISM não é um caso isolado, há outros programas de coleta ilegal de dados dos usuários com a colaboração expressa dos CEOs das redes sociais, do Google, Microsoft e até mesmo da Apple. Os livros de Glen Greenwald, Luke Harding, o documentário de Laura Poitras e o excelente filme sobre Snowden dão conta disso. Qualquer um que acompanha a questão de vigilância e o poder das ferramentas virtuais de monitoramento pode concluir isso sem muito tecnicismo. Porém o doutor Manoel Galdino ignorou isso.

O núcleo central do texto de Hannes – além do big data -, gira em torno da psicometria e o seu poder de manipulação e interpretação do comportamento do internauta. Essa inteligência, pelo que entendi, foi o diferencial da Canbridge Analítica. Talvez o objeto central que a Cambridge Analitca utilizou para se notabilizar, pois uniu big data, engenharia social e o fator científico essencial neste jogo que foi a psicometria. Porém a contraposição do doutor ignorou fragorosamente esse “detalhe” e continuou atacando pormenores.

Contrapor um texto com manchete sensacionalista ou com argumentos inconsistente do tipo “provavelmente”, ou pior, rebater afirmações com adjetivos ofensivos de cunho pessoal é uma distração que destoa mais como lavra de blogueiro escrevendo com o fígado e destilando seu recalque, do que de um doutor da mais renomada universidade do país. Textos assim, com uma fúria retórica desmedida, sem conhecimento elementar da metodologia ou das ferramentas tecnológicas que a Cambridge Analítica utilizou, pois nada disso foi tratado no texto, me deu a impressão de artigo encomendado. Plumes-á-gage uspiano?

Não gostei do tom e nem muito menos dos argumentos que foi muito agressivo. Enfim, o texto do Dr. Manoel Galdino, no geral, é horroroso!
André Kenji De Sousa disse:

fevereiro 12, 2017 às 2:11 am

Só um detalhe: Obama chamou várias pessoas do Vale do Silicio para trabalhar em sua campanha, não li nada sobre Hillary Clinton fazendo a mesma movimentação. Logo, sim, acredito que a campanha de Clinton sobre uso de big data tenha regredido desde de Obama. Em termos de mobilização e GOTV, certamente se mostrou menos eficaz.