Inovação, viés para o status quo e multi-armed bandit problem

Quem acompanha o Blog há algum tempo sabe que eu tenho interesse em políticas de inovação, ou seja, quais incentivos fornecer aos indivíduos para que eles se arrisquem em atividade inovativas, ao invés de preferirem o caminho mais seguro. Exemplos dessa minha preocupação podem ser vistas aqui, aqui, aqui e aqui, sem falar no tema da minha tese de doutorado.

Pois bem, eis que descrubro, via o sempre excelente A fine Theorem, de um tal de multi-armed bandit problem. É o típico problema de processos estocásticos que desconhecia completamente. Pelo que entendi, a idéia do problema é mais ou menos a seguinte. Sabe aquelas máquinas de Casino, em que você puxa uma alavanca e a máquina “aleatoriamente” escolhe dentre alguns símbolos, qual vai mostrar em cada um dos visores, e se saírem três símbolos iguais você ganha um montão de dinheiro? Pois é, elas são conhecidas também por armed-bandit, pois a alavanca é como um braço e, bem, o cliente em geral perde seu dineiro nelas, daí o nome de bandido, hehe.

Mas enfim, divago. O multi-armed bandid problem pode ser pensado da seguinte forma. Você têm várias alavancas para escolher quantas vão puxar. Algumas tem um ganho maior do que outras, mas você não sabe quais. Você pode explorar (no sentido de descobrir) qual o ganho de cada máquina puxando todas as alavancas várias vezes, porém assim irá perder muito dinheiro nas máquinas ruins. Por outro lado, se você explorar pouco, não descobrirá quais máquinas mais rentáveis e pode ficar preso num máximo local.

O que o artigo comentado no A Fine Theorem mostra (não li o artigo, só a resenha no dito blog) é que os mecanismos de votação de democracia podem ter um viés pró status quo, se a gente modelar essas votações como um problema de multi-armed bandit. Não vou repetir o argumento do paper aqui e se quiserem uma resenha resumida, vejam lá no A fine theorem.

O ponto que eu quero chamar a atenção aqui é outro. O modelo do multi-armed bandit me parece uma metáfora bastante eficiente sobre a questão da inovação. Em inglês esse problema é apresentado como um trade-off entre exploration e exploitation. Quer dizer, entre explorar (tatear) caminhos novos ou explorar (usufruir) o já conhecido.

Obviamente é possível determinar qual a estratégia ou algoritmo ótimo em termos de exploitation e exploration. Mas a questão mais importante é pensar qual modelo específico modela melhor ou é uma metáfora mais adequada das insituições que temos em termos de inovação.

Em alguns casos, faz sentido pensar por exemplo que uma máquina descartada como ruim não possa mais ser reabilitada. Ou seja, uma vez que exploramos uma máquina e descobrimos que ela tem recompensa baixa, nós a descartamos definitivamente. Por outro lado, nós podemos pensar que a própria rentabilidade de cada máquina segue algum processo estocástico ou mesmo determinístico, mas caótico ou com um atrator estranho ou algo similar de equações diferenciais, no sentido de que ela pode ser ruim por um tempo, mas depois voltar a ser boa. Podemos pensar isso por exemplo sobre a moda, que aproximadamente segue alguns ciclos e recupera coisas do passado, ou mesmo de paradigmas científicos e, porque não, políticas públicas e/ou modos de organização da sociedade.

Como já falei aqui, eu queria conectar algumas ideias hegelianas sobre a a história e a melhor forma de uma sociedade se organizar e com essa diéia de algoritmos e inovação. De algum modo, parece-me que esse modelo do multi-armed bandit pode permitir alguma discussão disso.  Precisaria apenas ter um pouco de tempo para investir nisso, já que a matemática requerida deve ser complicada.

De todo modo, esquematicamente, teríamos: Um modelo multi-armed bandit em que a recompensa segue algum padrão estocástico (uma cadeia de Markov?) com um forte componente temporal ou um modelo do tipo predador-presa, no sentido de que teria uma tendência a seguir ciclos de recompensas altas com recompensas baixas. Mas deveria também ter uma probabilidade positiva (ainda que pequena) de chegar num estado absorvente de recompensa baixa, de modo que deveria ser descartada pemanentemente (mas isso não é observável pelos agentes). Se é melhor usar EDO (ou EDP) ou algum processo estocástico como Cadeia de Markov, ou ainda uma possivel junção de Ed + componente estocástico, não sei dizer.

A questão então é pensar que tipo de instituição (ou seja, regras, ou mais formalmente, algoritmos) são mais ou menos ótimos. E traduzir essa linguagem formal depois em metáforas para pensar a sociedade como um todo.

Eis um belo programa de pesquisa, que certamente não vou poder enfrentá-lo no curto e médio prazo.

PS.: essa idéia casa com uma outra do Umberto, de modelar a relação entre liberdade e autoritarismo como um modelo de predador-presa. Mas deixo essa idéia pra depois.

PSTU: Minha intiuição é que para pensar o socialismo deveríamos pensar em coisas desse tipo. Como o mercado ou outra organiação social pode dar contra de produzir uma sociedade com mais experimentação e, claro, aceitação da diferença?

PSTUdoB: Tenho falado sempre de alguma alternativa ao mercado sem especificar qual é. Não tenho tempo agora, mas eu acho interessante que formas de produção, distribuição e consumo de alguns “produtos” digitais tenham surgido espontaneamente e que lidam de forma não mercantil com a descentralização e ainda assim são eficientes. O caminho eu acho que é pensar a partir daí.

Sobre Manoel Galdino

Corinthiano, Bayesiano e Doutor em ciência Política pela USP.
Esse post foi publicado em ciência, estatística, Manoel Galdino, Política e Economia e marcado , , , , , , . Guardar link permanente.

4 respostas para Inovação, viés para o status quo e multi-armed bandit problem

  1. Paulo de Tarso Soares disse:

    Muito interessante! Eu disse interessante? Mas, então, falei besteira! Isso não passa de pseudociência. Faz sentido fazer com que aquilo que é produzido pelo homem seja visto como fruto de ações aleatórias, como meras probabilidades? Ah, esses cientistas aleinados ….!!!! Servem mesmo é para o espetáculo debordiano. Quanta perda de tempo, se é para compreender e melhorar o mundo, mas é um tempo bem gasto se é para agardar ao status quo, para ascender socialmente como intelectual. Abraços, Paulinho.

  2. Paulinho, como sempre você é bem afiado.

    Eu diria o seguinte. Seja porque a ação humana é efetivamente aleatória, seja porque no agregado é heuristicamente útil pensá-las como aleatórias, é efetivamente superior pensar no mundo como resultado de leis probabilísticas. Aliás, diria que no Marx é mais ou menos o que está lá. Afinal, o que é uma lei tendencial se não uma lei probabilística? Talvez seja um resultado caótico de um processo determinista, mas em todo caso que aparenta e muito seguir uma relação probabilística.

    A mim me ajuda a organizar o pensamento sobre o que é importante. Talvez não seja assim para outras pessoas, mas enquanto não me convecerem do contrário, continuarei a usar essas ferramentas!

    um abraço
    Manoel

  3. Paulo de Tarso Soares disse:

    Caríssimo Maceió, trabalhei por um bom tempo com um excelente estatístico, prof. titular de econometria e estatística, que dizia que na vida nada acontece por acaso. É, ele sabia o que dizia, sabia exatamente para que serve a estatística. Não a atribuía uma generalidade indevida. Conhecia a diferença/separação entre parcialidade e totalidade. Pois é, estou extamente preparando uma aula sobre a teoria da alienação em Marx, baseado no livro do Mészáros sobre o tema. Não resisti ao impulso para lhe provocar intelectualmente. O que vocâ nada lendo? Desde quando passou a acreditar em pseudociência, passou a praticar o idealismo a-crítico e sua contrapartida, o materialismo vulgar. A aleinação tomou conta do seu saber? Logo você, um cara tão inteligente, de verdade! Abraços, Paulinho.

  4. Eu tenho estudado bastante estatística (mas não muito econometria, veja só) e sinceramente não vejo como ou porque estudar estatística seja necessariamente alienante. Que a econometria que se usa na economia seja muitas vezes alienante isso é um problema da economia, não da estatística.

    Eu sou adepto de se aproveitar o que tem de bom em qualquer ciência. Além disso, acho bem divertido estudar algumas coisas apenas pelo prazer de estudar, incluindo aí a estatística e a ciência da computação (programação). Se eu gastar meu tempo estudando as coisas que gosto pelo prazer de estudar implica que sou alienado, então tanto pior para a alienação. Alienação, para mim, é não poder estudar algo que se gosta ou acha importante só porque vai aparecer como alienação para os outros ou uma adequação a um suposto materialismo vulgar. Esse tipo de preocupação, tão típica da esquerda, aliás, é que é pra mim alienação, fetichismo e cair na crítica espetaculosa do espetáculo.

    Mas presumo que você saiba tudo isso do último parágrafo.

    abçs
    M

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s