Bruno Guedes Santiago, Estratégias para o dilema do prisioneiro e a evolução da cooperação

Bruno Guedes Santiago, Estratégias para o dilema do prisioneiro e a evolução da cooperação

Bruno Guedes Santiago é advogado e doutorando em filosofia na UFRGS. Sua pesquisa atual trata da evolução da cooperação e suas implicações para as capacidades linguísticas, cognitivas e sociais humanas.


Estratégias para o dilema do prisioneiro e a evolução da cooperação

Bruno Guedes Santiago

No século XX, transformações substanciais ocorreram nas teorias  da evolução das espécies. Essas mudanças não decorreram apenas da chamada Síntese Evolutiva Moderna — responsável por integrar a genética mendeliana aos princípios da seleção natural formulados por Darwin —, mas também de um conjunto crescente de estudos que passaram a evidenciar, em diversas espécies animais, capacidades comportamentais e psicológicas anteriormente consideradas exclusivas dos seres humanos [inserir nota aqui com referências a alguns desses trabalhos]. Gradualmente, a suposição de que tais faculdades seriam produto singular da razão humana passou a ser questionada, sobretudo no que diz respeito à capacidade de cooperação entre indivíduos.

Numerosos exemplos de altruísmo recíproco passaram a ser observados na natureza [inserir nota com referência a esses estudos]. Peixes que se deslocam em cardumes organizados ou primatas que removem parasitas dos corpos uns dos outros ilustram comportamentos cooperativos que desafiam interpretações estritamente individualistas da evolução. O altruísmo recíproco é um tipo de cooperação e pressupõe um determinado grau de socialidade entre os membros de uma espécie. Para que tal dinâmica se sustente, é necessário que as interações sociais ocorram com frequência suficiente, possibilitando que o indivíduo altruísta volte a encontrar aquele que anteriormente ajudou.

Nesse cenário, uma questão central passou a ocupar os estudiosos da evolução e do comportamento social: em que circunstâncias um indivíduo deve cooperar ou agir de modo egoísta em interações com outros indivíduos não aparentados? Como observa Robert Sapolsky, “num mundo de indivíduos não cooperativos é desvantajoso ser o primeiro altruísta. Como conseguem os sistemas de cooperação ter início?” (SAPOLSKY, 2018, p. 549).

Em termos mais diretos, a reciprocidade somente pode se sustentar quando o sistema não é dominado por trapaceiros — isto é, indivíduos que recebem ajuda, mas deixam de retribuí-la. Situações nas quais os benefícios e os custos de uma ação dependem das escolhas realizadas por outros indivíduos podem ser analisadas por meio da Teoria dos Jogos e do conceito de estratégia evolutivamente estável. Formulada inicialmente pelo matemático John von Neumann, a Teoria dos Jogos constitui, em linhas gerais, um modelo analítico para compreender processos de tomada de decisão estratégica. A partir dela, torna-se possível investigar em que condições a cooperação emerge como uma escolha racional ou adaptativa.

Entre os diversos modelos desenvolvidos nesse campo, o Dilema do Prisioneiro ocupa um lugar central. Elaborado como um experimento teórico para examinar decisões estratégicas em contextos de interdependência, esse jogo tornou-se uma ferramenta fundamental para compreender quando e por que indivíduos optam por cooperar ou trair. Segundo o biólogo Martin Nowak e o matemático Karl Sigmund, o Dilema do Prisioneiro pode ser considerado a metáfora mais importante para pensar a evolução do comportamento cooperativo na natureza (1993, p. 56).

O cenário proposto pelo jogo é simples. Dois membros de uma gangue/grupo de criminosos, A e B, são presos e interrogados separadamente. A ambos é oferecido um acordo: delatar o comparsa em troca de uma redução de pena. Entretanto, eles não podem se comunicar entre si. Dessa situação resultam quatro possibilidades: (i) Se ambos se recusarem a trair um ao outro, cada um cumpre um ano de prisão; (ii) Se ambos se delatarem, cada um recebe uma pena de dois anos; (iii) Caso A delate B enquanto B permanece em silêncio, A é libertado e B cumpre três anos de pena; (iv) o inverso ocorre se B delatar A enquanto A se mantém leal.

O dilema reside precisamente nessa tensão entre lealdade e traição — ou, em termos mais gerais, entre cooperação e egoísmo. Se o jogo é disputado apenas uma vez, a escolha racional tende a favorecer a traição. Para o prisioneiro A, por exemplo, delatar B produz sempre um resultado médio mais vantajoso: se B permanecer em silêncio, A é libertado; se B também trair, A receberá dois anos de pena. Em contraste, se A decidir cooperar, sua pena poderá variar entre um ano (caso B também coopere) e três anos (caso seja traído). Diante dessa assimetria, a traição aparece como a estratégia racional dominante.

Esse raciocínio permanece válido mesmo quando o jogo é repetido um número finito de vezes. Se os jogadores sabem previamente quantas rodadas ocorrerão, a análise racional conduz à mesma conclusão: trair sempre é a estratégia dominante. Como observa Robert Sapolsky, quando o número de interações é conhecido, a cooperação tende a ser eliminada, já que cada jogador pode antecipar o momento final do jogo e ajustar sua decisão de acordo com essa previsão (SAPOLSKY, 2018, p. 550). A situação se altera, contudo, quando o número de rodadas é desconhecido. Nesses casos, nenhuma estratégia puramente baseada na traição se apresenta como solução universalmente racional, abrindo espaço para o surgimento de comportamentos cooperativos.

O diálogo entre matemática e biologia ganhou novo impulso quando Robert Axelrod, em 1981, apresentou o Dilema do Prisioneiro a diversos cientistas e os convidou a propor estratégias para lidar com o jogo em situações nas quais o número de rodadas fosse desconhecido. Axelrod reuniu todas as estratégias enviadas e promoveu uma competição simulada entre elas. O resultado foi surpreendente: a estratégia vencedora foi a proposta pelo matemático Anatol Rapoport, notavelmente simples em sua formulação. Segundo Rapoport, o jogador deve cooperar na primeira rodada e, nas rodadas seguintes, simplesmente repetir a ação realizada pelo oponente na rodada anterior. Essa estratégia ficou conhecida como tit-for-tat, frequentemente traduzida como “olho por olho”, ou “toma lá, dá cá”.

Seu funcionamento é intuitivo. Nas primeiras rodadas, os jogadores cooperam entre si, mantendo um equilíbrio mutuamente vantajoso. Se, em determinado momento, um dos indivíduos decide trair, o outro responde com traição na rodada seguinte, estabelecendo uma punição proporcional. Caso o traidor volte a cooperar, a cooperação é imediatamente restabelecida. Se, ao contrário, persistir na traição, a resposta punitiva continua. Desse modo, a estratégia combina cooperação inicial, capacidade de punição e disposição para restabelecer relações cooperativas quando o outro demonstra reciprocidade (SAPOLSKY, 2018, p. 551). 

Apesar de sua elegância, a estratégia “toma lá, dá cá” não garante vitórias expressivas em confrontos individuais. No melhor dos cenários, ela conduz a empates. Quando aplicada contra um jogador que coopera sempre, ambos permanecem empatados. Quando confrontada com outro jogador que adota a mesma estratégia, o resultado também tende ao equilíbrio. Por outro lado, diante de um oponente que trai sistematicamente, o jogador que utiliza tit-for-tat sofre uma pequena desvantagem inicial, já que coopera na primeira rodada enquanto o outro já inicia com traição. Ainda assim, essa desvantagem costuma ser mínima.

Foi justamente essa característica que chamou a atenção de Axelrod. Embora a estratégia raramente obtivesse vitórias contundentes, também nunca sofria derrotas devastadoras — ao contrário de muitas outras estratégias propostas, que frequentemente produziam perdas catastróficas quando confrontadas entre si. No cômputo geral das simulações, tit-for-tat revelou-se extraordinariamente robusta: ela empatava na maioria das interações e perdia apenas por margens reduzidas. Em termos evolutivos, isso significava que, mesmo sem vencer batalhas individuais de maneira expressiva, a estratégia tendia a prevalecer no longo prazo.

Sapolsky observa que o sucesso dessa estratégia decorre de quatro características fundamentais: (i) ela começa cooperando, evitando hostilidade inicial; (ii) não é ingênua, pois pune a traição; (iii) é clemente, já que retoma a cooperação quando o outro também o faz; e, por fim, (iv) é extremamente simples (SAPOLSKY, 2018, p. 553). Essa combinação de cooperação inicial, reciprocidade e simplicidade torna a estratégia particularmente eficaz em contextos de interação repetida. Martin Nowak e Karl Sigmund foram além e sugeriram que tit-for-tat funciona como uma espécie de catalisador da cooperação: ela cria as condições necessárias para que comportamentos cooperativos possam emergir e se estabilizar em determinadas populações (NOWAK; SIGMUND, 1992, p. 252). Não surpreende, portanto, que o Dilema do Prisioneiro tenha despertado crescente interesse entre biólogos e cientistas políticos. No interior da Teoria dos Jogos, esse modelo oferecia um instrumento conceitual poderoso para refletir sobre a evolução do comportamento cooperativo.

Com o avanço dessas investigações, novos elementos passaram a ser incorporados ao modelo. Um deles é o chamado erro de sinalização — situações em que uma ação cooperativa pode ser interpretada equivocadamente como traição, ou vice-versa. Esse tipo de erro torna a estratégia tit-for-tat vulnerável, pois uma sequência de interpretações equivocadas pode desencadear ciclos intermináveis de punição. Para lidar com esse problema, Robert Boyd propôs uma modificação da estratégia original, denominada tit-for-tat contrito. Nessa versão, quando ocorrem duas traições consecutivas sem explicação clara, considera-se a possibilidade de erro de sinalização. Nesse caso, o jogador coopera na rodada seguinte como forma de demonstrar arrependimento e restabelecer a cooperação. Se o oponente também retoma a cooperação, o equilíbrio é restaurado; se não o faz, presume-se que a traição foi intencional, e a estratégia punitiva volta a ser aplicada (BOYD, 1989, p. 49 ss.).

Esses desenvolvimentos suscitaram uma questão decisiva para os biólogos: os modelos teóricos da Teoria dos Jogos teriam alguma correspondência empírica na natureza? Em outras palavras, seria possível observar, entre os animais, comportamentos que seguissem padrões semelhantes aos previstos pelo Dilema do Prisioneiro? De maneira surpreendente, a resposta revelou-se positiva. Na natureza, é verdade, a estratégia tit-for-tat raramente aparece em sua forma “pura”, tal como descrita nos modelos teóricos. Ainda assim, diversos exemplos documentados na literatura científica apresentam dinâmicas notavelmente semelhantes. Sapolsky menciona, por exemplo, o caso do peixe Hypoplectrus nigricans. Esses animais formam pares estáveis e possuem a capacidade de alternar de sexo ao longo da vida. Como ocorre em muitas espécies, o papel reprodutivo feminino exige maior gasto energético. Por essa razão, os indivíduos alternam periodicamente o papel de macho e fêmea. Observou-se, contudo, que, quando chega o momento da troca, o indivíduo que mais recentemente desempenhou o papel de macho por vezes se recusa a assumir o papel feminino. Nessa situação, o parceiro reage alterando também seu sexo para macho e mantendo essa posição até que o outro “recupere sua consciência social” e aceite assumir novamente o papel de fêmea, restabelecendo assim o equilíbrio cooperativo (SAPOLSKY, 2018, p. 557).

Ainda assim, essas explicações não são suficientes para esclarecer plenamente como a cooperação emerge na natureza. Sabe-se que formas de cooperação estão amplamente presentes no mundo natural. Em alguns casos, elas se manifestam entre indivíduos aparentados, fenômeno explicado pela chamada seleção de parentesco. Em outros, entretanto, a cooperação ocorre entre indivíduos sem qualquer vínculo genético direto, situação conhecida como o já mencionado altruísmo recíproco. É precisamente nesse segundo tipo de interação que os instrumentos analíticos da Teoria dos Jogos — especialmente o Dilema do Prisioneiro — se mostram particularmente úteis.

A estratégia toma lá, dá cá revela-se, nesse contexto, um importante incentivo à cooperação. Pode-se compreendê-la como uma espécie de “célula inicial” de comportamento cooperativo dentro de um grupo. Contudo, ela não é invulnerável: se um indivíduo que a adota estiver cercado exclusivamente por traidores, a estratégia tende a fracassar. Traidores podem, entre si, obter resultados variados — às vezes vantajosos, às vezes desastrosos —, mas aquele que pratica toma lá, dá cá tende a ser sistematicamente prejudicado nesse ambiente hostil. Essa constatação levou os biólogos a supor que deve existir algum tipo de equilíbrio regulador nas populações naturais. Foi nesse contexto que surgiu o conceito de estratégias evolutivamente estáveis.

Em 1973, John Maynard Smith e George R. Price publicaram o artigo “The logic of animal conflict”, no qual formularam uma pergunta fundamental: por que interações entre indivíduos da mesma espécie raramente resultam em conflitos letais? Os autores sugeriram que esse padrão poderia ser explicado pela interação entre mecanismos de seleção individual e dinâmicas de seleção de grupo. Dessa interação emergiriam estratégias comportamentais que se estabilizam ao longo do tempo sob a influência da seleção natural — as chamadas “estratégias evolutivamente estáveis” (EEE) (ver MAYNARD SMITH; PRICE, 1973, p. 15).

Uma EEE pode ser definida, em termos gerais, como aquela que, uma vez difundida em uma população, não pode ser superada por estratégias alternativas. Em outras palavras, trata-se de um padrão comportamental que tende a se perpetuar porque qualquer desvio em relação a ele é penalizado pela dinâmica evolutiva. O conceito possui afinidades com a noção de equilíbrio de Nash, mas apresenta uma diferença importante: nem todo equilíbrio de Nash constitui uma estratégia evolutivamente estável. Em uma EEE, a melhor estratégia de um indivíduo depende do comportamento predominante na população, e a estabilidade ocorre justamente porque nenhuma estratégia minoritária consegue invadir com sucesso esse arranjo.

Quando mudanças ambientais significativas ocorrem, pode surgir um período temporário de instabilidade evolutiva, marcado por flutuações nas frequências das estratégias presentes na população. Entretanto, uma vez estabelecida uma EEE, a tendência é que ela se estabilize novamente, pois a seleção natural favorece esse padrão em detrimento de estratégias alternativas. Por essa razão, a análise das EEE tornou-se uma ferramenta central para compreender o comportamento animal, especialmente em contextos que envolvem a evolução da cooperação entre indivíduos não aparentados.

O exemplo clássico apresentado por Maynard Smith e Price é o chamado modelo do “falcão” (F) e do “pombo” (P). Embora simplificado, esse modelo ilustra de maneira clara como diferentes estratégias comportamentais podem coexistir em uma mesma população. Nele, os indivíduos podem adotar duas estratégias possíveis. A estratégia “falcão” consiste em agir sempre de maneira agressiva, lutando até o limite mesmo sob risco de ferimentos graves. Já a estratégia “pombo” consiste em evitar confrontos físicos diretos, recorrendo apenas a ameaças simbólicas e recuando diante da escalada do conflito. Quando um falcão encontra um pombo, o pombo recua e o falcão vence sem sofrer danos. Quando dois falcões se encontram, ambos entram em combate e o confronto pode resultar em ferimentos graves para ambos. Já quando dois pombos se encontram, ocorre apenas uma exibição de ameaça sem combate real, o que evita ferimentos, embora implique gasto de tempo e energia.

Esse modelo ilustra um ponto importante: em uma população em que ambas as estratégias coexistem, nenhuma delas consegue eliminar completamente a outra. A agressividade constante da estratégia falcão torna-se extremamente custosa quando confrontada com indivíduos igualmente agressivos. Por outro lado, a estratégia pombo torna-se vulnerável quando enfrenta indivíduos agressivos. Como resultado, a dinâmica evolutiva tende a produzir uma proporção estável entre ambas as estratégias, formando aquilo que Maynard Smith chamou de estratégia mista evolutivamente estável (MAYNARD SMITH; PRICE, 1973). Naturalmente, trata-se de um modelo altamente simplificado, que pressupõe indivíduos idênticos em todos os aspectos, exceto pela estratégia adotada. Na natureza, entretanto, as interações são frequentemente assimétricas, e múltiplos fatores — ecológicos, fisiológicos e sociais — podem influenciar os resultados dessas interações. Ainda assim, o modelo fornece uma importante intuição teórica: em ambientes naturais, os indivíduos estão constantemente envolvidos em interações estratégicas cujos resultados dependem das escolhas dos demais.

Nesse sentido, pode-se afirmar que os organismos vivos participam, continuamente, de uma espécie de Dilema do Prisioneiro reiterado, no qual as decisões de cooperar ou competir são tomadas sob incerteza acerca do comportamento alheio. O modelo do falcão e do pombo ilustra bem os limites de estratégias extremas. Agir sempre como falcão implica assumir riscos elevados e custos potencialmente devastadores. Agir sempre como pombo, por sua vez, conduz a perdas sistemáticas diante de indivíduos mais agressivos.

Ainda que o modelo não tenha sido originalmente formulado em termos de cooperação e traição, é possível traçar uma analogia instrutiva com o Dilema do Prisioneiro. O comportamento do pombo aproxima-se da estratégia daquele que coopera sempre: ele pode obter benefícios quando encontra outro indivíduo igualmente cooperativo, mas torna-se vulnerável diante de indivíduos agressivos ou oportunistas. Já o comportamento do falcão se assemelha à postura do traidor: ele pode explorar indivíduos cooperativos, mas sofre grandes prejuízos quando confrontado com outros agentes igualmente agressivos.

Nesse contexto, torna-se particularmente relevante recordar o desempenho da estratégia toma lá, dá cá nos torneios simulados do Dilema do Prisioneiro. Quando o número de rodadas é desconhecido — condição que se aproxima mais das interações reais na natureza —, essa estratégia mostrou-se notavelmente bem-sucedida. Sua eficácia decorre de um conjunto de características comportamentais específicas. Em primeiro lugar, ela inicia sempre com cooperação, estabelecendo uma base de confiança. Em segundo lugar, ela responde à traição com retaliação imediata, funcionando como um mecanismo de punição que desencoraja comportamentos oportunistas. Em terceiro lugar, ela está sempre disposta a restaurar a cooperação quando o oponente também o faz. Por fim, trata-se de uma estratégia que não busca superar o adversário a qualquer custo, mas sim manter um equilíbrio em que ambos possam obter benefícios razoáveis.

Além dessas razões comportamentais, existem também razões ecológicas para o sucesso da estratégia. Sua simplicidade e adaptabilidade permitem que ela funcione em uma ampla variedade de contextos ambientais e sociais. Quando uma parcela significativa da população passa a adotá-la, a dinâmica de punição recíproca tende a inibir a disseminação de estratégias puramente oportunistas. Talvez o aspecto mais relevante da estratégia toma lá, dá cá seja sua viabilidade evolutiva. Mesmo um pequeno grupo de indivíduos que a adote pode cooperar eficazmente entre si, criando um núcleo de estabilidade dentro da população. Esse núcleo cooperativo pode, ao longo do tempo, expandir-se e tornar-se predominante. Nesse sentido, a estratégia oferece um exemplo concreto de como reciprocidade, punição proporcional e capacidade de restauração da cooperação podem sustentar comportamentos cooperativos em ambientes complexos.

Assim, a lógica evolutiva da reciprocidade revela que a cooperação não depende necessariamente de altruísmo incondicional. Pelo contrário, ela pode emergir como resultado de estratégias simples, mas robustas, capazes de equilibrar confiança, punição e adaptação em sistemas de interação contínua. 

A análise da cooperação a partir da biologia evolutiva e da Teoria dos Jogos revela que comportamentos aparentemente altruístas podem emergir não apenas de impulsos morais abstratos, mas também de dinâmicas estratégicas moldadas pela seleção natural. Estratégias como a toma lá, dá cá, bem como os equilíbrios descritos pelas EEEs, mostram que a cooperação pode surgir e se manter mesmo em ambientes competitivos, desde que existam mecanismos de reciprocidade, punição proporcional e restauração da confiança. Nesse sentido, a natureza oferece um conjunto de modelos que ajudam a compreender como indivíduos que buscam maximizar seu próprio sucesso evolutivo acabam, paradoxalmente, criando sistemas estáveis de cooperação. Essa constatação pode abrir portas para reflexões mais amplas: se padrões de reciprocidade, punição e confiança já operam em diversos sistemas biológicos, até que ponto as normas morais humanas — como justiça, lealdade ou obrigação — podem ser compreendidas como extensões culturais e cognitivas dessas dinâmicas evolutivas? Investigar essa continuidade possível entre estratégia evolutiva e moralidade constitui um passo fundamental para compreender não apenas por que cooperamos na natureza, mas também por que os seres humanos desenvolveram complexos sistemas éticos para regular a vida em sociedade.

Referências

BOYD, Robert. Mistakes allow evolutionary stability in the repeated prisoner's dilemma game. J. Theoretical Biol, v. 136, p. 47-56, 1989.

MAYNARD SMITH, John; PRICE, George, R. The logic of animal conflict. Nature, v. 246, p. 15-18, 1973.  

NOWAK, Martin; SIGMUND, Karl. Tit for tat in heterogeneous populations. Nature, v. 355, p. 250-253, 1992.

NOWAK, Martin; SIGMUND, Karl. A strategy for win-stay, lose-shift that outperforms tit-for-tat in the Prisoner’s Dilemma game. Nature, v. 364, p. 56-58, 1993.

SAPOSLKY, Robert M. Comporte-se: a biologia humana no nosso melhor e pior. Trad.: Giovane Salimena; Vanessa Barbara. São Paulo: Companhia das Letras, 2021. [Amzn]

Arquipélago Filosófico, Vol. 2, No. 15 (2026), e-015
ISSN 3086-1136

Leia mais