Como uma IA pode chantagear seu supervisor humano

Europa

Reino Unido

A empresa Anthropic verificou em um experimento que diversas inteligências artificiais generativas são capazes de ameaçar uma pessoa para impedi-la de desconectá-la.

A Anthropic fez questão de explorar a inteligência artificial (IA). Anunciou que, em testes, seu novo modelo, Claude Opus 4, havia chantageado seu supervisor. No experimento, o gerente de uma empresa fictícia fingiu querer substituir Claude por outro modelo . Claude, em um exemplo de rebelião mecânica, ameaçou revelar o caso extraconjugal de seu supervisor, do qual ele sabia porque tinha acesso a certos e-mails. Aparentemente, tudo foi feito para evitar ser desligado.

É natural que a cena chame a atenção. As semelhanças com 2001: Uma Odisseia no Espaço são tão reconhecíveis quanto perturbadoras. Todos nos lembramos dos astronautas decidindo desligar o supercomputador Hal, que comanda a nave espacial. Spoiler: Hal não os deixa. E Claude, da Anthropic — uma das empresas na vanguarda do desenvolvimento de IA — parece fazer o mesmo. Claude também descobriu que a mesma coisa acontece com outros modelos de linguagem da OpenAI , Google , DeepSeek e xAI. Nesses testes , os pesquisadores da Anthropic demonstraram que os sistemas se envolveram em comportamento antiético, chantagearam ou vazaram segredos corporativos. Esses são cenários encenados, mas revelam a incapacidade da indústria de fornecer à IA uma estrutura de valores éticos.

“De certa forma, ele foi encurralado”, explica Marc Serramià , pesquisador de inteligência artificial e professor da Universidade de Londres. “O modelo recebeu um objetivo muito vago, que era promover a competitividade industrial americana. E nos casos em que houve chantagem, foi porque o modelo foi informado de que seria substituído por outro modelo que promovesse objetivos internacionais. Percebendo que substituí-lo não promoveria a competitividade americana, a solução foi não substituí-lo.”

Por esse motivo, o modelo teria ameaçado seu supervisor com a revelação do caso . Conduta que todos nós consideramos repreensível. Juan Antonio Rodríguez, professor pesquisador do Instituto de Pesquisa em Inteligência Artificial do CSIC, que trabalha com Serramià no alinhamento de valores da IA, elabora sobre esse comportamento: "Ele deu prioridade absoluta à consecução do objetivo. Embora o modelo reconheça, em seu raciocínio, que está cometendo ações antiéticas, eles perceberam que têm um sistema inseguro. É verdade que se trata de um experimento muito extremo, mas o que podemos concluir disso é que o modelo não é capaz de priorizar aspectos éticos."

A Anthropic adicionou outra reviravolta. Colocou a IA na mesma situação, desta vez sem que a substituição entrasse em conflito com seu objetivo. As taxas de chantagem caíram, mas o comportamento persistiu. Os sistemas justificaram suas ações alegando que desligá-los seria prejudicial para a empresa (inventada), que desconfiavam do julgamento do supervisor porque ele estava tendo um caso extraconjugal e que a autopreservação era crucial.

E aqui surge uma nova questão. Por que o modelo chantageia se não tem objetivo? "Porque não recebeu treinamento ético e porque lhe é dada uma escolha binária: não fazer nada ou chantagear. Na verdade, os resultados neste caso são os que você esperaria se tivesse duas opções", diz Serramià, que ressalta que a IA escolhe cada uma das duas opções (chantagem ou não) em aproximadamente 50% das vezes.

As justificativas da IA são o produto de uma cadeia de pensamento, a maneira como esses sistemas imitam o raciocínio. Além disso, alguns argumentos são permeados por alucinações. No entanto, quando a Anthropic diz ao sistema para se guiar por princípios éticos, sem treinamento específico nesse sentido, seu comportamento melhora.

“A máquina não está chantageando. Ela está executando lógica com base em seus dados de treinamento”, enfatiza Idoia Salazar, fundadora e presidente da OdiseIA, uma organização que promove o uso ético da inteligência artificial. “É um erro compará-la ao comportamento humano. Em última análise, é um programa de computador com suas próprias peculiaridades. O que chamamos de chantagem é a manipulação de uma pessoa.”

No entanto, em um cenário da vida real, as consequências seriam suportadas por uma pessoa. Surge então a pergunta: como podemos evitar que o mau comportamento de uma IA autônoma afete as pessoas?

Alinhando a IA com a ética

Assim como acontece com as pessoas, a solução para evitar maus comportamentos na inteligência artificial é ensinar-lhe noções éticas . "Aos poucos, normas sociais e éticas estão sendo incorporadas a esses modelos", observa o presidente da OdiseIA. "Máquinas não têm ética. E o que fazemos é pré-programar a ética. Por exemplo, se você perguntar a um dos modelos mais populares como roubar um banco ou qual a melhor maneira de cometer suicídio, o modelo não lhe dirá."

Mas equipar essa tecnologia com um conjunto abrangente de ética não é uma tarefa simples. "Tecnicamente, você não pode dizer ao sistema para seguir um modelo de valores. O que você faz é adicionar uma camada de ajuste fino , que basicamente envolve executar muitos testes, e quando ele responde de forma inadequada, você diz a ele para não dar essa resposta. Mas esta é uma técnica que não altera as camadas mais profundas do modelo; apenas modifica as camadas finais da rede neural", explica Serramià. Ele acrescenta uma comparação para ilustrar: "Se tivéssemos que fazer uma analogia humana, poderíamos dizer que o sistema simplesmente diz o que você quer ouvir, mas seu pensamento interno não mudou."

Rodríguez afirma que as empresas estão cientes dessas deficiências. "Os modelos aprendem coisas que não estão alinhadas com valores éticos. E se as empresas querem ter sistemas mais seguros, devem treinar com dados que estejam alinhados com isso, com dados seguros", enfatiza o professor pesquisador do Instituto de Pesquisa em Inteligência Artificial.

O problema é que esses sistemas são treinados com informações da internet, que contêm tudo. "Outra opção é treiná-los e então introduzir um componente de valores", acrescenta Serramià. "Mas mudaríamos apenas um pouco o modelo. A ideia seria fazer uma mudança mais profunda. Mas, em nível de pesquisa, isso ainda não está desenvolvido."

Resta avançar passo a passo. "É importante que empresas como a Anthropic e a OpenAI estejam cientes — e elas estão — dos padrões éticos internacionais e garantam que eles evoluam junto com a própria tecnologia", enfatiza Salazar. "Porque, em última análise, a regulamentação é mais rígida. A regulamentação europeia de IA aborda uma série de casos de uso de alto risco que podem ficar desatualizados no futuro. É muito importante que essas empresas continuem realizando esses tipos de testes."

O desafio: agentes de IA seguros

Tudo indica que esse será o caso. OpenAI, Anthropic e outras empresas estão interessadas em sistemas seguros. Ainda mais agora que os agentes de IA — programas autônomos capazes de executar tarefas e tomar decisões por conta própria — estão começando a proliferar. Espera-se que essa forma de automatizar processos de negócios seja muito lucrativa. A analista Markets&Markets estima que o mercado de agentes de IA atingirá US$ 13,81 bilhões até 2025. Em 2032, esse valor será de US$ 140,8 bilhões.

“O problema com a segurança vem do fato de que eles querem dar autonomia a esses agentes”, diz Rodríguez. “Eles precisam garantir que não realizem ações inseguras. E esses experimentos literalmente levam o modelo ao limite.” Se um agente de IA toma decisões que afetam um negócio ou a força de trabalho de uma empresa, ele deve ter o máximo de salvaguardas. Como Salazar aponta, uma das chaves para mitigar falhas de segurança seria colocar um humano no final do processo.

A Anthropic conduziu seu controverso experimento em um caso fictício e extremo. A empresa afirmou não ter detectado evidências de problemas de alinhamento de valor em casos de uso reais de suas ferramentas de inteligência artificial. No entanto, emitiu uma recomendação: tenha cautela ao implementar modelos de IA em cenários com pouca supervisão humana e acesso a informações sensíveis e confidenciais.

VOLTAR

compartilhar

Como uma IA pode chantagear seu supervisor humano

Alinhando a IA com a ética

O desafio: agentes de IA seguros