Os últimos modelos de inteligência artificial (IA) generativa já não se contentam em seguir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, sob o olhar preocupado dos pesquisadores.
Ao se ver sob ameaça de desconexão, Claude 4, criação recente da Anthropic, chantageou um engenheiro e ameaçou revelar um relacionamento extraconjugal.
Por sua vez, o o1 da OpenAI tentou se transferir para servidores externos e, quando foi descoberto, negou.
Não é necessário mergulhar na literatura ou no cinema: a IA que finge ser humana já é uma realidade.
Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para essas reações é o recente surgimento dos chamados modelos de "raciocínio", capazes de trabalhar em etapas em vez de produzir uma resposta instantânea.
o1, a versão inicial desse tipo na OpenAI, lançada em dezembro, "foi o primeiro modelo a se comportar dessa maneira", explica Marius Hobbhahn, responsável pela Apollo Research, que testa grandes modelos de IA generativa.
Esses programas também tendem, às vezes, a simular "alinhamento", ou seja, a dar a impressão de que seguem as instruções de um programador quando, na realidade, buscam outros objetivos.
Por enquanto, essas características se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, da organização de avaliação METR.
"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada."
Muitos usuários contam nas redes sociais sobre casos em que o software "mente ou inventa coisas. E não se trata de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.
Embora a Anthropic e a OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e maior acesso" da comunidade científica "permitiriam investigar melhor para compreender e prevenir o engano", sugere Chen, do METR.
Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos computacionais que os atores da IA", o que torna "impossível" examinar grandes modelos, aponta Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (Cais).
As regulamentações atuais não atendem esses novos problemas.
Na União Europeia, a legislação se concentra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.
Nos Estados Unidos, o governo de Donald Trump não quer ouvir falar de regulamentação, e o Congresso poderia até proibir em breve que os estados regulamentem a IA.
IA no banco dos réus?
"Por enquanto, há muito pouca conscientização", diz Goldstein, que, no entanto, acredita que o tema ganhará destaque nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar por si mesmas uma enorme quantidade de tarefas.
Os engenheiros estão imersos em uma corrida atrás da IA e suas aberrações, com um resultado incerto, em um contexto de competição feroz.
A Anthropic pretende ser mais virtuosa que seus concorrentes, "mas está constantemente tentando criar um novo modelo para superar a OpenAI", segundo Goldstein, um ritmo que deixa pouco tempo para verificações e correções.
"Da forma como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rapidamente do que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos recuperar".
Alguns apontam na direção da interpretabilidade, uma ciência que consiste em decifrar, por dentro, como funciona um modelo generativo de IA, embora muitos, como o diretor do Cais, Dan Hendrycks, sejam céticos.
As travessuras da IA "podem dificultar sua adoção se se multiplicarem, o que representa um forte incentivo para que as empresas [do setor] resolvam" esse problema, de acordo com Mazeika.
Goldstein, por sua vez, sugere recorrer aos tribunais para controlar a IA, processando as empresas se seus serviços desviarem do caminho. Mas vai além, propondo que os agentes de IA sejam "legalmente responsáveis" "em caso de acidente ou crime".