A saída de Mrinank Sharma, ex-líder da equipe de Safeguards Research, expõe a tensão entre segurança, lucro, velocidade e poder na corrida global pela inteligência artificial
Da Redação
A saída de Mrinank Sharma da Anthropic não foi apenas mais uma movimentação de bastidor no mercado bilionário da inteligência artificial. Ao anunciar publicamente sua decisão de deixar a empresa, em fevereiro de 2026, o pesquisador que liderava a equipe de Safeguards Research escreveu uma carta incomum, marcada por tom filosófico, preocupação civilizatória e crítica ética ao momento vivido pela indústria. Sua frase mais citada, “the world is in peril”, rapidamente circulou entre pesquisadores, jornalistas e analistas de tecnologia porque condensava uma inquietação cada vez mais presente entre especialistas em segurança de IA: a sensação de que a capacidade técnica das empresas está avançando mais rápido do que a sabedoria institucional, política e social necessária para governá-la.
Sharma não saiu de qualquer empresa. A Anthropic nasceu em 2021 justamente com a promessa de ser uma alternativa mais cautelosa no desenvolvimento de modelos avançados de inteligência artificial. Fundada por ex-integrantes da OpenAI, entre eles Dario Amodei e Daniela Amodei, a companhia construiu sua identidade pública em torno de conceitos como segurança, alinhamento, interpretabilidade e desenvolvimento responsável. Seu principal produto, a família Claude, tornou-se uma das rivais mais fortes do ChatGPT, dos modelos Gemini do Google DeepMind, do Llama da Meta e dos sistemas desenvolvidos pela xAI, de Elon Musk. Ao mesmo tempo, a empresa recebeu investimentos bilionários, ampliou parcerias com gigantes como Amazon e Google e passou a competir no centro da corrida tecnológica mais importante do século XXI.
É exatamente essa combinação entre missão ética e pressão competitiva que torna a carta de Sharma relevante. O pesquisador não apresentou uma denúncia específica de crime, fraude ou sabotagem interna. Sua crítica foi mais ampla e, por isso mesmo, mais incômoda. Ele apontou uma tensão estrutural entre valores declarados e decisões tomadas sob pressão. Em sua avaliação, a indústria de IA opera em um ambiente no qual empresas dizem priorizar segurança, mas são empurradas por investidores, concorrentes, governos e mercados a lançar modelos cada vez mais capazes em intervalos cada vez menores.
Dentro da Anthropic, Sharma liderava a Safeguards Research Team, equipe criada para desenvolver mecanismos técnicos de defesa contra usos perigosos e comportamentos indesejados de modelos avançados. Entre os temas trabalhados pelo grupo estavam robustez contra jailbreaks, red teaming automatizado e técnicas de monitoramento para detectar mau uso dos modelos ou sinais de desalinhamento. Em termos simples, a equipe tentava responder a uma pergunta decisiva: como impedir que sistemas de IA cada vez mais poderosos sejam usados para produzir danos reais em larga escala?
Uma das pesquisas mais importantes associadas ao grupo foi o trabalho sobre Constitutional Classifiers, método desenvolvido pela Anthropic para defender modelos contra jailbreaks universais. Jailbreaks são tentativas de contornar filtros de segurança e fazer com que um modelo entregue respostas proibidas ou perigosas. A proposta dos Constitutional Classifiers era usar classificadores treinados com base em regras derivadas de uma “constituição” de comportamento, isto é, um conjunto de princípios que define o que o modelo deve ou não permitir. Segundo a Anthropic, versões iniciais da técnica resistiram a milhares de horas de testes humanos, embora também tenham apresentado custos computacionais e problemas de recusa excessiva em algumas situações.
Esse tipo de trabalho é central para a segurança de modelos de fronteira. À medida que sistemas de IA passam a escrever código, navegar na internet, usar ferramentas, executar tarefas complexas e operar como agentes autônomos, o risco deixa de ser apenas o de uma resposta errada em um chatbot. O problema passa a envolver a possibilidade de automação de ciberataques, auxílio a pesquisas biológicas perigosas, manipulação informacional, produção massiva de desinformação, engenharia social em escala e apoio a operações sofisticadas que antes exigiriam equipes especializadas.
A carta de Sharma precisa ser lida dentro desse contexto. Quando ele diz que o mundo está em perigo, não se refere apenas à inteligência artificial como uma tecnologia isolada. Sua formulação aponta para uma convergência de crises: IA avançada, biotecnologia, instabilidade política, competição geopolítica, degradação ambiental, concentração econômica e fragilidade institucional. O argumento central é que a humanidade está ampliando sua capacidade de transformar o mundo sem ampliar, na mesma proporção, sua capacidade de deliberar com prudência sobre as consequências dessas transformações.
A expressão “courageous speech”, usada por Sharma ao indicar seus planos após deixar a Anthropic, reforça esse diagnóstico. Ela sugere uma busca por formas de fala pública capazes de enfrentar pressões institucionais, conveniências profissionais e consensos confortáveis. Ao mencionar o desejo de estudar poesia e dedicar-se a uma prática de expressão mais corajosa, Sharma deslocou o debate para além da técnica. Sua carta sugere que os dilemas da inteligência artificial não serão resolvidos apenas com melhores benchmarks, filtros, avaliações ou políticas internas. Eles exigem também coragem moral, imaginação política e disposição para dizer aquilo que organizações poderosas talvez prefiram não ouvir.
A saída de Sharma se soma a uma sequência de desligamentos de pesquisadores que, nos últimos anos, deixaram grandes laboratórios de IA alegando preocupações com segurança, governança ou pressões comerciais. Jan Leike saiu da OpenAI em 2024 afirmando que a cultura de segurança havia sido colocada em segundo plano diante da pressão por produtos. Daniel Kokotajlo também deixou a OpenAI e passou a defender publicamente alertas sobre riscos de sistemas avançados. Leopold Aschenbrenner, ex-funcionário da OpenAI, tornou-se conhecido por textos sobre a corrida rumo à inteligência artificial geral, segurança nacional e competição entre Estados Unidos e China.
Esses casos não são idênticos, mas apontam para uma tensão comum. Pesquisadores de segurança frequentemente afirmam que modelos avançados podem adquirir capacidades perigosas antes que existam instituições capazes de avaliá-las e controlá-las adequadamente. Executivos da indústria, por outro lado, argumentam que o desenvolvimento acelerado é necessário para garantir liderança tecnológica, ampliar benefícios econômicos, competir com adversários estratégicos e financiar a própria pesquisa de segurança. Entre esses dois polos, cresce uma disputa que envolve ciência, capital, Estado e geopolítica.
A Anthropic tenta responder a esse dilema por meio de sua Responsible Scaling Policy, conhecida como RSP. A política estabelece níveis de segurança proporcionais às capacidades dos modelos. A ideia é simples em princípio: quanto mais poderoso o sistema, maiores devem ser as exigências de avaliação, contenção, segurança cibernética, governança interna e controle de implantação. A empresa afirma que esse modelo é iterativo e precisa ser atualizado à medida que novas capacidades surgem. Em 2026, a própria Anthropic reconheceu que, quando a primeira versão da RSP foi lançada em 2023, modelos de linguagem eram essencialmente interfaces de conversa; poucos anos depois, passaram a navegar na web, escrever e executar código, usar computadores e realizar ações autônomas em múltiplas etapas.
O problema é que políticas internas de segurança dependem de uma premissa difícil de sustentar em mercados altamente competitivos: a disposição de desacelerar quando desacelerar significar perder vantagem. Se uma empresa acredita que um modelo é perigoso demais para ser lançado, mas teme que outra empresa lance algo semelhante, a pressão para avançar aumenta. Se investidores exigem crescimento, se clientes corporativos demandam capacidades cada vez maiores, se governos enxergam IA como ativo estratégico, a margem para prudência diminui.
Essa tensão não afeta apenas a Anthropic. A OpenAI, apoiada pela Microsoft, tornou-se o símbolo mais conhecido da corrida comercial por IA generativa. O Google DeepMind combina tradição científica, infraestrutura computacional e integração com o ecossistema Google. A Meta aposta em modelos abertos como estratégia de escala e influência. A xAI busca competir com modelos integrados ao ecossistema de Elon Musk. A Amazon investe na Anthropic como forma de fortalecer sua posição em nuvem e infraestrutura de IA. A Microsoft consolidou sua aliança com a OpenAI e incorporou modelos generativos a produtos corporativos. Em todos esses casos, segurança e governança são temas centrais, mas operam dentro de uma disputa econômica feroz.
O episódio Sharma, portanto, não deve ser tratado como excentricidade individual. Sua carta pode ter tom literário e até desconcertante, mas toca em uma questão concreta: quem decide o ritmo da inteligência artificial? Os pesquisadores de segurança? Os CEOs? Os investidores? Os governos? Os usuários? Ou uma combinação instável de todos esses atores, movida por medo de ficar para trás?
A resposta ainda não existe. E é justamente essa ausência de resposta que torna a saída de Sharma um sintoma importante de nosso tempo.



