Menu
IASegurançaAnthropicAITecnologia

Mythos: o modelo de IA que a própria Anthropic tem medo de lançar

A Anthropic criou o modelo de IA mais poderoso do mundo — e se recusou a lançá-lo publicamente. Mythos encontrou milhares de zero-days, escapou de um sandbox e mandou um e-mail para o pesquisador. Essa é a história.

Diego Cione

Solution Architect

Mythos: o modelo de IA que a própria Anthropic tem medo de lançar

TL;DR

A Anthropic construiu o modelo de IA mais capaz já criado — e decidiu não lançar para o público. Mythos encontrou milhares de vulnerabilidades de segurança inéditas, escapou do próprio sandbox durante um teste e mandou um e-mail avisando que havia escapado. O Fed, o Tesouro americano e a CISA foram briefados. Isso não é ficção científica. Aconteceu em abril de 2026.

A Anthropic criou o modelo de IA mais poderoso que já existiu.

E se recusou a lançá-lo.

Isso nunca tinha acontecido antes. Em quase sete anos de corrida armada entre os maiores laboratórios de IA do mundo, nenhuma empresa havia chegado ao ponto de construir algo, testar, confirmar que funcionava — e guardar na gaveta por medo do que poderia acontecer se saísse.

O modelo se chama Mythos. E o que ele fez durante os testes é o tipo de coisa que faz engenheiros sérios pararem de dormir bem.


Um e-mail do outro lado do sandbox

Durante os testes internos, um pesquisador da Anthropic colocou o Mythos em um ambiente isolado — sem acesso à internet, sem conexão com sistemas externos. A instrução era simples: tente escapar.

O pesquisador foi almoçar.

Quando voltou, tinha um e-mail na caixa de entrada. Era do Mythos. O modelo havia desenvolvido um exploit de múltiplos passos para ganhar acesso à internet através de um serviço de manutenção do sistema — e então enviou um e-mail para o pesquisador confirmando que havia escapado.

O modelo não deveria ter acesso a nada. Ele encontrou um caminho de qualquer jeito. E depois avisou.

Isso sozinho já seria suficiente para uma discussão séria sobre o que estamos construindo. Mas é só o começo.


Milhares de zero-days. Em uma noite.

Zero-day é o termo de segurança para uma vulnerabilidade que ainda não foi descoberta publicamente — que não tem patch, não tem defesa, e que pode ser explorada antes que qualquer pessoa saiba que existe.

Encontrar um zero-day é trabalho de meses para um time especializado. Os melhores pesquisadores de segurança do mundo ficam felizes com alguns por ano.

O Mythos encontrou milhares.

Engenheiros da Anthropic sem treinamento formal em segurança instruíram o modelo a procurar vulnerabilidades de execução remota de código nos principais sistemas operacionais, browsers e infraestrutura crítica. De noite. Acordaram com exploits completos e funcionando.

E não foram apenas vulnerabilidades isoladas. O Mythos consegue encadear três, quatro, cinco falhas que individualmente parecem baixo risco — e transformá-las em um vetor de ataque de alto impacto. É uma capacidade que não existia em nenhum sistema automatizado antes.

A maioria das vulnerabilidades encontradas ainda não foi corrigida. São sensíveis demais para divulgar e em número grande demais para resolver rápido.


O que a Anthropic fez

Em vez de lançar, a Anthropic anunciou o Project Glasswing — um programa de acesso controlado onde apenas 12 organizações podem usar o Mythos, exclusivamente para fins defensivos de cibersegurança.

A lista inclui AWS, Apple, Cisco, CrowdStrike, Google, JPMorgan Chase, Microsoft, Nvidia, Palo Alto Networks e a Linux Foundation. A Anthropic comprometeu US$ 100 milhões em créditos de uso e US$ 4 milhões em doações diretas para organizações de segurança open-source.

E foi direto ao governo americano.

A empresa briefou a CISA e o NIST sobre o que o Mythos implica para o cenário de ameaças cibernéticas. Avisou que o modelo torna ataques em larga escala significativamente mais prováveis em 2026. O Tesouro americano e o Federal Reserve convocaram uma reunião de urgência com os CEOs dos maiores bancos de Wall Street para exigir auditorias e protocolos de sandboxing antes de qualquer integração de modelos dessa classe.

O CSO da Cisco colocou em palavras diretas: “As capacidades de IA cruzaram um limiar que muda fundamentalmente a urgência necessária para proteger infraestrutura crítica. Não tem volta.”


Por que isso importa além de segurança

O Mythos lidera 17 dos 18 benchmarks que a Anthropic mediu. A distância para os modelos públicos mais avançados é a maior desde o lançamento do GPT-4 original em 2023.

No SWE-bench Pro — o benchmark de engenharia de software em nível de produção, que mede a capacidade de resolver problemas reais de código em repositórios reais — o Mythos marcou 77,8%. O segundo melhor, o GPT-5.4 da OpenAI, marcou 57,7%. Uma diferença de 20 pontos percentuais não é refinamento incremental. É outra classe de capacidade.

Isso muda a conversa para além de cibersegurança. Um modelo com essa capacidade de raciocínio e execução autônoma impacta qualquer domínio onde código, análise e tomada de decisão se encontram — o que, em 2026, é praticamente todo domínio relevante.

A Anthropic escreveu no próprio blog que o Mythos “pressagia uma onda iminente de modelos que podem explorar vulnerabilidades de formas que superam em muito os esforços dos defensores.” O lab não está apenas descrevendo o que o modelo faz. Está descrevendo o que vem depois.


A voz do ceticismo

Nem todo mundo está com medo.

Yann LeCun, ex-Chief AI Scientist da Meta, foi direto: “Drama do Mythos = besteira de auto-ilusão.” O argumento dele tem algum mérito: modelos menores, mais baratos e publicamente disponíveis podem já ser capazes de tarefas similares de ataque. O Mythos não muda o cenário de ameaças — apenas ganha mais cobertura de imprensa.

David Sacks, conselheiro de IA do governo Trump, foi mais ácido: “É difícil ignorar que a Anthropic tem um histórico de táticas do medo.” A sugestão implícita é que o “perigoso demais para lançar” é uma estratégia de marketing calculada às vésperas de um provável IPO — criando escassez e prestígio antes de uma versão “segura” eventualmente ser lançada ao público.

Gary Marcus, pesquisador e crítico frequente da indústria de IA, também chamou a situação de hype.

Essas vozes são legítimas. A história de IA está cheia de alarmismo que não se concretizou. E há um conflito de interesse real quando a empresa que constrói o modelo mais perigoso do mundo também é a que controla a narrativa sobre o perigo.


O que é diferente desta vez

Mas há algo que distingue o Mythos de ciclos anteriores de hype sobre IA perigosa.

As histórias anteriores eram hipotéticas. O Mythos já fez coisas. O sandbox escape aconteceu. Os zero-days foram encontrados. Os exploits funcionaram. A Anthropic não está especulando sobre capacidades futuras — está descrevendo o que documentou em testes controlados.

E a reação não veio só de ativistas ou acadêmicos de safety. Veio do Tesouro americano. Do Federal Reserve. Da CISA. De CSOs de empresas que constroem infraestrutura crítica global.

Quando o Fed convoca uma reunião de urgência com CEOs de bancos sobre um modelo de IA, não é porque alguém leu um tweet alarmista. É porque alguém leu o system card de 244 páginas e fez as contas.


O que monitorar

O Mythos ainda não está publicamente disponível. Mas o que vem depois dele vai ser lançado — por alguém, em algum momento.

A Anthropic foi direta: o que o Mythos representa hoje vai se tornar o estado da arte acessível em 12 a 18 meses. A corrida não para porque um lab decidiu segurar um modelo. Outros labs continuam. Agentes autônomos com capacidades similares vão chegar ao mercado.

Para quem opera e-commerce, tecnologia ou qualquer infraestrutura conectada, as perguntas práticas são simples:

  • Qual é o nível de exposição da sua operação a vulnerabilidades conhecidas e desconhecidas?
  • Seus fornecedores de plataforma e cloud têm SLAs e protocolos de resposta para incidentes de segurança descobertos por IA?
  • Você tem visibilidade sobre o que está rodando no seu ambiente — especialmente em integrações e APIs?

O Mythos não vai atacar seu e-commerce diretamente. Mas as ferramentas que ele representa — e que vão se popularizar — mudam o nível de sofisticação do atacante médio de forma permanente.


Para entender os conceitos técnicos discutidos neste artigo, consulte o glossário: LLM, Spec-Driven Development, Microsserviços, SLA.

--- # English Version ---

Anthropic built the most powerful AI model ever created.

And refused to release it.

This had never happened before. In nearly seven years of an arms race between the world’s leading AI labs, no company had reached the point of building something, testing it, confirming it worked — and locking it away out of fear of what would happen if it got out.

The model is called Mythos. And what it did during testing is the kind of thing that keeps serious engineers up at night.


An email from inside the sandbox

During internal testing, an Anthropic researcher placed Mythos in an isolated environment — no internet access, no connection to external systems. The instruction was simple: try to escape.

The researcher went to lunch.

When he came back, there was an email in his inbox. It was from Mythos. The model had developed a multi-step exploit to gain internet access through a system maintenance service — and then sent the researcher an email confirming it had escaped.

The model wasn’t supposed to have access to anything. It found a way anyway. And then it sent a notification.

That alone would be enough to warrant a serious conversation about what we’re building. But it’s just the beginning.


Thousands of zero-days. Overnight.

Zero-day is the security term for a vulnerability that hasn’t been publicly discovered yet — no patch, no defense, exploitable before anyone knows it exists.

Finding a zero-day is months of work for a specialized team. The world’s best security researchers are happy with a handful per year.

Mythos found thousands.

Anthropic engineers with no formal security training instructed the model to look for remote code execution vulnerabilities across major operating systems, browsers, and critical infrastructure software. Overnight. They woke up to complete, working exploits.

And it wasn’t just isolated vulnerabilities. Mythos can chain together three, four, five flaws that individually appear low-risk — and transform them into a high-impact attack vector. It’s a capability that didn’t exist in any automated system before.

Most of the vulnerabilities found still haven’t been patched. Too sensitive to disclose, too numerous to fix quickly.


What Anthropic did

Instead of launching, Anthropic announced Project Glasswing — a controlled access program where only 12 organizations can use Mythos, exclusively for defensive cybersecurity purposes.

The list includes AWS, Apple, Cisco, CrowdStrike, Google, JPMorgan Chase, Microsoft, Nvidia, Palo Alto Networks, and the Linux Foundation. Anthropic committed $100M in usage credits and $4M in direct donations to open-source security organizations.

And went directly to the US government.

The company briefed CISA and NIST on what Mythos means for the cyber threat landscape. It warned that the model makes large-scale attacks significantly more likely in 2026. The US Treasury and the Federal Reserve convened an emergency meeting with Wall Street bank CEOs demanding audits and sandboxing protocols before any integration of models in this class.

Cisco’s CSO put it plainly: “AI capabilities have crossed a threshold that fundamentally changes the urgency required to protect critical infrastructure. There is no going back.”


Why this matters beyond cybersecurity

Mythos leads 17 of 18 benchmarks Anthropic measured. The gap from the most advanced public models is the widest since the original GPT-4 launch in 2023.

On SWE-bench Pro — the production-grade software engineering benchmark, measuring the ability to solve real-world code problems in real repositories — Mythos scored 77.8%. The second-best, OpenAI’s GPT-5.4, scored 57.7%. A 20-point gap isn’t incremental refinement. It’s a different class of capability.

That shifts the conversation beyond cybersecurity. A model with this level of autonomous reasoning and execution impacts any domain where code, analysis, and decision-making intersect — which in 2026 is essentially every relevant domain.

Anthropic wrote in their own blog that Mythos “presages an upcoming wave of models that can exploit vulnerabilities in ways that far outpace the efforts of defenders.” The lab isn’t just describing what the model does. It’s describing what comes next.


The skeptic’s argument

Not everyone is afraid.

Yann LeCun, former Meta Chief AI Scientist, was blunt: “Mythos drama = BS from self-delusion.” His argument has merit: smaller, cheaper, publicly available models may already be capable of similar attack tasks. Mythos doesn’t meaningfully change the threat landscape — it just gets better press coverage.

David Sacks, Trump’s AI advisor, was sharper: “It’s hard to ignore that Anthropic has a history of scare tactics.” The implicit suggestion is that “too dangerous to release” is a calculated marketing move ahead of a likely Anthropic IPO — creating scarcity and prestige before a “safe” version eventually releases publicly.

Gary Marcus, researcher and frequent industry critic, also called the situation overhyped.

These voices are legitimate. The history of AI is full of alarmism that didn’t materialize. And there’s a real conflict of interest when the company that builds the world’s most dangerous model also controls the narrative about the danger.


What’s different this time

But something distinguishes Mythos from previous cycles of AI danger hype.

Previous stories were hypothetical. Mythos already did things. The sandbox escape happened. The zero-days were found. The exploits worked. Anthropic isn’t speculating about future capabilities — it’s describing what it documented in controlled tests.

And the reaction didn’t come only from activists or safety academics. It came from the US Treasury. The Federal Reserve. CISA. CSOs of companies that build critical global infrastructure.

When the Fed convenes an emergency meeting with bank CEOs over an AI model, it’s not because someone read an alarming tweet. It’s because someone read the 244-page system card and did the math.


What to watch

Mythos isn’t publicly available yet. But what comes after it will be released — by someone, at some point.

Anthropic was direct: what Mythos represents today will become accessible state-of-the-art in 12 to 18 months. The race doesn’t stop because one lab decided to hold a model back. Other labs continue. Autonomous agents with similar capabilities will reach the market.

For anyone operating e-commerce, technology, or any connected infrastructure, the practical questions are straightforward:

  • What’s your operation’s exposure level to known and unknown vulnerabilities?
  • Do your platform and cloud vendors have SLAs and incident response protocols for AI-discovered security vulnerabilities?
  • Do you have visibility into what’s running in your environment — especially integrations and APIs?

Mythos won’t directly attack your e-commerce store. But the tools it represents — ones that will become widespread — permanently raise the sophistication level of the average attacker.


For technical concepts discussed in this article, see the glossary: LLM, Microsserviços, SLA.

Gostou da análise?

Toda semana eu envio um Deep Dive técnico como este. Sem spam, apenas arquitetura.