O primeiro benchmark honesto para agentes de IA acabou de chegar. A China está dez pontos atrás, não dez anos.

O SaaS-Bench da UniPat testou 14 modelos de fronteira em trabalho profissional real através de 23 sistemas SaaS de produção. Claude Opus 4.7 liderou com 43,9%. Kimi K2.6 ficou em quinto, com 34,1%. A história do compute por trás dessa diferença é a que o Brasil deveria estar lendo.

A UniPat AI publicou ontem o SaaS-Bench, o primeiro benchmark que coloca agentes de uso de computador dentro de 23 sistemas software-as-a-service reais e implantáveis, e pede que completem 106 fluxos profissionais, fechamentos financeiros, auditorias de mesclagem de prontuários médicos, execução de testes de regressão, distribuição de relatórios entre equipes, com média superior a 100 passos de interação cada [UniPat AI, 25 de maio de 2026]. O benchmark é o primeiro a avaliar agentes no tipo de trabalho que efetivamente sustenta as operações de suporte de uma empresa moderna, em vez de em sites de brinquedo e tarefas isoladas de página única.

Os números em destaque são severos para a tese otimista da IA agêntica, e informativos para todos que acompanham a economia de materiais por trás do compute de IA.

O que está acontecendo

O melhor modelo, Claude Opus 4.7, marcou 43,9% na métrica ponderada de checkpoints e resolveu apenas 3,8% das tarefas de ponta a ponta [UniPat AI, 25 de maio de 2026]. Agentes conseguem progredir em fluxos profissionais. Quase nunca terminam.
O leaderboard, em ordem: Claude Opus 4.7 (43,9), GPT-5.5 High (43,8), Claude Opus 4.6 (43,2), GPT-5.4 High (37,0), Kimi K2.6 (34,1), Qwen 3.6 Plus (29,9), Kimi K2.5 (27,7), Gemini 3.1 Pro (27,1), Doubao Seed 2.0 Pro (27,1), Gemini 3.5 Flash High (23,3), Claude Sonnet 4.6 (23,3), DeepSeek V4 Pro (21,5 apenas em texto), GLM-5.1 (17,4 apenas em texto), MiniMax M2.7 (15,8 apenas em texto) [UniPat AI, 25 de maio de 2026].
Quatro modelos treinados na China estão entre os dez primeiros: Kimi K2.6 (Moonshot) em quinto, Qwen 3.6 Plus (Alibaba) em sexto, Kimi K2.5 (Moonshot) em sétimo, Doubao Seed 2.0 Pro (ByteDance) em nono. DeepSeek V4 Pro, GLM-5.1 (Zhipu) e MiniMax M2.7 são entradas apenas em texto que ficaram mais atrás.
O paper identifica quatro modos estruturais de falha: fragilidade de conclusão em horizonte longo (um campo errado em uma trajetória 80% correta zera a pontuação resolvida), cascata de erros entre aplicativos, agentes declarando sucesso sem reverificar resultados observáveis, e alta variância em execução única (o mesmo Claude Sonnet 4.6 marcou 0,00 e 0,68 em tarefas idênticas).
Permitir pass at three em vez de pass at one elevou pontuações parciais em cerca de oito pontos, mas não fechou a diferença na pontuação resolvida. A confiabilidade, não a capacidade, é a restrição vinculante.

Ângulo Brasil

A leitura brasileira disso é uma que Brasília ainda não fez.

Todo agente neste leaderboard, quando implantado em escala, vai precisar rodar em infraestrutura física de compute que depende de cobre, níquel, ímãs de terras raras e gálio para os chips, aço com nióbio para as linhas de transmissão que movem a eletricidade para dentro, e hélio para a litografia que imprime a próxima geração de aceleradores. O Brasil fornece, no mínimo, noventa por cento do nióbio global através da CBMM em Araxá [USGS Mineral Commodity Summaries 2025], detém a terceira maior reserva conhecida de terras raras, com a Serra Verde produzindo comercialmente desde 2024, tem o Vale do Lítio no Vale do Jequitinhonha mirando aproximadamente vinte por cento da capacidade global de espodumênio até 2030, e está sobre potencial inexplorado de hélio nas bacias do Solimões e do Parnaíba [registros ANP, domínio público].

Os números do SaaS-Bench reenquadram como ler essa exposição. Se modelos chineses estão dez pontos percentuais atrás da fronteira americana em tarefas agênticas de nível profissional, e a diferença se estreita a cada trimestre, então a construção de IA agêntica não vai se bifurcar limpamente ao longo da linha EUA-China que o regime de controle de exportação de chips assume. Dois dos dez melhores modelos no SaaS-Bench são chineses. O compute deles vai ser adquirido, e os materiais por trás desse compute vão ser adquiridos em algum lugar, e o Brasil é um fornecedor mais acessível para ambos os blocos do que quase qualquer produtor alternativo na geografia preferida de qualquer das jurisdições.

A oportunidade estrutural é ser o fornecedor de materiais que nenhum bloco consegue sancionar para fora do outro. O risco estrutural é continuar permanecer como exportador de matéria-prima enquanto o valor migra a jusante para quem processa, refina e integra.

Ângulo EUA

A lógica estratégica de Washington no regime de controle de exportação de chips assume uma diferença de vários anos entre a capacidade de fronteira dos EUA e da China que justifica restrições unilaterais de curto prazo sob a premissa de que a China não vai alcançar antes que os controles funcionem. O SaaS-Bench, com sua avaliação honesta de conclusão real de fluxos, é o tipo de dado público que corrói essa premissa.

Anthropic e OpenAI mantêm uma liderança real nas tarefas mais exigentes: o Claude Opus 4.7 superou cada entrada chinesa por aproximadamente dez pontos de checkpoint, e a diferença na pontuação resolvida é maior em termos percentuais porque pontuações resolvidas compõem. Mas o Kimi K2.6 a 34,1% no geral, com 50,1% em agricultura e 39,5% em mídia, categorias que mapeiam para casos de uso comercial chineses, é competitivo o suficiente para que compradores corporativos fora do envelope de segurança dos EUA tenham uma alternativa crível quando precisam.

Para o Defense Production Act e o impulso de minerais críticos vinculado ao IRA, a leitura é que o cenário de demanda para o qual a construção está sendo dimensionada (toda empresa implanta apenas agentes de fronteira) é menos provável do que o cenário onde múltiplas famílias críveis de modelos coexistem e a aquisição se diversifica entre elas. Isso aumenta, não diminui, a demanda total de materiais. Também distribui essa demanda entre mais geografias de compute, o que torna a diversificação da base de oferta mais racional no cronograma de políticas, não menos.

Ângulo China

A cadência de lançamento da Moonshot no Kimi conta sua própria história. K2.5 (fevereiro de 2026) marcou 27,7% no SaaS-Bench. K2.6 (abril de 2026) marcou 34,1%. Um ganho de seis pontos em dois meses em um benchmark de fluxo real é rápido por qualquer padrão de modelo de fronteira. Qwen 3.6 Plus da Alibaba e Doubao Seed 2.0 Pro da ByteDance estão a três pontos um do outro e a quatro pontos do Kimi K2.6.

Esses não são marcos de laboratório. São os modelos que clientes corporativos chineses, e cada vez mais clientes no Sudeste Asiático, no Golfo e seletivamente na América Latina, vão implantar em fluxos reais nos próximos doze a vinte e quatro meses. Cada implantação é uma decisão de aquisição de aceleradores, memória, rede e os materiais a montante que entram neles.

O enquadramento do MIIT dos controles de exportação de terras raras e gálio como política permanente de segurança nacional [Reuters, 20 de maio de 2026] agora lê menos como alavancagem e mais como fundação. Pequim está estabelecendo as condições sob as quais as construções de agentes de ambos os blocos têm que se abastecer de um conjunto restrito de produtores.

O que isso significa

Três implicações para a cobertura do desk.

Um. A construção investível de IA agêntica não é uma história de bloco único. A convergência de capacidade entre a fronteira americana e os melhores modelos chineses significa que a demanda por materiais vai ser adquirida através de múltiplas cadeias de suprimento de compute, não uma só. Isso favorece materiais com geografia de oferta limpa e neutra sobre aqueles com exposição concentrada a um único país. O SDX (Índice de Diversificação do Sul do desk, fechando a semana de 22 de maio em 96,1) está posicionado exatamente para essa tese, e os dados do SaaS-Bench fortalecem, não enfraquecem, o caso long-SDX.

Dois. Confiabilidade, não capacidade bruta, é a restrição vinculante para a adoção de agentes. Isso favorece infraestrutura que suporta redundância, retry e estratégias ensemble, o que favorece mais compute por tarefa, não menos. O Índice Tantalum de Materiais para IA (TAI, 102,4 no fechamento de 22 de maio) acompanha o lado dos materiais dessa construção. A leitura estrutural continua sendo que o compute por agente implantado escala mais rápido do que a contagem de agentes implantados, porque a confiabilidade exige isso.

Três. O debate sobre a bolha da IA agêntica está fazendo a pergunta errada. Se os modelos são capazes o suficiente para substituir o trabalho intelectual não é a pergunta vinculante. Se são confiáveis o suficiente em escala para serem implantados sem verificação humana contínua é. A resposta pelo SaaS-Bench é não, ainda não, e o caminho para sim passa por mais compute e melhor ferramental, não modelos diferentes. Os materiais por trás desse caminho são a cobertura do desk.

O que observar

Cronograma de lançamento do Moonshot Kimi K3. O salto de K2.5 para K2.6 foi de dois meses. Se K3 aterrissar até agosto de 2026 com mais seis a oito pontos de ganho, a diferença na pontuação resolvida se fecha de forma significativa e a tese de diversificação de aquisição se solidifica.
Divulgação de utilização de capacidade da CBMM no Q3 de 2026. A demanda por nióbio do aço de construção de rede é a leitura mais direta sobre se o gasto de infraestrutura de IA dos EUA e China está se convertendo em construção real. O relatório anual da CBMM é publicado em março; a utilização trimestral de capacidade deve aparecer até outubro.
Fechamento do pacote de empréstimo da USA Rare Earth (NASDAQ: USAR). A LOI não vinculante para aproximadamente US$ 1,6 bilhão em financiamento federal para o depósito de terras raras pesadas Round Top e capacidade integrada de ímãs NdFeB, divulgada em janeiro de 2026 [arquivo SEC da USAR, janeiro de 2026], é o indicador de se a tese de diversificação de aquisição do Pentágono está sendo capitalizada em escala ou continua retórica.

Tantalum Strategy