A UniPat AI publicou ontem o SaaS-Bench, o primeiro benchmark que coloca agentes de uso de computador dentro de 23 sistemas software-as-a-service reais e implantáveis, e pede que completem 106 fluxos profissionais, fechamentos financeiros, auditorias de mesclagem de prontuários médicos, execução de testes de regressão, distribuição de relatórios entre equipes, com média superior a 100 passos de interação cada [UniPat AI, 25 de maio de 2026]. O benchmark é o primeiro a avaliar agentes no tipo de trabalho que efetivamente sustenta as operações de suporte de uma empresa moderna, em vez de em sites de brinquedo e tarefas isoladas de página única.

Os números em destaque são severos para a tese otimista da IA agêntica, e informativos para todos que acompanham a economia de materiais por trás do compute de IA.

O que está acontecendo

Ângulo Brasil

A leitura brasileira disso é uma que Brasília ainda não fez.

Todo agente neste leaderboard, quando implantado em escala, vai precisar rodar em infraestrutura física de compute que depende de cobre, níquel, ímãs de terras raras e gálio para os chips, aço com nióbio para as linhas de transmissão que movem a eletricidade para dentro, e hélio para a litografia que imprime a próxima geração de aceleradores. O Brasil fornece, no mínimo, noventa por cento do nióbio global através da CBMM em Araxá [USGS Mineral Commodity Summaries 2025], detém a terceira maior reserva conhecida de terras raras, com a Serra Verde produzindo comercialmente desde 2024, tem o Vale do Lítio no Vale do Jequitinhonha mirando aproximadamente vinte por cento da capacidade global de espodumênio até 2030, e está sobre potencial inexplorado de hélio nas bacias do Solimões e do Parnaíba [registros ANP, domínio público].

Os números do SaaS-Bench reenquadram como ler essa exposição. Se modelos chineses estão dez pontos percentuais atrás da fronteira americana em tarefas agênticas de nível profissional, e a diferença se estreita a cada trimestre, então a construção de IA agêntica não vai se bifurcar limpamente ao longo da linha EUA-China que o regime de controle de exportação de chips assume. Dois dos dez melhores modelos no SaaS-Bench são chineses. O compute deles vai ser adquirido, e os materiais por trás desse compute vão ser adquiridos em algum lugar, e o Brasil é um fornecedor mais acessível para ambos os blocos do que quase qualquer produtor alternativo na geografia preferida de qualquer das jurisdições.

A oportunidade estrutural é ser o fornecedor de materiais que nenhum bloco consegue sancionar para fora do outro. O risco estrutural é continuar permanecer como exportador de matéria-prima enquanto o valor migra a jusante para quem processa, refina e integra.

Ângulo EUA

A lógica estratégica de Washington no regime de controle de exportação de chips assume uma diferença de vários anos entre a capacidade de fronteira dos EUA e da China que justifica restrições unilaterais de curto prazo sob a premissa de que a China não vai alcançar antes que os controles funcionem. O SaaS-Bench, com sua avaliação honesta de conclusão real de fluxos, é o tipo de dado público que corrói essa premissa.

Anthropic e OpenAI mantêm uma liderança real nas tarefas mais exigentes: o Claude Opus 4.7 superou cada entrada chinesa por aproximadamente dez pontos de checkpoint, e a diferença na pontuação resolvida é maior em termos percentuais porque pontuações resolvidas compõem. Mas o Kimi K2.6 a 34,1% no geral, com 50,1% em agricultura e 39,5% em mídia, categorias que mapeiam para casos de uso comercial chineses, é competitivo o suficiente para que compradores corporativos fora do envelope de segurança dos EUA tenham uma alternativa crível quando precisam.

Para o Defense Production Act e o impulso de minerais críticos vinculado ao IRA, a leitura é que o cenário de demanda para o qual a construção está sendo dimensionada (toda empresa implanta apenas agentes de fronteira) é menos provável do que o cenário onde múltiplas famílias críveis de modelos coexistem e a aquisição se diversifica entre elas. Isso aumenta, não diminui, a demanda total de materiais. Também distribui essa demanda entre mais geografias de compute, o que torna a diversificação da base de oferta mais racional no cronograma de políticas, não menos.

Ângulo China

A cadência de lançamento da Moonshot no Kimi conta sua própria história. K2.5 (fevereiro de 2026) marcou 27,7% no SaaS-Bench. K2.6 (abril de 2026) marcou 34,1%. Um ganho de seis pontos em dois meses em um benchmark de fluxo real é rápido por qualquer padrão de modelo de fronteira. Qwen 3.6 Plus da Alibaba e Doubao Seed 2.0 Pro da ByteDance estão a três pontos um do outro e a quatro pontos do Kimi K2.6.

Esses não são marcos de laboratório. São os modelos que clientes corporativos chineses, e cada vez mais clientes no Sudeste Asiático, no Golfo e seletivamente na América Latina, vão implantar em fluxos reais nos próximos doze a vinte e quatro meses. Cada implantação é uma decisão de aquisição de aceleradores, memória, rede e os materiais a montante que entram neles.

O enquadramento do MIIT dos controles de exportação de terras raras e gálio como política permanente de segurança nacional [Reuters, 20 de maio de 2026] agora lê menos como alavancagem e mais como fundação. Pequim está estabelecendo as condições sob as quais as construções de agentes de ambos os blocos têm que se abastecer de um conjunto restrito de produtores.

O que isso significa

Três implicações para a cobertura do desk.

Um. A construção investível de IA agêntica não é uma história de bloco único. A convergência de capacidade entre a fronteira americana e os melhores modelos chineses significa que a demanda por materiais vai ser adquirida através de múltiplas cadeias de suprimento de compute, não uma só. Isso favorece materiais com geografia de oferta limpa e neutra sobre aqueles com exposição concentrada a um único país. O SDX (Índice de Diversificação do Sul do desk, fechando a semana de 22 de maio em 96,1) está posicionado exatamente para essa tese, e os dados do SaaS-Bench fortalecem, não enfraquecem, o caso long-SDX.

Dois. Confiabilidade, não capacidade bruta, é a restrição vinculante para a adoção de agentes. Isso favorece infraestrutura que suporta redundância, retry e estratégias ensemble, o que favorece mais compute por tarefa, não menos. O Índice Tantalum de Materiais para IA (TAI, 102,4 no fechamento de 22 de maio) acompanha o lado dos materiais dessa construção. A leitura estrutural continua sendo que o compute por agente implantado escala mais rápido do que a contagem de agentes implantados, porque a confiabilidade exige isso.

Três. O debate sobre a bolha da IA agêntica está fazendo a pergunta errada. Se os modelos são capazes o suficiente para substituir o trabalho intelectual não é a pergunta vinculante. Se são confiáveis o suficiente em escala para serem implantados sem verificação humana contínua é. A resposta pelo SaaS-Bench é não, ainda não, e o caminho para sim passa por mais compute e melhor ferramental, não modelos diferentes. Os materiais por trás desse caminho são a cobertura do desk.

O que observar