
Em testes de benchmark, nova versão do chatbot da xAI se mostrou superior a seus concorrentes. Musk apresentou Grok 3 com engenheiros da xAI

xAI: Grok 3 é bem mais turbinado e esperto que seu antecessor
Musk explicou que foram alguns meses de testes, além de que o mega data center da xAI, recém-construído e concluído em tempo recorde, foi vital para a evolução da IA da empresa. Foram 122 dias para colocar 100 mil GPUs funcionando e outros 92 para duplicar este número.
- Segundo a equipe, o Grok 3 foi desenvolvido com dez vezes mais computação do que o Grok 2;
- Nos benchmarks da xAI, o novo modelo de IA foi testado em questões matemáticas e modelos que usam problemas de física, biologia e química em nível de doutorado. Ao todo, os modelos testados foram:
- Grok-3;
- Grok-3 mini;
- Gemini-2 Pro;
- DeepSeek-V3;
- Claude 3.5 Sonnet;
- Gpt-4o;
- Em todos eles, a dupla da xAI foi ou ligeiramente, ou bem superior, como você pode ver no gráfico abaixo.

Nos testes de raciocínio e computação de teste de tempo, o Grok-3 e o Grok-3 mini também foram superiores aos demais. Veja o gráfico abaixo:

Houve, ainda, um teste cego realizado no Chatbot Arena (teste de crowdsourcing que coloca vários modelos de IA para competir entre si, permitindo aos usuários que escolham a melhor resposta), no qual a IA, então com codinome “chocolate“, venceu todas as suas adversárias.
O Grok 3 obteve 1,4 mil pontos, ante pouco mais de 1,38 mil do segundo colocado, o gemini-2.0-flash-thinking-exp-01-21, do Google. Veja o gráfico a seguir:

Segundo Musk, a nova IA foi treinada com vários processos judiciais arquivados. “O Grok 3 é uma ordem de magnitude mais capaz do que o Grok 2”, disse, durante a apresentação. “[É] IA que busca a verdade, mesmo que essa verdade, às vezes, esteja em desacordo com o que é politicamente correto.”
Além disso, o Grok 3 mini é uma versão mais ágil do original, pois responde às perguntas mais rapidamente, mas com menor precisão.
Testes em tempo real
Para mostrar o poder de raciocínio da versão três do Grok, Musk pediu ao chatbot uma tarefa complexa: criar um código, escrito em Phyton, que demonstrasse, em gráfico 3D animado, um lançamento de um foguete da Terra pousando em Marte e, depois, de volta à Terra na janela de lançamento seguinte.

Após alguns pequenos bugs nas primeiras tentativas, o modelo levou 114 segundos (1m54s) para montar o modelo e executá-lo com sucesso. O outro teste solicitado pela equipe foi para que o chatbot criasse um jogo baseado no Tetris e no Bejeweled.
O Grok 3 criou as regras e colocou uma “demo” do game para rodar e ser testada pelos engenheiros e Musk, mas, segundo o grupo, ele apresentou resultados distintos em testes anteriores.
Novas funções
Reasoning, “Think” e “Big Brain”
O Grok 3 e o mini são abastecidos com o Reasoning, que permite que eles “pensem” com mais calma e cautela nos problemas apresentados a ele, similar ao o3-mini, da OpenAI, e ao R1, da DeepSeek.
Ou seja, eles demoram mais a responder, pois verificam os dados pesquisados com mais cautela, diminuindo o risco de erros nas informações e inverdades. A versão “menos” pensante é o “Think“, mas, se o usuário quer que o Grok use mais poder de computação para raciocinar, pode selecionar a opção “Big Brain“.
Assim como no ChatGPT, por exemplo, o Grok 3 permitirá que o usuário veja parte do raciocínio utilizado pelo modelo de IA, mas não todo, pois, segundo Musk, eles temem a chamada destilação, quando desenvolvedores de modelos de IA extraem conhecimento de modelos rivais para ensinar os seus.
DeepSearch
O DeepSearch promete ser a ferramenta mais interessante e útil para qualquer usuário, sendo uma resposta direta às ferramentas que utilizam de pesquisa mais aprimorada alimentadas por IA, como as da OpenAI.
Segundo Musk, ele permite que o Grok vasculhe toda a internet e o X para trazer um verdadeiro resumo bem minucioso e detalhado sobre o que foi pesquisado pelo usuário.
Segundo Musk, “[o recurso] vai economizar muito tempo seu, pois, ao invés de você gastar meia hora fazendo buscas em redes sociais e na internet, ele faz isso para você“.

Grok 3: disponibilidade, modo de voz e SuperGrok
O Grok 3 será liberado ainda nesta terça-feira (18) para assinantes do X Premium+ e, nos próximos dias, para os demais usuários sem assinatura.
Além disso, Musk anunciou o SuperGrok, uma espécie de assinatura à parte e apenas do Grok, separada da assinatura do X. Ele custará US$ 30 (R$ 171,29, na conversão direta) por mês, ou US$ 300 (R$ 1,71 mil) por ano.
Além de já garantir acesso ao Grok 3, o SuperGrok permite acesso antecipado às últimas novidades do modelo da xAI, raciocínios adicionais, mais consultas ao DeepSearch e geração de imagens ilimitada.
Em cerca de uma semana, outra grande novidade chega aos usuários do chatbot: o modo de voz, no qual as pessoas poderão conversar por voz com o Grok, que responderá com voz sintetizada.
Depois, a empresa vai liberar a terceira geração do modelo de IA à sua API corporativa, bem como o DeepSearch. Por fim, em até dois meses, a companhia vai disponibilizar o código do Grok 2. Musk afirmou que, antes precisam que o Grok 3 esteja “maduro e estável”.