Grok do X se saiu surpreendentemente bem em meus testes de codificação de IA

Grok em um iPhone acima de um plano de fundo de codificação.

ZDNET

Quando o X lançou seu chatbot pela primeira vez, ele estava atrás de um acesso pago. Mas apesar do TANSTAAFL, X recentemente abriu Grok para o mundo. Então decidi fazer meus testes de programação.

Além disso: como eu testo a capacidade de codificação de um chatbot de IA – e você também pode

Sempre fiquei um pouco intrigado com Grok por causa do nome. Grok foi cunhado por Robert Heinlein, um dos meus escritores de ficção científica favoritos. Dou todo o crédito a Heinlein por distorcer meu jovem cérebro.

Meus pais controlavam rigidamente a mídia a que eu tinha acesso com base no que eles consideravam saudável. Mas eles me deram liberdade para ler qualquer ficção científica limitada que pudesse encontrar na biblioteca local – porque a palavra ciência significava que tinha que ser educacional.

Sem se interessar muito por Heinlein, digamos apenas que ele tinha uma mente muito aberta quando se tratava de normas sociais. Ele escreveu histórias poderosas, incluiu temas maravilhosos relacionados à ciência em suas narrativas e muitas vezes injetou comentários sociais profundos em seus livros.

Além disso: A melhor IA para codificação em 2025 (e o que não usar)

Ele também cunhou o termo “grok” como uma palavra marciana com muitos significados amplos. Aparecendo pela primeira vez em Estranho em uma terra estranhapode ser interpretado como significando “eu entendo”, com essa compreensão existindo em um nível profundo e fundamental. Como tal, é um nome perfeito para um chatbot de IA.

Exceto…

tiro limpo-2025-01-04-at-16-23-442x

Captura de tela de David Gewirtz/ZDNET

Quando perguntei a Grok sobre qual LLM (modelo de linguagem grande) ele usa, ele decidiu também me dizer que foi inspirado na inteligência e na rebeldia do Guia do Mochileiro das Galáxias. Embora o Mochileiro tenha inteligência e rebeldia, ele não inclui a palavra “grok”.

E com isso, vamos mergulhar nos meus testes de programação.

1. Escrevendo um plugin para WordPress

Este é um teste de codificação que requer que a IA conheça programação PHP e como construir um plugin WordPress. Na verdade, nasceu de um pedido real de minha esposa, que precisava de uma ferramenta para randomizar e classificar nomes, mas com uma diferença.

Além disso: O que os usuários do WordPress precisam saber sobre o conflito entre Automattic e WP Engine

Todo mês, ela administra um dispositivo de envolvimento em seu site de comércio eletrônico que escolhe vários nomes aleatoriamente. O problema é que alguns de seus usuários recebem várias entradas se enviarem vários projetos. Portanto, o randomizador precisa gerenciar vários nomes, mas também separá-los para que não fiquem lado a lado nos resultados.

Finalmente, o código tinha que fornecer uma interface de usuário boa e clara para que ela pudesse simplesmente colar os nomes, clicar em um botão e recuperar sua lista.

tiro limpo-2025-01-04-at-16-25-492x

Captura de tela de David Gewirtz/ZDNET

Passei essa tarefa para Grok e ela foi bem-sucedida. A interface foi organizada de forma limpa e funcional. E, o mais importante, fez o que o código deveria fazer, randomizando e separando os nomes com sucesso. Eu dou uma vitória a este teste.

tiro limpo-2025-01-04-at-16-21-192x

Captura de tela de David Gewirtz/ZDNET

2. Reescrevendo uma função de string

Meu segundo teste resolve um problema relatado pela primeira vez por um usuário. O código que eu enviei foi projetado para testar se um número inserido por um usuário estava em dólares e centavos válidos. Meu erro foi que o código só permitia números inteiros, então você poderia doar $ 5, mas não $ 5,25.

Grok reescreveu com sucesso o código da expressão regular. Está muito perto de uma vitória, mas tenho que reprovar porque o código que ele gera não permite números como 0,5, que é um valor monetário válido. Ele permite 0,5, mas nem todo usuário escolheria acrescentar um zero ao valor de centavos.

Também: O X de Elon Musk agora treina Grok em seus dados por padrão – veja como cancelar

Ele também usa um mecanismo bastante ineficiente para fazer conversões duplas e não lida adequadamente com strings que não podem ser convertidas em um número.

Até agora, estamos com uma vitória e uma derrota.

3. Encontrando um bug irritante

O terceiro teste requer conhecimento da estrutura e da API do WordPress porque o bug que estou pedindo à IA para encontrar é sutil e resulta de uma interpretação incorreta dos requisitos da API do WordPress.

Vários LLMs que testei erraram no problema (como fiz durante horas ao tentar depurá-lo). Mas Grok grocou o problema e me deu uma resposta útil e funcionalmente correta.

Isso nos leva a duas vitórias e uma derrota, colocando Grok à frente de quase metade dos outros LLMs testados anteriormente. Vamos ver como fica no quarto e último teste.

4. Escrevendo um roteiro

Este é um teste difícil porque exige que a IA esteja ciente de uma ferramenta de script vertical de volume bastante baixo para Mac chamada Keyboard Maestro. Também exige que a IA seja capaz de escrever código para três ambientes separados ao mesmo tempo: Keyboard Maestro, Chrome e AppleScript.

Até agora, apenas Google Gemini e ChatGPT executando GPT-4 e LLM superior passaram neste teste. Até o ChatGPT 3.5 falhou.

Mas temos uma nova IA que pode lidar com esse nível de desafio de codificação: Grok. Isso dá ao Grok três vitórias em quatro, o que o coloca à frente de qualquer outra IA não baseada em ChatGPT LLM.

Considerações finais

No geral, Grok se manteve firme. Se tivesse permitido apenas um valor de moeda sem zero à esquerda, teria obtido uma pontuação perfeita. Não tenho certeza de como me sinto sobre todas as mudanças no X desde que ele substituiu o Twitter, mas Grok parece ser um chatbot bastante formidável, pelo menos quando se trata de proezas de programação.

Também: Como programar o botão de ação do seu iPhone para invocar o assistente de voz do ChatGPT

O que você acha? Você já usou o Grok? Você já leu Estranho em uma Terra Estranha? E quanto ao Mochileiro? Deixe-nos saber nos comentários abaixo. Até logo e obrigado por todos os peixes.


Você pode acompanhar as atualizações diárias do meu projeto nas redes sociais. Certifique-se de assinar meu boletim informativo semanal e siga-me no Twitter/X em @DavidGewirtzno Facebook em Facebook.com/DavidGewirtz, no Instagram em Instagram.com/DavidGewirtz, no Bluesky em @DavidGewirtz.com e no YouTube em YouTube.com/DavidGewirtzTV.


Rolar para cima