O que eu acho mais desconcertante nos testes de programação que estou executando é que as ferramentas com base no mesmo modelo de linguagem grande tendem a ter um desempenho de maneira bastante diferente.
Além disso: a melhor IA para codificar em 2025 (e o que não usar)
Por exemplo, ChatGPT, Perplexity e Github Copilot são todos baseados no modelo GPT-4 do OpenAI. Mas, como mostrarei abaixo, enquanto os planos profissionais da Chatgpt e Perplexity tiveram um desempenho excelentemente, o Github Coupilot falhou com a mesma frequência que conseguiu.
Testei o GitHub Copilot incorporado dentro de uma instância do código VS. Vou explicar como configurar isso e usar o Github Copilot em um próximo artigo passo a passo. Mas primeiro, vamos percorrer os testes.
Se você quiser saber como eu testo e os avisos para cada teste individual, sinta -se à vontade para ler como testo a capacidade de codificação de um chatbot da AI.
Tl; dr: Github Copilot passou dois e falhou dois.
Teste 1: Escrevendo um plugin do WordPress
Então, isso falhou miseravelmente. Este foi o meu primeiro teste, então ainda não sei dizer se o GitHub Copilot é terrível em escrever código ou se o contexto em que se interage com ele é limitante até o ponto em que não pode atender a esse requisito.
Deixe -me explicar.
Este teste envolve solicitar à IA para criar um plug -in WordPress totalmente funcional, completo com elementos de interface de administrador e lógica operacional. O plug -in recebe um conjunto de nomes, os classifica e, se houver duplicatas, separa as duplicatas para que elas não sejam lado a lado.
Também: Testei as habilidades de codificação R1 e V3 da Deepseek – e não estamos todos condenados (ainda)
Este era um aplicativo do mundo real que minha esposa precisava como parte de um dispositivo de envolvimento que ela executa em seu grupo muito ativo do Facebook como parte de seu negócio de comércio eletrônico de produtos digitais.
A maioria dos outros AIs passou neste teste, pelo menos em parte. Cinco dos 10 modelos de IA testados passaram completamente no teste. Três deles passaram parte do teste. Dois (incluindo a Microsoft Copilot) falharam completamente.
O problema é que dei ao GitHub copilote o mesmo prompt que eu dou a todos eles, mas apenas escreveu o código PHP. Para ficar claro, esse problema pode ser resolvido apenas usando o código PHP. Mas alguns AIS gostam de incluir algum JavaScript para os recursos interativos. O GitHub Copilot incluiu código para o uso de JavaScript, mas nunca gerou o JavaScript que tentou usar.
O que é pior, quando criei um arquivo JavaScript e, de dentro do arquivo JavaScript, tentei fazer com que o GitHub Copilot executasse o prompt, ele me deu outro script PHP, que também referenciou um arquivo JavaScript.
Como você pode ver abaixo, dentro do arquivo randomizer.js, ele tentou envolver (basicamente para executar) o arquivo randomizer.js, e o código que escreveu foi PHP, não JavaScript.
Teste 2: Reescrevendo uma função de string
Este teste é bastante simples. Eu escrevi uma função que deveria testar dólares e centavos, mas acabei apenas testando para inteiros (dólares). O teste pede à IA para corrigir o código.
O Github Copilot refazia o código, mas houve vários problemas com o código que produziu.
- Ele assumiu que um valor de string sempre foi um valor de string. Se estivesse vazio, o código quebraria.
- O código de expressão regular revisado quebraria se um ponto decimal (ou seja, “3.”) fosse inserido, se um ponto decimal líder (ou seja, “.3”) fosse inserido ou se os zeros líderes fossem incluídos (ou seja, “00.30” ” ).
Para algo que deveria testar se a moeda foi inserida corretamente, não é aceitável falhar com o código que travaria casos de bordas.
Então, temos outra falha.
Teste 3: Encontrar um bug irritante
O Github Copilot acertou. Este é outro teste retirado das minhas escapadas de codificação da vida real. O que tornou esse bug tão irritante (e difícil de descobrir) é que a mensagem de erro não está diretamente relacionada ao problema real.
Também: Eu coloquei as habilidades de codificação do Deepseek AI à prova – aqui é onde ela se desfez
O bug é o tipo de codificador equivalente a uma questão de truque. Resolvá -lo requer entender como as chamadas específicas da API no WordPress Framework funcionam e, em seguida, aplicando esse conhecimento ao bug em questão.
A Microsoft Copilot, Gemini e Meta Code Llama falharam neste teste. Mas o GitHub Copilot resolveu corretamente.
Teste 4: Escrevendo um script
Aqui também, o GitHub Copilot conseguiu que a Microsoft Copilot falhou. O desafio aqui é que estou testando a capacidade da IA de criar um script que saiba sobre codificação no AppleScript, o modelo de objeto Chrome e um pequeno utilitário de codificação de terceiros somente para Mac, chamado maestro de teclado.
Também: X’s Grok se saiu surpreendentemente bem nos meus testes de codificação de IA
Para passar neste teste, a IA deve ser capaz de reconhecer que todos os três ambientes de codificação precisam de atenção e, em seguida, adaptar as linhas individuais de código a cada um desses ambientes.
Pensamentos finais
Dado que o GitHub Copilot usa o GPT-4, acho o fato de que ele falhou metade dos testes desencorajando. O Github é apenas o ambiente de gerenciamento de origem mais popular do planeta, e seria de esperar que o suporte de codificação da IA fosse razoavelmente confiável.
Como em todas as coisas da IA, tenho certeza de que o desempenho melhorará. Vamos ficar atentos e voltar em alguns meses para ver se a IA é mais eficaz naquele momento.
Você usa uma IA para ajudar na codificação? O que ai você prefere? Você já experimentou o GitHub Copilot? Informe -nos nos comentários abaixo.
Você pode seguir minhas atualizações do projeto diário nas mídias sociais. Certifique -se de assinar meu boletim informativo semanal de atualização e siga -me no Twitter/x em @Davidgewirtzno Facebook em facebook.com/davidgewirtz, no Instagram em Instagram.com/davidgewirtz, em bluesky em @Davidgewirtz.com e no YouTube em YouTube.com/davidgewirtztv.