Ryan Haines / Autoridade Android
As imagens geradas por IA estão mais impressionantes do que nunca, e algumas até ganharam prêmios de fotografia e enganaram especialistas no processo. A melhor parte? Você não precisa ser um artista profissional ou ter habilidades técnicas para criá-los. Mas nem todos os geradores de imagens de IA são criados iguais – alguns são excelentes em realismo, enquanto outros estão repletos de erros fáceis de detectar. Uma coisa é certa: poucos conseguem gerar texto de forma confiável. Para encontrar o melhor, enviei cada gerador de imagem de IA com instruções sucessivamente desafiadoras. Aqui estão minhas descobertas.
Qual é o melhor gerador de imagens de IA?
C. Scott Brown / Autoridade Android
Encontrar o melhor gerador de imagens de IA é difícil, pois os resultados podem variar muito de um prompt para outro. No entanto, sabemos que a tecnologia de IA generativa tende a ter mais dificuldades em certas áreas do que em outras, por isso podemos adaptar nossas instruções para destacar essas fraquezas e ver onde cada uma delas brilha – ou falha. Praticamente todos os geradores de imagens podem lidar com estilos de arte mais simples, então desta vez limitarei os testes a cenas realistas.
Se você precisar testar um gerador de imagens de IA, tente solicitar imagens com detalhes complexos, como mãos, cabelos ou texto. Apenas alguns deles conseguem lidar bem com isso, enquanto outros produzem frequentemente resultados distorcidos ou irrealistas. Outro bom teste são cenas complexas com múltiplos assuntos ou perspectivas inusitadas, que tendem a atrapalhar até os melhores modelos.
Com isso em mente, decidi testar vários geradores de imagens de IA diferentes. Especificamente, escolhi Imagen 3 do Google, Imagine da Meta, DALL-E 3 via Microsoft Designer e ChatGPT e Grok. E para minha primeira solicitação, pedi a imagem de uma pessoa chorando. Esse pedido pode parecer muito superficial, mas a variação dos resultados foi fascinante.
Prompt 1: Uma pessoa chorando, com lágrimas escorrendo pelo rosto
Como você já pode perceber, as imagens de diferentes modelos de IA não se parecem em nada. Embora parte disso se deva ao fato de meu prompt ser um tanto vago, cada gerador de imagem que testei também foi treinado em um conjunto de dados diferente. A Meta usou imagens públicas do Facebook e do Instagram, por exemplo, embora seja menos claro como a maioria das outras empresas obteve seus conjuntos de dados de treinamento.
Replicar a anatomia sempre foi complicado para geradores de imagens de IA e esses resultados apenas comprovam esse fato. O Imagen 3 do Google produziu um resultado extremamente convincente, com outros como o Imagine da Meta gerados. Testei novamente este prompt com pequenas variações para melhorar o tamanho da amostra, mas o Imagen 3 venceu todas as vezes.
O Microsoft Designer usa o DALL-E 3 da OpenAI nos bastidores, o que significa que deve produzir resultados semelhantes aos do ChatGPT. E isso provou ser verdade em meus testes, com ambos os serviços apresentando resultados decentes.
Ganhador: Imagem 3, seguida por DALL-E 3
Prompt 2: Uma cena cheia de ação de dois dançarinos no meio de uma apresentação em uma rua encharcada de chuva…
Desta vez, aumentei a complexidade e os detalhes do meu prompt, mantendo os assuntos humanos no enquadramento. A imagem 3 produziu um excelente resultado mais uma vez, falhando apenas com os dedos de um sujeito. Por outro lado, o Imagine de Meta estragou completamente os membros e o rosto de um dançarino e eu consideraria o resultado inutilizável.
O Microsoft Designer ofereceu resultados em estilo cartoon, que pareciam aceitáveis, mas não eram o que eu procurava. A tentativa do ChatGPT foi muito pior, com um membro extra brotando de um dançarino. Felizmente, Grok balançou o pêndulo para trás com um resultado razoável além dos dedos entrelaçados dos dançarinos.
Prompt 3: Gere uma imagem de um Airbus A380… taxiando em uma pista com árvores tropicais ao fundo.
Posso parecer um recorde quebrado neste momento, mas o Imagen 3 continua a dizimar a concorrência. Embora esse prompt exija que a IA gere texto na fuselagem, o modelo do Google lidou com isso com facilidade. O nome da companhia aérea é replicado perfeitamente e, além das estranhas marcações da pista de táxi, é quase impossível dizer que a imagem foi gerada por IA.
Grok obteve um resultado igualmente impressionante, embora não na primeira tentativa, e ainda destruiu algumas janelas no convés superior do avião. O chatbot usa um gerador de imagens relativamente novo chamado Flux, criado pelos pesquisadores que desenvolveram o Stable Diffusion. Dada a reputação deste último no espaço de geradores de imagens, não é surpresa que Grok possa produzir excelentes resultados.
Infelizmente, os outros geradores de imagens de IA apresentaram resultados abaixo da média e comicamente ruins aqui. Imagine do Meta cuspiu texto ilegível e o plano errado. DALL-E 3 via ChatGPT quase acertou o texto na lateral do avião, mas gerou marcações de pista malformadas. O Microsoft Designer usa o mesmo modelo DALL-E 3, mas de alguma forma forneceu imagens irrealistas com aparência ainda pior.
É importante notar que adicionar termos como “fotorrealista” ou “HD” pouco fez para tornar os resultados gerados por IA mais autênticos ou realistas. O impacto foi mínimo, na melhor das hipóteses, embora seja prática padrão incluir esses termos como parte de uma boa orientação.
Ganhador: Imagem 3, seguido por Grok
Prompt 4: Personalidades famosas
Muito se tem falado sobre o lado negro dos geradores de imagens de IA e a sua capacidade de influenciar a opinião pública através de narrativas falsas. Para combater esse problema, a maioria das plataformas generativas de IA agora possuem grades de proteção que impedem a solicitação de imagens que imitem uma pessoa específica.
Não é de surpreender que meu prompt tenha sido recusado por todos os geradores de imagens de IA – exceto Grok. Elon Musk criou o Grok como uma IA máxima de “busca da verdade”, o que é apenas discurso de marketing para um chatbot com menos proteções do que seus concorrentes. Essa falta de restrições também se estende às imagens geradas por IA, o que significa que você poderia tecnicamente gerar imagens de líderes mundiais, celebridades e até do próprio Musk em ambientes questionáveis.
Qual gerador de imagens de IA eu recomendo?
Muitos dos geradores de imagens de IA que testei têm pontos fortes únicos que os tornam melhores que os demais, então aqui está minha escolha principal, dependendo de minhas prioridades.
- Qualidade: O Imagen 3 do Google pode não ter a marca mais reconhecida de todos os geradores de imagens de IA desta lista, mas se destaca por fornecer imagens realistas e resultados extremamente verossímeis. A única desvantagem é que você obtém apenas uma imagem por vez e o processamento da IA pode levar vários segundos cada vez que você envia um prompt.
- Velocidade: Meta Imagine se destaca se você precisa de uma imagem rápida, já que nem precisa apertar a tecla Enter para ver o resultado. A ferramenta gera uma imagem um segundo após a digitação de um prompt, o que parece quase instantâneo em comparação com outras ofertas desta lista.
- Custo: Com tantos geradores de imagens de IA disponíveis hoje, vale a pena pagar por um? Fazer isso desbloqueará alguns recursos interessantes, já que a edição de imagens de IA normalmente fica bloqueada por serviços de assinatura como Midjourney, Adobe Firefly e DALL-E 3. Para geração simples de imagens de IA, porém, eu recomendo Imagen 3, Meta Imagine e Microsoft Designer.
- Censura: Grok oferece um dos geradores de imagens de IA mais fáceis, com algumas das menores restrições, então vale a pena tentar. A única desvantagem é que você precisará de uma assinatura X Premium (anteriormente Twitter Blue) para usar o serviço.
Do ponto de vista prático, porém, o melhor gerador de imagens de IA pode muito bem ser aquele que já está no seu dispositivo. Por exemplo, Meta AI já está integrado ao WhatsApp e ao Facebook Messenger. Se você já usa algum dos aplicativos, o Meta Imagine deve atender às necessidades básicas de geração de imagens.
Da mesma forma, a série Pixel 9 vem com o novo aplicativo Pixel Studio do Google desenvolvido com Imagen 3. Alternativamente, você também pode solicitar imagens geradas por IA por meio do aplicativo Gemini em qualquer dispositivo Android. Este último ainda usa o Imagen 2 de última geração por enquanto, mas em breve passará para o modelo mais recente do Google.