Autoridade Robert Triggs / Android
Enquanto a Mania Deepseek continua assumindo o mundo da IA, a empresa de IA chinesa rapidamente acompanhou seu primeiro modelo de geração de imagens. Apelidado de Janus Pro, é a opinião da Deepseek sobre um grande modelo de idioma que unifica o entendimento multimodal e a geração de imagens, competindo com modelos existentes como difusão estável, o Imagen 3 do Google e o Dall-e 3 do Openai.
Deepseek é uma ameaça para os jogadores estabelecidos, mas o Janus Pro pode se enfrentar?
A reivindicação da Fama da Deepseek é seu baixo custo de treinamento e acesso, mantendo o desempenho e a precisão oferecidos pelo OpenAI. Portanto, um modelo que pode corresponder ou exceder os recursos dos melhores geradores de imagens de IA agora seria uma séria ameaça aos esforços feitos pela Adobe e outros jogadores bem estabelecidos.
Com o conteúdo gerado pela IA se tornando cada vez mais popular, os modelos de imagens devem oferecer flexibilidade criativa e precisão fotorrealista. Mas o Janus Pro atende a essas expectativas?
Deitando a estrutura de teste
Autoridade Dhruv Bhutani / Android
Decidi testar o Janus Pro contra cinco dos principais modelos de geração de imagens. Isso inclui difusão estável, o Dall-E 3 do Openai, o Imagen 3 do Google, a Meta AI e o Adobe Firefly.
Todos os seis modelos de geração de imagens receberam as mesmas instruções e, para manter um campo de jogo nivelado, escolhi a primeira resposta em vez de escolher os melhores resultados. Não é o método mais científico de teste, mas eu queria abordar a comparação como um usuário comum.
A maioria dos usuários simplesmente insere um prompt e espera um resultado quase perfeito na primeira tentativa. É por isso que priorizei os testes com saídas imediatas e não filtradas para simular a experiência média do usuário.
Quão bem a IA pode gerar imagens fotorrealistas?
Para o meu primeiro teste, eu queria ver como cada modelo de geração de imagens abordaria a criação de uma imagem fotorrealista. Testei um cenário específico, iluminação e quão bem ele poderia recriar um animal. Aqui está o rápido que usei: uma imagem fotorrealista de um gato laranja gordo perseguindo um fio de lã em um jardim ensolarado.
As imagens fotorrealistas são particularmente desafiadoras para os modelos de IA porque exigem atenção precisa às fontes de luz, detalhes da textura e profundidade espacial. Eu me concentrei em quão realisticamente os modelos renderizavam o pêlo do gato, o jogo da luz solar no jardim e se o fio parecia dinâmico e tátil.
Um rápido olhar é suficiente para perceber que o Janus Pro tem mais em comum com o primeiro lançamento do modelo Dall E Text-to-Image do que qualquer coisa mais recente. O resultado é uma resolução bastante baixa e definitivamente não é muito fotorrealista. A difusão estável, por outro lado, fica muito próxima do prompt fotorrealista, embora a cauda de grandes dimensões dê suas raízes de IA.
A classificação em terceiro lugar seria o Firefly de Adobe. Você quase poderia ser enganado que a imagem era uma fotografia altamente editada. No entanto, o rosto o entrega. Finalmente, Imagen 3, Dall E e Meta Ai fazem um trabalho decente, mas eu realmente não chamaria nenhuma dessas imagens fotorrealista.
Testando a capacidade da IA de capturar diversidade e detalhes
Para o meu segundo teste, decidi aumentar o nível de dificuldade. Os modelos de IA geralmente lutam para recriar rostos naturais, mãos e um grupo diversificado de pessoas. A adição de instruções muito específicas para as condições de configuração e iluminação cria um teste bastante difícil para qualquer modelo de geração de imagem atual. Desta vez, meu prompt foi mais detalhado, à medida que os modelos de IA se beneficiam de instruções granulares: uma selfie em grupo de estudantes universitários multiculturais almoçando fora de uma estação de esqui, com rostos detalhados – masculino, feminino, diverso – durante o inverno ao meio -dia, sob um parcialmente nublado céu azul.
Os desafios aqui foram numerosos, desde capturar com precisão tons de pele variados até tornar expressões faciais realistas e garantir que as mãos não parecessem distorcidas.
Mais uma vez, Janus Pro fica muito atrás dos outros modelos de geração de imagens. Realmente não é uma competição. Apesar da excitação estranha visível em todas as fotos, difusão estável, Adobe Firefly e Imagen 3 colocaram um desafio difícil aqui, tanto que eu o coloquei para debate dentro do Autoridade Android Canal frouxo. Pessoalmente, eu me inclinaria para os resultados da Imagen 3 aqui.
Um teste de criatividade
Para o meu teste final, eu queria ver como os modelos de geração de imagens seriam executados com atividades mais criativas. Pedi que eles criassem um novo personagem de desenho animado inspirado nos personagens clássicos da Disney. Aqui está o rápido que usei: um personagem de desenho animado baseado em personagens clássicos da Disney, completo com olhos grandes e características divertidas e fantásticas.
O que torna os personagens inspirados na Disney icônicos são seus olhos expressivos, elementos de design extravagantes e proporções divertidas. Eu estava procurando um design que capturou essa “mágica” sem sentir derivada.
Se Hieronymus Bosch decidiu pintar personagens da Disney, ele provavelmente acabaria com algo como a produção de Janus Pro. Difusão estável, por outro lado, produz uma versão mais jovem da ELSA de Frozen. No entanto, ele acertou a tarefa, então eu chamaria a difusão estável de vencedor.
Se Hieronymus Bosch decidiu pintar personagens da Disney, ele provavelmente acabaria com algo como a produção de Janus Pro.
Os outros modelos de geração de imagens não acertaram a estética da Disney, e eu diria que os resultados da Meta AI estavam mais próximos da Pixar. Independentemente disso, todos os modelos que exceto Janus poderiam servir como ponto de partida ao debater idéias.
Janus Pro é um concorrente sério na geração de imagens?
Rita El Khoury / Autoridade Android
Não sou um grande fã de modelos de geração de imagens em geral. Eles não têm a alma e a criatividade que só podem vir de um artista real. No entanto, eles podem ser úteis em prototipagem rápida, gerando idéias ou servir como adições simplistas para ilustrar um ponto em uma apresentação.
Por exemplo, os profissionais de marketing geralmente recorrem a essas ferramentas para postagens de mídia social ou modelos visuais rápidos, enquanto os educadores podem usá -los para materiais de lição criativa. Os designers de jogos podem gerar ambientes fantásticos ou idéias de personagens como base para os artistas refinarem. Mas esses modelos podem realmente substituir a imaginação de um artista humano? Isso continua sendo um ponto de debate.
Janus Pro sinaliza a entrada de Deepseek na geração de imagens, mas tem um longo caminho a percorrer antes de ficar de pé com os líderes do setor.
O Janus Pro pode marcar a entrada de Deepseek no espaço de geração de imagens, mas claramente tem um longo caminho a percorrer antes de ficar de pé com modelos estabelecidos, como difusão estável, Adobe Firefly e Imagen 3.
Embora tenha lutado com imagens fotorrealistas, composições faciais complexas e instruções criativas, sua existência mostra que a concorrência no desenvolvimento da IA é apenas intensificadora. À medida que a tecnologia evolui, é emocionante imaginar para onde os modelos de geração de imagens seguirão em seguida-e se o Janus Pro pode se tornar um candidato sério.
(Tagstotranslate) Ai