A Stability Afirma Que Seus Mais Novos Modelos De Difusão Estável Geram Imagens Mais “diversificadas”

Após uma série de controvérsias decorrentes de problemas técnicos e mudanças de licenciamento, a startup de IA Stability AI anunciou sua mais recente família de modelos de geração de imagens.

A nova série Stable Diffusion 3.5 é mais personalizável e versátil do que a tecnologia da geração anterior do Stability, afirma a empresa – além de ter mais desempenho. Existem três modelos no total:

Difusão Estável 3,5 Grande: Com 8 bilhões de parâmetros, é o modelo mais poderoso, capaz de gerar imagens com resoluções de até 1 megapixel. (Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e os modelos com mais parâmetros geralmente têm melhor desempenho do que aqueles com menos.)
Difusão Estável 3.5 Turbo Grande: Uma versão destilada do Stable Diffusion 3.5 Large que gera imagens mais rapidamente, ao custo de alguma qualidade.
Meio de Difusão Estável 3.5: Um modelo otimizado para rodar em dispositivos de ponta como smartphones e laptops, capaz de gerar imagens com resoluções de 0,25 a 2 megapixels.

Embora o Stable Diffusion 3.5 Large e o 3.5 Large Turbo estejam disponíveis hoje, o 3.5 Medium não será lançado até 29 de outubro.

A estabilidade diz que os modelos do Stable Diffusion 3.5 devem gerar resultados mais “diversificados” – isto é, imagens representando pessoas com diferentes tons de pele e características – sem a necessidade de estímulos “extensos”.

“Durante o treinamento, cada imagem é legendada com várias versões de prompts, com prompts mais curtos priorizados”, disse Hanno Basse, diretor de tecnologia da Stability, ao TechCrunch em uma entrevista. “Isso garante uma distribuição mais ampla e diversificada de conceitos de imagem para qualquer descrição de texto. Como a maioria das empresas de IA generativa, treinamos com uma ampla variedade de dados, incluindo conjuntos de dados filtrados publicamente disponíveis e dados sintéticos.”

Algumas empresas tême no passado, construíram desajeitadamente esses tipos de recursos de “diversificação” em geradores de imagens, gerando protestos nas redes sociais. Uma versão mais antiga do chatbot Gemini do Google, por exemplo, mostraria um grupo anacrônico de figuras para sugestões históricas como “uma legião romana” ou “senadores dos EUA”. O Google foi forçado a pausar a geração de imagens de pessoas por quase seis meses enquanto desenvolvia uma solução.

Com alguma sorte, a abordagem do Stability será mais cuidadosa do que outras. Infelizmente, não podemos dar impressões, pois o Stability não forneceu acesso antecipado.

Créditos da imagem:IA de estabilidade

O principal gerador de imagens do Stability, Stable Diffusion 3 Medium, foi duramente criticado por seus artefatos peculiares e baixa adesão aos prompts. A empresa alerta que os modelos Stable Diffusion 3.5 podem sofrer erros de alerta semelhantes; culpa as compensações de engenharia e arquitetura. Mas a Stability também afirma que os modelos são mais robustos do que os seus antecessores na geração de imagens numa variedade de estilos diferentes, incluindo arte 3D.

“Pode ocorrer maior variação nos resultados do mesmo prompt com sementes diferentes, o que é intencional, pois ajuda a preservar uma base de conhecimento mais ampla e estilos diversos nos modelos básicos”, escreveu Stability em uma postagem de blog compartilhada com o TechCrunch. “No entanto, como resultado, os prompts sem especificidade podem levar a um aumento da incerteza na saída, e o nível estético pode variar.”

**Créditos da imagem:**IA de estabilidade

Uma coisa que não mudou com os novos modelos são as licenças do Stability.

Tal como acontece com os modelos de estabilidade anteriores, os modelos da série Stable Diffusion 3.5 são gratuitos para uso para fins “não comerciais”, incluindo pesquisa. Empresas com menos de US$ 1 milhão em receita anual também podem comercializá-los gratuitamente. Organizações com receita superior a US$ 1 milhão, entretanto, precisam contratar a Stability para obter uma licença empresarial.

A estabilidade causou polêmica neste verão por causa de seus termos restritivos de ajuste fino, que deram (ou pelo menos pareciam dar) à empresa o direito de cobrar taxas por modelos treinados em imagens de seus geradores de imagens. Em resposta à reação negativa, a empresa ajustou os seus termos para permitir um uso comercial mais liberal. A Estabilidade reafirmou hoje que os usuários são donos da mídia que geram com os modelos de Estabilidade.

“Encorajamos os criadores a distribuir e monetizar seu trabalho em todo o pipeline”, disse Ana Guillén, vice-presidente de marketing e comunicações da Stability, em um comunicado enviado por e-mail, “desde que forneçam uma cópia de nossa licença comunitária aos usuários desses criações e exibir com destaque 'Powered by Stability AI' em sites relacionados, interfaces de usuário, postagens de blog, páginas Sobre ou documentação de produtos.

Stable Diffusion 3.5 Large e Diffusion 3.5 Large Turbo podem ser auto-hospedados ou usados por meio da API do Stability e de plataformas de terceiros, incluindo Hugging Face, Fireworks, Replicate e ComfyUI. A Stability afirma que planeja lançar os ControlNets para os modelos, que permitem ajustes finos, nos próximos dias.

Os modelos da Atability, como a maioria dos modelos de IA, são treinados em dados públicos da web – alguns dos quais podem estar protegidos por direitos autorais ou sob uma licença restritiva. A Stability e muitos outros fornecedores de IA argumentam que a doutrina do uso justo os protege de reivindicações de direitos autorais. Mas isso não impediu que os proprietários de dados entrassem com um número crescente de ações judiciais coletivas.

Estabilidade AI Difusão Estável 3.5 — **Créditos da imagem:**IA de estabilidade

A estabilidade deixa que os clientes se defendam contra reivindicações de direitos autorais e, ao contrário de alguns outros fornecedores, não há isenção de pagamento no caso de ser considerado responsável.

Estabilidade faz permitir que os proprietários de dados solicitem que seus dados sejam removidos de seus conjuntos de dados de treinamento. Em março de 2023, os artistas haviam removido 80 milhões de imagens dos dados de treinamento do Stable Diffusion, segundo a empresa.

Questionado sobre as medidas de segurança em torno da desinformação à luz das próximas eleições gerais nos EUA, a Estabilidade disse que “tomou – e continua a tomar – medidas razoáveis para evitar o uso indevido da Difusão Estável por maus actores”. A startup, no entanto, recusou-se a fornecer detalhes técnicos específicos sobre essas etapas.

A partir de março, a Stability proibiu apenas conteúdo explicitamente “enganoso” criado usando suas ferramentas generativas de IA – e não conteúdo que pudesse influenciar eleições, prejudicar a integridade eleitoral ou que apresentasse políticos e figuras públicas.

Notícias de Tecnologia: