Em um Reddit AMA, o CEO da OpenAI, Sam Altman, admitiu que a falta de capacidade computacional é um fator importante que impede a empresa de enviar produtos com a frequência que gostaria.
“Todos esses modelos se tornaram bastante complexos”, escreveu ele em resposta a uma pergunta sobre por que os próximos modelos de IA da OpenAI estavam demorando tanto. “Também enfrentamos muitas limitações e decisões difíceis sobre como alocamos nossa computação para muitas ideias excelentes.”
Muitos relatórios sugerem que a OpenAI tem lutado para garantir infraestrutura computacional suficiente para executar e treinar seus modelos generativos. Ainda esta semana, a Reuters, citando fontes, disse que a OpenAI vem trabalhando há meses com a Broadcom para criar um chip de IA para execução de modelos, que pode chegar já em 2026.
Em parte como resultado da capacidade tensa, disse Altman, o recurso de conversação de som realista da OpenAI para ChatGPT, Advanced Voice Mode, não terá os recursos de visão apresentados pela primeira vez em abril tão cedo. Em seu evento para a imprensa em abril, a OpenAI mostrou o aplicativo ChatGPT rodando em um smartphone e respondendo a sinais visuais, como as roupas que alguém estava vestindo, à vista da câmera do telefone.
Relatórios da Fortune revelaram mais tarde que a demonstração foi apressada para desviar a atenção da conferência de desenvolvedores I/O do Google, que acontecia na mesma semana. Muitos dentro da OpenAI não achavam que o GPT-4o estava pronto para ser revelado – surpreendentemente, a versão somente voz do Advanced Voice Mode foi adiada por meses.
Na AMA, Altman indicou que o próximo grande lançamento do gerador de imagens da OpenAI, DALL-E, não tem cronograma de lançamento. (“Ainda não temos um plano de lançamento”, disse ele.) Enquanto isso, Sora, a ferramenta de geração de vídeo da OpenAI, foi impedida pela “necessidade de aperfeiçoar o modelo, acertar a segurança/representação/outras coisas, e computação em escala”, escreveu Kevin Weil, diretor de produtos da OpenAI, que também participou da AMA.
Sora supostamente sofreu contratempos técnicos que o posicionam mal contra sistemas rivais de Luma, Runway e outros. De acordo com o The Information, o sistema original, revelado em fevereiro, levou mais de 10 minutos de processamento para fazer um videoclipe de 1 minuto.
Em outubro, um dos co-líderes do Sora, Tim Brooks, partiu para o Google.
Mais tarde na AMA, Altman disse que a OpenAI ainda está considerando permitir conteúdo “NSFW” no ChatGPT “algum dia” (“acreditamos totalmente em tratar usuários adultos como adultos”, escreveu ele), e que a principal prioridade da empresa é melhorar sua série o1 de modelos de “raciocínio” e seus sucessores. A OpenAI apresentou uma prévia de uma série de recursos que chegarão ao o1 em sua conferência DevDay em Londres esta semana, incluindo compreensão de imagem.
“Temos alguns lançamentos muito bons chegando ainda este ano”, escreveu Altman. “No entanto, nada que vamos chamar de GPT-5.”