Pular para o conteúdo

Experimentei o Sora da OpenAI, mas estou lutando com sua curva de aprendizado

Marcações:
Tempo de leitura: 7 minutos

Interface de vídeo OpenAI Sora

Ryan Haines / Autoridade Android

Depois de meses de espera, finalmente aconteceu: a OpenAI lançou seu gerador de vídeo, Sora. Ou, pelo menos, abriu o acesso à ferramenta, apenas para que toda a internet embarcasse simultaneamente, forçando a OpenAI a pisar no freio na criação de contas. Graças a um pouco de paciência e determinação, passei pela lista de espera e agora tenho o poder de gerar praticamente tudo que posso imaginar – dentro de alguns limites bem definidos.

Mas com esse grande poder e responsabilidade veio outra coisa: uma grande curva de aprendizado. Embora eu esteja gostando do Sora e impressionado com seus recursos, estou tendo problemas para encontrar os prompts perfeitos para obter vídeos que me agradam. Tenho certeza de que é apenas uma questão de prática, mas eis como foram meus primeiros dias com Sora.

Criação de vídeo ao seu alcance?

Zebra OpenAI Sora com mão humana

Ryan Haines / Autoridade Android

Primeiro, vamos falar sobre como o Sora funciona — ou pelo menos como acessar a poderosa ferramenta de geração de vídeo. Embora venha do OpenAI e você precise ser um membro ChatGPT Plus ou Pro para começar a criar, você não pode acessar o Sora por meio da interface principal do ChatGPT. Em vez disso, você deve ir diretamente ao site da Sora (sora.com), onde encontrará uma galeria de clipes em destaque que definem o padrão incrivelmente alto.

Pelo menos, eles colocaram a fasquia alta na minha cabeça. Percorri alguns deles, observei suas instruções, observei-os funcionarem perfeitamente e imaginei que poderia fazer o mesmo. Afinal, meus prompts seriam executados na mesma adaptação do DALL-E 3 que os deles, então deveriam ter a mesma aparência, certo? Não é tão fácil. Claro, digitar prompts é muito fácil, mas descobrir a que Sora responde melhor é um pouco mais difícil.

Criar vídeos é tão fácil quanto digitar o que você quer ver… ou pelo menos é o que parece no papel.

Antes de chegarmos aos desafios, porém, eu provavelmente deveria esclarecer algumas das limitações atuais de Sora. Ao contrário do Pixel Studio do Google ou de outro gerador de imagens básico, você não pode simplesmente sentar e executar o Sora o quanto quiser – pelo menos não como membro do ChatGPT Plus por US$ 20 por mês.

Em vez disso, você recebe um banco de 1.000 créditos, que pode gastar na geração de vídeos conforme achar necessário. Tudo o que você alterar em seu prompt, desde a proporção até a duração e a resolução, custará um certo número desses créditos até o mês acabar. Vídeos novos custam de 20 a 2.000 créditos, e você pode conferir uma tabela útil de custos aqui – algo que eu gostaria de ter encontrado antes de gastar 260 créditos em cerca de 20 minutos. Você também está limitado a uma geração de vídeo por vez e a uma resolução máxima de 720p como membro Plus.

Se você optar por uma assinatura do ChatGPT Pro, os limites serão muito mais flexíveis, mas o preço será muito, muito mais alto, US$ 200 por mês. Em vez de 1.000 créditos, você recebe 10.000 créditos para vídeos prioritários, após os quais obtém gerações de vídeo ilimitadas; eles demoram um pouco mais – a OpenAI os chama de “vídeos relaxados”. Os membros Pro também podem gerar cinco vídeos por vez, aumentá-los para 1080p e deixá-los rodar por até 20 segundos.

Infelizmente, porém, não importa o nível de ChatGPT pelo qual você paga, nenhum dos vídeos de Sora contém áudio, então você terá que baixar seus clipes e sincronizar músicas ou efeitos sonoros depois de definir o visual. A OpenAI sugeriu que o suporte para áudio chegará eventualmente a Sora, mas ainda não existe.

Quão difícil poderia ser?

Com essa introdução básica resolvida, o resto do uso do Sora para gerar vídeos deve ser fácil, certo? Bem, sim e não. Embora digite seu prompt, escolha suas configurações no menu na parte inferior e aguarde a geração do seu vídeo é tão fácil, é muito mais difícil encontrar algo digno do feed em destaque de Sora, em constante mudança.

Na tentativa de compartilhar meu cache limitado de tokens do mês, assim que tive acesso ao Sora, entrei em contato com meu colega Mitja. Ele e eu estávamos discutindo sobre a rapidez com que poderíamos ter acesso à plataforma, então imaginei que ele poderia ter algumas boas ideias para gerações logo de cara. No final das contas, seu primeiro pensamento foi algo que eu nunca poderia ter imaginado: dez zebras de terno dançando uma música de Michael Jackson em frente à Ópera de Sydney enquanto comiam ravioli de pesto. Pode parecer um vídeo estranho de se fazer, mas se Sora consegue lidar com essa quantidade de detalhes, então é definitivamente real.

Sora tentará quase tudo que você pedir, mas você precisa descrevê-lo corretamente.

Assim que terminei de rir da ideia, passei por Sora e esperei o resultado. Tecnicamente, o produto final acertou a maioria das coisas. Colocou um grupo de zebras de terno em frente à Ópera de Sydney, e todas elas tinham pratos verdes nas mãos. No entanto, o número oscilou entre oito e cerca de 12 zebras, não havia indicação de que fosse uma música de Michael Jackson e o ravióli de pesto era definitivamente apenas um prato verde – perto, mas não exatamente certo. O mais preocupante é que aumentei o custo do vídeo para 100 fichas porque esperava que um clipe de dez segundos mostrasse mais dança. Não foi assim.

Desde então, aprendi, no entanto, que a ferramenta Storyboard de Sora é obrigatória para praticamente qualquer coisa que envolva movimentos complexos. Ele permite que você arraste e solte clipes ao longo de sua linha do tempo de cinco ou dez segundos, ajudando Sora a interromper a ação e fluir de uma direção para outra. Então, na tentativa de extrair um pouco mais de ação dos meus amigos zebras, pulei para o storyboard e dividi a dança e o ravioli de pesto em duas ações separadas espaçadas ao longo do clipe de cinco segundos, depois usei o ChatGPT para dar um soco atualize minha descrição – mais um recurso integrado do Storyboard.

Mais uma vez… Funcionou, mas não funcionou. Sim, peguei as zebras, e elas estavam na frente da Ópera de Sydney, mas haviam desistido de dançar e, quando convidadas a comer um pouco de seu ravióli, de repente cresceram mãos humanas para segurar os garfos. Desculpe, feed em destaque, mas acho que ainda estou muito longe.

Também tentei sugestões mais naturais, como pinguins-macarrão deslizando por icebergs até o mar, e instruções mais fantásticas, como uma torrada com um rosto de Pixar saltando de uma torradeira, e a história tem sido basicamente a mesma. Sora lida incrivelmente bem com algumas partes de cada prompt, mas você precisa descrever sua cena com a quantidade certa de detalhes. Demais, e Sora começa a mesclar diferentes elementos. Muito pouco e você terá um produto final relativamente enfadonho.

E ainda assim, de alguma forma, há ainda mais em Sora do que eu toquei, especialmente quando se trata de edição. O gerador de vídeo também oferece a capacidade de recortar, remixar e combinar clipes para expandir uma ideia, juntar um vídeo a outro ou recortar elementos que não funcionam bem. Mas, novamente, eu ainda gostaria de gravar um vídeo que parecesse bom na primeira vez.

Desafios à parte, estou entusiasmado com o futuro

Página inicial do OpenAI Sora

Ryan Haines / Autoridade Android

No geral, é justo considerar meus primeiros dias usando Sora uma mistura de coisas. O gerador de vídeo foi perfeito? Não, mas não posso culpar totalmente a OpenAI por isso. Esta é minha primeira tentativa de gerar vídeos baseados exclusivamente em texto, então não estou surpreso por ter me esforçado para definir o nível certo de detalhe. Até agora, dei muitas informações a Sora e dei muito poucas, o que significa que acertar o prompt certo deve estar ao virar da esquina.

Mais importante ainda, fiquei completamente impressionado com o que Sora promete fazer. Os vídeos que posso criar como membro do ChatGPT Plus levam apenas alguns minutos para serem criados e imagino que ficarão mais rápidos à medida que o modelo continuar seu treinamento. Não tenho certeza se usaria algum dos clipes rápidos que Sora preparou ainda – muitos deles ainda sofrem com artefatos estranhos, como os braços humanos aparecendo nas minhas zebras – mas os clipes que chegam ao Sora A coleção apresentada me dá esperança de que seja apenas uma questão de aprender como pedir os elementos certos.

Estou impressionado com Sora, mas tenho muito que aprender.

Junto com isso, não ficarei surpreso se a maneira como o OpenAI lida com prompts e criações também se abrir. No momento, quando você gasta seus 1.000 créditos como membro do ChatGPT Plus, é isso – não há como comprar mais alguns até que o período de faturamento termine. Da mesma forma, não há como transferir créditos não utilizados de um mês para o outro, então você precisa encontrar o equilíbrio certo entre gastos e economias para sobreviver ao longo do mês.

Se dependesse de mim, gostaria de recuperar alguns dos créditos mais idiotas que gastei, mas isso não é uma opção. Em vez disso, chamarei isso de custo de aprendizado e terei que dedicar um pouco mais de tempo para ajustar meus prompts antes de enviá-los para Sora. Talvez um dia eu encontre algo que valha a pena apresentar.