Pular para o conteúdo

Agora você pode experimentar o Sora, o gerador de vídeo AI da OpenAI

Tempo de leitura: 6 minutos


No início deste ano, a OpenAI – criadora do ChatGPT – anunciou o Sora, um gerador de vídeo de IA. Algumas das demonstrações que a empresa exibiu eram hiper-realistas, desde cachorrinhos brincando na neve até a vista de um vagão de metrô viajando pela paisagem urbana. Resumindo, foi impressionante e aterrorizante, como expliquei aqui em minhas reflexões iniciais.

Desde então, as notícias de Sora têm sido bastante silenciosas: a empresa não disponibilizou a plataforma para testes públicos, por isso não tivemos muitas experiências em primeira mão para trabalhar. Isso está mudando esta semana. A OpenAI não apenas está tornando o Sora mais amplamente disponível, mas também abrindo seu gerador de vídeo de IA para qualquer pessoa com uma conta ChatGPT Plus. As coisas estão prestes a ficar selvagens.

O que há de novo com Sora

A OpenAI fez o anúncio na segunda-feira, após uma revelação antecipada de Marques Brownlee. Se você acompanhou de perto o anúncio original do Sora, nenhum dos exemplos aqui irá chocá-lo: Resumindo, Sora pode ser solicitado a gerar vídeos curtos e fotorrealistas em diversas situações diferentes: OpenAI e Marques Brownlee demonstraram fotos de drones de encostas de penhascos, animais na natureza e pessoas realizando tarefas “na frente das câmeras”. Mas o que é realmente novo hoje são vários recursos que a OpenAI adicionou ao programa Sora em geral.

Existe o “Storyboard”, uma espécie de editor de vídeo que permite unir diferentes prompts de vídeo para criar vídeos mais longos de um único assunto. Por exemplo, você pode ter um prompt solicitando que um guindaste esteja na água e outro solicitando que o guindaste mergulhe a cabeça na água. Então, Sora combinará esses dois prompts em um vídeo contínuo. “Recut” também atua como editor de vídeo, só que aqui você pode isolar uma parte específica do seu vídeo e pedir ao Sora para estendê-lo. “Remix” abre um novo campo de prompt, que permite solicitar alterações em um vídeo existente. (Você também pode escolher a “força” do remix, o que afeta o quanto do vídeo é realmente alterado a partir do seu prompt.) Finalmente, “Misturar” permite que você escolha transformar o assunto de um vídeo em outro. O exemplo de Sora é fazer com que uma borboleta de um vídeo se transforme em uma orquídea de um segundo clipe.

storyboard em sora


Crédito: Jake Peterson

De todas essas novidades, o Storyboard parece ser o mais interessante. Parece ser uma solução inteligente fazer com que a IA gere uma cena complexa com múltiplas ações, já que tentar agrupar tudo isso em um único prompt provavelmente falhará. O remix também poderia ser útil em teoria para ajustar elementos de um vídeo, sem ter que descartar a geração inicial. Mas no final das contas, nosso interesse coletivo no modelo vem de sua função básica: você dá a Sora uma ideia de vídeo e ele a gera para você. Ou você carrega uma foto da sua biblioteca e Sora anima os assuntos inanimados em uma cena em movimento.

Sora em ação

Quando você envia uma solicitação, seu vídeo é adicionado à sua “fila” para processamento. O tempo que um vídeo leva para ser gerado depende de suas configurações, incluindo resolução, duração e o número de variações que você gera: Tenho um plano ChatGPT Plus padrão, portanto estou limitado a uma resolução máxima de 720p e uma duração máxima de cinco segundos. Os usuários do ChatGPT Pro podem aumentar a resolução para 1080p, criar vídeos de até 20 segundos e gerar até quatro variações de seus vídeos.

Infelizmente para mim, parece que todos e suas mães estão tentando usar Sora neste momento. Minha primeira e única tentativa imediata (“rastrear a cena de um táxi passando pelo centro de uma cidade”) ficou no limbo do processamento durante todo o tempo em que escrevi este artigo. Na verdade, a OpenAI interrompeu a criação de contas por enquanto, pois muitas pessoas estão tentando acessar o gerador de vídeo.

Meu vídeo finalmente foi gerado e foi difícil. A qualidade do vídeo do táxi e da cidade era muito boa (novamente, muito fotorrealista), mas os movimentos do táxi eram confusos. Primeiro, ele deu ré, depois se transformou em um carro que estava voltado para uma direção diferente, antes de sair em alta velocidade quando outro táxi apareceu em primeiro plano. (Meu táxi original também desapareceu no ar, enquanto o novo táxi não tinha porta-malas; em vez disso, duas frentes.)

Como Sora está demorando tanto para gerar vídeos, por enquanto é útil dar uma olhada em alguém, como Marques Brownee, que passou algum tempo testando essa ferramenta. Em sua análise do Sora, ele descobriu que a ferramenta ainda luta para evitar as armadilhas típicas dos vídeos gerados por IA: os vídeos podem parecer fotorrealistas, mas perdem o realismo no movimento. Sora muitas vezes confunde qual perna deve estar na frente e qual deve estar atrás durante os ciclos de caminhada, ou “esquece” completamente os objetos. Quando Brownlee pediu um vídeo de um revisor técnico cobrindo um smartphone, o revisor segura dois smartphones nas mãos e um simplesmente desaparece sem motivo. Alguns aspectos de um vídeo podem ser executados em câmera lenta, enquanto outros são executados em velocidade normal, o que parece estranho à vista. Essas falhas são predominantes na maioria dos resultados do Sora que vi: se você estiver procurando por elas, você as verá, e elas chamam a atenção para a artificialidade do vídeo.

Isso também se aplica a vídeos de “baixa qualidade”, como gerações de CCTV ou imagens de câmeras de segurança. Os carros se chocam e desaparecem, ou as pessoas se movem de maneiras irrealistas. Mas direi que a baixa qualidade desses vídeos facilita a falsificação: se Sora conseguir descobrir a física, as pessoas vão se divertir inventando imagens de CCTV que não existem.

Imagens de CFTV geradas por IA

Este vídeo CCTV é 100% AI.
Crédito: Marques Brownlee/YouTube

Na experiência de Brownlee, as coisas que Sora faz atualmente de melhor não são nada realistas: os gráficos em movimento, por exemplo, geralmente parecem bons, assim como alguns clipes de animações e personagens animados. Uma animação de um esboço do Empire State Building parece algo saído de uma introdução de uma série da Netflix, por exemplo. E quando Brownlee carregou uma imagem de personagens de folhas animados que DALL-E gerou, Sora animou a imagem de uma forma um tanto verossímil. É um pouco mais fácil ignorar as imperfeições quando o vídeo não pretende ser real.

Sora também parece ser decente na geração de fotos de drone e rastreamento: uma foto de drone do Monte Fuji, ou da Ponte Golden Gate, parece suave e fotorrealista. Se você olhar de perto, poderá notar falhas e imperfeições, como ondas que não estão se comportando como deveriam, mas provavelmente você poderia inserir essas fotos em programas e filmes sem que muitas (ou a maioria) das pessoas percebessem.

Para onde vamos a partir daqui?

Sora me assustou em fevereiro, quando foi anunciado. Nos dez meses desde então, ainda estou com medo, mas não porque os vídeos estejam muito melhores. Na verdade, apenas com base no que vejo hoje, a qualidade parece a mesma – embora com alguns novos recursos de IA que você pode usar para ajustar esses vídeos. O realismo ainda está lá quando está, assim como as falhas, que são muitas.

O que me assusta é a acessibilidade: assim que o OpenAI atender à demanda, o Sora estará disponível para qualquer pessoa com assinatura do ChatGPT Plus. Por US$ 20, você tem acesso a uma ferramenta que pode gerar até 50 vídeos de cinco segundos por mês. Cinco segundos não é muito longo, é claro, então sem alguma inteligência, esses vídeos provavelmente não serão os que causarão mais danos.

É aí que entra o ChatGPT Pro. Este plano é muito mais caro (US$ 200 por mês), mas por esses US$ 200, você pode criar até 500 vídeos, cada um dos quais pode ter até 1080p e até 20 segundos de duração. A OpenAI diz que você também pode baixar esses vídeos sem marca d’água, o que tornará a detecção muito mais difícil.

Claro, a maioria de nós não assinará o Pro para isso, mas US$ 200 não são um grande impedimento para maus atores que desejam espalhar informações erradas. Imagine a próxima grande crise polarizadora, alimentada por uma enxurrada de vídeos que “provam” o que aconteceu de uma forma ou de outra, quando na verdade esses vídeos não são de todo reais. OpenAI tem alguns recursos de segurança incorporados aqui, como bloquear materiais protegidos por direitos autorais ou figuras notáveis ​​​​de serem incorporadas em um vídeo, mas veremos como esses bloqueios funcionam na prática.

Como experimentar Sora

No momento, a criação de conta não está disponível para Sora, mas isso pode mudar em breve. Se você estiver interessado em experimentar o Sora por si mesmo, acesse sora.com. A partir daqui, clique em fazer login e autentique-se com sua conta ChatGPT. Lembre-se, você precisa de uma conta ChatGPT Plus ($ 20 por mês) ou uma conta ChatGPT Pro ($ 200 por mês) para usar o Sora.