Quando visitei recentemente a minha mãe idosa na Alemanha, percebi que poderia ser uma das últimas vezes que a veria na casinha acolhedora que ela chama de lar há mais de duas décadas. Então fiz o que qualquer um faria: peguei meu celular e tirei muitas fotos do lugar para preservar o máximo de lembranças possível: a lareira quente; as estantes cheias de livros familiares; o velho e frágil banco de jardim na frente que todos assinaram durante uma comemoração especial de aniversário, muitos anos atrás.
Então, tentei outra coisa. Abri o Scaniverse, um aplicativo de scanner 3D da Pokémon Go criador Niantic, e capturei algumas dessas coisas como objetos 3D, agachando-me e andando na ponta dos pés em torno deles enquanto movia lentamente meu telefone para registrar cada ângulo e centímetro. Os resultados foram um pouco imperfeitos nas bordas, mas ainda pareciam profundos. Mais tarde, quando abri os scans, tanto no meu telefone quanto com um fone de ouvido VR, consegui olhar para aquele banco de jardim desgastado pelo tempo de todos os ângulos, como se estivesse bem na frente dele. A experiência me tocou emocionalmente de uma forma para a qual eu não estava preparado.
Essa experiência foi possível graças ao splatting gaussiano, um novo método de captura 3D que foi inventado há menos de dois anos e já está conquistando a indústria de tecnologia. Tanto a Niantic quanto o Google estão usando-o para desenvolver seus respectivos produtos de mapeamento; Snap adicionou suporte para splats – que é como os objetos capturados com splatting gaussiano são coloquialmente chamados – à sua plataforma de desenvolvedor Lens Studio, e Meta quer usar splatting gaussiano para criar um metaverso que se pareça com o mundo real.
As empresas de tecnologia são apaixonadas pelos respingos gaussianos por sua capacidade de capturar de forma fotorrealista e, em seguida, recriar digitalmente objetos tridimensionais. Em breve, poderá permitir que qualquer pessoa digitalize salas inteiras e mude a forma como os criativos em Hollywood e além gravam vídeos em 3D. Quando combinada com IA generativa, tem o potencial não só de preservar espaços existentes, mas também de nos transportar para mundos 3D inteiramente novos.
“É uma grande virada de jogo”, disse o especialista e investidor em AR/VR Tipatat Chennavasin. Como cofundador e sócio geral do Venture Reality Fund, Chennavasin tem interesse financeiro no sucesso desta tecnologia. Como geek e ex-artista 3D, ele se apaixonou por isso, comparando-o ao Jornada nas Estrelas holodeck, que permitiu aos membros da tripulação entrar em simulações holográficas em 3D de espaços reais e imaginários. “Estamos começando a chegar a um holodeck fotorreal.”
Construindo um mapa 3D do mundo, um respingo de cada vez
Capturar objetos em 3D, mesmo no telefone, não é novidade. No entanto, a maioria dos esforços anteriores dependiam de polígonos, o tipo de malha triangular com aparência cyberpunk que você já viu se já usou um aplicativo móvel de AR.
A captura e reconstrução 3D baseada em malha poligonal é boa o suficiente para objetos básicos com superfícies planas, mas pode ter problemas com texturas detalhadas e iluminação complexa. Os objetos capturados dessa maneira geralmente parecem plásticos e irreais, e os humanos capturados em 3D sempre parecem ter usado muito gel em vez de usar fios de cabelo individuais. “Era promissor na época, mas sempre teve enormes limitações”, disse Chennavasin.
Tudo isso mudou no verão de 2023, quando um grupo de cientistas europeus publicou um artigo sobre algo que chamaram de “respingos gaussianos 3D”. A abordagem deles para o problema foi abandonar as malhas e, em vez disso, capturar objetos 3D como uma coleção de bolhas difusas e translúcidas, também conhecidas como gaussianas.
Cada um desses blobs é capturado com informações exatas sobre sua cor, localização, escala, rotação e nível de transparência – e quando você combina milhões deles, você obtém uma imagem muito mais detalhada de um objeto 3D que também detalha sua aparência. qualquer ângulo, graças a todos esses dados adicionais. Usando aprendizado de máquina, eles conseguiram capturar objetos com muito mais detalhes, com maior fidelidade, e renderizá-los em tempo real, sem a necessidade de equipamentos pesados de renderização gráfica.
Os especialistas na área ficaram imediatamente impressionados com os resultados. “Finalmente temos a chance de ter um 3D verdadeiro e fotorreal”, disse Chennavasin. “É o momento JPEG para a computação espacial.”
O vice-presidente sênior de engenharia da Niantic, Brian McClendon, acredita que os splats gaussianos são o avanço mais profundo no campo dos gráficos 3D em mais de 30 anos. “Vemos isso como uma mudança fundamental”, disse ele.
“Vemos isso como uma mudança fundamental.”
De acordo com McClendon, os respingos gaussianos vão democratizar a captura 3D – e a Niantic quer estar na vanguarda dessa mudança. Depois de adquirir o aplicativo Scaniverse em 2021, a Niantic adicionou respingos gaussianos como tecnologia de captura no ano passado. Em agosto, lançou uma nova versão do Scaniverse que coloca os respingos na frente e no centro. Em outubro, a empresa abriu o código-fonte de seu próprio formato de arquivo para splats. E em dezembro, o Scaniverse expandiu para VR, permitindo aos usuários observar splats gaussianos nos headsets Quest da Meta.
A Niantic tem seus próprios motivos para promover respingos. O Scaniverse começou como um aplicativo para capturar recordações pessoais e outros objetos individuais, mas a Niantic agora está incentivando as pessoas a também digitalizarem estátuas, fontes e outros pontos de interesse público. A empresa vê essas digitalizações como componentes-chave do mapa 3D do mundo que está construindo – o mesmo mapa que alimenta Pokémon Go, Peridotoe futuros jogos e experiências de AR geoespaciais. “Estamos muito focados no mapa, na varredura e na reconstrução do exterior”, disse McClendon.
“Já temos centenas de milhares desses (tipos de varredura) no Scaniverse no momento”, disse McClendon. “Esperamos chegar a um milhão em breve.”
Splats estão mudando a captura de vídeo 3D
Os splats gaussianos não servem apenas para capturar conteúdo estático. A startup de visão computacional Gracia AI tem usado a tecnologia para gravar vídeos 3D volumétricos, que podem ser visualizados em fones de ouvido Meta Quest. Um desses clipes mostra um chef preparando uma refeição, com os espectadores podendo observar a ação de todos os ângulos em VR e até mesmo ampliar para observar sua faca cortando um pedaço brilhante de salmão cru.
Gracia gravou este vídeo em um estúdio profissional de captura 3D, usando um conjunto de 40 câmeras apontadas para o chef de todos os ângulos. É assim que os profissionais gravam conteúdo holográfico para experiências de AR e VR há anos – mas, mais uma vez, a transição de polígonos para splats gaussianos faz toda a diferença.
Anteriormente, a captura de vídeo 3D apresentava uma série de desafios visuais que levavam a códigos de vestimenta rígidos para os indivíduos capturados: nada de padrões movimentados, nada translúcido, nada solto e pendurado que pudesse resultar em artefatos estranhos. Quando a Microsoft capturou David Attenborough dessa forma, há vários anos, ela ainda teve que colar o colarinho na camisa e usar quantidades obscenas de spray de cabelo para literalmente evitar qualquer ponta solta que pudesse atrapalhar o processo de captura.
“É incrível quanta flexibilidade criativa você obtém com os splats gaussianos.”
Com os splats gaussianos, todas essas limitações desapareceram. “Não há restrições com roupas, não há restrições com cabelos”, disse o cofundador e CEO da Gracia, Georgii Vysotskii, que conta com o Venture Reality Fund de Chennavasin entre os investidores de sua empresa. Embora a captura de vídeo volumétrico da geração anterior exigisse quantidades ofuscantes de luz para eliminar quaisquer sombras, Gracia conseguiu gravar cenas na escuridão quase total. “Você pode deixar todas as sombras e usar iluminação artística”, disse Vysotskii. “É incrível quanta flexibilidade criativa você obtém com os splats gaussianos.”
Isso não quer dizer que ainda não haja desafios. No momento, os clipes de respingos gaussianos ainda exigem 9 GB de dados por minuto de vídeo – demais para streaming ou qualquer coisa além de uma breve demonstração técnica. Vysotskii disse que a empresa agora está trabalhando para reduzi-lo para 2–3 GB por minuto, e vídeos volumétricos de VR de 180 graus podem exigir apenas 1 GB de dados por minuto. Ele prevê que esses tipos de clipes eventualmente substituirão as gravações de instrutores em aplicativos de treino de RV, como Supernatural, ou conteúdo educacional profissional, porque permitem que os usuários vejam as instruções de todos os ângulos.
Os planos ambiciosos da Meta para splats gaussianos
Uma das demonstrações mais ambiciosas de splats gaussianos até hoje foi construída pela Meta. Hyperscape, que a empresa revelou em sua conferência Meta Connect neste outono, é um aplicativo para headsets Quest da Meta que permite aos usuários explorar renderizações 3D fotorrealistas. O aplicativo foi lançado com seis espaços digitalizados, incluindo cinco estúdios de artistas e uma sala de conferências no campus da Meta, que já serviu como escritório de Mark Zuckerberg.
O Hyperscape permite que você se mova livremente nesses espaços, o que é uma experiência fascinante com esse tipo de fidelidade visual. Você pode ver as muitas curiosidades no estúdio de São Francisco da artista de mídia mista Dianne Hoffman, que inclui inúmeras bonecas e uma caixa rotulada “pele de cobra e conchas”. Você pode se maravilhar com a extensa coleção Porsche do artista visual Daniel Arsham e até mesmo observar as samambaias e as árvores do lado de fora da janela do antigo escritório de Zuck. As representações parecem tão reais que Meta se sentiu compelida a incluir um aviso para não se apoiar em nenhum dos móveis retratados.
No momento, o Hyperscape não é muito mais do que uma demonstração tecnológica personalizada. No entanto, Meta tem grandes planos para splats gaussianos, como o Meta Horizon OS e o vice-presidente da Quest, Mark Rabkin, me disseram no Meta Connect neste outono. “Os splats gaussianos já estão rodando para nós em um motor que é basicamente o motor Horizon”, disse Rabkin, referindo-se à plataforma social VR da Meta. “Portanto, o caminho, tecnologicamente, para fazê-lo funcionar em um mundo é muito curto.”
A Meta vê o splats como mais uma ferramenta para os criadores de RV construírem mundos e experiências imersivas para Mundos Horizonte. A empresa ainda tem planos de permitir que qualquer pessoa escaneie sua própria casa e depois carregue uma cópia digital dela para o metaverso. “Definitivamente”, disse Rabkin. “É para isso que estamos trabalhando.”
“Eles têm um caminho para escalar isso? Não sei.”
Não está claro quanto tempo esse trabalho levará e se Mundos Horizonte sobreviverá em sua forma atual até então é outra questão. Meta se recusou a participar de entrevistas de acompanhamento para esta história, mas McClendon da Niantic alertou para não subestimar a complexidade de construir uma ferramenta de digitalização como o Hyperscape.
“Eles basicamente produziram uma visão perfeita”, disse McClendon. Meta provavelmente combinou várias varreduras para cada sala e provavelmente também fez uma boa quantidade de edição e limpeza manual, sugeriu ele. E como as varreduras resultantes são grandes demais para serem processadas em tempo real em um dispositivo, a Meta as está renderizando na nuvem e transmitindo-as diretamente para fones de ouvido.
“Isso não é escalável, mas parece muito bom”, disse McClendon. “Eles têm um caminho para escalar isso? Não sei.”
Um tiro certeiro para o holodeck
O desenvolvimento da tecnologia de respingos gaussianos está avançando em ritmo acelerado. McClendon me disse que a velocidade com que novos artigos científicos sobre o assunto estão sendo publicados reflete a da pesquisa generativa em IA. “Os artigos estão sendo publicados muito rapidamente agora”, disse ele. “A emoção é real.” E a tecnologia que estão desenvolvendo está sendo implementada rapidamente, disse Chennavasin. “Ou transformados em startups.”
Uma das áreas maduras para um avanço é a combinação de splats e IA. A IA generativa poderia melhorar a captura e renderização de splats gaussianos, potencialmente permitindo que uma empresa como a Gracia AI capturasse vídeos com muito menos câmeras. Ao mesmo tempo, muito mais pessoas capturando objetos e cenas 3D também aumentarão drasticamente a quantidade de dados de treinamento de alta qualidade para modelos de vídeo 3D generativos.
“Isso não vai acontecer da noite para o dia. Mas agora é um tiro certeiro.”
Tudo isto aponta para um futuro em que as pessoas comuns serão capazes de gerar espaços 3D fotorrealistas com avisos de IA, capturas de splat gaussianas, ou uma mistura de ambos, e depois entrar nesses espaços com auscultadores VR ou óculos AR.
“O aplicativo matador do XR é um holodeck multijogador”, disse Chennavasin. “IA generativa e splats gaussianos é como os criamos com uma fidelidade visual que é quase indistinguível da realidade. Isso não vai acontecer da noite para o dia. Mas agora é um tiro certeiro.”
Um futuro assim ao nosso alcance levanta a questão: se você tivesse um holodeck, o que visitaria primeiro? Representações fotorrealistas de lugares distantes para os quais você ainda não teve a oportunidade de viajar? Estúdios de gravação, museus ou bibliotecas famosos? Ou melhor, mundos fantásticos como castelos medievais, masmorras ou cenários de filmes da Marvel?
Para mim, pode ser apenas a casinha aconchegante da minha mãe e aquele banco de jardim frágil.