Cientistas usam IA para transformar foto de 134 anos em modelo 3D de relevo de templo perdido

Tempo de leitura: 4 minutos

Uma equipe de cientistas da computação fez recentemente reconstruções em 3D de painéis em relevo perdidos em um Patrimônio Mundial da UNESCO usando inteligência artificial.

Os pesquisadores desenvolveram uma rede neural que pode tirar uma foto 2D de um objeto tridimensional e produzir uma reconstrução digital em três dimensões. Na verdade, eles desenvolveram um estereoscópio para o século XXI. A equipe apresentou sua prova de conceito na 32ª edição da conferência ACM Multimedia no mês passado.

Para efeitos da sua investigação, os cientistas usaram imagens de relevos no templo de Borobudur, na Indonésia, Património Mundial da UNESCO. O templo é coberto por 2.672 baixos-relevos, tornando-o a maior coleção de relevos budistas do mundo. No final do século XIX, o revestimento da base do templo foi reinstalado, ocultando 156 relevos atrás de paredes de pedra, que permanecem até hoje enterrados. Mas antes de serem enterrados, foram tiradas fotografias em escala de cinza de cada painel. A recente rede neural da equipe conseguiu reconstruir um desses relevos agora escondidos usando uma antiga foto em preto e branco de 134 anos atrás.

A foto em preto e branco de 138 anos usada no estudo.
Imagem: Pan et al. 2024

Tentativas anteriores foram feitas, mas essas reconstruções anteriores não conseguiram replicar os detalhes mais sutis dos relevos. Esses detalhes foram perdidos devido à compressão dos valores de profundidade; em outras palavras, esses relevos tridimensionais apresentam detalhes das esculturas mais próximas e mais distantes do observador, e tentativas anteriores de reconstrução achataram os detalhes nessas profundidades variadas. A equipe se referiu às características perdidas como “bordas suaves” e desenvolveu um mapa dessas bordas com base nas mudanças de curvatura calculadas no espaço 3D.

No novo artigo, a equipe postulou que o mapa de arestas tal como existia estava reduzindo a precisão do modelo, não conseguia transmitir adequadamente as mudanças na curvatura 3D e a forma como foi incorporado à rede limitava seu impacto na estimativa da profundidade em os objetos físicos.

Um mapa de borda suave (esquerda) e um mapa semântico (direita) da imagem de relevo 2D.
Um mapa de borda suave (esquerda) e um mapa semântico (direita) da imagem de relevo 2D. Pan et al. 2024

“Embora tenhamos alcançado 95% de precisão de reconstrução, ainda faltavam detalhes mais sutis, como rostos humanos e decorações”, disse Satoshi Tanaka, pesquisador da Universidade Ritsumeikan, no Japão, e coautor do estudo, em um comunicado da universidade. “Isso ocorreu devido à alta compressão dos valores de profundidade nas imagens de relevo 2D, dificultando a extração de variações de profundidade ao longo das bordas. Nosso novo método aborda isso melhorando a estimativa de profundidade, especialmente ao longo de bordas suaves, usando uma nova abordagem de detecção de bordas.”

As imagens acima representam os melhores resultados experimentais da equipe (linha inferior) para um mapa de borda suave (esquerda) e um mapa semântico (direita) do relevo da amostra, em comparação com os dados reais (linha superior). O mapa de arestas é apenas isso – ele rastreia os pontos onde as curvas do relevo lhe conferem profundidade, o que confundiu os modelos anteriores.

O mapa semântico – que lembra vagamente o Blue Green Red de Ellsworth Kelly – mostra como a base de conhecimento do modelo associa conceitos relacionados. Nesta imagem, o modelo distingue características de primeiro plano (azul), figuras humanas (vermelho) e fundo. Os pesquisadores também incluíram como seu modelo se compara a outros modelos de última geração em relação às imagens reais.

A IA recebe a sua quota-parte de críticas, mas nas ciências está a revelar-se notavelmente hábil na resolução de problemas de reconhecimento de imagens e preservação do património cultural. Em setembro, uma equipe diferente usou uma rede neural para identificar detalhes nunca antes vistos em painéis pintados por Raphael, e uma equipe diferente usou uma rede neural convolucional para quase dobrar o número de linhas de Nazca conhecidas – geoglifos famosos no Peru.

O modelo é capaz de compreensão multimodal, o que significa que é capaz de receber vários canais de dados para dar sentido ao seu objeto alvo. Neste caso, o detector de borda suave usado para medir curvas no relevo não vê apenas pequenas mudanças no brilho para perceber a profundidade, mas também as curvas nas próprias esculturas. A utilização de ambos os canais de informação permitiu ao novo modelo recriar uma reconstrução do relevo mais nítida e detalhada do que as tentativas anteriores.

“Nossa tecnologia possui um vasto potencial para preservar e compartilhar o patrimônio cultural”, disse Tanaka. “Isso abre novas oportunidades não apenas para arqueólogos, mas também para experiências virtuais imersivas por meio de tecnologias de RV e metaverso, preservando o patrimônio global para as gerações futuras.”

O património cultural precisa de ser preservado. Mas parte do património cultural está particularmente em risco e, embora estas reconstruções geradas pela IA não possam substituir o verdadeiro McCoy, têm a sua utilidade. Redes neurais como a descrita no artigo recente poderiam ressuscitar uma herança perdida que só existe em imagens – por exemplo, os Budas de Bamiyan, estátuas monumentais explodidas pelos Taliban em 2001 – mesmo que apenas num ambiente de realidade aumentada ou virtual.

Os modelos também poderiam ser usados ​​para preservar o património cultural à beira da destruição, como as esculturas aborígenes centenárias nas árvores boab no deserto de Tanami, na Austrália.

O património cultural define quem somos através das comunidades e culturas que vieram antes de nós. Se esses modelos de IA ajudarem os historiadores da arte e os preservacionistas a salvar apenas um pedaço da história, eles fizeram bem. É claro que os modelos de IA também requerem uma enorme quantidade de energia, o que pode contribuir para a perda do património cultural de forma tangencial. Mas mesmo que as formas como a IA é alimentada continuem problemáticas, utilizar a tecnologia para boas causas é estar do lado certo da história – especialmente quando se trata de artefactos.

Rolar para cima
Pular para o conteúdo