A startup de computação fotônica Lightmatter arrecadou US$ 400 milhões para explodir um dos gargalos dos datacenters modernos. A camada de interconexão óptica da empresa permite que centenas de GPUs trabalhem de forma síncrona, simplificando o trabalho caro e complexo de treinamento e execução de modelos de IA.
O crescimento da IA e seus imensos requisitos computacionais sobrecarregaram a indústria de datacenters, mas não é tão simples quanto conectar mais mil GPUs. Como os especialistas em computação de alto desempenho sabem há anos, não importa quão rápido cada nó do seu supercomputador seja se esses nós ficam ociosos metade do tempo esperando a chegada dos dados.
A camada ou camadas de interconexão são realmente o que transforma racks de CPUs e GPUs em efetivamente uma máquina gigante – portanto, quanto mais rápida a interconexão, mais rápido será o datacenter. E parece que o Lightmatter está construindo a camada de interconexão mais rápida, usando os chips fotônicos que vem desenvolvendo desde 2018.
“Os hiperscaladores sabem que se quiserem um computador com um milhão de nós, não poderão fazê-lo com switches Cisco. Depois de sair do rack, você passa de uma interconexão de alta densidade para basicamente um copo forte”, disse Nick Harris, CEO e fundador da empresa, ao TechCrunch. (Você pode ver uma breve palestra que ele deu resumindo esse assunto aqui.)
O que há de mais moderno, disse ele, é o NVLink e principalmente a plataforma NVL72, que coloca 72 unidades Nvidia Blackwell conectadas em um rack, capaz de no máximo 1,4 exaFLOPs com precisão de FP4. Mas nenhum rack é uma ilha, e toda essa computação precisa ser espremida por meio de 7 terabits de rede “scale up”. Parece muito, e é, mas a incapacidade de conectar essas unidades em rede mais rapidamente entre si e com outros racks é uma das principais barreiras para melhorar o desempenho.
“Para um milhão de GPUs, você precisa de múltiplas camadas de switches. e isso adiciona uma enorme carga de latência”, disse Harris. “Você tem que passar de elétrico para óptico, de elétrico para óptico… a quantidade de energia que você usa e o tempo que você espera é enorme. E fica dramaticamente pior em aglomerados maiores.”
Então, o que Lightmatter está trazendo para a mesa? Fibra. Muita fibra, roteada através de uma interface puramente óptica. Com até 1,6 terabits por fibra (usando múltiplas cores) e até 256 fibras por chip… bem, digamos apenas que 72 GPUs a 7 terabits começam a soar positivamente estranhos.
“A fotônica está chegando muito mais rápido do que as pessoas pensavam – as pessoas têm lutado para fazê-la funcionar há anos, mas estamos lá”, disse Harris. “Depois de sete anos de uma rotina absolutamente assassina”, acrescentou.
A interconexão fotônica atualmente disponível no Lightmatter faz 30 terabits, enquanto a fiação óptica no rack é capaz de permitir que 1.024 GPUs trabalhem de forma síncrona em seus próprios racks especialmente projetados. Caso você esteja se perguntando, os dois números não aumentam por fatores semelhantes porque muito do que precisaria ser conectado em rede a outro rack pode ser feito no rack em um cluster de mil GPUs. (E de qualquer forma, 100 terabits estão a caminho.)
O mercado para isso é enorme, destacou Harris, com todas as grandes empresas de datacenter, da Microsoft à Amazon, até os participantes mais recentes, como xAI e OpenAI, mostrando um apetite infinito por computação. “Eles estão ligando edifícios! Eu me pergunto por quanto tempo eles conseguirão continuar assim”, disse ele.
Muitos desses hiperscaladores já são clientes, embora Harris não tenha citado nenhum. “Pense no Lightmatter um pouco como uma fundição, como a TSMC”, disse ele. “Não escolhemos favoritos nem associamos nosso nome a marcas de outras pessoas. Fornecemos um roteiro e uma plataforma para eles – apenas ajudando a crescer o bolo.”
Mas, acrescentou timidamente, “não se quadruplica a sua avaliação sem alavancar esta tecnologia”, talvez uma alusão à recente ronda de financiamento da OpenAI que avaliou a empresa em 157 mil milhões de dólares, mas a observação poderia facilmente ser sobre a sua própria empresa.
Esta rodada D de US$ 400 milhões avalia-a em US$ 4,4 bilhões, um múltiplo semelhante de sua avaliação de meados de 2023 que “nos torna de longe a maior empresa de fotônica. Então isso é legal! disse Harris. A rodada foi liderada pela T. Rowe Price Associates, com a participação dos investidores existentes Fidelity Management and Research Company e GV.
O que vem a seguir? Além da interconexão, a empresa está desenvolvendo novos substratos para chips para que eles possam realizar tarefas de rede ainda mais íntimas, por assim dizer, usando luz.
Harris especulou que, além da interconexão, a potência por chip será o grande diferencial daqui para frente. “Em dez anos você terá chips em escala wafer de todos – simplesmente não há outra maneira de melhorar o desempenho por chip”, disse ele. É claro que a Cerebras já está trabalhando nisso, embora seja uma questão em aberto se eles serão capazes de capturar o verdadeiro valor desse avanço neste estágio da tecnologia.
Mas para Harris, vendo a indústria de chips esbarrando em uma parede, ele planeja estar pronto e aguardando o próximo passo. “Daqui a dez anos, interconecte é Lei de Moore”, disse ele.