Google Cloud Expande Infraestrutura De IA Com TPUs De Sexta Geração

Tempo de leitura: 4 minutos

O Google Cloud aprimorará a infraestrutura de nuvem de IA com novas TPUs e GPUs NVIDIA, anunciou a empresa de tecnologia em 30 de outubro no App Day & Infrastructure Summit.

Agora em versão prévia para clientes de nuvem, a sexta geração do Trillium NPU alimenta muitos dos serviços mais populares do Google Cloud, incluindo Pesquisa e Mapas.

“Por meio desses avanços na infraestrutura de IA, o Google Cloud capacita empresas e pesquisadores a redefinir os limites da inovação em IA”, escreveu Mark Lohmeyer, vice-presidente e gerente geral de computação e infraestrutura de IA do Google Cloud, em um comunicado à imprensa. “Estamos ansiosos pelas novas aplicações transformadoras de IA que surgirão a partir desta base poderosa.”

O que você vai ler:

Trillium NPU acelera processos generativos de IA

À medida que os grandes modelos de linguagem crescem, também cresce o silício para suportá-los.

A sexta geração do Trillium NPU oferece treinamento, inferência e entrega de aplicativos de modelos de linguagem grandes em 91 exaflops em um cluster de TPU. O Google Cloud relata que a versão de sexta geração oferece um aumento de 4,7 vezes no desempenho máximo de computação por chip em comparação com a quinta geração. Ele duplica a capacidade da memória de alta largura de banda e a largura de banda do Interchip Interconnect.

O Trillium atende às altas demandas computacionais de modelos de difusão em larga escala, como o Stable Diffusion XL. No seu auge, a infraestrutura do Trillium pode conectar dezenas de milhares de chips, criando o que o Google Cloud descreve como “um supercomputador em escala predial”.

Os clientes corporativos têm solicitado uma aceleração de IA mais econômica e maior desempenho de inferência, disse Mohan Pichika, gerente de produto do grupo de infraestrutura de IA do Google Cloud, em um e-mail para TechRepublic.

No comunicado à imprensa, Deniz Tuna, cliente do Google Cloud, chefe de desenvolvimento da empresa de desenvolvimento de aplicativos móveis HubX, observou: “Usamos Trillium TPU para criação de texto para imagem com MaxDiffusion & FLUX.1 e os resultados são incríveis! Conseguimos gerar quatro imagens em 7 segundos — isso representa uma melhoria de 35% na latência de resposta e uma redução de aproximadamente 45% no custo/imagem em relação ao nosso sistema atual!”

Novas máquinas virtuais antecipam entrega de chips NVIDIA Blackwell

Em novembro, o Google adicionará VMs A3 Ultra com GPUs NVIDIA H200 Tensor Core aos seus serviços em nuvem. As VMs A3 Ultra executam cargas de trabalho de IA ou de computação de alta potência na rede de data center do Google Cloud a 3,2 Tbps de tráfego de GPU para GPU. Eles também oferecem aos clientes:

Integração com hardware NVIDIA ConnectX-7.
2x a largura de banda de rede GPU para GPU em comparação com o benchmark anterior, A3 Mega.
Desempenho de inferência LLM até 2x maior.
Quase o dobro da capacidade de memória.
1,4x mais largura de banda de memória.

As novas VMs estarão disponíveis através do Google Cloud ou Google Kubernetes Engine.

VEJA: As GPUs Blackwell estão esgotadas para o próximo ano, disse o CEO da Nvidia, Jensen Huang, em uma reunião de investidores em outubro.

Atualizações adicionais da infraestrutura do Google Cloud apoiam o crescente setor empresarial de LLM

Naturalmente, as ofertas de infraestrutura do Google Cloud interoperam. Por exemplo, o A3 Mega é suportado pela rede de data centers Júpiter, que em breve verá seu próprio aprimoramento focado na carga de trabalho de IA.

Com seu novo adaptador de rede, a capacidade de descarregamento de host do Titanium agora se adapta de forma mais eficaz às diversas demandas de cargas de trabalho de IA. O adaptador de rede Titanium ML usa hardware NVIDIA ConnectX-7 e a rede alinhada por trilhos de 4 vias em todo o data center do Google Cloud para fornecer 3,2 Tbps de tráfego de GPU para GPU. Os benefícios dessa combinação chegam ao Júpiter, a estrutura de rede de comutação de circuitos ópticos do Google Cloud.

Outro elemento-chave da infraestrutura de IA do Google Cloud é o poder de processamento necessário para treinamento e inferência de IA. Reunindo um grande número de aceleradores de IA está o Hypercompute Cluster, que contém VMs A3 Ultra. O Hypercompute Cluster pode ser configurado por meio de uma chamada de API, aproveita bibliotecas de referência como JAX ou PyTorch e oferece suporte a modelos abertos de IA como Gemma2 e Llama3 para benchmarking.

Os clientes do Google Cloud poderão acessar o Hypercompute Cluster com VMs A3 Ultra e adaptadores de rede Titanium ML em novembro.

Esses produtos atendem às solicitações dos clientes corporativos para utilização otimizada de GPU e acesso simplificado à infraestrutura de IA de alto desempenho, disse Pichika.

“O Hypercompute Cluster fornece uma solução fácil de usar para as empresas aproveitarem o poder do AI Hypercomputer para treinamento e inferência de IA em larga escala”, disse ele por e-mail.

O Google Cloud também está preparando racks para as próximas GPUs Blackwell GB200 NVL72 da NVIDIA, previstas para adoção por hiperescaladores no início de 2025. Assim que disponíveis, essas GPUs se conectarão à série VM baseada no processador Axion do Google, aproveitando os processadores Arm personalizados do Google.

Pichika se recusou a abordar diretamente se o momento do Hypercompute Cluster ou do Titanium ML estava relacionado a atrasos na entrega das GPUs Blackwell: “Estamos entusiasmados em continuar nosso trabalho juntos para oferecer aos clientes o melhor de ambas as tecnologias”.

Mais dois serviços, o serviço de armazenamento em bloco focado em IA/ML Hyperdisk ML e o sistema de arquivos paralelo focado em IA/HPC Parallestore, estão agora disponíveis para o público geral.

Os serviços do Google Cloud podem ser acessados em diversas regiões internacionais.

Concorrentes do Google Cloud para hospedagem de IA

O Google Cloud compete principalmente com Amazon Web Services e Microsoft Azure na hospedagem em nuvem de grandes modelos de linguagem. Alibaba, IBM, Oracle, VMware e outros oferecem recursos semelhantes de grandes modelos de linguagem, embora nem sempre na mesma escala.

De acordo com Statista, o Google Cloud detinha 10% do mercado mundial de serviços de infraestrutura em nuvem no primeiro trimestre de 2024. Amazon AWS detinha 34% e Microsoft Azure detinha 25%.