Nvidia Blackwell e o futuro do resfriamento de data centers

Tempo de leitura: 6 minutos

A Nvidia enfrentou escrutínio este mês porque alguns servidores com impressionantes 72 processadores Blackwell estavam superaquecendo. O problema surgiu porque algumas implantações iniciais de OEM não eram adequadamente refrigeradas a água, o que a Lenovo identificou e mitigou agressivamente com suas soluções Neptune de refrigeração a água quente.

À medida que a IA avança, precisaremos de processadores de IA mais densos e incrivelmente poderosos, o que sugere que o resfriamento do ar nas salas de servidores pode se tornar obsoleto.

Vamos falar sobre Blackwell, refrigeração líquida e por que a solução Neptune da Lenovo se destaca no momento. Encerraremos com meu produto da semana: o Windows 365 Link da Microsoft, que pode ser o elo que faltava entre PCs e terminais que poderia mudar para sempre a computação desktop.

Blackwell

Blackwell é a principal GPU focada em IA da Nvidia. Quando foi anunciado, estava tão longe do que a maioria consideraria prático que quase parecia mais um sonho do que uma solução. Mas funciona e não há nada parecido com sua classe no momento. No entanto, é extremamente denso em termos de tecnologia e gera muito calor.

Alguns argumentam que é um potencial desastre ecológico. Não me interpretem mal, ele consome muita energia e gera uma quantidade enorme de calor. Mas seu desempenho é tão alto em comparação com o tipo de carga que você normalmente obteria com peças mais convencionais que é relativamente econômico de operar.

É como comparar um semi-caminhão com três reboques a uma van U-Haul. Sim, o semi terá um consumo de combustível comparativamente ruim, mas também comportará mais carga do que 10 vans U-Haul e usará muito menos gasolina do que essas 10 vans, tornando-o mais ecologicamente correto. O mesmo se aplica a Blackwell. Está tão à frente da concorrência em termos de desempenho que o seu consumo relativamente elevado de energia está abaixo do que seria necessário para um servidor de IA competitivo.

Mas os chips Blackwell esquentam e a maioria dos servidores hoje são refrigerados a ar. Portanto, não deveria ser surpresa que alguns servidores Blackwell foram configurados com refrigeração a ar e aqueles com 72 ou mais processadores Blackwell em um rack superaqueceram. Embora 72 Blackwells em um rack sejam incomuns hoje em dia, à medida que a IA avança, isso se tornará mais comum, visto que a Nvidia é atualmente a rainha da IA.

Você só pode ir até certo ponto com a tecnologia refrigerada a ar em termos de desempenho antes de mudar para a refrigeração líquida. Embora a Nvidia tenha respondido a esse problema com uma especificação de rack refrigerado a água que a Dell está usando agora, a Lenovo estava muito à frente com sua solução de refrigeração líquida Neptune.

Lenovo Netuno

A Lenovo foi a primeira a perceber isso, principalmente porque é atualmente líder de mercado em sua classe em termos de refrigeração líquida – uma tecnologia adquirida inicialmente da IBM, que já faz refrigeração líquida há décadas.

O que é importante no resfriamento a água não é apenas a tecnologia, mas o conhecimento de como implantá-la com segurança. Misturar água e eletrônicos de alta amperagem pode ser um desastre se você não souber o que está fazendo. Como resultado da aquisição do servidor IBM, a Lenovo tem décadas de experiência em refrigeração líquida, que chama de Neptune.

Dado que a Nvidia especificou um rack refrigerado a água, o que torna o Neptune melhor? A resposta é experiência. A maioria dos que usam a solução especificada pela Nvidia, incluindo a Nvidia, não costuma implantar soluções refrigeradas a água. Como resultado, especialmente com essas implementações de ponta da Blackwell, eles aprenderão essencialmente no trabalho.

Pode ser muito perigoso misturar água com componentes eletrônicos de alta amperagem. Água e eletricidade não se misturam. Um vazamento não só pode fritar uma peça cara ou até mesmo um rack inteiro, mas se uma pessoa estiver presente, ele também pode fritá-los, se os disjuntores não funcionarem. Em um ambiente de piso elevado, a menos que tenha sido projetado com vazamentos em mente, coisas terríveis podem acontecer.

Eu mesmo observei isso décadas atrás, quando estava na IBM, e descobri que eles não haviam testado o sistema de refrigeração líquida do nosso enorme (para a época) data center. O local perdeu um transformador que desligou o sistema de refrigeração a água, que não havia sido testado quanto a uma parada repentina. Os canos estouraram e o data center tornou-se uma piscina perigosa. A maior parte do hardware, que custou centenas de milhões de dólares, foi perdida e o prédio foi inundado, causando danos adicionais.

Através de experiências como esta, a IBM tornou-se o OEM líder em refrigeração segura a água, e a Lenovo adquiriu esse conhecimento e experiência quando comprou o grupo de servidores IBM x86. Agora, a Lenovo, junto com a IBM, sabe como fazer resfriamento a água melhor do que a maioria, o que significa que você pode ter certeza de que um servidor Lenovo Blackwell não superaquecerá ou começará a vazar repentinamente.

Além disso, a experiência da Lenovo está no resfriamento com água quente, uma maneira muito mais segura e menos dispendiosa de resfriar servidores do que o resfriamento com água fria, que requer evaporadores ou resfriadores enormes e ineficientes.

Implementar esta tecnologia não é uma tarefa trivial. Ao contrário dos automóveis ou PCs refrigerados a água, os servidores precisam ter recursos de troca a quente, o que significa que você precisa de conexões excepcionais e altamente testadas, sem gotejamento, alertas agressivos, cronogramas de manutenção preventiva baseados em conhecimentos anteriores de componentes e técnicos com experiência em trabalhar com este nível de tecnologia de refrigeração a água.

Concluindo: Um Futuro de Data Centers Resfriados por Água Quente

Blackwell é apenas o primeiro desses processadores incrivelmente poderosos a chegar ao mercado porque, à medida que a IA vai além, os concorrentes da Nvidia também terão que avançar para algo semelhante, sugerindo que todos os servidores podem eventualmente precisar ser resfriados com água quente.

Isso posiciona a Lenovo bem para um futuro refrigerado a água, independentemente da tecnologia, enquanto os concorrentes da Lenovo tentam alcançá-la. Um benefício que espero que os técnicos anseiem é a redução do ruído do data center. A quantidade de ar que você precisa enviar através de servidores refrigerados a ar é enorme e transforma os data centers atuais em um pesadelo sonoro.

À medida que o resfriamento a água quente chega ao mercado de forma mais agressiva, esses data centers ficarão mais silenciosos, tornando-os locais de trabalho muito mais agradáveis. Isso deixará muitos de nós que temos que trabalhar neles muito felizes.

Produto tecnológico da semana

Link do Windows 365

Vistas frontal, lateral e traseira do dispositivo Windows 365 Link Cloud PC da Microsoft

Crédito da imagem: Microsoft

Desde que substituímos os terminais por PCs, a TI quer a experiência do terminal de volta. Os terminais eram como TVs pré-smart, pois você não precisava fazer patches ou atualizações de sistema operacional ou lidar com a “tela azul da morte”. Se a coisa quebrasse, era muito fácil de consertar ou relativamente barato para substituir. Do ponto de vista da TI, os terminais eram muito melhores que os PCs.

Mas no lado do PC, os terminais eram uma droga. Você não poderia executar o que queria sem obter suporte de TI e poderia levar meses para que a TI respondesse a uma solicitação.

Os terminais foram conectados a mainframes antigos que não conseguiam executar aplicativos modernos na época (agora podem). Os novos aplicativos geralmente eram desenvolvidos sob medida, mas uma lacuna na comunicação entre os usuários e a TI frequentemente gerava problemas. Os usuários tinham dificuldade para articular suas necessidades e a TI muitas vezes não conseguia sondar especificações melhores, resultando em aplicativos frequentemente inutilizáveis.

Bem, no Microsoft Ignite da semana passada, a Microsoft anunciou o Windows 365 Link, que pode ser a coisa mais próxima de um terminal com fio perfeito (ainda não há solução para laptop) com recursos e desempenho semelhantes aos de um PC.

Embora chamemos a classe de thin client, a Microsoft chama isso de Cloud PC. Custando US$ 349 e o tamanho de um micro-PC, parece ser o mais próximo que já vimos em termos de uma combinação quase perfeita de PC/terminal.

O Windows 365 Link será mais confiável, mais barato, seguro e muito menor do que a maioria dos PCs desktop, tornando-o muito atraente para a TI. Ao mesmo tempo, ele se conecta a uma instância do Cloud PC, proporcionando ao usuário uma experiência muito semelhante à do PC.

No momento, ele visa apenas contas empresariais, principalmente porque elas têm as maiores necessidades e a infraestrutura necessária. Vejo isso se deslocando para mercados como viagens, educação, governo, manufatura e outros mercados verticais com necessidades semelhantes. Embora ainda não atenda aos usuários móveis, o 5G totalmente implantado e a futura especificação 6G deverão permitir futuras implementações móveis.

Dado que a Microsoft foi uma das empresas que lançou o PC e tornou os terminais obsoletos, parece irônico – e poético – que a Microsoft assuma a liderança em torná-los obsoletos, eventualmente. Veremos se isso acontece. Por enquanto, o Windows 365 Link é meu produto da semana.

Rolar para cima
Pular para o conteúdo