El White Paper 133 de Schneider Electric titulado ‘Navigating Liquid Cooling Architectures for Data Centers with AI Workloads’ proporciona un análisis exhaustivo de las tecnologías de refrigeración líquida y sus aplicaciones en los centros de datos actuales, particularmente en aquellos que gestionan cargas de trabajo de Inteligencia Artificial (IA) de alta intensidad. Este documento guía a los operadores de centros de datos y a los responsables de IT a través de las complejidades de la refrigeración líquida, ofreciendo respuestas claras a preguntas críticas sobre el diseño, la implementación y el funcionamiento del sistema.
La demanda de IA está creciendo a gran ritmo. Como resultado, los centros de datos necesarios para hacer posible la tecnología de IA están generando un calor considerable, en particular los que contienen servidores de IA con aceleradores utilizados para entrenar grandes modelos de lenguaje y cargas de trabajo de inferencia. Esta producción de calor está aumentando la necesidad de utilizar la refrigeración líquida para mantener un rendimiento, sostenibilidad y fiabilidad óptimos.
Los autores Paul Lin, Robert Bunger y Victor Avelar identifican en el documento dos categorías principales de refrigeración líquida para servidores de IA: refrigeración directa al chip y refrigeración por inmersión. Describen los componentes y funciones de una unidad de distribución de refrigerante (CDU), que son esenciales para gestionar la temperatura, el flujo, la presión y el intercambio de calor dentro del sistema de refrigeración. La CDU es un elemento clave y tiene tres circuitos, el sistema de enfriamiento tecnológico (TCS), el sistema de agua de las instalaciones (FWS) y el sistema de agua del condensador (CWS).
El libro blanco describe tres elementos clave de las arquitecturas de refrigeración líquida y seis arquitecturas habituales de refrigeración líquida. Asimismo, ofrece orientación para seleccionar la mejor opción en función de factores como la infraestructura existente, el tamaño de la implantación, la velocidad y la eficiencia energética.
Tres elementos clave de las arquitecturas de refrigeración líquida
Los tres elementos clave de las arquitecturas de refrigeración líquida descritos en el documento son la captura del calor dentro del servidor: utilización de un medio líquido (por ejemplo, aceite dieléctrico, agua) para absorber el calor de los componentes de IT; el tipo de CDU: selección de la CDU adecuada en función de los métodos de intercambio de calor (líquido-aire, líquido-líquido) y los factores de forma (montaje en bastidor, montaje en suelo); y el método de rechazo del calor: se trata de determinar cómo transferir eficazmente el calor al exterior.
Los CDU realizan cinco funciones clave: control de temperatura, control de flujo, control de presión, tratamiento de fluidos, e intercambio de calor y aislamiento. Las unidades de refrigeración líquida (CDU) se componen fundamentalmente de bombas, intercambiadores de calor, sistemas de filtración y controles para realizar estas funciones. El proceso se puede simplificar identificando los atributos críticos de una CDU.
Según el documento, el tipo de CDU debe basarse en dos atributos críticos: tipo de intercambio de calor (líquido-aire, líquido-líquido, etc.), y capacidad y factor de forma de la CDU (montaje en bastidor, montaje en suelo). Existen seis tipos de intercambio de calor en la industria de refrigeración líquida. Uno de ellos es el Líquido a aire (LA), en el que el calor del circuito líquido del TCS se bombea a un serpentín (es decir, un radiador) donde el calor se rechaza directamente al aire del centro de datos. Otro es el Líquido a líquido (LL), donde el calor del circuito líquido de TCS se transfiere a una instalación de agua.
Otro tipo es el Refrigerante a aire (RA), donde el sistema bifásico directo a chip envía el calor directamente al aire a través de un radiador. Funciona como un condensador a base de aire. Por otro lado, se encuentra el Refrigerante a líquido (RL), donde el sistema bifásico directo a chip envía calor a un sistema de agua de la instalación. Funciona como un condensador a base de agua. Otro es el Líquido a refrigerante (LR), donde un circuito de líquido TCS rechaza el calor hacia una instalación. Por último, el tipo de intercambio de calor de Refrigerante a Refrigerante (RR) no es típico.
En cuanto a la capacidad y factor forma de la CDU, el tamaño de la bomba, el tamaño del intercambiador de calor y el tipo de fluido definen la capacidad total (kW) de un sistema CDU. Las CDU vienen en una amplia gama de capacidades según el factor de forma: montado en bastidor y montado en suelo. El documento se centra en dos tipos predominantes de intercambiadores de calor (LA y LL) y cuatro tipos comunes de CDU: montaje en rack (20-40 kW) y montaje en suelo (hasta 60 kW) para LA; y montaje en rack (40-80 kW) y montaje en suelo (300 kW y más) para LL.
El tercer elemento clave de las arquitecturas de refrigeración líquida es el método de rechazo del calor. Una vez que el circuito TCS captura el calor del equipo IT, el cómo se transfiere esta energía térmica al exterior se resuelve con el sistema de rechazo de calor. Hay tres métodos comunes: sistema de rechazo de calor existente, con rechazo de calor al aire en el espacio IT; sistema de rechazo de calor existente, con rechazo de calor a los sistemas de agua de las instalaciones; y sistema de rechazo de calor dedicado, rechaza el calor a sistemas de agua independientes.
Arquitecturas habituales de refrigeración líquida
El documento detalla seis arquitecturas habituales de refrigeración líquida, que combinan diferentes tipos de CDU y métodos de rechazo del calor. En esta sección se simplifica el proceso de elección a la más adecuada de las seis arquitecturas comunes dividiéndola en dos pasos: elegir el método de rechazo del calor, y elegir la capacidad y el factor de forma de la CDU.
En el primer paso, con el sistema de rechazo existente con rechazo de calor al aire en el espacio IT, esta arquitectura permite diseñar el circuito TCS como un sistema autónomo. La CDU de LA puede montarse en bastidor o en suelo. En esta arquitectura, todo lo relacionado con la infraestructura de la instalación refrigerada por aire existente permanece igual. Las ventajas de esta arquitectura son su compatibilidad con la mayoría de las infraestructuras existentes, no es necesario modificar la infraestructura de refrigeración existente y puede prefabricarse para una instalación más sencilla. Se implementaría cuando no hay agua refrigerada o de condensador disponible y en servidores refrigerados por líquido a pequeña escala, desde un solo servidor o varios bastidores, entre otros.
Seleccionando el rechazo de calor a los sistemas de agua de las instalaciones, en esta arquitectura, el circuito TCS aprovecha una CDU LL para convertirse en un circuito aislado alimentado por un circuito de agua refrigerada o de condensador. Las ventajas son, entre otras, mayores capacidades de rechazo de calor por refrigeración líquida, mayor eficiencia energética y niveles de ruido reducidos en comparación con la arquitectura de rechazo de calor al aire en espacio de IT. Se implementaría cuando la eficiencia energética es una consideración más importante que la velocidad de la implementación, entre otras.
En la arquitectura con el sistema de rechazo de calor a sistemas de agua independientes se diseña un sistema de rechazo de calor dedicado para refrigeración líquida utilizando una CDU LL optimizando la temperatura y el flujo del TCS y el rechazo de calor. Entre sus ventajas destaca una alta eficiencia energética debido al aumento de horas de enfriamiento gratuito o que su implementación no interrumpe el sistema de enfriamiento existente. Se implementaría cuando la alta eficiencia energética es una prioridad y cuando se esperan importantes implementaciones de servidores refrigerados por líquido.
El segundo paso se refiere a la elección de la capacidad y el factor de forma de la CDU. Seleccionando el montaje en bastidor, la CDU está dedicada a un solo bastidor, lo que significa que cada bastidor tiene su propio circuito TCS. Generalmente montada en la parte inferior del bastidor, la CDU incluye una unidad de bombeo, filtración y controles. El calor se transfiere al aire del centro de datos a través de un intercambiador de calor de puerta trasera (LA) asistido por ventilador o a un circuito de instalaciones a través de un intercambiador de calor LL.
En cuanto al montaje en suelo, la CDU está dedicada a una o varias filas de rack, lo que significa que todas comparten el mismo circuito TCS. Puede colocarse al final de la fila o más lejos del grupo de IA. El calor se transfiere al aire del centro de datos a través de un intercambiador de calor asistido por ventilador (LA) o a un circuito de instalaciones a través de un intercambiador de calor LL.
Como conclusión, cada vez más servidores requieren sistemas de refrigeración líquida para soportar cargas de trabajo de IA. Según la escala de las implementaciones de servidores refrigerados por líquido, un centro de datos puede refrigerarse mediante sistemas de rechazo de calor existentes o determinados. La terminología, las arquitecturas y los factores de elección que se analizan en este documento de Schneider Electric proporcionan un punto de partida para que los operadores de centros de datos desarrollen el ecosistema.