KI fordert Stromversorgung und Kühlung in Rechenzentren heraus

KI wird die Infrastruktur von Rechenzentren grundlegend verändern, sagt Anton Chuchkov von Vertiv.

KI-Workloads arbeiten mit enormen Datenmengen und erfordern einen immensen Energiebedarf. Dies führt zu erheblichen Veränderungen bei der Stromversorgung und Kühlung der im Rahmen des High-Performance Computing (HPC) verarbeiteten Daten. In einem typischen IT-Rack wurden früher Arbeitslasten von 5-10 Kilowatt (kW) erzeugt, und Racks mit Lasten von mehr als 20 kW galten als High-Density-Racks – ein seltener Anblick jenseits sehr spezifischer Anwendungen mit geringer Reichweite. Die IT wird mit Grafikprozessoren beschleunigt, um den Rechenanforderungen von KI-Modellen gerecht zu werden, und diese KI-Chips können auf demselben Raum wie ein herkömmlicher Server etwa fünfmal so viel Strom und fünfmal so viel Kühlkapazität benötigen.

Umfangreiche Kapazitätssteigerungen im Energieversorgungssystem

Ein Beispiel: Der Meta-Konzern wird bis Ende 2024 Milliarden ausgeben, um 350.000 H100-GPUs von NVIDIA einzusetzen. Rack-Dichten von 40 kW pro Rack sind derzeit das untere Ende dessen, was für den Einsatz von KI erforderlich ist. In naher Zukunft werden Rack-Dichten von mehr als 100 kW pro Rack üblich und in großem Maßstab verfügbar sein.

Dies erfordert umfangreiche Kapazitätssteigerungen im gesamten Energieversorgungssystem, vom Netz bis zu den Chips in den einzelnen Racks. Die Einführung von Flüssigkühlungstechnologien in den „White Space“ von Rechenzentren und schließlich in die Serverräume von Unternehmen wird eine Voraussetzung für die meisten Implementierungen sein. Denn herkömmliche Kühlmethoden werden nicht in der Lage sein, die Temperaturen zu bewältigen, welche von GPUs bei der Durchführung von KI-Berechnungen erzeugt werden. Die Investitionen zur Anpassung der Infrastruktur, die für die Stromversorgung und Kühlung von KI-Hardware erforderlich ist, sind beträchtlich. Ddie Bewältigung dieser neuen Planungsherausforderungen ist entscheidend.

Wandel zu High-Density

Der Übergang zum beschleunigten Computing wird nicht über Nacht erfolgen. Die Planer von Rechenzentren und Serverräumen müssen nach Möglichkeiten suchen, die Stromversorgungs- und Kühlungsinfrastruktur zukunftsfähig zu machen und dabei das künftige Wachstum ihrer Arbeitslasten zu berücksichtigen. Um jedes Rack mit ausreichend Strom zu versorgen, sind Upgrades vom Versorgungsnetz bis zum Rack erforderlich. Speziell für den White Space bedeutet dies wahrscheinlich Stromschienen mit hoher Stromstärke und Rack-PDUs mit hoher Dichte. Um die enormen Wärmemengen abzuleiten, die von Hardware mit KI-Workloads erzeugt werden, bieten sich vor allem zwei Technologien zur Flüssigkeitskühlung an.

Direct-to-Chip Flüssigkühlung

Kühlplatten sitzen auf den wärmeerzeugenden Komponenten (in der Regel Chips wie CPUs und GPUs), um Wärme abzuleiten. Eine gepumpte ein- oder zweiphasige Flüssigkeit entzieht der Kühlplatte Wärme und leitet sie aus dem Rechenzentrum heraus, wobei ein Wärme-, aber kein Flüssigkeitsaustausch mit dem Chip stattfindet. Auf diese Weise können etwa 70 bis 75 Prozent der von den Geräten im Rack erzeugten Wärme abgeführt werden, so dass 25 bis 30 Prozent verbleiben, die von Luftkühlsystemen abgeführt werden müssen.

Rücktür-Wärmetauscher

Passive oder aktive Wärmetauscher ersetzen die hintere Tür des IT-Racks durch Wärmetauscher-Spiralen, durch die Flüssigkeit die im Rack erzeugte Wärme aufnimmt. Diese Systeme werden häufig mit anderen Kühlsystemen kombiniert, entweder als Strategie zur Wahrung der Raumunabhängigkeit oder als Übergangskonzept, mit dem die Umstellung auf Flüssigkeitskühlung eingeleitet wird.

Die „Direct-to-Chip“-Flüssigkeitskühlung bietet zwar eine wesentlich höhere Kühlkapazität als die Luftkühlung, doch ist zu beachten, dass immer noch ein Wärmeüberschuss entsteht, den die Kühlelemente nicht auffangen können. Diese Wärme wird an den Rechnerraum abgegeben, es sei denn, sie wird durch andere Mittel wie Wärmetauscher an der Rückseite der Tür oder Raumluftkühlung aufgefangen und abgeführt.

KI- Startersets für Nachrüstungen und Neubauten

Um die Umstellung auf hohe Leistungsdichte zu vereinfachen, setzen Hersteller auf neue Modelle mit optimierten Stromversorgungs- und Kühltechnologien, die Arbeitslasten von bis zu 100 kW pro Rack unterstützen. Aber natürlich ist es unrealistisch, dass Rechenzentrumsbetreiber ihre Hardware auf einen Schlag komplett austauschen. Um auf die KI-bedingten hohen Performance-Anforderungen aufzurüsten, sollten nach und nach erst die Modelle, die ohnehin demnächst ausgemustert werden, mit den leistungsfähigeren Systemen ersetzt werden. Diese können dann gezielt für rechenintensive Workloads eingesetzt werden. Die individuelle Zusammenstellung verschiedener Designs bietet so die pragmatischste und zugleich kostengünstigste Möglichkeit.

Bei der Nachrüstung oder dem Umbau bestehender Umgebungen für KI sollte darauf geachtet werden, die Unterbrechung bestehender Workloads zu minimieren. Dies kann erreicht werden, indem die vorhandene Kühlungsinfrastruktur und die Wärmeabfuhr so weit wie möglich genutzt werden. So lässt sich beispielsweise eine Direct-to-Chip-Flüssigkeitskühlung mit einem Wärmetauscher an der Rückseite der Tür integrieren, um eine raumneutrale Kühllösung zu erhalten. Der Wärmetauscher an der Rückseite der Tür verhindert, dass überschüssige Wärme in den Raum entweicht. Für eine luftgekühlte Einrichtung, die eine Flüssigkeitskühlung ohne Änderungen am Standort selbst hinzufügen möchte, gibt es Optionen für eine Flüssigkeit-Luft- Ausführung. Die gleiche Strategie kann in einem einzelnen Rack, in einer Reihe oder in einer großen HPC-Anlage eingesetzt werden.

Diese Optionen sind meist mit einer Reihe von verschiedenen Wärmeableitungsoptionen kompatibel, die mit der Flüssigkeitskühlung kombiniert werden können. Auf diese Weise wird ein sauberer und kosteneffizienter Übergang zu einer Flüssigkeitskühlung mit hoher Dichte geschaffen, ohne andere Arbeitslasten im Rechenzentrum zu beeinträchtigen.

Anton Chuchkov

ist Produktmanager für High Density Solutions bei Vertiv zur Unterstützung von KI-Anwendungen.