Energieverbrauch von Rechenzentren steigt durch KI

Rechenzentrum (Bild: Shutterstock.com/You can more)

Effiziente, Cloud-native Prozessoren können den Energiehunger von KI deutlich senken, sagt Renee J. James von Ampere im Interview.

Die Anforderungen an die Cloud haben sich geändert. Das wirkt sich auch auf den Energieverbrauch aus. Anfänglich hieß es, Cloud Computing würde den Energieverbrauch deutlich senken. Heute sprechen manche vom Klimakiller Cloud. 

Renee J. James: Die Cloud verbraucht mehr Energie als je zuvor. Der Bedarf an Rechenkapazität zur Bewältigung des Datenwachstums und der explosionsartigen Zunahme der KI-Verarbeitung steigt weiter an. Bereits heute entfallen etwa zwei Prozent des weltweiten Energieverbrauchs auf Rechenzentren und es ist zu erwarten, dass sich dieser Anteil aufgrund des zunehmenden Einsatzes von KI mehr als verdoppelt. Während der Energiebedarf steigt, ist der Zugang zu Energie allerdings immer begrenzter – vor allem in Europa. Vor kurzem haben die Strompreise ein Rekordhoch erreicht. Von Irland bis West-London wurden sogar Moratorien für Rechenzentren verhängt, da die Nachfrage die verfügbare Leistung des Stromnetzes übersteigt. Die Kombination dieser Faktoren hat den Bedarf für eine neue Lösung geschaffen, die die nötige Rechenleistung zur Deckung des wachsenden Bedarfs für Cloud-Anwendungen bereitstellen und gleichzeitig mit demselben Stromverbrauch arbeiten kann. 

Sie haben gesagt, dass die derzeitige Entwicklung der KI aus energetischer Sicht nicht haltbar ist. Wie sollten Unternehmen und Anbieter von Rechenzentren mit dieser Herausforderung umgehen?

Wenn Anbieter von Rechenzentren ihre Clouds um KI erweitern, kann dies für bestimmte Workloads bis zu 20-mal mehr Energie erfordern. Doch schon jetzt bekommen Betreiber zu hören, dass ihnen nicht mehr Strom zugesagt werden kann. In vielen Fällen werden sie sogar aufgefordert, Lasten vom Netz zu nehmen. Sie stehen also nun vor einer riesigen Herausforderung in puncto Energie und Nachhaltigkeit. Bei so großen Herausforderungen neigt man zu der Annahme, dass riesige, weitreichende Änderungen an unseren Rechenzentren erforderlich sind. Es wird über alles Mögliche gesprochen, von der Flüssigkeitskühlung über die Umverteilung von Wärme bis hin zum kompletten Umbau von Rechenzentren mit neuen, nachhaltigen Materialien. Doch die Lösung dieser Herausforderung kann ganz einfach darin bestehen, die Rechenleistung, die für KI-Inferenz und Daten bereitgestellt wird, durch effiziente, Cloud-native Prozessoren bereitzustellen. Rechenzentrumbetreiber sollten sich überlegen, wie sie ihre bestehenden Infrastrukturen und die zur Verfügung stehende Energie optimal nutzen können. Das bedeutet, sie müssen prüfen, wie viel Platz in ihren Racks aufgrund von Energiebeschränkungen ungenutzt bleibt und wie viel mehr genutzt werden könnte, wenn sie auf effizientere Mikroprozessoren umsteigen würden.

Wie wird sich Ihrer Meinung nach die Diskussion über KI im Jahr 2024 verändern, wenn überhaupt? Werden wir den gleichen Hype erleben wie heute? 

KI ist der entscheidende Workload unserer Zeit. Wie Multimedia und Video-Streaming zuvor. Ich denke, dass sich die Diskussion langsam auf die Realitäten der langfristigen Bereitstellung von Inferenzverarbeitung verlagern wird. Die heutige Diskussion wird vom Hype um LLMs und KI-Training dominiert. Das hat die Nachfrage in der Cloud nach Basistrainingsfunktionen für Daten und die massive Nachfrage nach GPUs angekurbelt, die in erster Linie für das Training von KI-Modellen verwendet werden. Da die großen Cloud-Anbieter Kapazitäten zum Trainieren von Modellen für Unternehmen aufbauen, geht es in der nächsten Phase um eine breit angelegte Nutzung der Daten und eine skalierte Inferenzverarbeitung, die in den meisten Fällen am effizientesten auf leistungsgesteigerten CPUs erfolgt. Ich glaube, dass der Hype, wie die Technologiebranche insgesamt, sich im Jahr 2024 beruhigen wird. Die Nachfrage infolge des KI-Wachstums wird dies allerdings nicht tun.

Warum können CPUs eine energieeffizientere, kostengünstigere und leistungsfähigere Lösung sein als GPUs, wenn es um KI-Inferenz geht? 

Für viele KI-Anwendungen sind GPUs ein Overkill in Sachen Rechenleistung, insbesondere für das, was wir als Batch-Inferenz bezeichnen. Die meisten Unternehmen, die mit dem Einsatz ihrer KI-Modelle beginnen, nutzen genau diese Art von Inferenzen. Da es sich bei Batch-Inferenzanwendungen um weniger anspruchsvolle Workloads handelt, die nicht die Rechenleistung einer GPUs erfordern, ist die Verwendung von GPUs für diesen Zweck vergleichbar mit dem Kauf eines schicken Sportwagens für den morgendlichen Arbeitsweg – es ist mehr als nötig wäre. Wird eine GPU für Batch-Inferenz verwendet, wird in der Regel nur ein kleiner Prozentsatz der Kapazität der GPU genutzt. Da GPUs mehr Strom verbrauchen und teurer sind, spart der Wechsel von der GPU zur CPU in diesen Fällen Energie, Platz und Kosten. Um das einmal in einen praxisnahen Kontext zu setzen: Führt man das beliebte generative KI-Modell Whisper auf unserer 128-Core-Altra-CPU im Vergleich zur A10-GPU-Karte von Nvidia aus, verbraucht man 3,6-mal weniger Strom pro Inferenz. Im Vergleich zu Nvidia Tesla T4-Karten sogar 5,6-mal weniger.

Wie treiben sie die Umstellung auf KI-Inferencing voran?

Scaleway, einer der führenden europäischen Cloud-Anbieter, hat zum Beispiel erst kürzlich angekündigt, dass demnächst neue KI-Inferenzinstanzen auf Basis von Ampere verfügbar sein werden. Das ist nur ein Beispiel für die Einführung, die wir in ganz Europa beobachten. In den letzten sechs Monaten haben unsere Kunden die Nutzung unserer AI-Accelaration-Software-Bibliothek auf unseren CPUs versiebenfacht. Das freut uns sehr und spricht für die Durchsetzung unserer Produkte als leistungsstarke, stromsparende Alternative für KI-Inferenzanwendungen im Markt.

Ampere ist ein relativ junges Unternehmen in der Halbleiterbranche. Wie unterscheidet es sich vom Rest der Branche?

Zuallererst bauen wir Sever-CPUs der Spitzenklasse. Vor Ampere gab es innerhalb der letzten drei Jahrzehnte nur zwei nennenswerte Server-CPU-Unternehmen. Beide verfolgen einen ähnlichen Ansatz bei Software für Client Server Computing und der entsprechenden Datenverarbeitung. Wir haben uns jedoch vorgenommen, eine neue Methode für Cloud-Software zu entwickeln, die Serverleistung auf energiesparende Weise liefert. Wir sind der Meinung, dass es auf die Leistung pro Watt ankommt, wenn es in einer Welt mit begrenzten Energieressourcen um die effiziente Bereitstellung von Leistung für kontinuierliches und skalierbares Cloud Computing geht. An der Schnittstelle zwischen Höchstleistungen und Energieeffizienz leisten wir Pionierarbeit. 

 

Renee J. James

ist Gründerin und CEO von Ampere.