Europas leistungsstärkster Supercomputer LUMI: Maßstab für KI?

LUMI befindet sich in der kleinen Stadt Kajaani in Mittelfinnland, knapp 600 Kilometer nördlich der finnischen Hauptstadt Helsinki. Der Supercomputer verfügt über Leistung von 1,5 Millionen hochmodernen Laptops auf der Fläche von zwei Tennisplätzen.

LUMI ist Teil der Initiative EuroHPC JU (European High-Performance Computing Joint Undertaking), ein gemeinsames Projekt der Europäischen Union, des finnischen (IT Center for Science (CSC) und mehrerer europäischer Mitgliedstaaten zum Aufbau einer Supercomputing-Infrastruktur. Ziel von EuroHPC ist es, Europa als globalen Maßstab im Wettlauf um das Supercomputing zu positionieren und so den wissenschaftlichen Fortschritt und die Wettbewerbsfähigkeit der Industrie zu fördern.

Die Supercomputeranlagen CSC und LUMI in der Stadt Kajaani (Finnland).

Im Jahr 2019 wurde Kajaani in Finnland im Rahmen des EuroHPC-Projekts als Standort ausgewählt, da die finnische Kleinstadt aufgrund ihrer geografischen und energetischen Vorteile ein idealer Standort für das Projekt ist. Mit einer Jahresdurchschnittstemperatur von 3 Grad Celsius lassen sich die Kühlkosten in Grenzen halten und der Betrieb mit 100 Prozent erneuerbarer Wasserkraft machen LUMI zu einem der grünsten Supercomputer der Welt.

Die Bauarbeiten für den Supercomputer begannen 2020 in einer ehemaligen Papierfabrik, die 2008 geschlossen werden musste. Kurz nach der Schließung übernahm CSC das Gebäude, um dort ihr Rechenzentrum unterzubringen, und die Grundlage für den Bau des LUMI bildete. Ende 2021 wurde das Supercomputer-Zentrum dann in seiner ersten Phase in Betrieb genommen.

379 Billiarden Fließkommaoperationen pro Sekunde

LUMI basiert auf der HPE Cray EX-Architektur, einem auf High-Performance-Computing spezialisierten System, sowie auf GPUs und CPUs von AMD. „Die ausgewählten AMD MI250X-GPUs sind aufgrund ihrer technischen Überlegenheit und der Leistung pro Watt einzigartig in ihrer Klasse“, sagt Pekka Manninen, Direktor der LUMI Leadership Computing Facility, und für die Planung und den Bau des Rechenzentrums verantwortlich.

Die GPU-Partition (LUMI-G) besteht aus 2.978 Knoten mit jeweils einer 64-Core AMD Trento-CPU und vier AMD MI250X-GPUs, insgesamt also 11.912 AMD-GPUs.Die CPU-Partition (LUMI-C) hat 2.048 Dual-Socket-CPU-Knoten mit 64-Core AMD EPYC-Chips der dritten Generation und zwischen 256 GB und 1024 GB Speicher. Insgesamt sind es mehr als 262.000 CPU-Kerne.

Das System verfügt über eine zusätzliche 32-TB-Speicherpartition. Auf der Speicherseite besteht LUMI aus verschiedenen Ebenen, die von den Arbeitslasten abhängen. Es gibt 10 PB Flash-Speicher für den schnellen, kurzfristigen Zugriff, 80 PB traditionellen Festplattenspeicher und 30 PB für die gemeinsame Nutzung von Daten sowie die Speicherung während der Lebensdauer der Projekte. Alle Partitionen (CPU, GPU und Speicher) sind über 200 Gbit/s Cray Slingshot-Verbindungen verbunden. Diese Spezifikationen bringen LUMI in der TOP500-Liste der Supercomputer auf den fünften Platz in der Welt, mit einer mittleren Geschwindigkeit von 379,70 PFlops/s und der Fähigkeit, Spitzenwerte von 531,51 PFlops/s zu erreichen.

Flop/s, also die Fließkommaoperationen pro Sekunde die ein Computer ausführen kann, sind der Maßstab für die Messung der Leistung von Hochleistungsrechnersystemen. Es gibt GigaFLOPS (GFlop/s), TeraFLOPS (TFlop/s), PetaFLOPS (PFlop/s) und neuerdings Supercomputer, die die ExaFLOPS (EFlop/s)-Schwelle durchbrochen haben. LUMI ist in der Lage, dauerhaft mehr als 379 Billiarden Fließkommaoperationen pro Sekunde auszuführen.

Lösung komplexester Probleme der Wissenschaft

Supercomputing-Zentren dieser Art sind darauf ausgelegt, die größten und komplexesten Berechnungen zu lösen, mit denen die Menschheit konfrontiert ist. Während man darauf wartet, dass das Quantencomputing Realität wird, macht das Hochleistungsrechnen bemerkenswerte Fortschritte in zahlreichen Bereichen wie wissenschaftliche Forschung, Gesundheit und Biomedizin, digitale Zwillinge oder künstliche Intelligenz und maschinelles Lernen.

Mit LUMI lassen sich komplexesten Probleme der modernen Wissenschaft lösen: Klimasimulationen, die Modellierung des Verhaltens subatomarer Teilchen oder bisher begrenzte Fragen der theoretischen Physik. Es ermöglicht auch die Modellierung molekularer Wechselwirkungen und Simulationen, die die Entdeckung von Arzneimitteln beschleunigen, sowie die Früherkennung von Krebs und effizientere Behandlungen zur Senkung der Sterblichkeitsrate. So spielte LUMI beispielsweise während der COVID-19-Pandemie eine wichtige Rolle bei der Modellierung der Ausbreitung des Virus und der Erforschung möglicher Behandlungsmethoden.

Der Rohbau des LUMI-Supercomputerzentrums.

Seit kurzer Zeit nutzt das Unternehmen ICEYE die Rechenkapazität von LUMI, um die von seinem Mikrosatellitensystem generierten Radardaten in Echtzeit zu analysieren und in Bilder des gescannten Geländes umzuwandeln, so dass es Brände, Überschwemmungen oder andere Umweltkatastrophen unabhängig von den Wetterbedingungen für solche Informationen erkennen kann.

Digital Twin der Erde

Die Destination Earth ist eine Flagship-Initiative der Europäischen Kommission. Ihr Projekt „Climate Adaption Digital Twin“ ist ein besonders relevanter Anwendungsfall für das Supercomputing Centre. Es handelt sich dabei um ein neuartiges Klima-Informationssystem, mit dem die Auswirkungen des Klimawandels und Anpassungsstrategien auf lokaler und regionaler Ebene über mehrere Jahrzehnte hinweg bewertet werden können. Mit einem digitalen Zwilling der Erde lassen sich alle Zustände und Phänomene mit einer noch nie dagewesenen Auflösung simulieren und analysieren, so dass nahezu jede Art von Naturkatastrophe vorhergesehen werden kann.

Andere Anwendungsfälle von LUMI stehen in engem Zusammenhang mit künstlicher Intelligenz, wie etwa die Entwicklung eines großen, offenen Sprachmodells (Open Language Models) für die wissenschaftliche Gemeinschaft, genannt OLMo. Da es sich um ein offenes Modell handelt, können Wissenschaftler aus der ganzen Welt zusammenarbeiten und das Potenzial eines Sprachmodells nutzen, das seit der Veröffentlichung seiner ersten Version Anfang 2024 bereits 70 Milliarden Parameter umfasst.

CSC: Hochleistungsrechenkapazitäten aus Finnland

Das finnische CSC ist für die Wartung, Kühlung und den Auf- und Ausbau des LUMI-Supercomputers zuständig, dient aber auch als Vermittler für die wissenschaftliche Forschung und jede andere Nutzung des Computers. Auf diese Weise stellt das CSC sicher, dass LUMI für verschiedene Projekte und Disziplinen, die Hochleistungsrechenkapazitäten benötigen, zur Verfügung steht.

Die Auswahl der vielversprechendsten Projekte, die von der Nutzung des Supercomputers profitieren können, erfolgt im Rahmen von Ausschreibungen. Zu den Aufgaben des CSC gehört auch die technische Unterstützung der Forscher, damit sie die Rechenleistung von LUMI optimal nutzen können.

Offene Technologie von AMD als Herzstück von LUMI

Seit ChatGPT als beliebtestes generatives KI-System genutzt wird, ist das gesamte IT-Ökosystem, von Herstellern über Software-Entwickler bis hin zu Integratoren und Distributoren, ohne zu zögern auf den KI-Zug aufgesprungen. Aber künstliche Intelligenz ist nicht neu. An ihr wird schon seit mehreren Jahrzehnten gearbeitet. Jetzt können diese komplexen Algorithmen und großen Sprachmodelle, die eine hohe Rechenleistung erfordern, dank der Cloud und Supercomputing-Zentren wie LUMI ausgeführt werden.

Der gemeinsame Nenner all dieser Systeme, die KI auf der Grundlage riesiger Informationsmengen und Algorithmen verarbeitet, sind die GPUs sowie die CPUs als Hilfsmittel zur effizienten Verwaltung all dieser Prozesse und zur Bewältigung der für generative KI typischen Eingabe- und Ausgabeanforderungen.

Eine der Maßnahmen, auf die AMD gesetzt hat, war die Schaffung eines offenen Software-Ökosystems, ROCm.
Offenes Software-Ökosystem AMD ROCm

Während NVIDIA zum Branchenmaßstab für die Fähigkeiten seiner GPUs bei der Verarbeitung dieser Art von KI-Arbeitslasten geworden ist, bestehen die Stärken von AMD darin, sowohl GPUs als auch CPUs zu entwickeln und zu liefern, die Effizienz pro verbrauchtem Watt sowie die Entwicklung eines offenen Software-Ökosystem durch AMD ROCm. Dies ermöglicht Entwicklern, KI- und HPC-Workloads auf AMD GPUs zu optimieren.

Alexander Troshin, Director of Enterprise Product Marketing and HPC bei AMD EMEA: „In den Bereichen KI und High Performance Computing muss man alle Elemente als Ganzes und nicht getrennt voneinander betrachten. Die Entwicklung von GPUs und CPUs und die Nutzung eines offenen Ökosystems, um die größtmögliche Leistung und Effizienz aus ihnen herauszuholen, ist entscheidend für den Erfolg dieser komplexen Projekte.“

Alexander Troshin, Product Marketing Manager für Enterprise und HPC bei AMD EMEA, mit den AMD EPYC Genoa Chips der neuesten Generation.

Das Ergebnis dieser AMD-Strategie erleichtert vielseitige und effiziente KI-Implementierungen, sowohl auf der Ebene des maschinellen Lernens als auch auf der Ebene der Inferenz, den beiden Hauptaufgaben dieser Arbeitslasten. Dies zeigen auch die Liste der TOP 500-Rechenzentren, in der zwei der fünf weltweit leistungsstärksten Supercomputer mit AMD-Technologie gebaut wurden. Der Erste auf dieser Liste ist das Frontier-System, das als erstes die ExaFLOP-Schwelle (1,2 EFlop/s) durchbrochen hat – ein Meilenstein in der Geschichte des Supercomputing.

Und das ist erst der Anfang. Schon bald werden wir Kombinationen sehen, die mit der Kombination von AMD EPYC CPUs der 5. Generation, AMD Instinct MI350 GPUs (erwartet für 2025) und Konnektivität für UALink und Ultra Ethernet HPC-Umgebungen neue Wege gehen werden.

Roger Homrich

Recent Posts

KI auf dem Prüfstand

LLMs besitzen einerseits innovative neue Fähigkeiten, stellen Unternehmen allerdings auch vor diverse Herausforderungen: ob EU…

17 Minuten ago

Rechenzentren: Deutschland verliert Anschluss

Server-Ausbau in den USA und China macht große Fortschritte, deutscher Weltmarktanteil sinkt. Lichtblicke in Frankfurt…

5 Stunden ago

KI steigert Nachfrage nach hybriden Workplace-Umgebungen

Der Markt für Workplace Services gerät in Bewegung. Das bestmögliche digitale Nutzererlebnis gilt als Schlüssel…

6 Stunden ago

Hagebau erreicht E-Mail-Sicherheit mit der NoSpamProxy Cloud

Schutz für 10.000 Postfächer über rund 200 Domains: Private-Stack-Variante kombiniert Vorteile einer Cloud-Lösung mit Sicherheit…

1 Tag ago

Rechenzentrumsnetzwerke als Schlüssel für Desaster Recovery

Huawei Connect Paris: Innovationen rund um Data Center, Storage und IT-Sicherheit.

1 Tag ago

Cybersecurity mit KI: Strategischer Vorteil oder Sicherheitsrisiko?

Mit KI optimieren Hacker ihre Angriffsversuche. Ist CIAM eine Lösung, mit der sich Unternehmen vor…

1 Tag ago