Weltrekord im Sortieren riesiger Datenmengen
Wissenschaftler am Karlsruher Institut für Technologie (KIT) haben nach eigenen Angaben ein neues, robusteres Sortierverfahren für sehr große Datenmengen entwickelt. Damit übertreffen sie den Sortierrekord des Massachusetts Institute of Technology (MIT).
Über das Internet vernetzte Rechner erzeugen immer größere Datenmengen. Um diese auswerten zu können, muss man sie zunächst nach einem bestimmten Kriterium ordnen. Das effiziente Sortieren von Daten ist von zentraler Bedeutung für Suchmaschinen oder Datenbanken – und damit ein wichtiges Forschungsthema in der theoretischen wie auch in der praktischen Informatik.
Der SortBenchmark – eine im Internet veröffentlichte Tabelle, über die Fachleute etwa von den Unternehmen Microsoft und Hewlett-Packard entscheiden – verzeichnet die jeweils aktuellen Rekorde im Sortieren. In der Königsdisziplin müssen mindestens 1012 Datensätze sortiert werden, das sind insgesamt 100 Terabyte.
Ein Forscherteam um Professor Peter Sanders am Institut für Theoretische Informatik hat sich nun in zwei Kategorien des SortBenchmark gegen die Konkurrenz durchgesetzt. So sortierten die Wissenschaftler – neben Sanders Dr. Mirko Rahn, Johannes Singler und Tim Kieritz – 100 Billionen Byte Daten in etwas weniger als drei Stunden, was einem Durchsatz von 564 GB pro Minute entspricht.
Dafür nutzten sie einen Computerverbund mit 200 Rechenknoten, den Mitarbeiter des ‘Steinbuch Centre for Computing’ (SCC) am KIT konfiguriert hatten. Ein Yahoo-Team schaffte zwar einen etwas besseren Wert – nutzte dafür aber mehr als 17 Mal so viele Rechenknoten.
 
Professor Peter Sanders
Bild: KIT