Auch wenn die meisten Wirtschaften weltweit nur langsam im einstelligen Bereich wachsen, nimmt das Datenvolumen jährlich um durchschnittlich 18 bis 25 Prozent zu. Die IT-Budgets dagegen bleiben größtenteils konstant oder werden nur sehr mäßig angehoben. IT-Verantwortliche können es sich nicht leisten, wie in der Vergangenheit einfach Speicherkapazitäten hinzuzufügen und exponentielle Zuwachsraten hinzunehmen.
Doch bevor man das Problem an der Wurzel anpacken kann, muss man erst einmal verstehen, wodurch diese schnellen Zuwächse verursacht werden. Manches davon ist auf neue Anwendungen und die Ansammlung neuer Datenquellen zurückzuführen. Doch ein Großteil der Zunahme an strukturierten Daten hängt einfach mit redundanten Daten und verschwendetem Speicherplatz zusammen.
Ein Blick auf die folgende Abbildung macht es klar ersichtlich. Sie verdeutlicht, wie Daten immer wieder von neuem repliziert werden. Und da alle Systeme außer Mainframes Shared-Nothing Storage benötigen, brauchen Anwendungen jeweils ihre eigenen Datenkopien; in manchen IT-Abteilungen läuft das auf über 50 Kopien hinaus.
Bei den unstrukturierten Daten sind die Wachstumsmuster und -probleme ähnlich. Nicht alle unstrukturierten Daten sind Geschäftsdaten, und oft existieren mehrere Kopien von unstrukturierten Dateien – bestes Beispiel ist ein E-Mail-Anhang von 1 MB, der an 1.000 Empfänger im Unternehmen verschickt und damit 1.000 mal dupliziert wird.
Top 5 Ansätze zur Dämmung des Speicherbedarfs
Kompression. Anhand diverser Kompressionstechniken kann man die Originalgröße von Dateien, je nach Technik und Dateityp, um bis zu 80 Prozent reduzieren.
Deduplizierung. Durch Deduplizieren der Daten reduzieren sich die realen Speicherkapazitäten. Deduplication bedeutet, dass wiederkehrende, redundante Daten nur einmal abgelegt werden. Durch ein Algorithmusverfahren erfolgt eine vollständige Wiederherstellung, wenn die Daten benötigt werden. Dieses Verfahren reduziert die erforderliche Speicherkapazität um bis zu 20 mal der redundanten Daten.
Flash Speicher. Bevor es Flash Storage bzw. so genannten SSD Storage (Solid State Drive, Laufwerk aus nichtflüchtigen Speicherchips) gab, konnten Daten nur auf Festplattenlaufwerken (HDDs, bzw. Hard Disk Drive) gespeichert werden; doch deren Input- / Output- (I/O-) Performance kann mit der heutigen Serverperformance nicht mehr Schritt halten. Moderne CPU-Cores in den Servern können Millionen von IOPS (Input / Output Operations per Second) generieren, während HDD-Geschwindigkeiten nur im Bereich von 100 bis 200 IOPS liegen. SSD schaffen eine Leistung von 10.000 IOPS. Für eine I/O-Last von 500.000 IOPS sind entweder 3.500 HDD oder nur 50 SSD notwendig. Inzwischen kann Flash Storage an allen möglichen Stellen eingesetzt werden – vom Cache auf dem Server über Standalone-Flash-Systeme bis hin zu SSDs in der Standard-Speicherplattform. Durch den Einsatz von Flash lässt sich die Performance erhöhen, bei gleichzeitiger Senkung der Gesamtspeicherkosten und der IOPS-Kosten.
Thin Provisioning. Die Thin-Provisioning-Methode optimiert die Auslastung vorhandenen Speicherplatzes. Speicherplatz wird nicht einzelnen Servern zugewiesen und dann unter Umständen nicht genutzt, sondern als Pool vorgehalten und zur Verfügung gestellt, wenn er benötigt wird. Damit wird der Speicherbedarf gesenkt.
Tiering. Die vorgehend beschriebenen Ansätze reduzieren den Gesamtspeicherbedarf; beim Tiering werden die Tiers, auf denen Daten gespeichert werden, optimiert und damit die Gesamtkosten gesenkt. Als Faustregel gilt: Tier-2-Storagekosten betragen die Hälfte von Tier 1 Storage, Tier 3 wiederum die Hälfte von Tier 2. Je mehr Daten also auf den niederrangigen Tiers abgelegt werden können, desto niedriger sind die Gesamtkosten für die Datenspeicherung. Durch Tiering lassen sich die Speicherkosten um bis zu über 80 Prozent senken.
Alternative Lösungen
Archivierung. Fast alle Unternehmen archivieren Daten, aber sie betrachten das nicht unbedingt als Teil ihres Modells zur Reduzierung der Speicherkosten. Doch archivierte Daten werden nicht mehr in den Produktionsdatenbanken vorgehalten. Durch effektives Archivieren kann die Größe der Produktions- und Testsysteme somit reduziert werden. Auf 90 Prozent der Daten, die 90 Tage alt oder älter sind, wird nicht mehr zugegriffen; deshalb sollte man entsprechende Prozesse aufsetzen, um Daten kontinuierlich in Archive zu verschieben, so dass die Produktionsdatenbanken bereinigt, kleiner und leistungsfähiger werden.
Cloud Storage. Die Cloud-Storage-Anbieter mit ihren Archivierungs- und Backup- / Recovery-Lösungen sowie ihrem Angebot an zusätzlicher Kapazität bieten alternative Methoden, anhand derer man dem vorhandenen Speichermix weiteren Speicherplatz hinzufügen kann. Es ist wichtig, die wirtschaftlichen Parameter des geplanten Cloud-Storage-Ansatzes zu betrachten. Nicht alle Methoden sind dann letztendlich kostengünstiger als vor Ort vorgehaltener Speicherplatz. Insbesondere sind Speicherbänder für Archivierungs- und Backup- / Recovery-Zwecke ein preiswertes Medium. Deshalb muss sichergestellt sein, ob die Cloud-Lösung oder die im Unternehmen vorgehaltene Speicherbänderlösung kostengünstiger ist.
Content Addressed Storage (CAS). CAS Arrays kamen 2002 mit den Centera Storage Arrays von EMC auf den Markt. Inzwischen bieten auch andere Hersteller erweiterte CAS-Lösungen an, beispielsweise Nexsan mit Assureon und Tarmin mit GridBank 3.0. CAS bietet schnellen Zugriff auf fixe Inhalte (Daten, die höchstwahrscheinlich nicht mehr aktualisiert oder geändert werden, beispielsweise E-Mails), indem diesen Inhalten ein permanenter Platz auf einer Platte zugewiesen wird. Das vereinfacht den Abruf der Daten, und man muss keine redundanten Kopien vorhalten.
Golden Records. So bezeichnet die Experton Group die Nutzung einer primären Gruppe von Datenbanken, von denen sämtliche Kopien gezogen werden. Nur diese „goldenen Daten“ werden archiviert und gesichert; sekundäre Aufzeichnungen werden dagegen nach einer bestimmten Frist gelöscht. Damit wird die Zunahme an Speicherbedarf erheblich ausgebremst.
Gemeinsam genutzter Mainframe-Storage. IBM Mainframes, aktuell die zEnterprise Systeme, sind die einzigen Server, die „Shared Everything“ Storage unterstützen. Mit einem Mainframe als Datenserver braucht man also lediglich eine einzige Datenkopie, um alle Datenanfragen zu handhaben, egal auf welchem Server die Applikation sitzt. Wie TCO-Analysen der Experton Group aufzeigen, können Mittelständler wie Großunternehmen mit dieser Methodik die Betriebskosten für solche Ökosysteme, je nach Anzahl an redundanten Produktionskopien, um bis zu 50 Prozent oder sogar noch mehr senken.
Aktualisierungs-Rate. Die technologischen Verbesserungen nehmen exponentiell zu. Vier Jahre alte Storage Arrays sind schon ziemlich veraltet und können durch viel effizientere Storage-Geräte der aktuellen Generation ersetzt werden, die zudem über zusätzliche Softwarefunktionalität verfügen. Nach Meinung der Experton Group machen sich Aktualisierungen nach 36 bis 40 Monaten von alleine bezahlt, und es bleibt Geld für andere Investitionen übrig.
Gemeinsam genutzte Storage-Pools. Mit gemeinsam genutzten Storage-Pools können Anwender den Speicherbedarf für die Kopien zur Unterstützung der unterschiedlichen Entwicklungs- /Test- und Produktionsanforderungen senken. Actifiobietet derzeit eine virtualisierte Pooling-Methodik an, die gemeinsam genutzte und sorgfältig gemanagte Storage-Pools anlegt und dadurch Schluß macht mit isolierten Systemen mit jeder Menge redundanter Daten. Laut Aussage des Herstellers werden mit diesem Ansatz bis zu 70 Prozent weniger Daten verschoben, 95 Prozent weniger Daten müssen gespeichert werden, und die Gesamtbetriebskosten lassen sich um bis zu 90 Prozent senken.
Zusammenfassung
Daten und Datenspeicherung müssen ganzheitlich angegangen werden. Vor zehn Jahren hieß es, Daten gehören zu den Anwendungen. Inzwischen sind Daten ein Unternehmenswert, und Anwendungen sind den Daten zu Diensten und sollten zu den Daten kommen, wenn diese genutzt werden sollen. Es gilt, die Architekturen entsprechend anzupassen, um diesen Paradigmenwechsel unterstützen zu können.
Meinung der Experton Group
IT-Organisationen können heutzutage die Kosten für den Zugang zu, die Verarbeitung und die Aufbewahrung von Daten reduzieren. Wie erste Initiativen zeigen, musste aufgrund solcher Projekte im ersten Jahr der Speicherplatz nicht aufgestockt werden; danach konnten die Kosten erheblich reduziert werden. Die Kosten pro MB sind nicht mehr der richtige Maßstab für die Beschaffung von Storage-Lösungen. Für eine effektive Bewertung von Speicherlösungen müssen auch die Kosten pro IOPS mit berücksichtigt werden. Es muss zudem eine vollständige Analyse der Storage-Infrastrukturen durchgeführt werden. Weiterhin muss herausgefunden werden, welche Lösungen zur Kostenreduzierung bei gleichzeitigem Datenwachstum die richtige Strategie ist.