Categories: CIODataProjekte

Big Data erfordert neue Regeln

Auf dem IBM Information Management Forum 2011 in Darmstadt konnte Rüdiger Spies, Analyst von IDC Deutschland, konkreter werden und wichtige Konsequenzen für die IT in Unternehmen ableiten. Zunächst die jüngsten verfügbaren Fakten des explodierenden Datenvolumens: Von 2009 auf 2020 wird das Volumen nach Untersuchungen der Marktforscher um den Faktor 44, die Anzahl der Files sogar um den Faktor 67 anwachsen. In konkreten Zahlen: 2009 lag das Datenvolumen bei 0,8 ZB, im Jahr 2020 wird es voraussichtlich 35 ZB erreichen. ZB steht für Zettabyte oder eine Milliarde Terabyte.

Dabei sei ein deutlich überproportionales Wachstum bei sogenannten unstrukturierten Daten festzustellen. Doch korrekt genommen gibt es keine unstrukturierten Daten, erklärt der Marktforscher. Man könne vielmehr von drei Arten von Datentypen sprechen:

  • Strukturiert: in traditionellen, transaktionsorientierten Datenbanken (SQL),
  • Semi-strukturiert: z.B. HTML/XML-tagged Texte, Bürodokumente,
  • Quasi unstrukturiert: Pixel-Bilder, Audio, Video.

Laut Spies ist ein verstärktes “Verschmelzen” von Daten und Anwendungen zu beobachten, die klassische strikte Trennung von Daten und Applikationen lockert sich. Praktisch ist die Umstellung von analog auf digital abgeschlossen. Gleichzeitig ist ein starker Einfluss von freien Inhalten festzustellen, die von Mitarbeitern stammen. Das erfordert aus Sicht des Marktforschers nicht nur neue Speicher- und Organisationsformen, sondern ruft auch nach neuen Regeln.

In der IT-Branche spricht man in diesem Zusammenhang schon seit geraumer Zeit von “Big Data”. Das sind Datensätze, die so groß werden, dass das gewohnte Management in herkömmlichen Datenbanken (SQL) große Schwierigkeiten bereitet, wenn nicht gar unmöglich ist. Die entsprechenden Größenordnungen liegen dabei bei mehreren Terabytes, Exabytes und Zettabytes an Daten.

Flut der großen Datensätze

Wissenschaftler begegnen solche Datenmengen regelmäßig in der Meteorologie oder Genomik, bei komplexen physikalischen Simulationen, in der biologischen Forschung, sowie in der Internet-, Finanz-und Wirtschaftsinformatik. Darüber hinaus wächst die Datenmenge stetig, weil sie zunehmend in mobilen Geräten wie in Kameras, Mikrofonen, RFID-Lesegeräten oder drahtlosen Sensornetzwerken gesammelt werden.

Spies nannte im Einzelnen vor allem Anwendungsbeispiele wie Electronic Mail Response, Transscripts in Call Centern, Social-Media-Auswertungen sowie in den USA das datenintensive Discovery-Verfahren. Im Gegensatz zu europäischen oder deutschen Gerichtsverfahren kennt das US-Recht das sogenannte “Ausforschungsverfahren” als datenintensive Vorstufe zu einem Prozess. Die gegnerischen Parteien stellen sich wechselseitig schriftliche Beweisfragen, vernehmen Zeugen oder fordern Dokumente zu spezifischen Sachverhalten an.

Bei den Bildverfahren entsteht eine wachsende Datenflut etwa bei der Auswertung von Gesichtserkennung auf Überwachungskameras, bei der Internet-Überwachung von Markenpiraten sowie beim Thema Augmented Reality. Darunter versteht man die computergestützte Erweiterung der Realitätswahrnehmung. Diese Information kann alle menschlichen Sinne ansprechen. Häufig wird jedoch unter erweiterter Realität nur die Ergänzung von Bildern oder Videos mit computergenerierten Zusatzinformationen oder virtuellen Objekten mittels Einblendung/Überlagerung verstanden.

In der Geschäftswelt haben sich E-Mails und digitale Textdateien im Laufe der vergangenen zehn Jahre zu einem kritischen Erfolgsfaktor entwickelt. Bei etwa 75 Prozent aller Gerichtsverfahren zwischen Unternehmen – so belegen vor allem Zahlen aus den USA – spielen der E-Mail-Datenverkehr und die dort gespeicherten und gegebenenfalls versteckten Dateien eine wichtige Rolle. Unter diesem Aspekt ist eine Reihe von Regularien zur Aufbewahrungspflicht elektronischer Dokumente entstanden (Compliance).

Lösungen für die neuen Datenstrukturen

Big Data erfordert neue Technologien zur effizienten Bearbeitung großer Datenmengen. Dazu gehören Datenbanken mit massiv paralleler Verarbeitung (MPP), Datamining Gitter, das Apache Hadoop Framework HPCC / ECL, verteilte Dateisysteme und Datenbanken sowie MapReduce.

IBM zeigte auf seiner Veranstaltung in Darmstadt unter der Leitung von Günter Scholz ein Information Management Portfolio, das Lösungen für alle Unternehmensbereiche, für strukturierte und unstrukturierte Daten bieten will. Dabei seien neben dem Bemühen, die richtige Informationen zur richtigen Zeit am richtigen Ort verfügbar zu haben, auch das Einhalten von Compliance-Richtlinien zur Datenaufbewahrung und die gesetzeskonforme Vernichtung wichtig. Wirtschaftliches Ziel sei es, dadurch Geschäftsprozesse erheblich zu beschleunigen.

Als besonderes Beispiel wurde wie schon auf der CeBIT das Projekt Watson gezeigt, bei dem im US-Fernsehen ein Computer beim Wissensquiz “Jeopardy” seine menschlichen Kontrahenten besiegen konnte. Watson soll künftig auch in Geschäftsprozessen eingesetzt werden.

Als wichtigste heute schon verfügbare Komponenten nannte IBM im Zusammenhang mit Big Data das Produkt InfoSphere BigInsights. Es ermöglicht große Mengen von relationalen und nicht-relationalen Daten (z.B. Text, Audio, Video, Logs) zu speichern und zu analysieren. Das Werkzeug basiert auf Apache Hadoop, will dieses Framework aber erweitern, um die Anforderungen eines Unternehmens an Administration, Workflow, Provisioning und Security zu erfüllen.

IBM will nach eigenen Angaben weitergehende analytische Fähigkeiten aus der IBM-Forschung hinzufügen. Dazu kommt die Integration mit IBM-Datenbanken und Data Warehouses wie DB2, InfoSphere Warehouse, IBM Smart Analytics System und Netezza sowie eine Ergänzung durch die von IBM entwickelte Sprache Jaql.

Auch Hewlett-Packard zeigte auf seiner Kundenkonferenz HP Discover im Rahmen seines Konzepts der ‘Converged Infrastructure’ Einzelheiten von Komponenten zur Bewältigung der genannten Herausforderungen.

Silicon-Redaktion

Recent Posts

Studie: Rund ein Drittel der APIs sind ungeschützt

Angriffe auf APIs und Webanwendungen sind zwischen Januar 2023 und Juni 2024 von knapp 14…

3 Tagen ago

Universitätsmedizin Essen setzt für E-Mail-Sicherheit auf NoSpamProxy

Mit täglich über 45.000 eingehenden E-Mails ist die IT-Abteilung des Klinikums durch Anhänge und raffinierte…

3 Tagen ago

Bau-Spezialist Schöck: Migration von SAP ECC ERP auf S/4HANA

Bau- und Fertigungsspezialist investiert in die S/4HANA-Migration und geht mit RISE WITH SAP in die…

5 Tagen ago

Pure Storage: Cloud, KI und Energieeffizienz

Trends 2025: Rasante Entwicklungen bei Automatisierung, KI und in vielen anderen Bereichen lassen Unternehmen nicht…

6 Tagen ago

GenKI verbessert Datenmanagement und Angebotsgenauigkeit

DHL Supply Chain nutzt generative KI-Anwendungen für Datenbereinigung und präzisere Beantwortung von Angebotsanforderungen (RFQ).

7 Tagen ago

Rolls-Royce Power Systems nutzt industrielle KI aus der IFS Cloud​

Marke mtu will globale Serviceabläufe optimieren und strategische Ziele hinsichtlich Effizienz, Nachhaltigkeit und Wachstum unterstützen.

7 Tagen ago