Big Data, die Riesen-Chance für Open Source Analytics
Es sind gerade die quelloffenen Ansätze, die das Thema Big Data voran bringen. Und auf dem Rücken dieses Trends vergrößert sich die Reichweite quelloffener Technologien und das wiederum motiviert die Community.
Apache, Linux oder Android haben gezeigt, dass Open Source durchaus gegenüber proprietären Produkte konkurrenzfähig ist. Jetzt tut sich ein neues Hype-Thema auf und die Chancen stehen nicht allzu schlecht, dass Open Source auch beim Thema Big Data dauerhaft eine Vorreiterrolle einnehmen könnte.
Um es mit den Worten des Forrester-Analysten James Kobielus zu sagen: “Big Data sind ein Ökosystem, in dem Open Source Ansätze die größte Triebkraft sind, mit der höchsten Verbreitung und den fieberhaftesteten Innovationen.” Und auch in Bereichen wie Advanced Analytics wird das Gewicht von Open-Source-Technologien immer größer.
Die Gewinner auf der Open-Source-Seite heißen Talend, Pentaho oder Jaspersoft. Sie profitieren vor allem von dem Trend, dass auch große Anbieter ihre Lösungen stark mit Hadoop und der quelloffenen Sprache R integrieren.
Kobielus erklärt den Erfolg von Open Source mit der Tatsache, dass die Community im Bereich Big Data viele neue Ansätze hervorbrachte. Damit hat die Community auch proprietäre Produkte beeinflusst.
Und gerade im Bereich Open Source Analytics reifen die Angebote und Anbieter in Windeseile heran. Und inzwischen sind diese Angebote bereits so ausgefeilt und verlässlich, dass Forrester empfiehlt Hadoop zum Grundstein für das Enterprise Data Warehouse (EDW) in der Cloud zu machen. R sollte als Codebasis für die nächste Generation von Entwicklerumgebungen für Big Data dienen. Zudem geht man bei Forrester davon aus, dass zahlreiche NoSQL-Datenbanken sich zu lohnenden Alternativen zu proprietären Angeboten entwickeln.
Etablierter Anbieter könnten durch diese Entwicklung gezwungen werden, ihre Services an das Open-Source-Modell anzupassen und vor allem auch ihre Geschäftsmodelle auf die Open-Source-Landschaft auszurichten. Die EMC-Tochter Greenplum hat hier ja mit der Öffnung von Chorus, einem Social-Media Framework für Big Data-Entwicklung, schon ein erstes Beispiel geliefert. Auf der anderen Seite sagt Kobielus eine Konzentrationswelle im Open-Source-Lager voraus. Zusammenschlüsse und Übernahmen werden neue Player und neue Schwerpunkte im Open-Source-Segment hervorbringen.
Das Beispiel Greenplum Chorus fiel ja bereits. Die Zielgruppe von Chorus ist der ‘Data Scientist’. Diese neue Fachkraft vereint einen Daten-Analytiker und einem wisschenschaftlichem Forscher, der die Anwedungen für Big Data dann auch optimieren kann. Und über Chorus sollen sich diese Data Scientists dann über ihre neuen Projekte austauschen.
Laut dem Gartner-Analysten Doug Laney arbeiten diese Data Scientist “in Teams, sind vertraut und bewandert mit “Big Data”-Sets und erfahren in Kommunikation.” Ergänzt wird dieses Profil durch Kenntnisse bei lernenden Maschinen, im Computing und Algorithmen. Hadoop, Pig, Python und Java sollten ebenfalls keine unbekannten Felder für den Data Scientist sein.