Hadoop mit nativem R-Support
Mit einem neuen Plugin für R können Anwender nun auch Analysen, die auf der Sprache R basieren gegen Hadoop-Daten fahren.
Mit dem neuen Plugin “Revolution R Enterprise” (RRE 7) für Hadoop ermöglicht der Anbieter Revolution Analytics nun auch die Datenanalyse über die quelloffene Sprache R in großen Hadoop-Daten. Neben Support für Hadoop bringt das neue Plugin auch Unterstützung für Teradata-Lösungen mit, wie der Hersteller mitteilt. Damit können statistische Tests mit R nun auch auf den Lösungen von Teradata umgesetzt werden.
R richtet sich auf die statistische Auswertung von Daten, die Ergebnisse lassen sich dann auch grafisch darstellen. R liefert häufig Funktionen, die in standar-Business-Intelligence-Lösungen nicht verfügbar sind und ist damit eine für Analysen immer häufiger genutzte Ergänzung. Inzwischen sollen laut Schätzungen von Revolution Anaytics die Sprache bei über 2 Millionen Anwendern weltweit im Einsatz sein.
RRE 7 unterstützt Hortonworks Data Platform und Cloudera. Das Plugin nutzt wie auch Hadoop die parallele Abfrage auf mehreren Nodes. Die Auswertung erfolgt dabei in den Nodes selbst und die Daten müssen dafür nicht verschoben werden, das sorgt für schnelle Abfragen, heißt es vom Hersteller. Damit sei es auch möglich nicht nur Subsets oder Zusammenfassungen, sondern gesamte Datensätze zu analysieren.
Das Unternehmen hofft durch die Integration mit Hadoop die Verbreitung der Sprache R zu erhöhen. Auch das Anwenderprofil könnte sich dadurch vom Spezialisten hin zum Business-Manager verschieben. Dabei soll auch ein neuer Workflow behilflich sein, der es auch Nicht-Statistikern ermöglicht, bestimmte R-Algorithmen zu implementieren. Das Plugin soll es auch ermöglichen, R direkt mit Hadoop zu verbinden. Bislang mussten Entwickler dafür mit Java arbeiten.
In addition to supporting these new platforms, RRE7 also features a number of new algorithms and processes. One is a collection of models for setting up Decision Forests, a machine learning technique for predicting future outcomes. A new batch of Stepwise Regression functionalities can help automate the process of selecting the most important variables to be used in a predictive model. A new Decision Tree visualization can provide a graphical way for depicting complex relationships and correlations within a set of data.