Big SQL von IBM verbindet Hadoop mit SQL
SQL wird heute in den meisten Unternehmen im großen Umfang genutzt. Weitaus weniger verbreitet aber sind Kenntnisse und Tools für Big Data-Technologien wie etwa Hadoop. IBM schlägt mit Big SQL eine technologische Brücke zwischen SQL und Hadoop, die SQL-Syntax für Anwender und Anwendungen in die Sprache von Big Data übersetzt.
Auf der IBM-Konferenz Information on Demand hat IBM zahlreiche Neuerungen vorgestellt. Dabei fand die Technologie Big SQL 2.0 bislang nur wenig Beachtung. Big SQL 2.0 ist eine Erweiterung für die IBM-Technologie InfoSphere BigInsights. Allerdings liefert dieses Tool für Unternehmen, die derzeit Schwierigkeiten haben, geeignete Hadoop- oder andere Big-Data-Experten zu finden, eine viable Alternative.
Denn Big SQL liefert, wie der Name impliziert, ein Tool, das es ermöglicht, Abfragen in Big-Data-Datenbanken mit der herkömmlichen SQL-Syntax zu erstellen. Big SQL liefert eine Art Schicht, die grob gesagt SQL für die jeweiligen Big-Data-Technologien übersetzt.
Derzeit unterstützt Big SQL 2.0 unter anderem das Erstellen von neuen Tabellen in Hive, HBase, MapReduce und Hadoop-Technologien.
Stephan Reimann, Big Data Specialist bei IBM, sieht darin die Möglichkeit, dass eben ganz unterschiedliche Anwendungen, die SQL unterstützen hier die technischen Möglichkeiten von Big Data nutzen können, ohne dass Anwender diese Abfragen manuell in den verschiedenen Big-Data-Technologien manuell anpassen müssen.
Das erleichtere nicht nur den Administratoren das Leben, die damit über SQL Big-Data-Funktionalitäten bekommen, sondern erlaubt es auch ‘herkömmlichen’ Anwendungen mit verteilten Big-Data-Anwendungen zu sprechen.
Über die Big-SQL-Treiber JDBC und ODBC (Java- oder offene Datenbank-Verbindungen) sei das in den meisten Fällen über herkömmliche SQL-Syntax möglich. In manchen Fällen allerdings würden dabei auch SQL-Erweiterungen von IBM zum Einsatz kommen, um damit dedizierte Hadoop-basierte Technologien nutzen zu können.
Daneben könne Big SQL auch LOAD-Kommandos aus verschiedenen relationalen Datenbank-Management-Systemen wie Netezza, DB2 oder auch Teradata umsetzen. Auch Datein, die lokal im BigInsights Distributed File System gespeichert sind, lassen sich auf diese Weise verarbeiten.
Die SQL Query Engine unterstütze laut IBM Joins, Unions, Grouping, Common Table Expressions und neben Windowing-Funktionen auch weitere gängige SQL-Expressions.
Darüber hinaus lassen sich auch Data-Access-Strategien konfigurieren. So könne Big SQL entweder das MapReduce-Framework aus Hadoop verwenden oder aber die die Abfragen lokal im Big SQL-Server verarbeiten.
Zielgruppe sind laut IBM vor allem Unternehmen mit umfangreichen SQL-Kenntnissen oder mit Business-Intelligence-Anwendungen, die auf SQL basieren. Dank Big SQL seien solche Organisationen in der Lage, bestehende Fachkenntnisse, Tools und Anwendungen auch zusammen mit Hadoop zu nutzen.
“Tatsächlich prüfen einige Unternehmen mit großen Data-Warehouses, die auf traditionellen relationalen Datenbankmanagementsystemen aufsetzen, Hadoop-basierte Plattformen als Möglichkeit, zum Beispiel Cloud-Daten oder andere, weniger häufig genutzte Informationen zu speichern. Und zwar in einer Weise, dass diese Daten nach wie vor abgefragt werden können”, heißt es dazu von IBM.