Big Data Analyse: Apache Spark oder EXASOL – oder beides?

In unserer ersten unabhängigen Befragung zum Thema Datenanalysen fanden wir heraus, dass Performance das A und O unserer Anwender ist. Unsere zweite unabhängige Untersuchung beschäftigte sich mit Fragen rund um das Thema Apache Spark. Die Ergebnisse bestätigen, dass Spark eine wichtige Rolle im Big Data Markt eingenommen hat. Sieht man sich die Fakten zwischen Spark und EXASOL genauer an, wird jedoch klar, welche unterschiedlichen Anwendungsgebiete und verschiedene Ansätze beide Anbieter verfolgen.

Die Bereiche Big Data, Analytics und Data Science sind komplex und vielschichtig. Diese genau mit einem Tool adressieren zu können ist fast so, wie die Eier-legende-Wollmilch-Sau gefunden zu haben. Immer mehr Werkzeuge und Tools kommen auf den Markt, die innovative Lösungsansätze bieten, um Daten zu verarbeiten und Daten auszuwerten sowie daraus die so wichtigen Entscheidungen für künftige Geschäftsentwicklungen zu ziehen.

Dass Spark nun ein gewisser Hype erfasst hat, ist unumstritten. Vielseitig einsetzbar und auf einem modernen In-Memory Ansatz für verteilte Datenverarbeitung basierend, ist das Framework als Open Source Lizenz frei verfügbar. So gaben 16 Prozent aller Befragten in unserer Untersuchung an, Spark bereits einzusetzen. 64 Prozent der Befragten finden Spark für bestimmte Bereiche bzw. Aufgaben im Unternehmen sinnvoll. Als Ergänzung zu Hadoop und in Teilen auch als Ersatz einiger klassischer Hadoop-Komponenten und -Konzepte kommt Spark demnach gut zum Tragen. Beispielsweise kann es die zehn Jahre alte „MapReduce“-Komponente aus der ursprünglichen Hadoop-Plattform in vielen Fällen ablösen. Mit den kurzen Entwicklungszyklen passt das Framework zudem sehr gut in den heutigen schnelllebigen (Internet-)Alltag hinein. 10 Prozent der Befragten sind der Meinung, Spark eignet sich mehr für die Datenverarbeitung statt Analyse, gefolgt von 6 Prozent, die angaben, Spark unterstütze nicht alle Funktionen, die anspruchsvolle Data Analytics benötigt. Die restlichen Stimmen verteilten sich darauf, dass Apache Spark als eine Technologie gesehen wird, die Stand heute noch nicht ausgereift ist oder darauf, dass Spark nicht die Performance bringt, die das Unternehmen benötigt.

Welche Anwendungsgebiete adressieren die Lösungen letztendlich? Wo punktet EXASOL?

Ganz gleich wie die Prozentzahlen ausfallen, ist es wichtig, sich genau zu überlegen, was die Anforderungen im Unternehmen sind, bevor eine Lösung getestet und eingesetzt wird. Beispielsweise dient Apache Spark Data Scientists sicherlich als gute “Werkbank“. Auch Streaming-Analysen oder die Verarbeitung polystrukturierte Daten können mit Spark durchgeführt werden. Setzen Unternehmen jedoch auf maximale Abfragegeschwindigkeit, Interaktion in nahezu Echtzeit oder soll die Lösung für geschäftskritische Bereiche wie z.B. Retouren-Management, Flotten-Management, Betrugserkennung (Fraud Detection) oder bspw.im Bereich der Produktionssteuerung eingesetzt werden, ist EXASOL die erste Wahl. Optimierung, Performance, Marktreife, Support und Benutzerfreundlichkeit sind nur einige Schlagworte, in denen EXASOL klar punkten kann.

Komplementär statt Konkurrenz

Beide Lösungen müssen sich nicht ausschließen. Im Gegenteil – sie lassen sich leicht gemeinsam nutzen. EXASOL integriert Spark auf verschiedenen Ebenen. Lesen Sie dazu auch den Beitrag meines Kollegen Jens Graupmann: Apache Spark - Die Antwort auf Alles?

Whitepaper: „Apache Spark and EXASOL“

Dieses Whitepaper diskutiert den Nutzen von Apache Spark und Spark SQL und erläutert darüber hinaus die Vor- und Nachteile.

play_arrow Jetzt herunterladen

Abonnieren Sie unser Blog