Databricks in der Microsoft Data Factory – Traumpaar oder Zweckgemeinschaft?

von | 27.07.2020 | Digitalisierung

Nachdem Microsoft unter dem Namen Azure den eigenen Anteil am Cloudgeschäft in den letzten Jahren mehr und mehr steigern und gleichzeitig attraktiver für Data Science Teams werden konnte, ließ sich nicht länger leugnen, dass ein Ausbau des Technologie-Stacks unabdingbar ist. Microsofts Erfolg mit seinem Azure Portal hängt eng mit dem Kurs in Richtung Big Data-Analyse zusammen. Schon seit Jahren unterstützt es Data Scientisten dabei, sich von den Ketten eines eigenen Serversystems und den Zwängen eines Data Warehouse loszulösen und neue, weniger strukturierte Wege einzuschlagen.

Und nicht alle Wege führten in diesem Fall nach Rom, nicht wenige mündeten in den Azure Data Lake, Apache Kafka oder Hadoop Storage als Speicherorte. Um die Daten im Anschluss weiterzuverarbeiten, stellt Microsoft zwar die Data Factory bereit, allerdings fehlte es diesem Tool noch bis vor kurzer Zeit an einer Möglichkeit den ungeschlagenen Liebling eines jeden Data Scientisten integrieren zu können – Python.

Apache Spark trifft Databricks

Parallel dazu, wenn nicht sogar noch rasanter, entwickelte sich das Apache Spark Framework. Binnen weniger Jahre etablierte es sich vom Forschungsprojekt zum Klassenprimus der Big Data Analyse. Microsoft erkannte dies frühzeitig und investierte dementsprechend großzügig in das Open-Source-Projekt. Dasselbe Entwicklerteam um Matei Zaharia entwickelte in den Folgejahren die Databricks Technologie. Diese ermöglicht es, Transformierungsprozesse automatisiert auf Cluster zu verteilen und ist geradezu prädestiniert für eine Nutzung als cloudbasierten Service. Der zeitgemäße Aufbau als Notebook und die Möglichkeit sowohl in SQL, Scala als auch, dreimal dürfen Sie raten, in Python  programmieren zu können, verhalfen der Technologie zu einer breiten Bekannt- und Beliebtheit in der Big Data-Gemeinschaft.

Microsofts Geniestreich mit der „neuen“ Databricks Technologie

Offenbar erkannte Microsoft die fehlende Python-Integration als Schwachstelle, denn jetzt kann man Databricks direkt in die Azure Data Factory einbauen. Man kann jetzt nicht nur zu 100 Prozent in der Cloud arbeiten, sondern gleichzeitig Pythoncodes in einer Notebookumgebung entwickeln. Somit gibt es aus Sicht eines Data Scientisten keinen Grund mehr, nicht in dieser Infrastruktur zu entwickeln oder ihr gar entfliehen zu wollen. Die Skalierbarkeit der ausführenden Cluster ist eine Bereicherung für jeden Entwickler, der über kein eigenes Rechenzentrum verfügt sowie für jeden Experten, der schnell und agil entwickeln möchte.

Da diese Cluster in der Microsoft Azure Cloud generiert werden, hat man durch den integrierten Databricks Service zudem die volle Kostenkontrolle über seine Data Factory. Dies gelingt durch das einfache Festlegen von Kostengrenzen. Schnell werden die Vorteile einer Entscheidung von Microsoft ihre Databricks voll in die Azure Data Factory zu integrieren sichtbar. Gleichzeitig lässt sich nicht verbergen, dass diese zudem als eindeutige Hinweise auf den jetzigen und kommenden Siegeszug der cloudbasierten Datenverarbeitung und insbesondere des Azure Portals von Microsoft zu deuten sind.

Der Vollständigkeit halber sei an dieser erwähnt, dass es sehr wohl (Um-)Wege gegeben hätte, den Python-Code auch in einer ETL-Strecke der Data Factory auszuführen. Das Beschreiten dieser Wege erwies sich in der Regel jedoch oft als Sackgasse. Um sich weiter in der Metaphorik des Wanderns zu bewegen, könnte man sagen, dass wohl die Wenigsten Spaß daran gehabt hätten, den Weg über eine lange und holprige Straße auf sich zu nehmen, wenn das Ziel diese beschwerliche Reise doch nicht belohnt.

Unsere Digitalisierungsexperten bei der Schütze AG freuen sich darauf, Sie bei Ihrem nächsten Erfolgsprojekt zu unterstützen. Hier gelangen Sie zu unserem Leistungsportfolio.

Ihr Ansprechpartner

Mario Müller

Mario Müller

Strategieberatung

Mario Müller ist Leiter des Geschäftsbereichs Digital Strategy. Seine herausragende Expertise ist die Strategieberatung im Digitalisierungskontext.

E-Mail schreiben 

Das könnte Sie auch interessieren