Mit Open Source zum Lakehouse-Cluster mit nativer Geo-Unterstützung
25.03.2026 , HS3 (ZHG 009)

Der Vortrag vermittelt Motivation und Orientierung für den Aufbau eines eigenen Lakehouse-Clusters. Er erklärt kompakt Architektur und Kernbausteine eines Lakehouse-Systems – vom Katalog über Speicher und Compute bis zum Tabellenformat – und zeigt, wie man einen Plan für große Datenmengen entwickelt, wenn eine einzelne Maschine nicht mehr ausreicht.


Mit der fortschreitenden Öffnung von Geodaten wachsen die Anforderungen an Speicherung und Berechnung. Klassische Einzel-Datenbanken lassen sich zwar skalieren, stoßen bei sehr großen, heterogenen Beständen jedoch an organisatorische und technische Grenzen. Der Vortrag entmystifiziert Lakehouse-Architekturen auf Basis von Hadoop und Spark und zeigt, wie Katalog, Speicher, Compute und Tabellenformat zusammenspielen. Im Fokus steht Apache Iceberg v3 mit nativer Geo-Unterstützung: räumliche Datentypen, Time-Travel und saubere Schema-Evolution. Ziel ist ein klarer Startpfad vom Laptop-PoC zum kleinen Cluster – inklusive typischer Fallstricke sowie Do’s & Don’ts.

Ich bin Gabriel Musial, Bachelor in Umweltinformatik. In meinem Praktikum habe ich tiefe Einblicke in Big-Data-Architekturen gewonnen – und möchte das Gelernte offen teilen. Für den GIS-Bereich stehen heute Technologien bereit, die ihren Ursprung bei großen Tech-Konzernen haben – den Pionieren hinter Streaming-, Cloud- und Datenplattformen – und die dank ihres Open-Source-Charakters allen zur Verfügung stehen. Das sollten wir nutzen.