25.03.2026 –, HS3 (ZHG 009)
Die Urban Data Platform Hamburg veröffentlicht über 600 Datensätze aus unterschiedlichen Bereichen der Stadt. Um die Entwicklung und Pflege der datensatzbezogenen, auf proprietärer Software basierenden Datenintegrationsprozesse zu vereinfachen, wird ein modularer und dynamischer ETL-Prozess auf Basis von Open Source Technologien, wie Apache Airflow und Python, entwickelt. Mit der UDP Data Automation werden Datenintegrationsprozesse künftig effizienter, flexibler und nachhaltiger.
Die Urban Data Platform Hamburg (UDP Hamburg) bildet die zentrale digitale Infrastruktur der Stadt, auf der vielfältige Daten aus den Bereichen Verkehr, Umwelt, Energie, Verwaltung und Infrastruktur zusammengeführt und bereitgestellt werden. Ziel der Plattform ist es, diese heterogenen Datenbestände für die Stadtentwicklung, Forschung, Verwaltung sowie die Öffentlichkeit nutzbar zu machen. Aktuell sind über 600 unterschiedliche Datensätze mit jeweils eigenständigen Strukturen in der UDP verfügbar, was die Anforderungen an die Datenintegration kontinuierlich erhöht.
Bisher erfolgte die Integration der Fachdaten datensatzbezogen und unter Verwendung proprietärer, lizenzbasierter Software wie FME, was zwar etabliert ist, jedoch hinsichtlich Flexibilität, Skalierbarkeit und Kosten deutliche Einschränkungen mit sich bringt.
Vor diesem Hintergrund wird im Projekt Data Automation ein neuer, modularer Ansatz zur Automatisierung der Datenintegrationsprozesse entwickelt, der auf modernen Open-Source-Technologien wie Apache Airflow und Python basiert. Ziel ist es, die Datenintegration zu beschleunigen, die Qualität zu verbessern und die Pflege durch modulare Komponenten zu vereinfachen.
Apache Airflow ermöglicht die Automatisierung, Steuerung und Überwachung von Datenprozessen, während Python als vielseitige Programmiersprache die Entwicklung individueller Schnittstellen und Datenverarbeitungslogiken unterstützt. Dabei wird ein generischer ETL-Prozess (Extract, Transform, Load) umgesetzt, der nicht mehr für jeden Datensatz individuell programmiert werden muss, sondern auf einem standardisierten Workflow-Template basiert. In diesem DAG-Template (Directed Acyclic Graph) werden die einzelnen ETL-Schritte in Airflow abgebildet – von der Schemaerstellung über die Datenextraktion und das Attribut-Mapping bis hin zum Laden der Zieltabelle.
Die modulare Architektur des ETL-Prozesses erlaubt eine flexible Anpassung an unterschiedliche Datenformate wie Excel, CSV oder SDE (MSSQL) und unterstützt eine asynchrone Verarbeitung der Daten. Airflow steuert dabei die Ausführung der einzelnen Tasks im Workflow. Ein zentrales Element der technischen Umsetzung ist der DAG-Generator, der die Konfigurationsinformationen aus dem UDP-Manager, einem bereits in der UDP etablierten Datensatz-Management-Tool mit REST-Schnittstelle, ausliest und daraus automatisch individuelle DAGs für jeden Datensatz generiert oder aktualisiert.
Im Rahmen der Weiterentwicklung findet hierzu ein fachlicher Austausch mit der Stadt Toronto statt, die Apache Airflow bereits produktiv einsetzt, um von internationalen Erfahrungen und Best Practices zu profitieren.
Katharina Lupp führt das Team UDP Datenintegration und Bereitstellung im Fachbereich Urban Data Platform beim Landesbetrieb Geoinformation und Vermessung der Freien und Hansestadt Hamburg (LGV).
Seit April 2024 bin ich im Team Datenintegration und Bereitstellung im Fachbereich Urban Data Platform beim Landesbetrieb Geoinformation und Vermessung der Freien und Hansestadt Hamburg (LGV). Hier treibe ich vor allem die Automatisierung der Datenintegration im Projekt Data Automation voran.