Skalierbare Geographische Datenverarbeitung mit Open Source
08.06.2021 , Bühne 2

Wenn man mit geographischen Daten arbeitet kommt man gelegentlich an die Grenzen der eigenen Hardware sobald man mit großen Datenmengen konfrontiert ist. Da kommt man nicht daran vorbei sich mit Big Data zu beschäftigen und die Elefanten im Raum zu konfrontieren. Speziell der blaue Elefant (PostgreSQL) und der gelbe Elefant (Hadoop) sind im Vordergrund, aber auch einige weitere Open Source Projekte können dafür hilfreich sein und werden hier vorgestellt und verglichen.


Dieser Vortrag soll einen Überblick verschaffen über die derzeitigen Open Source Projekte und Tools, die skalierbare Datenverarbeitung ermöglichen, wie zum Beispiel Punkt in Polygon Berechnungen oder Spatial Joins mit großen geographischen Datenmengen.

Die Projekte die verglichen werden, sind PosgreSQL mit PostGIS, Apache Spark mit GeoMesa und Hadoop, Presto, Dask mit GeoPandas und einige weitere mit geographischer Funktionalität. Der Vortrag stellt die einzelnen Projekte vor, vergleicht die Performanz und zeigt mögliche Anwendungsfälle.

Geospatial Data Scientist bei Triply und freiberuflicher Data Scientist und Data Engineer mit Fokus auf geographische Datenverarbeitung, Routing, OpenStreetMap und offene Daten.

Diese(r) Vortragende hält außerdem: