Automatische Korrektur von ÖV-Stationen in OSM
12.03.2020 , HS Weismannhaus

ÖV-Stationen bestehen üblicherweise aus mehreren Punkt-, Linien- oder Flächeninformationen, z.B. Haltepunkten, Gleisen oder Bahnhofsgebäuden u.a.. Diese Objekte können in OSM mittels übergeordneter Relationen verknüpft werden, allerdings fehlt diese Gruppierung häufig oder ist unvollständig. Wir stellen ein Tool vor, das die Elemente von ÖV-Stationen als Paare von Stationsnamen und -koordinaten abstrahiert und mittels Ähnlichkeitsmaßen und maschinellem Lernen OSM-Stationen korrigieren kann.


Wir stellen ein Tool (staty) vor, das aus ÖV-Stationsdaten in OSM Tupel von Stationsnamen und -koordinaten extrahiert. Die in OSM bereits als gruppiert markierten Stationen werden als ground truth verwendet und damit ein Klassifikator trainiert, der entscheiden kann, ob zwei Name/Koordinate Tupel dieselbe Station beschreiben. Die Hauptschwierigkeit liegt darin, dass dieselben Stationen teilweis deutlich voneinander abweichende Bezeichnungen haben können (z.B. "Hbf" vs. "Freiburg im Breisgau, Hauptbahnhof"), dass z.B. Ortsnamen für die Ähnlichkeit zweier Stationen irrelevant sind, wenn sie nah beieinander liegen, oder dass die mittlere Distanz von z.B. Haltepunkten derselben Stationen abhängig ist von der Art der Stationen. Z.B. wird die mittlere paarweise Distanz zwischen Haltepunkten in einer Station "Hauptbahnhof" üblicherweise deutlich größer sein als in einer Station "Dorfstraße".

Wir nutzen unseren auf OSM-Daten trainierten Klassifikator, um die OSM-Daten selbst wieder zu korrigieren. Dazu führen wir ein auf den Ähnlichkeitswerten unseres Klassifikators beruhendes Clustering durch und geben die Differenz zwischen dem Clustering und der Stationsgruppierung in OSM als Editiervorschläge aus. Da unser Ansatz z.B. auch verschiedene Namen (ref_name, alt_name, name, ...) innerhalb einzelner Nodes als separate Elemente extrahiert, können auch Fehler innerhalb einzelner Nodes erkannt werden (z.B. ein nicht korrekt durch alle Namen nachgeführter Namenswechsel oder Schreibfehler).

Siehe auch: Vortragsfolien (2,0 MB)