Die Leistungsfähigkeit großer open source Sprachmodelle für Geoparsing-Aufgaben
26.03.2025 , HS3 (S1)

Wir präsentieren einen Geoparsing-Workflow, der Name Entity Recognition und Geokodierung kombiniert, um Ortsangaben inklusive Hausnummern aus Texten zu extrahieren und in einem WebGIS zu visualisieren. Wir haben moderne großer Sprachmodelle (LLM) wie Meta Llama3.1-70b-instruct und Mistral-large wurden getestet und dabei herausgefunden, dass ein hybrider Open-Source-Ansatz bis zu 70 % der Standorte korrekt erkennt - womit der Ansatz besser ist als Anthropic Claude und ChatGPT o1-preview.


Geoparsing ist ein Prozess, der Name Entity Recognition (NER) und Geocoding kombiniert, um Freitext zu verarbeiten und in ihnen geolokalisierte Begriffe zu identifizieren, die dann mit Geocoder API in in räumliche Koordinaten umgewandelt werden. Das Forschungsprojekt erfolgt im Rahmen einer Kooperation mit dem Landesbetrieb Immobilienmanagement und Grundvermögen Hamburg (LIG) und verfolgt das übergeordnete Ziel, einen Geoparsing-Workflow zur Verarbeitung der Open-Source-Datenbank des Hamburger Parlaments („Bürgerschaft“) zu entwickeln (Dally et al., 2024). Konkret sollen Immobiliengrundstücke erfasst werden, die in der öffentlichen Diskussion stehen – für die eine große Vielzahl von PDF-Dateien verarbeitet und in einem WebGIS-System visualisiert werden sollen. Um die Routineaufgaben des LIG zu erfüllen, ist ein leistungsfähiger Geoparsing-Workflow notwendig, dessen 1) Ortserkennung auch Hausnummern enthalten sollte, und 2) eine genaue Kodierung der räumlichen Kartenkoordinaten sicherstellt.
In einer früheren Projektphase wurde das flair/ner-german-large Modell zur Standortbestimmung verwendet (Mellow & Chang, 2023) und der Fokus der Untersuchung auf eine lokale Zeitung ("Elbewochenblatt") gelegt. Allerdings wurde festgestellt, dass das Flair-Modell nicht in der Lage ist, vollständige Adressen einschließlich Hausnummern zu ermitteln. Daher eruieren wir jetzt die funktionalen Möglichkeiten aktuellerer LLM-Modelle. Um präziser einschätzen zu können, wie viele Ortsbegriffe erkannt werden, haben wir einen Validierungsworkflow entwickelt (einschließlich eines Prozesses zur räumlichen Verknüpfung mehrerer geokodierter Punktkoordinaten), der automatisch den Prozentsatz der von jedem Modell erkannten Ortsbegriffe vergleicht und berechnet.
Mit der schnellen Entwicklung von Large Language Models (LLM) ist es einfach geworden, entsprechende Ortslisten zu extrahieren – die Ergebnisqualität aber blieb bisher eine offene Frage. Dieser akademische Vortrag konzentriert sich daher auf die Qualität dieser Open-Source-LLMs, von denen wir haben Meta Llama3.1-70b-instruct und Mistral-large-2 getestet haben, um sie mit Claude-sonnet-3.5-new und OpenAI o1-preview zu vergleichen.
Für die Geokodierung verwenden wir OpenSource Geocoder: Nominatim und Mapbox Geocoder API. Für die Adressen mit Hausnummern ziehen wir zusätzlich die die vom Landesbetrieb Geoinformation und Vermessung (LGV) offiziell veröffentlichten Adressen der Stadt Hamburg heran.
Das Ergebnis der Untersuchung zeigt, dass ein hybrider Open-Source-Ansatz bis zu 70% eindeutige Standorte aus dem Text gewinnen kann, einschließlich der vollständigen Adresse mit Hausnummern. Claude erreicht hingegen nur 53%, o1-preview 60%. Wir haben auch festgestellt, dass LLM bei der Extraktion der Namen von Institutionen (z.B. Schulen) ohne Adressangabe in den Texten eingeschränkt ist.

Im Anschluss an die NER-Validierung wird sich das Projekt in naher Zukunft dem Fine-tune eines Open-Source-Sprachmodells widmen. Dabei ist eine Entscheidung darüber zu treffen, ob das Modell – in Abhängigkeit von der Verfügbarkeit von GPU-Ressourcen – mit der Parametergröße 7b oder 70b verwendet wird. Das mittelfristige Ziel ist die Entwicklung eines Chatbots, der in der Lage ist, Fragen zu konkreten den Themen der Stadtentwicklung wie z.B. „Verdichtung“, „Vorkaufsrecht“ und „Magistralenplanung“ zu beantworten.

Siehe auch: LIG Flyer English (1,2 MB)

Juiwen, auch bekannt als Ariel, stammt aus Taiwan und hat sich über viele Jahren hinweg an FOSSGIS sowie den open soure GIS Communities beteiligt. Sie nahm erstmals an der FOSS4G in Nottingham im Jahr 2013 teil, wobei sie ein akademisches Stipendium erhielt. Nach ihrem Umzug nach Deutschland war sie weiterhin aktiv in der FOSSGIS-Community und hielt Vorträge und Workshops bei der FOSSGIS und der FOSS4G Europe im Jahr 2018 sowie bei der FOSS4G im Jahr 2022.
Ariel ist seit 2017 als Wissenschaftliche Mitarbeiterin an der Hafencity Universität Hamburg (HCU) tätig.