26.03.2025 –, HS3 (S1)
Unser Vortrag stellt ein innovatives, Framework zur Verbesserung der Geodatensuche vor. Durch die Kombination von Large Language Models, dialogbasierter Nutzerinteraktion und semantischer Suche sollen die Limitierungen traditioneller, metadatenbasierter Suchsysteme überwunden werden. Das System ermöglicht eine präzisere Erfassung von Nutzeranforderungen und kann sowohl Metadaten als auch die eigentlichen Geodatenattribute durchsuchen, was die Qualität der Suchergebnisse deutlich verbessert.
In Geodaten- und Forschungsdateninfrastrukturen (GDI/FDI) basiert die Datensuche primär auf Metadaten. Diese Suchfunktionalität wird hierbei über Metadatenkataloge oder Open Data Portale wie CKAN oder GeoNetwork realisiert. Diese Dienste bieten eine Volltextsuche zur Identifikation relevanter Metadatensätze, die durch Suchfacetten und Filter ergänzt werden kann (Hervey et al., 2020). Die implementierte Volltextsuche beruht dabei auf einem lexikalischen Ansatz, der auf die exakte Übereinstimmung von Wörtern oder Phrasen zwischen Suchanfragen und Metadatensätzen basiert (Formal et al., 2022).
Die lexikale Suche weist jedoch bedeutende Einschränkungen auf:
● Suchende müssen die spezifische Terminologie der Metadaten kennen und die richtigen Suchbegriffe verwenden, um relevante Ergebnisse zu erhalten. Diese Fachkenntnis ist besonders in interdisziplinären Portalen nicht selbstverständlich.
● Sprachliche Variationen in den Suchanfragen – etwa durch Tippfehler, Abkürzungen, Synonyme oder Akronyme – können die Ergebnisqualität erheblich beeinträchtigen (vgl. „vocabualary mismatch problem“ (Furnas et al., 1987)).
Zur Bewältigung dieser Herausforderungen existieren verschiedene Lösungsansätze. Die Integration kontrollierter Vokabulare oder Ontologien ermöglicht beispielsweise das Vorschlagen verwandter Suchbegriffe wie Synonyme im Rahmen der Volltextsuche (Jiang et al., 2019). Zudem eröffnen aktuelle Entwicklungen im Bereich neuronaler Netze und Sprachmodelle neue Möglichkeiten, die Semantik von Suchanfragen und -ergebnissen zu erfassen und deren Relevanz präziser zu bestimmen (Thakur et al., 2021). Entsprechende Anwendungen im Kontext der (Geo-)Metadatensuche wurden bereits entwickelt (Wetzel and Mäs, 2024).
Allerdings garantiert selbst die erfolgreiche Identifikation relevanter Metadatensätze nicht, dass die zugehörigen Datensätze den Anforderungen der Suchenden entsprechen. Mögliche Ursachen hierfür sind:
● Unzureichende Repräsentation der Datensatzinhalte und -eigenschaften in den Metadaten.
● Unvollständige oder ungenaue Metadaten.
● Spezifische Nutzeranforderungen, die in den verfügbaren Metadaten nicht erfasst sind.
Wir wollen in diesem Vortrag ein Large Language Model (LLM) basiertes Framework vorstellen, das entwickelt wurde, um diese verbleibenden Herausforderungen anzugehen. Das Framework implementiert einen innovativen, dialogorientierten Suchansatz. Es ist dabei bewusst für die Integration verschiedener Open-Source-Sprachmodelle ausgelegt. Neben proprietären Modellen können insbesondere freie LLMs wie Llama oder Mixtral eingebunden werden. Das System kombiniert einen Chatbot für die Interaktion in natürlicher Sprache mit einem semantischen Suchindex für Geodaten und deren Metadaten. Anders als bei konventionellen Suchsystemen ermöglicht dieser Ansatz eine präzise Erfassung der Nutzeranforderungen durch interaktiven Dialog. Der Chatbot kann gezielt Rückfragen stellen, um Suchintentionen zu klären und spezifische Anforderungen zu konkretisieren. Durch die Integration eines speziellen Suchindex, optimiert für die semantische Indexierung (Vektordatenbank), können sowohl die eigentlichen Geodaten als auch deren Metadaten gespeichert und durchsucht werden. Dies ermöglicht eine semantische Suche nach den in den Daten vorhandenen Attributen oder Features.
Ein konkretes Beispiel verdeutlicht die Vorteile dieses Ansatzes: Bei der Suche nach "Krankenhäusern mit Notaufnahme" werden nicht nur Datensätze gefunden, die diese Begriffe in ihren Metadaten enthalten. Vielmehr können auch die in den Geodaten selbst vorhandenen Attribute wie "emergency=yes" oder "healthcare=hospital" für die Suche genutzt werden. Der Chatbot kann dabei gezielt nach weiteren Anforderungen fragen, etwa ob bestimmte Fachabteilungen benötigt werden. Diese Informationen werden dann mit den tatsächlich in den Daten vorhandenen Attributen abgeglichen.
Dies ermöglicht es, auch implizite oder komplexe Zusammenhänge zwischen Suchanfragen und verfügbaren Datensätzen zu erkennen und somit die Diskrepanz zwischen Nutzeranforderungen und Datenverfügbarkeit zu minimieren.
Referenzen:
● Formal, T., Piwowarski, B., & Clinchant, S. (2022). Match Your Words! A Study of Lexical Matching in Neural Information Retrieval. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 13186 LNCS, 120–127. https://doi.org/10.1007/978-3-030-99739-7_14
● Furnas, G. W., Landauer, T. K., Gomez, L. M., & Dumais, S. T. (1987). The Vocabulary Problem in Human-System Communication. Communications of the ACM, 30(11), 964–971. https://doi.org/10.1145/32206.32212
● Hervey, T., Lafia, S., & Kuhn, W. (2020). Search Facets and Ranking in Geospatial Dataset Search. Leibniz International Proceedings in Informatics, LIPIcs, 177(5), 1–5. https://doi.org/10.4230/LIPIcs.GIScience.2021.I.5
● Jiang, S., Hagelien, T. F., Natvig, M., & Li, J. (2019). Ontology-Based Semantic Search for Open Government Data. Proceedings - 13th IEEE International Conference on Semantic Computing, ICSC 2019, 7–15. https://doi.org/10.1109/ICOSC.2019.8665522
● Thakur, N., Reimers, N., Rücklé, A., Srivastava, A., & Gurevych, I. (2021). BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models. NeurIPS. http://arxiv.org/abs/2104.08663
● Wetzel, S., & Mäs, S. (2024). Context-Aware Search for Environmental Data Using Dense Retrieval. ISPRS International Journal of Geo-Information, 13(11), 380. https://doi.org/10.3390/ijgi13110380
Mathes Rieke ist Geschäftsführer der 52°North Spatial Information Research GmbH. Seine Expertise reicht von Standardisierungs-Prozessen im Geo-IT-Sektor bis hin zu Architektur-Konzepten für die effiziente Prozessierung von Geodaten.
Seit 2021 Wissenschaftlicher Mitarbeiter und PhD Student an der Professur für Geoinformatik, Technische Universität Dresden.
Publikationen: siehe hier
Laufendes Projekt: KlimaKonform