Ein offener, dezentraler Ansatz zur Speicherung von Metainformationen zu Geodaten ermöglicht es kleineren Akteuren, wie NGOs, Forschungsteams und Privatpersonen, ihre erhobenen oder abgeleiteten Daten leicht auffindbar und nachhaltig bereitzustellen. Der Ansatz beruht auf modernen, offenen (cloud-optimized) Datenformaten und Protokollen wie GeoZarr, Icechunk, Apache Iceberg, DASL und ATProto, die Interoperabilität, Integrität und Skalierbarkeit sicherstellen.
Das Ziel dieses Projekts ist es, Metainformationen zu Geodaten leicht bereitstellen zu können und diese zugleich auffindbar und nutzbar zu machen. Es folgt den FAIR-Prinzipien. Als Ausgangspunkt diente der Blog-Eintrag „Science needs a social network for sharing big data“ von Tom Nicholas, der die Probleme beim Teilen großer wissenschaftlicher Datensätze detailliert beschreibt.
Als zentrale Technologie wird das ATProto-Protokoll eingesetzt. Es ermöglicht ein Netzwerk, das Akteure aus Behörden, Zivilgesellschaft und Forschungseinrichtungen miteinander verbindet. Man muss nicht unbedingt Teil einer Organisation sein, das Bereitstellen der Daten steht jedem offen.
Ein zentrales Metadatenportal, das sämtliche Einträge enthält, wäre denkbar. Allerdings ermöglicht die Architektur durch die Trennung von Datenspeicherung und Präsentation das Erstellen von spezialisierten Portalen, die gezielt auf bestimmte Nutzergruppen zugeschnitten sind.
Für aggregierte Kataloge wird heute häufig ein Harvesting-Ansatz verwendet. Dabei werden Daten eines anderen Portals in festgelegten Intervallen maschinell abgerufen und Änderungen übernommen. ATProto kehrt diesen Prozess um und vereinfacht ihn: Ein Publish-Subscribe-Mechanismus benachrichtigt die aggregierende Instanz sofort, sobald Änderungen auftreten.
Auch denkbar ist es, durch solche Benachrichtigungen automatisierte Verarbeitungsprozesse auszulösen, die aufgrund der neuen Metadaten dann eine abgeleitete Version der beschriebenen Daten erstellen, die wiederum zur Verfügung gestellt wird. Ein Beispiel hierfür wären Satellitendaten, die bei neuen Bildern eine Analyse von Waldbränden anstoßen.
Moderne Datenformate wie GeoZarr oder Icechunk spielen dabei eine wichtige Rolle, weil sie cloud-optimiert sind und die Daten auf beliebigen Speichersystemen bereitstellen, ohne dass spezielle Serversoftware nötig ist. Zudem können die Metadaten direkt innerhalb der Daten gespeichert werden. Durch eindeutige Identifizierung mittels Hashes (Content-Addressing) lässt sich die Integrität der Daten jederzeit verifizieren.
Der Vortrag gibt einen Überblick über die zugrunde liegenden Technologien und zeigt die weitreichenden Möglichkeiten dieses dezentralen Ansatzes auf.