26.03.2025 –, HS4 (S2)
Die Open Data Bewegung ermöglicht den Zugang zu zahlreichen offenen Datensätzen. Allerdings fehlen oft detailliertere Metadaten, die den Kontext der Daten, wie Erhebungsmethoden oder Entscheidungen zu Klassifikationen, erklären. Laut der Theorie des situierten Wissens müssen Daten im Kontext ihrer Entstehung betrachtet werden. Verschiedene Frameworks fördern diese Reflexion. Meine Arbeit untersucht solche Konzepte speziell für Geodaten und wendet sie in Bezug auf eine Open Source Anwendung an.
Dank der Open Data Bewegung ist es mittlerweile möglich, zu vielen verschiedenen Themen einen offenen Datensatz im Internet zu finden. Für datenbereitstellende Institutionen und Personen liegt der Fokus häufig auf dem Öffnen von möglichst vielen Daten, meist über Datenportale. Diese geben dabei einen Rahmen vor, welche Informationen über den Datensatz, also Metadaten, zur Veröffentlichung bereitgestellt werden müssen. Dahinter steht häufig DCAT-AP als Metadatenmodell zum Austausch von offenen Verwaltungsdaten (FITKO o.J.), aber auch Standards für geographische Daten wie der ISO Standard 19115-1:2014 (Geographische Informationen – Metadaten) (ISO 2014) oder die INSPIRE Richtlinie (European Commission o.J.) sind Leitlinien.
Häufig beschränken sich die bereitgestellten Metadaten jedoch auf ein Minimum und Datennutzer*innen, die Daten „in der Wildnis“ (D’Ignazio & Klein 2020, S. 150, eigene Übersetzung) finden, fehlt der Kontext der Daten. Dieser Kontext umfasst beispielsweise die Erhebungsmethoden, Definitionen, welche hinter angewandten Klassifikationen stehen, die Ziele der Datenerhebung, sowie Herausforderungen, die sich im Erhebungsprozess ergeben haben. Nach Donna Haraways (1988) Theorie des situierten Wissens ist jede Art von Wissen stets in einen Kontext eingebunden, der bei der Interpretation einbezogen werden sollte. Dieser Ansatz fordert, dass Daten im Kontext ihrer Entstehung, den sozialen, kulturellen, historischen, institutionellen und materiellen Begebenheiten betrachtet werden, anstatt sie als neutrale ‚Rohdaten‘ zu sehen (D’Ignazio & Klein 2020, S. 152). Nur so können Grenzen der Daten, Lücken, mögliche Biases und eine daraus resultierende ethische Verantwortung in der Verarbeitung und Nutzung der Daten erkannt und verstanden werden, wie D’Ignazio & Klein (2020, S. 149-172) in ihrem Buchkapitel The Numbers Don’t Speak for Themselves betonen.
Wie eine Auseinandersetzung mit dem Kontext von Daten zu einem besseren Verständnis und einem Infragestellen der auf den ersten Blick sichtbaren Aussagen eines Datensatz führen kann, zeigen u.a. Heather Krause (2017) und Catherine D’Ignazio (2022, S. 11) in zwei Projekten auf. Sie arbeiten dabei mit dem Konzept der Datenbiographie, welche Datennutzer*innen anhand von vier bis fünf Kernfragen dazu anregt, den Hintergrund und die Entstehung eines Datensatzes zu recherchieren (Krause 2017, 2023). Neben den Critical Data Studies beschäftigt sich auch die Disziplin von Ethical AI und Machine Learning mit Ansätzen für einen verantwortungsbewussten Umgang mit Daten. Frameworks, die sich in diesem Kontext meist an Datenproduzent*innen und -bereitsteller*innen richten, umfassen beispielsweise Datasheets for Datasets (Gebru et al. 2018), Data Cards (Pushkarna et al. 2022), oder das Dataset Nutrition Label (Holland et al. 2020).
Diese verschiedenen Konzepte zur Auseinandersetzung mit dem Kontext eines Datensatzes werden in meiner Arbeit verglichen und mit einem speziellen Fokus auf Geodaten und die Anwendung für kartographische Darstellungen und Analysen untersucht. Für Nutzer*innen von Geodaten soll eine solche Reflexion über die Daten eine fitness-for-use-Analyse ermöglichen, welche über klassische Qualitätsindikatoren räumlicher Daten hinaus geht und auch potenzielle Biases in Datensätzen sichtbar macht. Als Use Case verwende ich in meiner Arbeit die Open Source Anwendung Kiezcolors (ODIS Berlin) bzw. darauf aufbauend Grätzlfarben (TU Wien), welche auf spielerische Weise urbane Landnutzung analysieren. Verschiedene offene Datensätze, u.a. OpenStreetMap sowie offene Verwaltungsdaten, die als potenzielle Input-Daten für diese Analyse-Anwendung dienen können, werden anhand der Frameworks untersucht. Auf konkreter Ebene ist dabei das Ziel, die Stärken und Schwächen der verschiedenen Datensätze für die Anwendung zu identifizieren und daraus die fitness-for-use in einem breiten Verständnis abzuleiten. Auf einer abstrakteren Ebene möchte ich der Entwicklung eines geeigneten Reflexionsframeworks für Geodatensätze, ihre Veröffentlichung sowie ihre Nutzung im Geovisualisierungs- und Geoanalysekontext einen Schritt näherkommen.
Bibliographie
D'Ignazio, Catherine; Klein, Lauren F. (2020): Data Feminism. Cambridge: The MIT Press.
D'Ignazio, Catherine (2022): Creative data literacy. In: IDJ 23 (1), S. 6–18. DOI: 10.1075/idj.23.1.03dig.
European Commission (o.J.): INSPIRE Knowledge Base. Implementing Rules. Online verfügbar unter https://knowledge-base.inspire.ec.europa.eu/legislation/implementing-rules_en, zuletzt geprüft am 17.10.2024.
Föderale IT-Kooperation (FITKO) (Hg.) (o.J.): DCAT-AP.de. Online verfügbar unter https://www.dcat-ap.de/, zuletzt geprüft am 17.10.2024.
Gebru, Timnit; Morgenstern, Jamie; Vecchione, Briana; Vaughan, Jennifer Wortman; Wallach, Hanna; Daumé, Hal, III; Crawford, Kate (2018): Datasheets for Datasets. Online verfügbar unter http://arxiv.org/pdf/1803.09010
Haraway, Donna (1988): Situated Knowledges: The Science Question in Feminism and the Privilege of Partial Perspective. In: Feminist Studies 14 (3), S. 575. DOI: 10.2307/3178066.
Holland, Sarah; Hosny, Ahmed; Newman, Sarah; Joseph, Joshua; Chmielinski, Kasia (2020): The Dataset Nutrition Label. A Framework to Drive Higher Data Quality Standards. In: Dara Hallinan, Ronald Leenes, Serge Gutwirth und Paul de Hert (Hg.): Data Protection and Privacy: Hart Publishing.
International Organization for Standardization (ISO) (2014): ISO 19115-1:2014. Geographic information — Metadata. Online verfügbar unter https://www.iso.org/standard/53798.html, zuletzt geprüft am 16.10.2024.
Krause, Heather (2017): Data Biographies: Getting to Know Your Data. Hg. v. Global Investigative Journalism Network. Online verfügbar unter https://gijn.org/stories/data-biographies-getting-to-know-your-data/, zuletzt geprüft am 17.10.2024.
Krause, Heather (2023): An Introduction to the Data Biography. Hg. v. We All Count. Online verfügbar unter https://weallcount.com/2019/01/21/an-introduction-to-the-data-biography/, zuletzt geprüft am 02.10.2024.
Pushkarna, Mahima; Zaldivar, Andrew; Kjartansson, Oddur (2022): Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI. In: 2022 ACM Conference on Fairness, Accountability, and Transparency. FAccT '22: 2022 ACM Conference on Fairness, Accountability, and Transparency. Seoul Republic of Korea, 21 06 2022 24 06 2022. New York, NY, USA: ACM, S. 1776–1826.
Forscherin, Dozentin und Doktoratsstudentin an der TU Wien, Forschungsgruppe Kartographie, ursprünglich sozialwissenschaftlicher Hintergrund, aber zwischendurch im Open Data Bereich und jetzt in der Kartographie