Die Datenintegration ist oft der Knackpunkt bei Geodatenprojekten. Sie ist ein entscheidender Schritt beim Aufbau einer Geodateninfrastruktur (GDI) und beansprucht häufig viel Zeit. Dies liegt vor allem an der chronischen Missachtung der FAIR-Prinzipien (Findable, Accessible, Interoperable, Reusable) in vielen Datenquellen.
Eine der häufigsten Herausforderungen, denen ich begegne, ist der Mangel an Wissen über die zu integrierenden Daten. Dies erschwert die Planung von Zeitplänen für die Entwicklung einer Geodateninfrastruktur erheblich. Mit „Wissen“ meine ich, genau zu wissen, welche Datensätze integriert werden, sowie deren technische Metadaten wie Format, Größe und Aktualisierungshäufigkeit.
Im Idealfall würden diese Informationen in einem Metadatensatz, vorzugsweise in einem standardisierten Format, bereitgestellt. Häufig liegen Daten jedoch ohne Metadaten vor, was mich zur zweiten Herausforderung führt: der Erstellung standardbasierter Metadaten. Ähnlich wie beim Aufbau eines Dateninventars handelt es sich dabei oft weniger um ein technisches als vielmehr um ein menschliches Problem, da die Zusammenarbeit mit den Dateneigentümern erforderlich ist.
Eine weitere große Herausforderung ist das Datenformat selbst, das häufig weder standardisiert noch strukturiert ist. Ein häufiges Beispiel sind CSV-Dateien (Comma-Separated Values), Textdateien, deren Felder beliebige Inhalte enthalten können. So können beispielsweise Koordinaten innerhalb derselben Spalte in unterschiedlichen Formaten angegeben werden. Diese Integrationsschwierigkeiten entstehen durch das Fehlen eines Mechanismus zur Durchsetzung eines Schemas. Trotz dieser Einschränkungen zählen CSV- und Excel-Dateien weiterhin zu den gängigsten Formaten für den Datenaustausch.
Die obige Abbildung zeigt den Idealfall: Ein Datensatz wird in einem standardbasierten Format zusammen mit einem zugehörigen Metadatensatz bereitgestellt. Dadurch lassen sich die Daten einfacher in eine SDI einbinden und über verschiedene OGC-API-Formate veröffentlichen. Fliesen, Funktionenden Aufzeichnungen.
In diesem Beitrag habe ich einige der häufigsten Herausforderungen aufgezeigt. In den folgenden Beiträgen werde ich jede dieser Herausforderungen detaillierter beleuchten und einige praktische Strategien vorstellen, die ich zu ihrer Bewältigung entwickelt habe.
Meine wichtigste Erkenntnis ist, dass Software-Tools uns zwar bei diesen Aufgaben unterstützen können, Bildung aber nach wie vor der effektivste Weg ist, diese Herausforderungen von vornherein zu vermeiden.