Uitgegeven op

By

Data-integratie is vaak het punt waar geospatiale projecten vastlopen. Het is een cruciale stap in de opbouw van een ruimtelijke data-infrastructuur (SDI) en er wordt vaak veel tijd aan besteed. Dit komt grotendeels door het chronische gebrek aan naleving van de FAIR-principes (Findable, Accessible, Interoperable, Reusable) in veel databronnen.

Een van de meest voorkomende uitdagingen waar ik tegenaan loop, is het gebrek aan kennis over de te integreren data. Dit maakt het erg moeilijk om een ​​tijdlijn te plannen voor de ontwikkeling van een SDI. Met "kennis" bedoel ik precies weten welke datasets geïntegreerd zullen worden, samen met hun technische metadata, zoals formaat, grootte en frequentie van updates.

In een ideale situatie zou deze informatie in een metadata-record worden opgenomen, bij voorkeur in een gestandaardiseerd formaat. In veel gevallen worden gegevens echter zonder metadata aangeleverd, wat me bij de tweede uitdaging brengt: het creëren van op standaarden gebaseerde metadata. Net als bij het opstellen van een data-inventaris is dit vaak minder een technische kwestie en meer een menselijke, omdat het samenwerking met de data-eigenaren vereist.

Een andere grote uitdaging waar ik tegenaan ben gelopen, is het formaat van de data zelf, dat in veel gevallen noch gestandaardiseerd noch gestructureerd is. Een van de meest voorkomende voorbeelden die ik ben tegengekomen, zijn CSV-bestanden (Comma-Separated Value), tekstbestanden die alles kunnen bevatten wat tussen komma's staat. Coördinaten kunnen bijvoorbeeld in verschillende formaten binnen dezelfde kolom worden weergegeven. Deze integratieproblemen komen voort uit het ontbreken van een mechanisme om een ​​schema af te dwingen. Ondanks deze beperkingen blijven CSV- en Excel-bestanden tot de meest gebruikte formaten voor gegevensuitwisseling behoren.

Standaardgebaseerde workflow voor de integratie van geospatiale gegevens

De afbeelding hierboven toont de ideale situatie: een dataset wordt aangeleverd in een standaardformaat, samen met een bijbehorend metadata-record. Hierdoor kunnen de gegevens gemakkelijker in een SDI worden opgenomen en via verschillende OGC API-formaten worden gepubliceerd, zoals... tegels, functionaliteitenof archief.

In dit bericht heb ik enkele van de meest voorkomende uitdagingen belicht. In de volgende berichten zal ik elk van deze uitdagingen uitgebreider behandelen en enkele praktische strategieën delen die ik heb ontwikkeld om ze aan te pakken.

Mijn belangrijkste conclusie is dat softwaretools ons weliswaar kunnen helpen bij deze taken, maar dat onderwijs de meest effectieve manier blijft om deze problemen in de eerste plaats te voorkomen.

Laatste blogs