L'intégration des données est souvent le point faible des projets géospatiaux. Étape cruciale de la mise en place d'une infrastructure de données spatiales (IDS), elle est souvent chronophage, en raison notamment du non-respect chronique des principes FAIR (Faciles à trouver, Accessibles, Interopérables et Réutilisables) dans de nombreuses sources de données.
L'une des difficultés les plus fréquentes que j'ai rencontrées est le manque de connaissances sur les données à intégrer. Cela complique considérablement la planification du calendrier de développement d'une infrastructure de données spatiales (IDS). Par « connaissances », j'entends savoir précisément quels jeux de données seront intégrés, ainsi que leurs métadonnées techniques, telles que le format, la taille et la fréquence des mises à jour.
Dans l'idéal, ces informations seraient fournies dans une fiche de métadonnées, de préférence dans un format normalisé. Cependant, bien souvent, les données sont dépourvues de métadonnées, ce qui m'amène au second défi : la création de métadonnées normalisées. À l'instar de la constitution d'un inventaire de données, il s'agit souvent moins d'un problème technique que d'un problème humain, car cela nécessite une collaboration avec les propriétaires des données.
Un autre défi majeur que j'ai rencontré concerne le format des données elles-mêmes, qui, dans de nombreux cas, n'est ni standardisé ni structuré. L'un des exemples les plus courants est celui des fichiers CSV (Comma-Separated Values), des fichiers texte pouvant contenir n'importe quel type de données dans des champs séparés par des virgules. Par exemple, des coordonnées peuvent être exprimées sous différents formats au sein d'une même colonne. Ces difficultés d'intégration proviennent de l'absence de mécanisme permettant d'imposer un schéma. Malgré ces limitations, les fichiers CSV et Excel restent parmi les formats les plus utilisés pour l'échange de données.
L'image ci-dessus illustre la situation idéale : un jeu de données est fourni dans un format standardisé, accompagné d'un enregistrement de métadonnées. Cela facilite l'intégration des données dans une infrastructure de données de données (IDD) et leur publication via différents formats d'API OGC, tels que… carrelage, Caractéristiques, Articles.
Dans cet article, j'ai mis en lumière certains des défis les plus courants. Dans les prochains articles, j'explorerai chacun de ces défis plus en détail et partagerai des stratégies pratiques que j'ai développées pour y remédier.
Ce que j'en retiens, c'est que même si les outils logiciels peuvent nous aider dans ces tâches, l'éducation reste le moyen le plus efficace de prévenir ces difficultés.