Publié le

By

À l'ère de l'imagerie de synthèse, des deepfakes et de l'IA de plus en plus complexe, la question de la confiance dans les données n'a jamais été aussi cruciale. Comment pouvons-nous nous fier aux données qui alimentent nos décisions les plus importantes, de la gestion des inondations et des incendies de forêt à la sécurité nationale, en passant par les interventions d'urgence et la planification des infrastructures ?

Prenons l'exemple des inondations catastrophiques en Allemagne en 2021. Malgré des systèmes d'alerte avancés, des questions ont émergé quant à la précision et à la rapidité des données utilisées pour les modèles de prévision des inondations, ce qui a contribué à retarder les évacuations et à la perte de plus de 180 vies. En Australie, lors des feux de brousse de 2020, les lacunes et les inexactitudes des images satellite ont compliqué la planification et le déploiement efficace des ressources par les services d'urgence.

Les enjeux sont tout aussi importants en matière de sécurité nationale et d'information publique. En 2022, une vidéo deepfake d'un dirigeant politique de premier plan est devenue virale, ébranlant brièvement la confiance du public et soulevant des questions urgentes quant à son authenticité et son attribution. Pendant la pandémie de COVID-19, la désinformation et la communication incohérente des données ont semé la confusion et compliqué la coordination d'une réponse sanitaire efficace. Il ne s'agit pas de scénarios marginaux, mais d'un aperçu de ce qui se produit lorsque l'intégrité, la provenance et la confiance des données ne sont pas intégrées à nos systèmes dès leur conception.

C'est pourquoi l'Open Geospatial Consortium (OGC) développe un cadre complet pour Intégrité, provenance et confiance (IPT) dans le domaine des données géospatiales. Ce travail vise à créer une base sur laquelle les organisations du monde entier peuvent s'appuyer et s'appuyer pour garantir que leurs données sont non seulement utiles, mais aussi fiables.

Il s’agit du début d’une initiative d’un an visant à définir à quoi ressemblent réellement des données géospatiales fiables et comment nous, en tant que communauté mondiale, pouvons garantir qu’elles soutiennent les systèmes dont nous dépendons tous.

Pourquoi c'est important maintenant

Les organisations s'appuient aujourd'hui sur un écosystème de données de plus en plus vaste et interconnecté, intégrant souvent des données provenant de fournisseurs externes ou traitées par des modèles d'IA de type boîte noire. Mais cette commodité a un prix : pouvons-nous être certains que les données sont bien ce qu'elles prétendent être ?

Nous avons déjà vu des images satellites fabriquées, des modèles urbains 3D générés par l'IA et des réseaux routiers synthétiques. Il ne s'agit pas seulement de risques théoriques, mais de véritables défis pour la confiance du public, la précision opérationnelle et la responsabilité.

Dans les environnements à enjeux élevés, l'incertitude quant à l'intégrité ou à l'origine des données peut conduire à des analyses erronées, à des avertissements manqués, voire à des défaillances politiques. Il est temps de passer d'une confiance aveugle à une confiance fondée sur des preuves.

Commençons par quelques définitions et un exemple pour définir la perspective de l'OGC dans la construction de ce cadre.

Intégrité Désigne la manière dont les données ont été traitées tout au long de leur cycle de vie, y compris leurs caractéristiques telles que leur contenu, leur exactitude et leur exhaustivité, de la collecte à leur traitement et leur diffusion. L'intégrité peut être compromise par des altérations, des erreurs ou des modifications non documentées, ce qui rend les mesures de protection essentielles pour garantir leur fiabilité.

Provenance Fait référence à l'origine des données, à la manière dont elles ont été modifiées et à l'auteur de ces modifications. La provenance est compromise lorsque les opérations modifiant les données ne sont pas enregistrées, ce qui affecte à la fois leur traçabilité et leur intégrité.

Lorsque l’intégrité et la provenance sont bien documentées, cohérentes et inaltérables, il existe une base pour Confiance Dans les données. La confiance ne signifie pas simplement que l'utilisateur est convaincu que les données répondent à ses attentes, mais aussi que la source, l'évolution et la pertinence des données peuvent être décrites sans ambiguïté afin que d'autres puissent également utiliser les données.

Par exemple, un satellite dont les paramètres de caméra sont connus capture une image. Cette image est transmise directement à une organisation qui l'ajuste à un modèle de terrain grâce à un algorithme bien défini. L'image ajustée est ensuite utilisée pour calculer la taille d'un lac, sachant que la source a une certaine résolution en pixels et que le traitement a inclus une manipulation des données pour conserver cette résolution d'origine. Si chacune de ces transactions – de la collecte au traitement jusqu'à la livraison – est documentée à l'aide de paramètres standardisés et non ambigus, les utilisateurs peuvent être sûrs que les données sont adaptées à leurs besoins et que les analyses peuvent être validées et reproduites.

INSTAURER LA CONFIANCE DANS LES DONNÉES GÉOSPATIALES : PROGRÈS ET PROCHAINES ÉTAPES

L'OGC et d'autres ont fait des progrès significatifs dans le développement Normes, des outils et des cadres qui améliorent l'IPT dans les données géospatiales. Ces efforts constituent une base pour garantir la fiabilité, la traçabilité et la convivialité des données dans tous les secteurs. Certains aspects du cadre IPT sont déjà en place ou le seront bientôt, notamment les suivants.

Intégrité

Les normes de métadonnées définissent les données originales et transformées. Il existe des normes bien établies pour l'enregistrement des métadonnées, mais il est nécessaire d'élaborer des directives sur l'utilisation efficace d'une terminologie commune permettant des comparaisons « identiques ».

Modèle de capteur de l'OGC Le registre garantit des descriptions cohérentes des capacités des capteurs. Ce registre résout une partie du problème, mais des ensembles de définitions similaires pour décrire d'autres sources et méthodes de capture de données doivent être développés ou intégrés.

Provenance

Langage de balisage des données de formation de l'OGC pour l'IA Normalise les ensembles de données d'entraînement et de validation. De nouveaux travaux sont proposés à l'OGC pour développer des métadonnées spécialisées afin de décrire les modèles d'IA utilisés dans le traitement des données géospatiales.

Le registre des mesures de qualité des données de l'OGC et de l'ISO établit des descriptions quantifiables et cohérentes de la qualité des données. Ces mesures de qualité permettent de décrire l'intégrité des données et l'impact du traitement qui détermine la provenance des informations.

Les éléments de base de la provenance sont mis en œuvre par l'OGC sur plusieurs projets de l'Union européenne. Normes API de l'OGC Elles sont constituées de plusieurs blocs fonctionnels implémentables indépendamment, qui peuvent être assemblés pour créer une implémentation. De même, les descripteurs d'opérations impactant l'intégrité et liées à la provenance des données peuvent être modulaires et intégrés à chaque étape du cycle de vie des données.

Que ce passe t-il après

Malgré ces avancées, un modèle de confiance complet, construit à partir de composants IPT interopérables et basés sur des normes, n’a pas encore été achevé.

Au cours de l’année prochaine, l’OGC travaillera avec ses membres et ses partenaires pour :

  • Intégrer les blocs de construction IPT dans les systèmes opérationnels et les flux de travail
  • Assurez-vous que les descripteurs sont lisibles par machine, inviolables et exploitables
  • Regroupez les paramètres IPT avec des ensembles de données pour une transparence de bout en bout
  • Refléter les besoins réels des utilisateurs grâce à une collaboration ouverte et des tests partagés

Faites partie de l'avenir des données fiables

Ce blog lance une plongée plus approfondie dans le cadre de l'intégrité, de la provenance et de la confiance et dans la manière dont nous, en tant que communauté, pouvons construire ensemble quelque chose de significatif et d'évolutif.

Nous publierons des articles techniques, des cas d'utilisation concrets et des opportunités d'engagement tout au long de l'année. Que vous soyez développeur de normes, utilisateur de données, praticien de l'IA ou fonctionnaire, votre expertise est essentielle.

Rejoignez le mouvement :

Rendons la confiance dans les données visible, mesurable et partagée, afin que chacun puisse prendre de meilleures décisions en toute confiance.

Les derniers blogues :