La integración de datos suele ser el punto más lento de los proyectos geoespaciales. Es un paso fundamental en la creación de una Infraestructura de Datos Espaciales (IDE) y, a menudo, consume una gran cantidad de tiempo. Esto se debe, en gran medida, a la falta crónica de cumplimiento de los principios FAIR (Localizables, Accesibles, Interoperables y Reutilizables) en muchas fuentes de datos.
Uno de los desafíos más comunes que he encontrado es la falta de conocimiento sobre los datos que se integrarán. Esto dificulta enormemente la planificación de los plazos para el desarrollo de una infraestructura de datos espaciales (IDE). Por «conocimiento» me refiero a saber con exactitud qué conjuntos de datos se integrarán, junto con sus metadatos técnicos, como el formato, el tamaño y la frecuencia de actualización.
En un escenario ideal, esta información se proporcionaría en un registro de metadatos, preferiblemente en un formato estandarizado. Sin embargo, en muchos casos, los datos no incluyen metadatos, lo que me lleva al segundo desafío: la creación de metadatos basados en estándares. Al igual que con la creación de un inventario de datos, esto suele ser menos un problema técnico y más humano, ya que requiere la colaboración de los propietarios de los datos.
Otro desafío importante que he encontrado es el formato de los datos en sí, que en muchos casos no está estandarizado ni estructurado. Uno de los ejemplos más comunes que he visto son los archivos CSV (valores separados por comas), que son archivos de texto que pueden contener cualquier cosa dentro de campos delimitados por comas. Por ejemplo, las coordenadas pueden expresarse en diferentes formatos dentro de la misma columna. Estos desafíos de integración surgen de la falta de un mecanismo para imponer un esquema. A pesar de estas limitaciones, los archivos CSV y Excel siguen estando entre los formatos más utilizados para el intercambio de datos.
La imagen de arriba muestra la situación ideal: se proporciona un conjunto de datos en un formato basado en estándares, junto con un registro de metadatos adjunto. Esto permite que los datos se ingieren más fácilmente en una SDI y se publiquen a través de varios formatos de API de OGC, como azulejos, Características o archivos.
En esta publicación, he destacado algunos de los desafíos más comunes. En las próximas publicaciones, exploraré cada uno de estos desafíos con mayor detalle y compartiré algunas estrategias prácticas que he desarrollado para abordarlos.
Mi principal conclusión es que, si bien las herramientas de software pueden ayudarnos con estas tareas, la educación sigue siendo la forma más eficaz de prevenir estos problemas desde un principio.