
zar
Este comunidad El estándar define una especificación de código abierto para el almacenamiento de matrices de datos multidimensionales (también conocidas como cubos de datos, matrices N-dimensionales, matrices ND o tensores). Estas matrices son omnipresentes en la investigación científica y la ingeniería. En junio de 2022, la OGC aprobó un estándar comunitario de Zarr V2.0 (https://zarr.readthedocs.io/en/stable/spec/v2.html).
Documentos
Titulo del documento | Versión | Documento OGC N.º | Tipo |
---|---|---|---|
Zarr Storage Specification Norma comunitaria 2.0 | 2.0 | 21-050r1 | CS |
Archivos de modelos oficiales y esquemas de codificación
Enlaces relacionados
Titulo del documento | Versión | Documento OGC N.º | Tipo |
---|
Descripción General
Los datos de matrices multidimensionales (también conocidos como matrices N-dimensionales, matrices ND, “tensores”) son omnipresentes en la investigación científica y la ingeniería. Zarr es una especificación de código abierto para el almacenamiento de matrices ND y metadatos asociados. Zarr almacena metadatos utilizando archivos de texto .json y datos de matrices como fragmentos binarios comprimidos [opcionalmente]. Zarr puede almacenar datos en cualquier sistema de almacenamiento que pueda describirse como un almacén de clave/valor. En un sistema de archivos estándar, las claves son los nombres de archivo dentro de una jerarquía de directorios y los valores son el contenido del archivo. En un almacén de objetos en la nube (por ejemplo, Amazon S3), las claves son los identificadores de los objetos y los valores son los datos de los objetos. Esta flexibilidad permite que las implementaciones experimenten con nuevas tecnologías de almacenamiento mientras mantienen una API uniforme para las bibliotecas y los usuarios posteriores.
Zarr surgió en el ámbito de la investigación genómica en 2016. Fue creado por Alistair Miles de Oxford como una biblioteca optimizada para el análisis de matrices masivamente paralelas. Desde entonces, se ha convertido en un proyecto comunitario con una variedad de desarrolladores y usuarios de campos como la genómica, la bioimagen, la astronomía, la física, las finanzas cuantitativas, la oceanografía, la ciencia atmosférica, la ciencia climática y la obtención de imágenes geoespaciales. Debido a que puede representar conjuntos de datos de matrices muy grandes de una manera simple y escalable, y es compatible con el almacenamiento de objetos en la nube, Zarr es un formato ideal para datos geoespaciales listos para el análisis en la nube. Un ejemplo destacado es el conjunto de datos públicos CMIP6 de Google Cloud. Si bien Zarr no es inherentemente un formato específico para la geoespacialidad, debido a su rápido crecimiento y adopción en los campos geoespaciales y relacionados, se propuso como un estándar de la comunidad OGC.