zarr

Dieser Community-Standard definiert eine Open-Source-Spezifikation für die Speicherung mehrdimensionaler Datenarrays (auch bekannt als Datenwürfel, N-dimensionale Arrays, ND-Arrays oder Tensoren). Solche Arrays sind in der wissenschaftlichen Forschung und im Ingenieurwesen weit verbreitet. Im Juni 2022 verabschiedete das OGC den Community-Standard Zarr V2.0. (https://zarr.readthedocs.io/en/stable/spec/v2.html).

Unterlagen

(Für eine vollständige Beschreibung den Mauszeiger über den Typ bewegen)
Dokumenttitel Version OGC-Dokumentnr. Typ
Zarr Storage Specification 2.0 Gemeinschaftsstandard 2.0 21-050r1 CS
Offene Ausschreibungen der OGC
Übersicht

Mehrdimensionale Array-Daten (auch N-dimensionale Arrays, ND-Arrays, „Tensoren“) sind in der wissenschaftlichen Forschung und im Ingenieurwesen allgegenwärtig. Zarr ist eine Open-Source-Spezifikation für die Speicherung von ND-Arrays und zugehörigen Metadaten. Zarr speichert Metadaten in Form von .json-Textdateien und Array-Daten als [optional] komprimierte Binärblöcke. Zarr kann Daten in jedem Speichersystem speichern, das als Schlüssel/Wert-Speicher beschrieben werden kann. In einem Standarddateisystem sind die Schlüssel Dateinamen innerhalb einer Verzeichnishierarchie und die Werte der Dateiinhalt. In einem Cloud-Objektspeicher (z. B. Amazon S3) sind die Schlüssel die Objekt-IDs und die Werte die Objektdaten. Diese Flexibilität ermöglicht es Implementierungen, mit neuartigen Speichertechnologien zu experimentieren und gleichzeitig eine einheitliche API für nachgelagerte Bibliotheken und Benutzer beizubehalten.

Zarr entstand 2016 in der Genomforschung. Es wurde von Alistair Miles aus Oxford als Bibliothek entwickelt, die für massiv parallele Array-Analysen optimiert ist. Seitdem hat es sich zu einem Community-Projekt mit einer Reihe von Entwicklern und Benutzern aus Bereichen wie Genomik, Bioimaging, Astronomie, Physik, quantitativer Finanzwissenschaft, Ozeanographie, Atmosphärenwissenschaften, Klimawissenschaften und Geobildgebung entwickelt. Da es sehr große Array-Datensätze auf einfache, skalierbare Weise darstellen kann und mit Cloud-Objektspeichern kompatibel ist, ist Zarr ein ideales Format für analysebereite Geodaten in der Cloud. Ein prominentes Beispiel ist das Google Cloud CMIP6 Public Dataset. Obwohl Zarr nicht von Natur aus ein geodatenspezifisches Format ist, wurde es aufgrund seines schnellen Wachstums und seiner Akzeptanz in Geodaten und verwandten Bereichen als OGC-Community-Standard vorgeschlagen.

Offene Ausschreibungen und Anfragen

Die Öffentlichkeit kann Entwürfe von Normen prüfen und Feedback geben, um sicherzustellen, dass diese praxisnah und breit anwendbar sind.

Einblicke

Die neuesten wegweisenden Ideen von OGC finden Sie hier.