OAIS (ISO - Open Archival Information System)

Nous avons déjà indiqué à quel point la normalisation par l'ISO de l'OAIS (Open Archival Information System ou Système ouvert d'archivage d'information) en 2002 a lourdement pesé sur les développements des projets de l’asbl Titan. 

Le Modèle de Référence OAIS a été élaboré par le Comité Consultatif pour les Systèmes de données spatiales (CCSDS : Consultative Committee for Space Data Systems) comme une contribution au Comité technique de l'ISO 20, sous-comité 13. C’est un cadre de réflexion pour la compréhension et l'application des concepts nécessaires à la préservation à long terme de l'information numérique (incluant l'évolution technologique).

Ce modèle normalisé par l’ISO constitue une référence universelle décrivant dans les grandes lignes les fonctions, les responsabilités et l’organisation d’un système destiné à préserver de l’information (en particulier des données numériques), sur le long terme, pour en garantir l'accès à des communautés d'utilisateurs identifiés. 

Figure 01 : Le Modèle Fonctionnel d’OAIS

  1. Ingest : processus de conformation des objets destinés à une archive numérique. Le paquet d'informations de soumission (SIP) est l'objet numérique à archiver avec les métadonnées ancillaires. Le paquet d'informations archivistiques (AIP) est généré à partir du SIP en tant qu'étape finale du processus d'ingestion. L'AIP contient toutes les métadonnées descriptives, techniques, des informations sur le projet, les droits d'accès et d'utilisation, les traitements (analyses antivirus, le mode d'extraction, ....). L'ingest transfère les données du producteur (SIP) à l'archiviste / archives (AIP).
  2. Stockage d'archives : suite à l'ingest, l'AIP est stocké, maintenu et rendu récupérable à partir du centre d'archivage. Le stockage d'archivage inclut le stockage permanent, la vérification régulière de l'intégrité du flux de bits et la récupération après sinistre.
  3. Gestion des données: cette fonction prend en charge la recherche et la récupération de contenus archivés à l'aide de métadonnées descriptives.
  4. Administration : fait référence aux opérations quotidiennes et à la maintenance des archives et à la coordination avec les autres fonctions: expédition d’archives, assistance aux utilisateurs, mise en œuvre et maintenance des politiques et processus, ...
  5. Accès : l'interface qui permet aux utilisateurs de récupérer des données de l'archive. Les informations demandées par l'utilisateur sont reçues sous la forme d'un ensemble d'informations de diffusion (DIP), généré à partir de l'AIP stocké dans le centre d'archivage.
  6. Planification de la préservation : les archives doivent avoir une stratégie de conservation numérique continue (mise à jour régulière) et faire l'objet d'une surveillance régulière pour détecter les risques inhérents à ce type d'activité. 
  7. Services communs : services IT dont tout système informatique, tel qu'une archive numérique, a besoin pour fonctionner: matériel, logiciels, données, processus, agents, feedback pour améliorations, etc.

Pour la partie « modelling », la norme ISO reconnait trois types de formats pour la représentation des contenus (SIP – AIP – DIP) et spécifie ce qui doit être représenté : les Informations de Contenu, de Pérennisation (la provenance, le contexte, l’identification et l’intégrité du contenu publié), d’Empaquetage et de Description de Contenu. Par contre, il n’y a pas de formulation de proposition pour des formats.

 

Figure 02 : les formats du modèle OAIS : SIP – AIP et DIP 

  1. SIP : « Submission Information Packages »: les formats de présentation candidat à l’archivage. Il s’agit de formats les plus complets possibles que les applications sont capables de générer et où les objets sont définis de manière autonome. Ces SIP sont fournis par un ‘producteur’à l’importation dans un sytème.
  2. AIP : « Archival Information Package » : les formats de gestion de l’archivage : Les SIP sont traités dans des modules d’ingestion, de validation et de structuration en vue de permettre la capacité de gérer la persistance au sein d’un système. C'est-à-dire que les AIP ont une vocation de gestion des évolutions des contenus archivés et doivent être suffisamment généraux pour être capable de générer des formats ciblés à la demande pour l’exportation.
  3. DIP «Dissemination Information Packages »: les formats d’export ciblés : Ces représentations sont dites « exogènes ». Il s’agit de formats ciblés sur une communauté particulière ‘designated community’, ayant un objectif global défini. L’EBUCore en est l’exemple pertinent incontestable. Il est ciblé sur les besoins des diffuseurs visant à s’échanger des contenus exploitables en y incluant leur environnement. 
  4. P-DIP « Persistent Dissemination Information Package » : un cas particulier notable, où la ‘designated community’ est un autre système d’archive. 

La figure suivante décrit la manière dont l’empaquetage des données/ informations doit se faire : 

Figure 03 : Empaquetage : concepts et relations

Les données « Content Information » et « Preservation Description Information » sont intégrées dans conteneur disposant d’une description propre (Packaging Information & et d’un Identifiant). Ce conteneur est décrit par une entité « Descriptive Information Package ». 

Les données « Descriptive Information Package » sont transmises à l’Entité « gestion des données » pour des fonctions de recherche, de commande et récupération des données contenues dans le système d’archivage. Elle constitue le référentiel d’une base de données.

OAIS est un Modèle d'Informations qui traite simultanément des objets numériques ou non numériques. Le modèle doit en effet être à même de traiter d’objets physiques existants, de représentation (physical objects) du monde réel, mais également les représentations numériques qui les décrivent (digital objects). Cette pratique permet de faire des déclarations séparées sur un objet, sur un document qui le décrit et les liens qui existent entre les objets et les représentations et leurs significations (le signifié). 

Dans le modèle OAIS, l’essentiel porte sur la création d’un Objet d’Information (Information Object). Le schéma ci-dessus (une vision propre à l’asbl Titan) identifie clairement les données objets (les bits et les bytes) matérialisées par un outil de représentation (application spécifique) et interprétées au niveau signification par une base de connaissance (Knowledge Base).

Dans le cadre d’une préservation long terme (« deep preservation ») il faut à la fois préserver les données (sur des supports adéquats) , les applications qui ont générés ces données et enfin créer une base de connaissance pour générer les liens entre les données et leur(s) signification(s). La préservation des données et des applications n‘est nullement l’objet de ce projet ... tout l’effort porte en effet sur la capacité de relier le monde en évidence avec leurs objets, leurs représentations informatiques et leur(s) significations. La création d’une base de connaissance est nodale !

Figure 04 : OAIS : la vision Titan

Une nouvelle version de l’OAIS a été publiée par l’ISO en août 2012. Cette révision apporte plusieurs modifications :

  • La prise en compte de la gestion des risques
  • La gestion des informations de droits d’accès et d’usage des documents archivés
  • la définition d’un plan de réversibilité (restitution des données archivées) et la capacité pour le système d’assurer la destruction de données sous certaines conditions ;
  • enfin, le concept d’« information property » (ou une information sémantique) qui fournit la signification (signifié) à associer aux données (signifiant)

Le flux des données entre les entités fonctionnelles de l’OAIS est illustré par cette figure :

Figure 05: Les Flux de Données dans OAIS

Elle décrit les flux de données les plus importants. Les flux de données d'administration, qui sont généralement des activités en arrière-plan, ne sont pas représentés. Les flux de données associés aux services communs sont implicites dans les fonctions illustrées et ne sont donc pas affichées.

Figure 06 : l’« Information Object » d’OAIS

“Information Object” est le concept de base du modèle de référence OAIS qui combine données et informations de représentation. L'objet d'information est composé d'un objet de données physiques ou numériques et des informations de représentation qui permettent une interprétation complète des données en informations significatives (sémantique). Ce modèle est valable pour tous les types d'informations d'un Objet d’Information.

L'Objet Numérique est composé d'une ou de plusieurs séquences de bits. L’Objet de Représentation de l’Information est destiné à convertir les séquences de bits en informations plus significatives. Pour ce faire, il décrit le format ou les concepts de structure de données, qui doivent être appliqués aux séquences de bits et qui, à leur tour, génèrent des valeurs plus significatives telles que des caractères, des nombres, des pixels, des tableaux, des tables, etc. , les agrégations de ces types de données et les règles qui mappent des types de données sous-jacents vers les concepts de niveau supérieur nécessaires à la compréhension de l'objet numérique sont appelées informations de structure de l'objet d'information de représentation. Ces structures sont communément identifiées par leur nom ou par leur position relative dans les séquences de bits associées. Ce type d’information supplémentaire requise est appelé information sémantique. Cela inclura des significations spéciales associées à tous les éléments de l’information structurelle, des opérations pouvant être effectuées sur chaque type de données et leurs corrélations.

Figure 07 : La Représentation de l’« Information » d’OAISFigure 09 : l’« Information Object » d’OAIS

La figure 07 souligne le fait que les informations de représentation contiennent à la fois des informations de structure et des informations sémantiques, bien que dans certaines mises en œuvre, la distinction soit subjective. Il est utile de se rappeler que les informations sémantiques associées à des parties de certaines informations codées numériquement sont indépendantes du format. Par exemple, la signification des nombres dans un fichier de données est indépendante du fait qu'ils soient codés sous forme d'entiers mis à l'échelle ou de réels IEEE; la signification des mots dans un document est indépendante du fait que le document soit au format Word ou PDF. 

Cette figure montre également que les informations de représentation peuvent contenir d'autres informations de représentation. Cela indique que la taxonomie des informations de représentation présentée ici est loin d'être complète. Par exemple, un logiciel, des algorithmes, un cryptage, des instructions écrites et bien d’autres choses peuvent être nécessaires pour comprendre l’objet de données de contenu; il s’agirait donc, par définition, d’informations de représentation, mais il ne serait évidemment ni structure ni sémantique. Les informations définissant les relations entre la structure et les informations sémantiques, ou les logiciels nécessaires au traitement d'un fichier de base de données, seraient considérés comme des informations de représentation.

Les informations de structure, les informations sémantiques et les autres informations de représentation sont à la fois des sous-types et des composants d'informations de représentation. Les informations de représentation sont des objets d’information qui peuvent avoir leur propre objet de données et leurs propres informations de représentation, associées à la compréhension de chaque objet de données, présentées sous une forme compacte par l’association «interprété en utilisant». L'ensemble d'objets résultant peut être appelé Réseau de Représentation.

À titre d'exemple, l'ISO 9660 décrit le texte comme conforme à la norme ASCII, mais ne décrit pas réellement la manière dont l'ASCII doit être implémenté. Il fait simplement référence à la norme ASCII, qui est une information de représentation supplémentaire nécessaire à une compréhension complète. Par conséquent, la norme ASCII fait partie du réseau de représentation associé à la norme ISO 9660 et doit être obtenue par l’OAIS sous une forme ou une autre, ou celle-ci doit suivre la disponibilité de cette norme afin qu’elle puisse prendre les mesures appropriées à l’avenir pour assurer que ses informations de représentation ISO 9660 soient parfaitement compréhensibles.

Figure 08 : L’« Archival Information Package » d’OAIS

Commentaires :

Pour le projet AXIS-CSRM, il était fondamental de pouvoir disposer d’un schéma de référence normalisé montrant comment des représentations et des processus sont imbriqués en vue de construire un modèle fonctionnel qui prenne en compte la création, la fabrication et la publication d’un contenu. Dans les faits, cette norme souffre de l’absence de la distinction claire entre les concepts de donnée (la représentation) et d’information (la signification). De plus il faut pouvoir inscrire cette vision d’un centre d’archives unique dans l’univers des réseaux et de l’Open Data. A la fois pour les utilisateurs (des données auxquelles tout le monde devrait pouvoir accéder et que tout le monde devrait pouvoir utiliser et partager) et des échanges entre des systèmes hétérogènes. Il fallait donc concevoir une architecture ouverte qui importe/exporte des contenus entre de multiples systèmes d’information (ou des systèmes d’archivage) et qui soit à même de gérer la transmission du signifiant (la représentation plate) et du signifié.

  • ISO 16363 Audit et certification de référentiels numériques fiables – cette norme établit des métriques pour déterminer ce que les archives basées sur OAIS doivent pouvoir exécuter
  • ISO 16919 Draft (2014): Exigences pour les Organismes procédant à l'audit et à la certification de candidats à des référentiels numériques dignes de confiance – spécification des compétences et des exigences relatives aux organismes d'audit

 

Auteur(s):