Commentaires Résumé
2014/2 Le catalogage des médias audiovisuels

Blog, métadonnées liées aux images numérisées et archivistique

Commentaires Résumé

Traditionnellement, la description archivistique d’un document s’effectue dans une base de données rassemblant les inventaires, catalogues, répertoires, listes et autres éléments de descriptions selon les principes de la norme ISAD-G. Les images numérisées d’un document sont généralement liées à cette description archivistique. Mais quen est-il des métadonnées internes aux images numérisées? Le présent article présente le résultat de réflexions sur ces métadonnées bien spécifiques.

Le choix de publier des réflexions sur un blog 

Le texte de cet article sur les métadon­nées liées aux images numérisées se base en partie sur trois billets de blog consacrés à cette question. Petit rappel des faits: en 2006, les Archives d’Etat de Genève débutent des campagnes de numérisation pour diffuser sur Adhé­mar, leur base de données en ligne, les séries les plus consultées. Au fil des ans, des nouveaux besoins se font sentir, l’expérience s’accumule et les proces­sus de numérisation et de mise en ligne s’adaptent. En 2013, il nous a semblé important de nous intéresser aux méta­données directement présentes à l’inté­rieur des images scannées et mises à disposition du public sur le Web. Après une enquête préliminaire, nous avons constaté qu’il n’existait dans les institu­tions suisses d’archives aucun standard en vigueur. Nous avons donc mené nos propres recherches et réflexions, puis effectué nos choix.

Souhaitant partager le contenu de nos réflexions au sein de notre communau­té professionnelle, nous avons choisi la publication sur le blog «le présent d’hier et de demain», blog personnel profes­sionnel de l’un des auteurs. La publica­tion de billets sur un blog nous semble une manière légère et rapide de com­muniquer et de mettre en valeur le fruit de ces recherches. Cet outil simple per­met de publier un état de réflexion sur un sujet donné qui n’a pas forcément sa place sur un site institutionnel et de susciter des commentaires en retour.

Le blog «le présent d’hier et de demain» a été créé en mai 2012 pour exposer des remises en question sur la pertinence de la théorie des trois âges pour les ar­chives numériques. Des comptes ren­dus de conférences et de colloques, des réflexions et des retours d’expérience y sont régulièrement publiés. Un blog professionnel permet également de permettre à d’autres auteurs de s’expri­mer et de publier le résultat de projets réalisés en commun. C’est ainsi que nous avons rédigé à trois archivistes les billets sur les métadonnées et ce de manière interinstitutionnelle. En deux ans, ce blog, qui contient actuellement 26 billets, a reçu 10 000 visites. Le bil­let le plus consulté est celui sur «les métadonnées liées aux images numéri­sées (partie 1)»: on peut en conclure que cette recherche répondait à un besoin réel (3807 consultations).

La question des métadonnées liées aux images numérisées 

La problématique abordée ici concerne la numérisation de documents ou re­gistres patrimoniaux à des fins de dif­fusion. Les deux objectifs principaux qui motivent l’intégration de métadon­nées internes aux images sont l’identi­fication de la provenance des docu­ments et l’information sur les condi­tions d’utilisation des images (comme nous l’indiquons ci­-dessus, les méta­données de description archivistique sont conservées dans le système d’in­formation archivistique).

L’identification ne pose pas de pro­blèmes lorsqu’un document numérisé est examiné dans son contexte, en géné­ral sur un site web institutionnel. Lorsqu’un registre d’état civil est par exemple consulté sur le site d’une col­lectivité publique, l’interface de consul­tation servant d’outil de recherche four­nit les informations nécessaires à l’identification du registre original ainsi que les éléments de contexte né­cessaires à sa compréhension (prove­nance, date, etc.).

Mais que se passe-­t-­il lorsqu’un docu­ment – ou une partie de celui­-ci – est extrait de son contexte, puis republié? C’est un axiome du monde numérique: tout document qui peut être lu peut être copié et reproduit. En général, plus un document suscite de l’intérêt, plus il est reproduit et partagé. Et plus les copies sont nombreuses, plus la probabilité est forte que les informations qui accom­pagnaient le document lors de la publi­cation initiale soient perdues. C’est ici que les métadonnées intégrées jouent un rôle: lorsqu’une personne copie une image comprenant des métadonnées internes, elle reproduit également, même sans le savoir, des informations sur cette image.

Les métadonnées intégrées permettent donc de signaler l’institution qui a nu­mérisé une image ainsi que d’identifier cette image sans ambiguïté (grâce à une cote ou un identifiant unique). Sans informations d’accompagnement ni métadonnées intégrées, il peut être extrêmement difficile de retrouver le fonds ou le dossier d’origine d’une image isolée.

Jeux de métadonnées, encodage et formats d’images 

Une bonne compréhension de cette question nécessite de saisir l’imbrication de trois éléments différents (figure 1):

– Les différents jeux de métadonnées internes existants

– Les différentes manières de les enco­der au sein des images

– Les différents formats d’images et encodages supportés

1. Les différents standards de métadonnées

Les principaux standards en matière de métadonnées intégrées aux images sont les suivants: 

  • IPTC: L’International Press Telecom­ munications Council (IPTC) déve­loppe au début des années 1990 l’Information Interchange Model (IIM). Il s’agit d’un jeu de métadonnées applicable à tout type de fichiers (texte, images, multimédia). Il sera essentiellement appliqué dans le domaine de l’image où les métadon­nées prévues comportent par exemple: le créateur, le titre, la date, des informations géographiques (pays, région, ville) ou des éléments de description (mots­-clés, légende). Au milieu des années 1990, les logi­ciels tels que Photoshop ont permis d’intégrer ces éléments directement dans les fichiers images. Cette façon de faire a dès lors connu un large succès.
  • EXIF: l’Exif (Exchangeable image file format) est une spécification de for­mats de fichiers pour les images et sons. La majorité des métadonnées Exif sont techniques, il s’agit d’élé­ments tels que la taille de l’image, la résolution, la compression ainsi que des données concernant la prise de vue: la date, le temps de pose, la dis­tance focale, l’utilisation d’un flash, ou encore la position GPS de l’appa­reil. Le grand avantage des métadon­nées Exif est l’automatisation: la plu­part des appareils photographiques numériques créent des métadonnées Exif dans les images sans aucune intervention de l’utilisateur. De plus, elles sont largement reconnues et peuvent être lues par un grand nombre de logiciels de traitement d’images qui conservent générale­ ment les métadonnées Exif lors des modifications successives des fichiers.
  • Dublin Core: Dublin Core est un schéma de métadonnées génériques bien connu créé en 1995 pour per­ mettre la description de ressources électroniques. En général utilisé comme métadonnées externes, il peut aussi être utilisé pour ajouter des métadonnées internes aux images.

2. Les différentes manières d’encoder les métadonnées 

Les encodages sont les différents moyens techniques qui permettent d’intégrer concrètement les éléments de métadonnées au sein des fichiers images. Certains encodages sont pré­vus pour un seul jeu de métadonnées, d’autres peuvent en intégrer plusieurs, ou permettre la création de métadon­ nées adaptées sur mesures. 

  • TIFF-­tags: Largement utilisés du fait de la diffusion du format TIFF, les TIFF­-tags ont été définis en 1992 avec la version 6.0 du format TIFF. Le standard comprend 36 métadon­nées ou tags «baseline», 60 tags «extension», 74 tags «private» et 58 tags «EXIF». D’autres ensembles de tags ont été développés pour le for­mat DNG, les métadonnées géoréfé­rencées, l’usage médical, etc. Ce sys­tème a eu un succès certain, mais outre le fait que seul un nombre li­mité de tags sont communément affichés par les visionneuses, la pro­lifération des tags privés a fini par rendre l’extraction des métadonnées de plus en plus complexe. 
  • XMP: En 2001, Adobe introduit «l’Extensible Metadata Platform» (XMP), un standard basé sur XML et RDF, qui permet d’intégrer des mé­tadonnées dans plusieurs formats de fichiers (TIFF, JPEG, JPEG 2000, PDF, PNG, HTML, PSD, etc.). XMP a été conçu pour être extensible et peut donc accueillir n’importe quel type de métadonnées du moment que celles­ci sont exprimées en XML. Dès l’origine, XMP incorpore un cer­tain nombre de standards de méta­données, tels que Dublin Core, EXIF, VRACore (description d’objets et d’œuvres d’art) ou IPTC-­Core suc­cesser d’IPTC-­IIM décrit ci­dessus (figure 2).

XMP est de plus en plus répandu, les systèmes d’exploitation récents (dès Windows 7) sont notamment capables d’afficher les métadonnées XMP et de les exploiter lors de recherches de fi­chiers.

3. Les différents formats d’images

Chaque format d’image possède ses spécificités propres et accepte plus ou moins bien certains modes d’enco­dages. Les formats TIFF et jpeg ac­ceptent ainsi aussi bien l’encodage TIFF-­tags que le XMP, alors que jpg2000 n’accepte par exemple que l’encodage XMP.

4. Le choix des Archives d’Etat de Genève (AEG) 

La réflexion des AEG a été menée selon un objectif de diffusion des images. Disposant de leur propre atelier de nu­mérisation, il était impératif de ne pas complexifier les processus en cours, ni d’augmenter la charge de travail des opérateurs de scanner tout en réduisant au minimum les interventions à effec­tuer sur le matériel utilisé. Dans ces conditions, le choix de départ s’est por­té sur les deux catégories de métadon­nées liées aux images numérisées pro­duites par nos équipements: les méta­données Exif et IPTC. Le choix du XMP a été abandonné en attendant un rem­placement du matériel.

Pour les métadonnées IPTC, les noms du pays, du canton et de l’institution met­ tant à disposition les images et conser­vant les originaux ont été considérés comme indispensables pour leur identi­fication. En revanche, ces images étant prévues pour être mises à disposition sur une durée la plus longue possible, les métadonnées susceptibles de change­ments, comme une adresse web ou l’email de l’institution, n’ont pas été retenues. Une recherche sur le nom d’une institution permet de retrouver facile­ment ces informations susceptibles de changer régulièrement (figure 3).

On constatera également qu’aucune cote ou identifiant unique ne figure par­mi ces champs, cette information appa­raissant uniquement dans le nom du fichier. Ce n’est peut-­être pas une solu­tion idéale, mais intégrer la cote dans les métadonnées IPTC aurait nécessité un post-­traitement que nous souhai­tions éviter dans le cadre de ce projet.

Les métadonnées EXIF, essentielle­ment techniques, relèvent en définitive plus de la conservation à long terme que de la diffusion. Toutefois, tous les appa­reils d’imagerie numérique produisant ces métadonnées, il aurait été dom­mage de ne pas les utiliser. Mais quelles métadonnées EXIF sélectionner parmi le vaste panel proposé par ce modèle? Quelques contacts menés auprès de diverses institutions ont démontré des pratiques assez aléatoires. Générale­ment, on se contente des réglages ins­tallés par défaut sur la machine. La question est d’autant plus difficile que l’on entre dans un domaine technique qui devient vite pointu et avec lequel les photographes ont souvent plus d’affini­tés que les archivistes. Après avoir éla­boré un modèle dont la pertinence doit encore être évaluée, la question de la sélection des métadonnées techniques reste toujours ouverte.1

5. Le choix des Archives de la Ville de Genève 

Le choix des métadonnées retenues aux Archives de la Ville a été guidé par les trois critères suivants:

  • Choisir un standard bien reconnu afin que les métadonnées puissent être lues aisément

  • Renseigner un nombre réduit de métadonnées afin de limiter les opé­rations manuelles potentiellement coûteuses

  • Choisir une solution qui permette l’intégration des mêmes éléments de métadonnées dans les différentes versions JPG, TIFF et PDF d’une même image

    Dans ce cadre, notre choix s’est porté sur des métadonnées Dublin Core, inté­grées aux fichiers images à l’aide de la norme XMP. Nous n’avons pas retenu l’ensemble des éléments Dublin Core, mais uniquement un nombre limité de métadonnées renseignant les informa­tions qui nous paraissaient essentielles. Ces éléments Dublin Core nous sem­blaient bien répondre aux objectifs de base: identifier les images et donner le statut juridique (figure 4). Quant à la norme XMP, bien que moins répandue qu’EXIF, elle est maintenant reconnue par un grand nombre de systèmes d'exploitation et de logiciels de visuali­sation d’images. De plus, elle rend pos­sible l’intégration des métadonnées dans de nombreux formats de fichiers (notamment JPG et PDF).

Conclusion

Au niveau Suisse, en matière de numé­risation patrimoniale, l’utilisation de métadonnées intégrées semble peu ré­pandue. Nous l’avons notamment constaté lorsque nous avons sollicité des prestataires pour ajouter des méta­données lors des numérisations: ils ont dû développer des solutions ad hoc ou tenter de configurer leurs machines sur mesure afin de répondre à nos de­mandes. Ces demandes – notamment au niveau des métadonnées techni­ques – n’ont pas toujours pu être com­plètement satisfaites.

Pour quelle utilité? Contrairement à un avertissement qui serait affiché sur un site web lors de la consultation, la pré­sence de métadonnées intégrées aux images n’est pas forcément évidente pour un utilisateur. Celles-­ci ne seront visibles que si le consultant prend la peine d’examiner les propriétés d’une image. On peut dès lors se poser la question de la rentabilité. Il est bien entendu nécessaire de mettre en ba­lance le temps investi par rapport au bénéfice attendu.

Plutôt que de tenter de garder le contrôle du matériel diffusé – une chimère lorsque l’on parle de diffusion numé­rique – l’intégration des métadonnées correspond à une volonté d’informer sur la provenance d’une image et sur son statut juridique. Ces données permettent ainsi à un utilisateur confronté à une image de revenir à sa source ou de s’assu­rer des conditions d’utilisation.

Les choix effectués ici ne sont pas défi­nitifs et le débat reste ouvert, de même que la question de la mise à jour des métadonnées que nous n’avons pas abordée ici. Serait-­il nécessaire d’éta­blir des recommandations au niveau Suisse, dans le but d’harmoniser les pratiques des différentes institutions?

Avatar

Emmanuel Ducry

Emmanuel Ducry est historien de formation. Précédemment collaborateur aux Archives de la Ville de Genève ainsi qu’au département des manuscrits de la Bibliothèque de Genève, il travaille depuis 2011 aux Archives d’Etat de Genève (AEG) où il s’occupe notamment d’archivage électronique.

Avatar

Anouk Dunant

Archives d'Etat de Genève

Avatar

Xavier Ciana

Archives de la ville de Genève

Résumé

Diese Akronyme beziehen sich auf Metadatensätze und Enkodiersysteme für Informationen, die direkt in Bilddateien abgelegt sind. Auf gesamtschweizerischer Ebene existieren allerdings keine Überlegungen oder eine einheitliche Politik in Bezug auf diesen Bereich. Die Wahl der internen Metadaten, die zu Bilddateien geliefert werden, wird in den allermeisten Fällen den Anbietern der Erfassungsgeräte überlassen. Im Rahmen der Weiterverbreitung der Bilder aus ihren digitalisierten Beständen im Internet haben sich das Staatsarchiv Genf (AEG) und das Archiv der Stadt Genf (AVG) beide gesondert mit der Problematik auseinandergesetzt. Die Überlegungen betrafen die spezifischen internen Metadaten zu den Bildern und nicht die Katalogisierungsmetadaten.

Welche Informationen können derartige Metadaten dem Publikum in Bezug auf die Nutzungsbedingungen, die Identifizierung oder die Herkunft der Bilder bieten? Der Artikel liefert eine Einführung zu den theoretischen Grundlagen, die es erlaubt, die Fragestellungen zu begreifen. Es folgt eine Übersicht über die Wahl, die das AEG und das AVG im Hinblick auf ihre jeweiligen Zielsetzungen und unter Berücksichtigung ihres institutionellen Umfelds getroffen haben. Der Text des Artikels stützt sich teilweise auf drei Einträge im Blog «Le présent d’hier et de demain»*, der sich dieser Thematik widmet. Der Artikel wird eröffnet mit eine paar Gedanken zu den Möglichkeiten, die das Publizieren von Artikeln in einem professionellen Blog bietet.

* http://present-hieretdemain.tumblr.com [abgerufen am 5. Mai 2014] (Überstezung: R. Hubler)