Vademecum Biblissima : intégration de données dans le cluster

Vous êtes un partenaire de Biblissima et vos données vont intégrer le cluster Biblissima : ce Vademecum s’adresse à vous.

Ce document a pour objectif de présenter le workflow et les différentes étapes de réception, traitement et intégration de vos données dans le cluster de données de Biblissima.

Le cluster de données Biblissima prend la forme d’un point d’accès général aux données des partenaires de l’Equipex. Ce point d’accès, disponible sur le portail Biblissima fin 2016, propose une recherche fédérée sur les contenus fournis par les équipes partenaires (voir aussi le prototype “Initiale-Mandragore”). Il inclut également des liens pointant vers les ressources d’origine en ligne permettant aux utilisateurs d’y effectuer des recherches plus spécialisées. Des liens directs vers les notices des bases sont évidemment mis en place s’ils sont fournis par les partenaires.

Les données importées dans l'application CubicWeb alimentent les pages Web du portail et sont diffusées en RDF selon le workflow suivant :

Workflow données Biblissima
Schéma : workflow de données Biblissima

Pour faciliter le processus et la qualité de l'alimentation de la base PostGreSQL de l'application Web sémantique Biblissima, nous avons choisi de définir un format pivot XML.

A noter : Le pivot XML Biblissima est évolutif, les partenaires peuvent y contribuer. Il est mis à disposition sur le dépôt Github officiel du projet : https://github.com/biblissima/bibma-metadata

La première version du template, de la DTD et du fichier d'explication, envoyés aux partenaires en juillet 2015, sont téléchargeables ci-dessous dans l'Annexe 2.

A. Fournir vos données

Schéma : workflow de données Biblissima - Fourniture des données

Plusieurs points d’entrée dans le cluster sont proposés aux utilisateurs du portail Biblissima : cotes, personne physique ou collectivité, dates et lieux d’origine ou de provenance des manuscrits/imprimés, ainsi que les textes dont ils sont les supports.

Les données que vous avez produites et fournies sont intégrées dans le cluster Biblissima selon différents niveaux décrits ci­-dessous. Le niveau d’intégration dans le cluster Biblissima, et donc d’interopérabilité des données, est tributaire du type et de la qualité des données que vous aurez fournies. Pour chaque niveau, nous avons indiqué les types de données à fournir si renseignées​ dans la ressource.

Pour la transformation des données en triplets RDF (langage de base du Web sémantique), il est impératif de transmettre au Pool Biblissima les identifiants internes des bases, qui sont utilisés pour la création d’URIs. Les partenaires disposant déjà d'URIs pour leurs ressources peuvent évidemment les fournir directement.

Les trois niveaux ne s’appliquent pas complètement aux données concernant les catalogues de vente et les inventaires anciens. Des solutions particulières à ce type de données sont élaborées avec les équipes concernées.

A.1 Niveau 1

Mise à disposition d’un export XML selon le format pivot spécifié par Biblissima (voir annexe). Le niveau 1 d’intégration dans le cluster s’appuie sur les données suivantes, qui sont au coeur de Biblissima :

  • Type(s) de document (manuscrit / imprimé)
  • Cote structurée selon les spécifications de l’Annexe 1 -Structure des ​cotes​.
  • Titre(s)
    • nom d’usage du manuscrit, chaîne de caractère
    • auteur(s), oeuvre(s) des manuscrits/imprimés
    • identifiant interne du titre
    • URI du titre dans un référentiel extérieur
  • Lieu(x) d’origine du manuscrit / imprimé
    • chaîne de caractères
    • identifiant interne
    • URI du lieu dans un référentiel extérieur
  • Date(s) d’origine du manuscrit / imprimé
    • format xsd:yyyy ou xsd:yyyy­mm ou xsd:yyyy­mm­dd
    • chaîne de caractères
    • précision concernant la date
  • Personne(s) et collectivité(s) reliées au manuscrit/imprimé
    • nom, chaîne de caractères
    • identifiant interne
    • URI de la personne ou de la collectivité dans un référentiel extérieur
  • Rôle(s) de l’intervenant (auteur, éditeur, traducteur, ancien possesseur, lecteur etc.)
    • chaîne de caractères
    • définition du rôle
    • identifiant interne du rôle
    • URI du rôle dans un référentiel extérieur
    • identifiant interne du composant concerné
  • URL pérenne de la base d’origine
  • URL pérenne de la notice
  • URLs pérennes vers des documents numériques de substitution

Parmi ces données, la cote et trois autres types d’information au minimum sont requis pour intégrer le portail Biblissima (par exemple cote, titre, auteur, date), si ces informations sont renseignées dans la ressource.

Format accepté :

Voir le fichier ​XML_Pivot_Biblissima_Niveau1.xml​ en Annexe 2 - Pivot XML Portail Biblissima.

A.2 Niveau 2

Mise à disposition (au format XML pivot Biblissima (voir annexe), en EAD ou en TEI pour les projets utilisant nativement de l’XML ainsi qu’un mapping) les données du niveau 1 ainsi que des données ​à définir parmi les données suivantes​ :

  • Extent
    • unit (f. ou p.)
    • nombre des feuillets ou pages
  • Format
    • unit (mm)
    • hauteur x largeur
  • Anciennes cotes
    • chaîne de caractères
    • identifiant interne
  • Langue
    • chaîne de caractères
    • identifiant interne
    • URI de la langue dans un référentiel extérieur ou code langue ISO
  • Composant (unité textuelle ou unité codicologique)
    • titre
    • folios extrêmes
    • identifiant interne
    • URI de l’oeuvre dans un référentiel extérieur
  • Regroupement des cotes
    • enluminure
    • folio
    • descripteur
    • identifiant interne enluminure
    • identifiant interne descripteur
    • légende
    • URL de la reproduction de l’enluminure
  • Marque de provenance
    • folio
    • ancien possesseur
    • identifiant interne marque de provenance
    • identifiant interne ancien possesseur
    • URL de la reproduction du folio
  • Reliure
    • date de production
    • lieu de production
    • matériau
    • technique
    • identifiants internes
    • URI du matériau dans un référentiel extérieur
    • URI du terme dans un référentiel extérieur
  • Dates d’entrée d’un livre dans une collection
    • format xsd:yyyy ou xsd:yyyy­mm ou xsd:yyyy­mm­dd
    • chaîne de caractères
    • précision concernant la date
  • Dates de vente d’un livre
    • format xsd:yyyy ou xsd:yyyy­mm ou xsd:yyyy­mm­dd
    • chaîne de caractères
    • précision concernant la date
  • Termes codicologiques et bibliothéconomiques
    • chaîne de caractères
    • identifiant interne
    • contexte (écriture, support, reliure, folio(s) concerné(s), format, nombre de folios)
  • URI du terme dans un référentiel extérieur si disponible
  • URLs pérennes des notices de manuscrit / d’imprimé dans la base d’origine
  • URLs pérennes des notices de personne / collectivité dans la base d’origine
  • URLs pérennes des notices de lieu dans la base d’origine
  • Références bibliographiques
    • chaîne de caractères
    • identifiant interne
    • URI vers référentiel extérieur

Vous pouvez également proposer au Pool d’autres types de données complémentaires en fonction des spécificités de chaque base.

Formats acceptés :

A.3 Niveau 3

Vous mettez à disposition ­au format XML pivot Biblissima, TEI-­P5 ou EAD ­les données que vous avez définies au niveau 2, via un processus automatisé (webservice, entrepôt OAI­-PMH, etc.). Le niveau 3 représente une automatisation de la mise à disposition des données définies au niveau 2. Quel que soit le processus choisi, il doit permettre d’informer précisément le Pool Biblissima de la date de dernière modification de chaque jeu de données et de la date à laquelle les données peuvent être récupérées pour être insérées dans le portail.

A.4 Comment fournir vos données ?

Chaque équipe partenaire souhaitant fournir des données de niveau 1 ou 2 envoie au Pool le nom et les coordonnées du responsable technique, afin que Biblissima lui crée un compte sur un serveur où il pourra déposer les données.

Les équipes partenaires souhaitant fournir des données de niveau 3 mettent à disposition du Pool la documentation technique nécessaire pour aisément interroger à distance ces services (service web, entrepôt OAI, etc.).

B. Recevoir, analyser et traiter les données

Schéma : workflow de données Biblissima - Traitement par le Pool

Après un retour par le Pool sur la qualité de vos données et éventuellement des ajouts à réaliser par les équipes partenaires, le Pool s’occupe de l’alignement des données vers des référentiels externes (data.bnf.fr, GeoNames, VIAF), puis de l’intégration dans le Cluster Biblissima en utilisant les techniques du Web sémantique.

C. Échange entre le Pool Biblissima et les partenaires

Schéma : workflow de données Biblissima - Echanges entre Pool et partenaires

Les alignements vers des référentiels extérieurs (data.bnf.fr, GeoNames, VIAF) et des mappings vers l’ontologie Biblissima réalisés par le Pool Biblissima peuvent être vérifiés par les équipes partenaires avant la publication si souhaité.

D. Intégrer les données dans le cluster

Schéma : workflow de données Biblissima - Intégration dans le cluster

Une fois les alignements et le mapping validés, le Pool prend en charge l’intégration de vos données dans le cluster en collaboration avec un prestataire.

Le cluster de données Biblissima repose sur un outil open source : CubicWeb​, une plate­forme de développement d'application Web sémantique, développée en Python. Le portail exposera également les données Biblissima en RDF via le triplestore ​Virtuoso fournissant ainsi un point d’accès aux machines (SPARQL endpoint).

La qualité de l’intégration des données dans le cluster Biblissima dépend des résultats de l’étape 1 et du niveau de précision de vos données.

­Niveau 1 : cotes actuelles des manuscrits et des imprimés, établissements de conservation, dates et lieux d’origine, intervenants sont des points d’entrée dans le cluster de données. ­

Niveau 2 : cotes (actuelles et anciennes) des manuscrits et des imprimés, établissements de conservation, dates et lieux d’origine, intervenants, textes, langue, termes codicologiques, information sur les composants, la reliure, etc. sont des points d’entrée dans le cluster de données. ­

Niveau 3 : l’automatisation de la mise à disposition des données facilite l’échange des données, la mise à jour et la collaboration.

E. Tester et publier les données

Schéma : workflow de données Biblissima - Test et publication

Un espace de test est mis à votre disposition pour vous permettre de valider ou de modifier, le cas échéant, vos données intégrées dans le cluster avant leur publication.

F. Contacts

Si vous avez des questions ou besoin de précisions, veuillez contacter :

team@biblissima-­condorcet.fr​ :

  • Eduard Frunzeanu (eduard.frunzeanu@biblissima­-condorcet.fr​)
  • Pauline Charbonnier (pauline.charbonnier@biblissima­-condorcet.fr​)
  • Régis Robineau (regis.robineau@biblissima-condorcet.fr)

Annexes

Annexe 1 - Structure des cotes dans le portail Biblissima

Export des cotes structurées dans les balises <Repository> et <Book><Shelfmark> ou <GroupBooks><Shelfmark> :

  • pays
  • ville
  • établissement de conservation
  • cote
  • sous-­cote
  • volume (numéro du volume)
  • Format de la chaîne de caractères​ : Pays, ville, établissement, cote, sous­cote (volume)

Le modèle de cotes fait partie de XML_Pivot_Biblissima_Niveau1.xml et XML_Pivot_Biblissima_Niveau2+3.xml.

Voici trois exemples au format texte et puis au format Biblissima XML :

  1. Italie, Bologne, Biblioteca comunale dell’Archiginnasio, A 0013
  2. France, Paris, Bibliothèque nationale de France, Département des manuscrits, Latin 8 (1)
  3. France, Paris, Bibliothèque nationale de France, Département des manuscrits, Latin 1156 B

Exemple A au format Biblissima XML

(Informations détaillées sur l’établissement de conservation dans la balise <Repository>) :

<Shelfmark>
    <Organisation id="29">Biblioteca comunale dell’Archiginnasio</Organisation>
    <Identifier><idno>A 0013</idno></Identifier>
</Shelfmark>
<Repository>
    <Country id="14">Italie</Country>
    <City id="63">Bologne</City>
    <Organisation id="29">Biblioteca comunale dell’Archiginnasio</Organisation>
</Repository>

Exemple B au format Biblissima XML

(Informations détaillées sur l’établissement de conservation dans la balise <Repository>) :

<Shelfmark>
    <Organisation id="12">Bibliothèque nationale de France, Département des manuscrits</Organisation>
    <Identifier>
        <Idno>Latin 8</Idno>
        <Volume>(1)</Volume>
    </Identifier>
</Shelfmark>
<Repository>
    <Country id="73">France</Country>
    <City id="55">Paris</City>
    <Organisation id="12">Bibliothèque nationale de France, Département des manuscrits</Organisation>
    <Concept>http://data.bnf.fr/ark:/12148/cb12511198k</Concept>
</Repository>

Exemple C au format Biblissima XML

(Informations détaillées sur l’établissement de conservation dans la balise <Repository>, malheureusement la base d’origine ne dispose pas d’ID par établissement de conservation) :

<Shelfmark>
    <Organisation id="">BnF, Département des manuscrits</Organisation>
    <Identifier>
        <Idno>Latin 1156</Idno>
        <Subidentifier>B</Subidentifier>
    </Identifier> </Shelfmark>
<Repository>
    <Country id="73">France</Country>
    <City id="55">Paris</City>
    <Organisation id="">BnF, Département des manuscrits</Organisation>
</Repository>

Annexe 2 - Pivot XML Portail Biblissima

Le Vademecum Biblissima définit trois niveaux différents pour la mise à disposition des données Biblissima parmi lesquels les partenaires font chacun leur choix.

Chaque niveau prévoit une livraison de données au format XML Pivot de Biblissima, vous trouverez une template par niveau plus bas.

À noter que l’export doit être fait dans une balise <RecordList> qui contient plusieurs notices par type d’entité, notamment :

  • <Book> (Livre)
  • <GroupBooks> (Regroupement des livres)
  • <Place> (Lieu)
  • <Participant> (Intervenant)
  • <Work> (Oeuvre dans le sens FRBRoo)
  • <Repository> (Établissement de conservation)
  • <Collection> (Ancienne collection)
  • <Descriptor> (Descripteur - pour les bases iconographiques seulement)

L’ID interne de la base de données sert, par exemple, de point de liaison entre le lieu indiqué dans la notice <Book> et la notice correspondante <Place id="[même id]">.

Annexe 2.1 - Format pivot Biblissima XML “niveau 1” (version du 21/07/2015)

Template : XML_Pivot_Biblissima_Niveau1_2015-07-21.xml
Fichier DTD : XML_Pivot_Biblissima_Niveau1_2015-07-21.dtd

Annexe 2.2 - Format pivot Biblissima XML “niveau 2” et “niveau 3” (version du 21/07/2015)

Template : XML_Pivot_Biblissima_Niveau2_2015-07-21.xml
Fichier DTD : XML_Pivot_Biblissima_Niveau2_2015-07-21.dtd

La dernière version du format pivot XML Biblissima est disponible sur Github : https://github.com/biblissima/bibma-metadata