CIDOC CRM et web de données

Qu’est-ce que le Linked Data ?

  • Paradigme de publication et d’accès aux données brutes dont les principes ont été définis par Tim Berners-Lee à partir de 2006.
  • L’objectif est de relier entre eux des jeux de données à l’échelle du Web pour former un espace global de données liées (ou “Web de données”).
  • Lier les données sur le Web à des entités du monde réel dans un format compréhensible par les machines.

Pour y parvenir, 4 étapes sont nécessaires :

  • utiliser des URI pour identifier les choses
  • utiliser des URI accessibles via HTTP
  • fournir via ces URI des renseignements lisibles par les humains et les machines (en tirant parti des standards du Linked Data : RDF, SPARQL etc.)
  • ajouter des liens vers des URI externes aux données pour améliorer la découverte d’autres informations sur le Web

Des données sous licence ouverte facilitent l’intéropérabilité. Résultat : des données enrichies (par les liens) et plus visibles (liens entrants vers les données améliorent le référencement).

Exemple de jeux de données dans le Web de données :

Le nombre de jeux de données disponible dans le Linked open data est sans cesse grandissant, comme le montre le Linked Open Data Cloud (http://lod-cloud.net/).

Semantic Web layer cake

Le Semantic Web layer cake est une illustration représentant l’architecture du Web sémantique et montrant les différentes technologies qui entrent en jeu.

URI (Uniform Resource Identifier)

RDF (Resource Description Framework)

Modèle de description de ressource, standard du W3C pour le Linked Data (1ère version W3C 1997). Le RDF offre un cadre formel pour décrire des ressources selon un modèle de graphe (ensemble de noeuds et d’arcs) :

  • en identifiant sur le Web des concepts/entités du monde réel avec des URIs
  • en exprimant les relations entre ces ressources sous la forme de triplets (sujet-prédicat-objet : comme la structure d’une phrase simple sujet-verbe-complément)
  • chaque élément du triplet peut être identifié par une URI

  • une même ressource peut être sujet, prédicat ou objet dans plusieurs triplets
  • les triplets reliés par les URIs forment un graphe

RDFS et OWL

Un graphe RDF est conforme à une ontologie. Dans le Linked Data, les ontologies sont généralement exprimées en RDFS ou OWL. Elles indiquent les classes et propriétés qui servent de support à l’expression des descriptions RDF.

Elles fournissent également des descriptions formelles (axiomes, règles de raisonnement) qui peuvent être employées par des moteurs d’inférence pour déduire de nouveaux faits ou détecter des incohérences dans les jeux de données.

CIDOC CRM et FRBRoo (voir l'introduction) ont été encodés en RDFS et en OWL par l’université d’Erlangen (http://erlangen-crm.org/)

Exprimer les données par le biais des graphes

Comment exprimer la phrase “L’histoire ecclésiastique est l’oeuvre d’Eusèbe de Césarée” en utilisant CIDOC CRM et FRBRoo ? Cet exemple permet d’illustrer la construction d’un graphe RDF.

Les concepts à prendre en compte sont :

  • oeuvre
  • auteur
  • la classe F27 Work Conception, événement qui met en relation l’oeuvre et son concepteur dans le modèle FRBRoo (harmonisation du CIDOC CRM et des FRBR, dont les classes commencent par la lettre F et les propriétés par la lettre R).

On aura donc deux triplets :

  • F27 Work Conception -> P14 carried out by -> E21 Person
  • F27 Work Conception -> R16 initiated -> F1 Work

On peut ajouter d’autres informations à ces deux triplets de base, comme la date, les appellations des entités décrites, des informations sur l’expression qui réalise cette oeuvre etc. La connexion de ces informations crée un graphe.

Expression du graphe en RDF

Une des fonctions des ontologies est de permettre de définir la nature des ressources. Les classes sont des abstractions auxquelles se rattachent les ressources : on dit alors que les ressources sont des instances de ces classes. Une ressource est identifée comme étant une instance d’une classe par la propriété rdf:type.

Eléments du triplet permettant de déclarer la nature de la ressource :

  • Sujet : <http://data.bnf.fr/ark:/12148/cb11902007r> : URI identifiant Eusèbe de Césarée dans data.bnf.fr
  • Prédicat : <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> :  propriété RDF permettant de déclarer que le sujet du triplet est une instance d’une classe
  • Objet : <http://erlangen-crm.org/current/E21_Person> : classe dont le sujet est une instance.

Même principe pour Histoire ecclésiastique qui est une instance de la classe F1 Work :

et pour la conception de l’oeuvre (F27 Work Conception) :

Une fois que les types des ressources sont établis, on peut associer des propriétés qui relient ces ressources entre elles (F1 Work -> R16i_was initiated_by -> F27_Work_Conception -> P14_carried_out_by -> E21_Person).

L’ensemble de ces triplets forme un graphe RDF :

SPARQL

Enfin on trouve dans le Semantic web layer cake un langage permettant de faire des requêtes sur des triplets RDF : SPARQL. SPARQL est supporté par les triplestores, des bases de données permettant de stocker nativement des triplets RDF. Un triplestore est interrogeable en SPARQL sur le Web via un SPARQL endpoint, comme nous allons le voir avec un exemple d’interrogation du SPARQL endpoint du British Museum.

Exemple d’implémentation : requête sur le British Museum

Adresse du SPARQL endpoint : http://collection.britishmuseum.org/sparql

Requête :

PREFIX ecrm: <http://erlangen-crm.org/current/>

SELECT * WHERE {?s a ecrm:E39_Actor.}

Cette requête porte sur l’ensemble des instances de la classe E39 Actor dans le jeu de données du British Museum. Logiquement les résultats retournent à la fois des instances :

de la classe E39 Actor : http://collection.britishmuseum.org/id/person-institution/195997 (Sudan Archaeological Research Society)

de la classe E21 Person: http://collection.britishmuseum.org/id/person-institution/150827  (Dr Williams Yewdale Adams)

et de la classe  E74 Group : http://collection.britishmuseum.org/id/thesauri/department/Y (Département de l’Egypte Ancienne et du Soudan du British Museum)

Pourquoi utiliser le CIDOC CRM avec le Linked Data ?

  • RDF présente une structure adéquate pour les graphes décrits par le CIDOC CRM.
  • RDF est la base pour d’autres standards technologiques pris en charge par les triplestore afin de faciliter le raisonnement informatique (possibilité d’inférer des connaissances supplémentaires en utilisant différentes règles de logique)
  • Inscription dans le Linked (Open) Data