Chris Bizer (Web-based Systems Group, Freie Universität Berlin, Germany), Richard Cyganiak (Web-based Systems Group, Freie Universität Berlin, Germany) et Tom Heath (Knowledge Media Institute, The Open University, Milton Keynes, UK) ont écrit ce beau tutorial de référence dont je veux donner ici une traduction pour en faciliter la diffusion dans l’espace francophone.

Je publierai cette traduction en 10 fois, respectant ainsi la découpe en section de l’original.

Résumé

Ce document fournit un tutoriel sur la façon de publier des données liées sur le Web. Après un aperçu général de la notion de données liées, nous présentons plusieurs recettes pratiques pour la publication d’information sous forme de données liées sur le Web.

1 – Introduction : les données liées sur le Web

L’objectif des données liées est de permettre aux gens de partager des données structurées sur le Web aussi facilement qu’ils peuvent partager des documents d’aujourd’hui.

Le terme de données liées (en anglais : linked data) a été inventé par Tim Berners-Lee dans sa note d’architecture Linked Data sur le Web de données liées. Le terme se réfère à un style de publication et d’interconnexion des données structurées sur le Web. L’hypothèse de base est que plus les données sont étroitement liées à d’autres données, plus leur valeur et leur utilité augmente. En résumé, les données liées concernent tout simplement l’utilisation du Web pour créer des liens typés entre données provenant de sources différentes.

Les principes de base des données liées sont les suivantes :

  1. utiliser le modèle de données RDF pour publier des données structurées sur le Web
  2. utiliser des liens RDF pour interconnecter les données provenant de sources différentes

L’application de ces deux principes conduit à la création de données communes sur le Web, un espace où les gens et les organisations peuvent déposer et consommer des données de toutes sortes. Cet espace commun de données est souvent appelé le Web de données ou de Web sémantique.

Le Web de données peut être consultés à l’aide d’un navigateur de données liées (en anglais : Linked Data browser), tout comme le Web des documents est accessible en utilisant un navigateur HTML. Toutefois, au lieu de suivre des liens entre les pages HTML, les navigateurs de données liées permettent aux utilisateurs de naviguer entre les différentes sources de données en suivant les liens RDF. Cela permet à l’utilisateur de démarrer d’une source de données pour passer ensuite d’autres sites Web, potentiellement une infinité de sources de données connectées par des liens de RDF. Par exemple, si un utilisateur étudie les données sur une personne provenant d’une source, il peut être intéressé à poursuivre sur des informations sur la ville où réside cette personne. En suivant un lien RDF, l’utilisateur peut naviguer vers l’information sur cette ville figurant dans un autre ensemble de données.

Tout comme le Web traditionnel de documents peut être exploré en suivant les liens hypertextes, le Web de données peut être exploré en suivant les liens RDF. En travaillant sur les données explorées, les moteurs de recherche peuvent fournir des capacités de recherche sophistiquées, semblables à celles fournies par les bases de données relationnelles classiques. Parce que les résultats des requêtes elles-mêmes sont des données structurées, non pas seulement des liens vers des pages HTML, ils peuvent être immédiatement traitées, permettant ainsi une nouvelle classe d’applications basées sur le Web des données.

La glu qui maintient ensemble le Web traditionnel, celui qu’appelle le Web des documents, ce sont les liens hypertextes entre les pages HTML. La glu du Web de données, ce sont les liens RDF. Un lien RDF établit simplement qu’une donnée est en relation avec une autre donnée. Ces relations peuvent être de différents types. Par exemple, un lien RDF qui relie des données sur des personnes peut indiquer que deux personnes se connaissent, un lien RDF qui connecte les informations d’une personne avec des informations sur des publications dans une base de données bibliographiques pourrait stipuler que la personne est l’auteur d’un document précis.

Il existe déjà beaucoup de données structurées accessibles sur le Web via des API Web 2.0, comme par exemple pour eBay, Amazon, Yahoo et Google Base. Par rapport à ces API, les données liées ont l’avantage de fournir un mécanisme d’accès unique et normalisé au lieu de s’appuyer sur différents formats d’interfaces et de résultat. Cela permet aux sources de données :

  • d’être plus facilement explorées par les moteurs de recherche,
  • d’être accessibles à l’aide de navigateurs génériques de données,
  • d’avoir des liens avec des sources de données différentes.

Après avoir posé les concepts des données liées, le reste de ce document se structure comme suit :

  • la section 2 énonce les principes de base des données liées.
  • la section 3 fournit des conseils pratiques sur la façon de nommer les ressources avec des références URI,
  • la section 4 examine des termes bien connus de vocabulaires et de sources de données qui devraient être réutilisé pour représenter de l’information,
  • la section 5 explique quelles informations doivent être incluses dans les descriptions RDF qui sont publiés sur le Web,
  • la section 6 donne des conseils pratiques sur la façon de générer des liens entre les données RDF à partir de sources de données différentes,
  • la section 7 présente plusieurs recettes complètes pour l’édition de différents types d’information comme données liées sur le Web à l’aide des outils liés publication des données existantes,
  • la section 8 concerne le test et le débogage de sources de données liées,
  • la la section 9 donne un aperçu des mécanismes de substitution pour la découverte de données liées sur le Web.
  • et la la section 10 qui vous fournit des liens vers des documents de référence et de nombreux outils.