Tag: lod

Opendata & Quality

Cela fait un tour de temps que je navigue et observe ce qui est mis en ligne sous le nom d’Opendata. Bien sûr, ce sont des données, bien sûr elles sont mises à disposition, bien sûr il y a souvent une fiche de méta données plus ou moins complètes, et il y a même des portails qui s’organisent pour les mettre en catalogue … bref ce sont là des ingrédients qui disent que ce sont bien des données publiques répondant aux exigences d’un cahier des charges.

Mais justement, parlons un peu de ce cahier des charges. Il y a comme une partie importante du problème qui est oubliée. Le jeu de données, le dataset, doit être intrinsèquement de qualité et cette qualité semble ne pas être clairement définie.

Aujourd’hui, le dataset est de mieux en mieux défini extérieurement. Il a un nom, des dates (création, mise(s) à jour, péremption), des acteurs de référence (créateur, diffuseur, administrateur, etc.), une typologie (format, domaines, etc.) … mais si on veut travailler avec autrement que manuellement, là, ça se complique. En effet, que sait-on de sa qualité interne ?

Or précisément, un bon dataset n’est-il pas fait pour être utiliser, pour permettre des nouveaux traitements, pour innover et servir à une entreprise, une organisation… Les gouvernements qui poussent à l’ouverture des données attendent qu’un développement économique effectivement en découle. Si les jeux de données ne sont pas exploitables, ou à des coûts trop élevés, ne risque t-on pas de perdre l’élan actuellement suscité ?

Par exemple, un fichier produit par un traitement de textes a peu de chance de servir à quelque chose dans un dispositif de traitement automatique sauf si on a déjà l’application faite juste pour ce fichier. Avec un fichier PDF, c’est pareil … En fait, les bons formats, on les connait mais ils sont encore trop peu utilisés dans la publication de jeux de données ;-( On a encore du chemin à faire avant de trouver quelques datasets dans les formats du web des données (en RDF, N3,Turtle…) De fait, actuellement, les développements réalisés sur la base de datasets opendata sont pour grande part des travaux spécifiques de conversion de données.

Un deuxième critère est l’utilisation d’un vocabulaire (ontologie) dans l’expression des données. C’est par ce moyen que les interconnexions de jeux de données deviennent possibles. (Pensez aux mashups).

Un autre critère de qualité des données est leur exactitude. Par exemple, dans l’étude toute récente réalisée par des étudiants de l’Ecole des Ponts, on peut lire que « les données sur le système
national de transports publics en Grande-Bretagne, mises en ligne en 2010, contenaient près de 6% de localisations d’arrêts de bus erronées ». Et ces inexactitudes n’ont pu être relevées que par des usagers.

Une autre qualité est la fraîcheur du dataset. Actuellement, nombre de jeux de données ne semblent être exposés qu’a des fins de test et leur données ne sont pas mises à jour. Que vaut un dataset sur les prix du carburant dans telle région quand il a plus d’un an d’âge ?

C’est grâce à des plateformes comme Datalift que les datasets actuels pourront être « élevés » pour devenir des objets du web des données. Le lifting des jeux de données permet en effet de satisfaire toutes ces exigences de qualité.

1 – Publier dans un format dédié au traitement automatique des données : la plateforme automatise les processus d’élévation dans des formats du web des données.

2 – Référer les données à un vocabulaire : les datasets contiennent des données, des valeurs. L’utilisation d’un vocabulaire (ontologie), c’est un peu comme donner une valeur avec son unité de mesure. Par exemple, c’est plus parlant de savoir que le « mur mesure 4m » plutôt que d’avoir seulement la valeur 4. La plateforme gère un catalogue de vocabulaires de référence.

3 – Distinguer les données : c’est par exemple permettre de s’assurer que deux applications parlent bien de la même chose quand elles désignent un objet. Techniquement, c’est l’utilisation d’URI.

4 – Vérifier l’exactitude des données : les datasets élevés dans des formats idoines peuvent être interconnectés et les incohérences peuvent être détectées (par exemple par inférence).

5 – Rafraîchir les données : c’est un disposant d’une plateforme automatisant le lifting qu’on peut mettre à jour facilement les datasets qui dans le cas contraire nécessiteraient des manipulations manuelles et donc longues et onéreuses.

La satisfaction de ces 5 qualités permet le passage effectif de l’Opendata au Linked Opendata.


Opendata, désordre d’URI ?

Dans mon post d’hier, j’ai collectionné les URL des sites où de nombreux états commencent à publier leurs datasets opendata. Si on regarde bien les règles de nommage de ces URL, on s’aperçoit que le « DATA.GOV » a fait école puisque l’Angleterre a suivi avec son « DATA.GOV.UK » lequel a fait école puisque on trouve désormais des « DATA.GOV.xx » où xx est le pays comme au, ma, md et sg.

Mais la grosse majorité a choisi de faire autrement. Dommage ! Cela aurait été une bonne façon de faciliter l’ouverture … Au lieu de cela, il faut avoir la bonne URL ou bien chercher, et cela peut prendre du temps.

Ce sont les URI qui ne vont pas y trouver leur compte, donc le Linked Open Data. Au moment d’ouvrir ses données, pourquoi il n’y a pas de réflexion sur la liaison des données ?


Quelques données chiffrées sur des datasets du Linking Open Data

On me demande souvent des chiffres sur ces fameux datasets qui commencent à peupler le LOD (Linking Open Data). Voici donc quelques statistiques sur des ensembles de données disponibles :

Voici une requête SPARQL qui permet d’interroger le data.gov américain :

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
SELECT ?g ?number_of_triples
WHERE
{GRAPH ?g
{
?s a <http://data-gov.tw.rpi.edu/2009/data-gov-twc.rdf#Dataset> .
?s <http://data-gov.tw.rpi.edu/2009/data-gov-twc.rdf#number_of_triples> ?number_of_triples.
filter ( regex( str(?g) , "Dataset") )
}
}
order by ?g

  • Catégories

  • Calendrier

    novembre 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    252627282930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress