linked data « Blogabriel

linked data

Déc/14

Comment utiliser plusieurs triplestores dans Datalift

by gabriel under linked data, web de données, web sémantique

En standard Datalift utilise deux triplestores

Le premier est le triplestore interne, celui où sont publiées toutes les sources converties en RDF. C’est le 3e étage de l’ascenseur de données Datalift. La vocation de cet espace est d’être utilisé pour les travaux intermédiaires. Le second est le triplestore externe, c’est dans celui-ci que sont publiées les données finalisées et donc prêtes pour être exploitées par les destinataires d’un projet d’élévation de données.

Détaillons un peu. Si vous devez relier plusieurs sources Open Data, vous commencerez par les ajouter comme sources dans un projet Datalift. Puis vous convertirez chacune d’elle en RDF et les publierez dans le triple store interne. Lorsque vous les aurez interconnectées pour produire un unique jeu de données liées, du linked data ou du linked open data, vous publierez ce résultat dans le triple store externe.

Cette dernière opération est réalisée en utilisant le module « Publication vers le RDF store public ».

On trouve dans le répertoire C:\Users\{vous}\AppData\Roaming\Datalift\conf, le fichier de paramètres « datalift-application.properties » où sont placées les caractéristiques de ces deux triplestores. Leurs noms sont réservés : « data » pour le triplestore public , « internal » pour le triplestore interne (ou privé). Il vous est possible de leur donner le libellé de votre choix. Par exemple :

internal.repository.label = Triple Store interne

Datalift permet aussi d’utiliser plus de deux triplestores

Attention : ceci est possible à partir de la version 0.8.1j.

Abordons cet aspect dans le cas où vous utilisez un PC sous Windows et des triplestores gérés par le Workbench de Sesame. C’est le cas standard si vous avez téléchargé Datalift (www.datalift.org) et ne l’avez pas modifié.

Commencez par récupérer le fichier « openrdf-workbench.war », il s’agit du war qui contient, comme son nom l’indique, le workbench de l’openRDF de Sesame. Dans le site http://rdf4j.org/ allez dans la section réservée au téléchargement de Sesame et prenez la version 2.7.3. Dans le fichier openrdf-sesame-2.7.3-sdk.zip obtenu, vous allez trouver, en le dézippant, le war recherché.

Maintenant, avant de lancer Datalift, placez le fichier « openrdf-workbench.war » dans le répertoire .\Datalift\webapps où se trouve déjà « datalift.war » et « openrdf-sesame.war ». Lancez maintenant Datalift.

Vous disposez ainsi de l’interface d’administration de Sesame et vous pourrez agir directement sur vos triplestores. Pour y accéder, l’URL locale est :

http://localhost:9091/openrdf-workbench/

Créer un nouveau triplestore

Vous allez maintenant pouvoir créer un nouveau triplestore.

Dans le navigateur, ouvrez la page http://localhost:9091/openrdf-workbench/
Cliquez « new repository »
Donnez le type « In Memory Store »
Cliquez sur Next
Donnez maintenant un nom au nouveau triplestore (par exemple « NewTS ») et un intitulé.
Laissez « Persist » à « Yes »
Donnez la valeur « 1000 » à « Sync Delay »
Cliquez sur Create

Paramétrer le nouveau triplestore

Allez dans le répertoire C:\Users\{vous}\AppData\Roaming\Datalift\conf
Ouvrez le fichier « datalift-application.properties »
Allez dans la section des repositories
A la ligne de la clef « datalift.rdf.repositories », ajoutez le nom du nouveau triplestore après une virgule.

Par exemple :

datalift.rdf.repositories = data, internal, newtriplestore

Puis ajouter la clef repository.url de ce nouveau triplestore en lui spécifiant le nom que vous lui avez donné dans le workbench sesame.

Par exemple, avec l’ID donné plus haut, c’était NewTS,

newtriplestore.repository.url = \

http://localhost:${datalift.port}/openrdf-sesame/repositories/ NewTS

Si ce doit être un triple externe, spécifiez-le comme ceci

newtriplestore.repository.public = true

Et donnez-lui pour finir un intitulé, celui qui apparaîtra dans le SPARQL Endpoint de Datalift. Par exemple :

newtriplestore.repository.label = Mon Store

Relancer Datalift

Stoppez et relancez Datalift
Veillez, le cas échéant, à bien vider le cache de votre navigateur.

Utilisation des Triples Stores internes

Datalift ne peut publier que dans un seul TS interne. En revanche, si vous avez plusieurs TS interne, vous pouvez requêter dans celui de votre choix en l’indiquant dans le SPARQL endpoint. Si vous souhaitez publiez dans un autre TS interne, vous devez stopper Datalift, modifier le fichier de configuration et redémarrer Datalift.

Utilisation des Triples Stores externes

Lorsque vous publiez une source dans un triple store externe, s’il y en a plusieurs, Datalift attend que vous indiquiez lequel. Comme pour les TS internes, vous pouvez requêter dans le TS externe de votre choix en l’indiquant dans le SPARQL endpoint.

Pour en savoir plus, pourquoi ne pas devenir membre de l’association Datalift et suivre la user-list ?

Mar/14

Aide à la traduction de l’arménien classique avec DataLift (2)

by gabriel under arménien, langue, linguistique, linked data, outils, sémantique, web de données, web sémantique

Pour combler une partie des manques du premier dictionnaire utilisé, j’ai traduit et ajouté le glossaire qu’Antoine Meillet donnait en 1913 à la fin de son fameux Altarmenisches Elementachbuch. J’ai opté pour une structure très simple : le mot et sa définition.

Nous avons donc maintenant 4 jeux de données :

ahv : livre, chapitre, rang, mot
lemme : mot, lemme, analyse
dict : source, uri, mot, prononciation, traduction
meillet : mot, definition

Dans la requête suivante, la clause UNION permet de prendre en compte les deux dictionnaires, les BIND permet de ramener les résultats sur une même variable :

PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/ahv-csv-rdf-1#> PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemme-csv-rdf-1#> PREFIX P-DICT: <http://localhost:9091/project/armenien/source/dict-hy-fr-csv-rdf-1#> PREFIX P-MEILL: <http://localhost:9091/project/armenien/source/meillet-csv-rdf-1#>


SELECT ?rang ?mot ?traduction {

?s1 P-TEXTE:mot ?mot;

P-TEXTE:chapitre "ch1.2";

P-TEXTE:rang ?rang.
OPTIONAL {

?s2 P-LEMME:mot ?mot;

P-LEMME:lemme ?lemme;

P-LEMME:analyse ?analyse.
{ ?s3 P-DICT:mot ?lemme;

P-DICT:traduction ?trad1.

BIND (concat("C: ",?analyse," ",?trad1) as ?traduction)

}  UNION

{ ?s4 P-MEILL:mot ?lemme;

P-MEILL:definition ?trad2.

BIND (concat("M: ",?trad2) as ?traduction)

} }

} ORDER BY ?rang LIMIT 35

Les 35 premiers résultats sont :

1,արդ,"C: adv. 1) or conj., 2) maintenant adv." 1,արդ,M: (§ 171); tout à l'heure; maintenant; or; donc. 1,արդ,M: -ոյ forme; ornement. 2,իւրով,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76). 3,արեամբն,C: noun.ins.sg.def. sang nm. 3,արեամբն,M: -եան sang; αἷμα. 4,փրկեցելոյ, 5,զմեզ,M: (pronom; § 75); nous. 6,տեառն,"C: noun.gen.dat.sg. maître, seigneur, propriétaire nm." 6,տեառն,M: տեառն instr. տերամբ; nom. pl. տեարք; § 59 h; seigneur; κύριος (habituellement abrévié ՟տր [ պատիւ; § 26; rem. 4]; lorsqu'il s'agit de Dieu – de տի-այր ; cf. տի-կին). 7,եւ,C: conj. et conj. 7,եւ,M: (§ 164); aussi; et; même. 8,տուեալ,"C: verb.pfv.nom.acc.sg. 1) belle-soeur nf. 2) donner, livrer, offrir vt." 9,զհոգին,"C: noun.nom.acc.sg. 1) esprit nm., âme nf., 2) personne nf." 9,զհոգին,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C). 10,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76). 11,փոխանակ,C: noun.nom.acc.sg. au lieu de prép. 11,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ). 11,փոխանակ,M: emprunt (cf. փոխեմ). 12,հոգւոյս,"C: noun.gen.dat.abl.sg.poss1. 1) esprit nm., âme nf., 2) personne nf." 12,հոգւոյս,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C). 13,մերոյ,C: pron.adj.gen.sg. notre adj. 13,մերոյ,M: (adj. poss. § 72); notre. 14,եւ,C: conj. et conj. 14,եւ,M: (§ 164); aussi; et; même. 15,զմարմինն,C: noun.nom.acc.sg. corps nm. 15,զմարմինն,M: մարﬓոյ corps; chair; σῶμα. 16,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76). 17,փոխանակ,C: noun.nom.acc.sg. au lieu de prép. 17,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ). 17,փոխանակ,M: emprunt (cf. փոխեմ). 18,մարմնոյս,C: noun.gen.dat.abl.sg.poss1. corps nm. 18,մարմնոյս,M: մարﬓոյ corps; chair; σῶμα. 19,մերոյ,C: pron.adj.gen.sg. notre adj. 19,մերոյ,M: (adj. poss. § 72); notre.

Fév/14

Analyse grammaticale automatique de l’arménien classique avec DataLift

by gabriel under arménien, linguistique, linked data, méthode, outils, traduction, web de données, web sémantique

Je me suis demandé combien de temps cela me prendrait de faire une analyse grammaticale … Ca ne m’a pris que 10 minutes. Voici comment (et vous pourrez vous y essayer aussi).

Installer Datalift, il suffit de télécharger Datalift ici et de le deziper
Vous créez un projet, appelons-le « armenien »
Vous ajoutez la première source, ce sera un texte arménien tokennisé (voir mon post précédent sur la tokennisation de l’arménien). Là j’ai choisi la préface du livre V de l’Adversus Haereses d’Irénée de Lyon (voir le post où je l’ai posté). Avec le tokenniseur, j’ai créé un CSV avec 3 colonnes (chapitre ; rang ; mot). Je l’ai appelé : preface.csv
Vous ajoutez la deuxième source, là j’ai pris mon CSV de lemmisation. Il a 3 colonnes aussi (mot ; lemme ; analyse). Je l’ai appelé : lemmisation.csv
Vous élevez les deux jeux de données pour en faire des sources RDF. Pour l’élévaton de preface.csv, j’ai demandé le changement de type de la colonne « rang » pour que son contenu soit des entiers. J’ai donc obtenu ainsi : preface-csv-rdf-1 et lemmisation-csv-rdf-1
Il ne reste plus qu’à interconnecter. J’ai écrit la requête d’interconnexion suivante :
PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemmisation-csv-rdf-1#> PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/preface-csv-rdf-1#>
SELECT ?rang ?mot ?lemme ?analyse WHERE { ?s P-TEXTE:mot ?mot; P-TEXTE:rang ?rang. ?s2 P-LEMME:mot ?mot; P-LEMME:lemme ?lemme; P-LEMME:analyse ?analyse. } ORDER BY ?rang
J’ai opté pour une sortie en CSV. Je vous recopie les premières lignes
rang,mot,lemme,analyse 2,սիրելի,սիրել,verb.pot.nom.acc.loc.sg. 3,ամենայն,ամենայն,pron.nom.acc.sg. 5,ի,ի,prep. 6,չորս,չորք,num.acc.loc.pl. 7,գիրս,գիր,noun.acc.loc.pl./nom.acc.sg.poss1. 8,յառաջ,յառաջ,adj. 9,քան,քան,conj./prep. 10,զայս,այս (սա),pron.acc.sg. 11,քեզ,դու,pron.acc.dat.sg. 12,առաքեալս,առաքել,verb.pfv.acc.loc.pl./nom.acc.loc.sg.poss1. 13,ի,ի,prep. 14,մէնջ,մեք,pron.abl.pl. 15,եւ,եւ,conj. 17,նոցա,նա,pron.gen.dat.abl.pl. 18,յայտնի,յայտնի//յայտնել,adj.nom.acc.loc.sg.//verb.pres.3per.sg.pass. 19,երեւեցելոց,երեւել,verb.pfv.gen.dat.abl.pl. 20,եւ,եւ,conj.

Et voilà, le tour est joué ! Chaque ligne commence par le rang du mot analysé dans le texte de départ. Vous voyez ainsi que le premier mot n’est pas présent. Cela signifie tout simplement que cette forme du mot n’est pas renseigné dans mon lemmisateur. Le 16e est dans le même cas.

Voilà à quoi peut servir Datalift, dans le monde de la linguistique.

Août/13

Petit panorama d’outils sur les ontologies : aides

by gabriel under linked data, ontologie, web de données, web sémantique

La création d’une ontologie n’est pas chose facile. La faire évoluer non plus, tout comme la référencer, ou encore la cataloguer, etc. Alors où trouver de l’aide ? Qui peut répondre à vos questions ? Pour apporter des réponses aux courageux ontologues débutants, il y a quelques bonnes adresses (mais elles sont rares) où poser ses questions et où lire des réponses aux questions que d’autres ont posées.

Si vous connaissez d’autres sites d’entre-aide, merci d’avance de me les signaler, je mettrai à jour ce post.

Oct/12

Comprendre la philosophie de Datalift par quelques exemples…

by gabriel under linked data, linked opendata, ontologie, opendata, web de données, web sémantique

L’entrepreneur qui crée un nouveau produit, le développe dans son entreprise. Il a besoin d’un accès à l’extérieur pour trouver des informations sur sa concurrence et sur les attentes de sa clientèle présente ou future afin que son innovation trouve une juste place dans le marché.

information = fonction (accès)

L’architecte qui dresse les plans d’un futur complexe sportif, réunit beaucoup de données sur de très nombreux aspects. Lorsqu’il rencontre le maire, il présente un dossier cohérent. Pour cette harmonisation, il convertit les données de base dans un langage compréhensible par ses interlocuteurs.

compréhension = conversion (information)

Lorsque deux mathématiciens se rencontrent, ils peuvent coopérer et partager leurs préoccupations s’ils utilisent un langage commun. Cela leur permet d’exposer leurs travaux à l’aide des concepts qu’ils savent manipuler et qui ont la même signification pour chacun d’eux.

exposition = partage (langage commun, compréhension)

Pour constituer une base de données adresse de qualité, la bonne recette consiste à prendre le plus de sources et à les croiser pour, notamment, supprimer les mauvaises coordonnées. En reliant des données exposées par plusieurs contributeurs, la qualité de l’ensemble s’enrichit.

enrichissement = croisement (exposition)

Dans le monde journalistique, l’information qui a de la valeur, est celle qui est vérifiée par recoupement puis qui est largement diffusée. Elle acquiert sa valeur lors de sa production parce que des croisements ont été effectués par les journalistes pour la valider, lui conférant ainsi un plus haut niveau de confiance. Elle acquiert encore de la valeur parce qu’elle a des lecteurs qui peuvent l’utiliser. Les données n’ont de valeur que parce qu’elles sont exploitables et exploitées.

valeur des données = exploitation (enrichissement) + exploitation (publication)

Ces exemples, que je pourrais multiplier, nous ont permis d’établir intuitivement que les données ont d’autant plus de valeur qu’elles sont accessibles, comprises, partagées, croisées et exploitables. Ces caractéristiques font système, elles forment un tout. Libérer seulement les données n’est pas suffisant. Convertir les données est inutile si on ne les partage pas, etc.

Tout cela peut sembler si simple et évident. Et pourtant, paradoxalement, combien d’entreprises restent assises sur leur capital informationnel, un capital immatériel qui ne demande qu’a se matérialiser économiquement !

C’est ici l’intuition qui est la base des élévateurs de données dont Datalift est le paradigme exemplaire.

Le Web est probablement entré dans la phase de sa plus profonde transition. Après avoir été accessibles sur les ordinateurs personnels et avoir permis d’accéder à des documents liés par des hyperliens voulus par les rédacteurs, il a gagné rapidement en ubiquité en pénétrant chaque partie et chaque moment de nos vies en se faisant plus collaboratif. De nouveaux appareils et de nouveaux usages sont continuellement créés par des utilisateurs promus au rang d’acteur. Et l’omniprésence de l’Internet a créé également une abondance d’informations invisibles, mais non dénuées de valeur pour qui sait en tirer profit.

Ces données circulent dans le Web. Elles y sont stockées, mais qui sait où et en combien d’exemplaires ? Elles sont aussi transformées, traitées, rediffusées. Créées par les utilisateurs, générées par des capteurs, stockées dans des fermes de données dont la croissance semble ne pas avoir de limite, les données peuplent ce web dynamique qu’on appelle web de données. Il est la métaphore d’une base de données distribuée et mondiale.

Ces données n’ont de valeur qu’à condition que l’on puisse y accéder, les comprendre, les croiser et les enrichir pour enfin les partager et les exploiter. Ce sont là les 5 étapes du processus d’élévation de données, celui-là même qui est au cœur de Datalift.

Août/12

Big Data et Linked Data : le téra triple

by gabriel under Big Data, linked data, web de données, web sémantique

Les données liées appartiennent au monde du web des données dont les dimensions, déjà énormes, ne cessent de croître à un rythme supérieur à celui qu’on a observé pour le web des documents. Pour répondre à cette explosion, des architectes se sont mis à l’oeuvre et il existe désormais des triplestores dont la capacité de stockage a dépassé 10 puissance 12 triples (les anglais parlent de trillion, on utilise aussi le préfixe téra).

Deux faits marquants sont à signaler:

AllegroGraph en août 2011, il y a juste un an, a déclaré avoir atteint le Téra triple. Ce sont exactement 1.009.690.381.946 triples qui ont été chargé en 338 heures (14 jours et 2 heures), soit une moyenne de 0.83 millions de triples par seconde.
La solution 5Store a aussi annoncé avoir franchi cette limite.

Lorsqu’on atteint de tels ordres de grandeur, les solutions ne sont plus classiques. On n’est plus tranquillement en train de télécharger un triple store open source sur son ordinateur personnel. Les infrastructures sont des architectures puissantes.

5Store a été conçu à partir de zéro pour des clusters pouvant aller jusqu’à 1000 machines et tenir à plus du Tt (Téra triple).

D’autres triplestores s’approchent. OWLIM prétend être capable de gérer de 10 à 100 de milliards de triplets (entre 0.01 Tt et 0.1 Tt). La société Ontotex écrit : « OWLIM-Enterprise is a replication cluster infrastructure based on OWLIM-SE. It offers industrial strength resilience and linearly scalable parallel query performance, with support for load-balancing and automatic fail-over. »

Dommage que la page du W3C consacrée aux grands triplestores ne soit pas mise à jour.

Avr/12

WWW2012, présentation internationale de Datalift

by gabriel under linked data, linked opendata, ontologie, opendata, web de données, web sémantique

La semaine du 16 au 20 avril, la ville de Lyon est devenue la capitale mondiale du Web avec un évènement énorme : le WWW2012. Tout ce que web des données, alias web sémantique, alias web 3.0, se retrouve pour la grand’messe. On se retrouve entre amis, relations, collègues, geaks, web addicts !

Mercredi 18 avril, je présente le projet Datalift toute la journée sur le stand d’Atos. Je décortiquerai ses composants, son architecture, son business model et répondrai aux questions. Ce sera aussi l’occasion rêvée de discuter avec un public concerné.

La moitié du consortium Datalift est présent à Lyon. Je pense que ce doit être la même chose pour la plupart des autres grands projets actuels du web sémantique. Pour ceux qui ont le temps, Lyon est the place to be !

Août/11

Opendata & Quality

by gabriel under linked data, linked opendata, opendata, web de données, web sémantique

Cela fait un tour de temps que je navigue et observe ce qui est mis en ligne sous le nom d’Opendata. Bien sûr, ce sont des données, bien sûr elles sont mises à disposition, bien sûr il y a souvent une fiche de méta données plus ou moins complètes, et il y a même des portails qui s’organisent pour les mettre en catalogue … bref ce sont là des ingrédients qui disent que ce sont bien des données publiques répondant aux exigences d’un cahier des charges.

Mais justement, parlons un peu de ce cahier des charges. Il y a comme une partie importante du problème qui est oubliée. Le jeu de données, le dataset, doit être intrinsèquement de qualité et cette qualité semble ne pas être clairement définie.

Aujourd’hui, le dataset est de mieux en mieux défini extérieurement. Il a un nom, des dates (création, mise(s) à jour, péremption), des acteurs de référence (créateur, diffuseur, administrateur, etc.), une typologie (format, domaines, etc.) … mais si on veut travailler avec autrement que manuellement, là, ça se complique. En effet, que sait-on de sa qualité interne ?

Or précisément, un bon dataset n’est-il pas fait pour être utiliser, pour permettre des nouveaux traitements, pour innover et servir à une entreprise, une organisation… Les gouvernements qui poussent à l’ouverture des données attendent qu’un développement économique effectivement en découle. Si les jeux de données ne sont pas exploitables, ou à des coûts trop élevés, ne risque t-on pas de perdre l’élan actuellement suscité ?

Par exemple, un fichier produit par un traitement de textes a peu de chance de servir à quelque chose dans un dispositif de traitement automatique sauf si on a déjà l’application faite juste pour ce fichier. Avec un fichier PDF, c’est pareil … En fait, les bons formats, on les connait mais ils sont encore trop peu utilisés dans la publication de jeux de données ;-( On a encore du chemin à faire avant de trouver quelques datasets dans les formats du web des données (en RDF, N3,Turtle…) De fait, actuellement, les développements réalisés sur la base de datasets opendata sont pour grande part des travaux spécifiques de conversion de données.

Un deuxième critère est l’utilisation d’un vocabulaire (ontologie) dans l’expression des données. C’est par ce moyen que les interconnexions de jeux de données deviennent possibles. (Pensez aux mashups).

Un autre critère de qualité des données est leur exactitude. Par exemple, dans l’étude toute récente réalisée par des étudiants de l’Ecole des Ponts, on peut lire que « les données sur le système
national de transports publics en Grande-Bretagne, mises en ligne en 2010, contenaient près de 6% de localisations d’arrêts de bus erronées ». Et ces inexactitudes n’ont pu être relevées que par des usagers.

Une autre qualité est la fraîcheur du dataset. Actuellement, nombre de jeux de données ne semblent être exposés qu’a des fins de test et leur données ne sont pas mises à jour. Que vaut un dataset sur les prix du carburant dans telle région quand il a plus d’un an d’âge ?

C’est grâce à des plateformes comme Datalift que les datasets actuels pourront être « élevés » pour devenir des objets du web des données. Le lifting des jeux de données permet en effet de satisfaire toutes ces exigences de qualité.

1 – Publier dans un format dédié au traitement automatique des données : la plateforme automatise les processus d’élévation dans des formats du web des données.

2 – Référer les données à un vocabulaire : les datasets contiennent des données, des valeurs. L’utilisation d’un vocabulaire (ontologie), c’est un peu comme donner une valeur avec son unité de mesure. Par exemple, c’est plus parlant de savoir que le « mur mesure 4m » plutôt que d’avoir seulement la valeur 4. La plateforme gère un catalogue de vocabulaires de référence.

3 – Distinguer les données : c’est par exemple permettre de s’assurer que deux applications parlent bien de la même chose quand elles désignent un objet. Techniquement, c’est l’utilisation d’URI.

4 – Vérifier l’exactitude des données : les datasets élevés dans des formats idoines peuvent être interconnectés et les incohérences peuvent être détectées (par exemple par inférence).

5 – Rafraîchir les données : c’est un disposant d’une plateforme automatisant le lifting qu’on peut mettre à jour facilement les datasets qui dans le cas contraire nécessiteraient des manipulations manuelles et donc longues et onéreuses.

La satisfaction de ces 5 qualités permet le passage effectif de l’Opendata au Linked Opendata.

Juin/11

Organiser le web des données

by gabriel under linked data, web de données, web sémantique

Qui sera le google du web des données ?

Le web des données s’organise. Tout le monde en parle, et plusieurs solutions émergent de ci de là. Mais qu’est-ce que cela veut dire que le web des données s’organise ?

Du côté des données

Les données sont-elles plus organisées (au niveau de la donnée elle-même) ?
Les ensembles de données (dataset) sont-ils mieux organisés ?
Les regroupements d’ensemble de données (data.dot) sont-ils rationnellement structurés ?
Des standards sont-ils reconnus et appliqués significativement ?

Du côté des outils

Les outils de manipulations de données sont-ils diffusés et utilisés largement ?
Les ontologies sont-elles partagées massivement ?
Les alignements sont-ils monnaie courante ?
Les rdfisations et autres triplisarions sont-elles disponibles ?
L’interconnexion des données a-t-elle cours ?
Les solutions open source de bout en bout sont-elles téléchargeables ?
Les sites d’hébergement sont-ils opérationnels ?

Du côté des utilisateurs

Est-ce que les enjeux du web des données sont compris ?
Les formations universitaires et les écoles d’ingénieur prennent-elles en compte le web des données ?
Les entreprises ont-elles des projets dans le web des données ?
Les délivreurs de données ouvertes (open data) ont-ils délivré leurs données ouvertes ?

Du côtés des usages

Est-il facile d’obtenir des données (pas des données brutes bien sûr) ?
Est-il facile d’utiliser des données ?
Est-il facile de partager des données ?
Commence-t-on à utiliser le web des données comme Monsieur Jourdain ?

Les questions sont nombreuses et je pourrai en ajouter. Globalement, les choses avancent … et il y a du travail pour tous. Comme toujours, les premiers qui auront investi dans ce vaste monde en tireront le meilleur. Y aura-t-il beaucoup de places dans ce web ? Dans le web des documents, c’est Google qui a mangé le gâteau en offrant le moteur de recherche, l’outil qui organise le web des documents.

Ma question est simple : qui sera le google du web des données ? (et je ne veux pas dire que la solution est d’apporter un moteur de recherche pour le web des données)

Juin/11

Sémantiser des données brutes

by gabriel under linked data, ontologie, web de données, web sémantique

Quand on veut se lancer dans le monde du Web des données (alias Web sémantique ou Web 3.0, mais sincèrement il vaut mieux parler de Web des données), le plus simple est de partir de ses données, en commençant par celles qui sont structurées. Prenez donc parmi vos feuilles de calcul, vos documents XML, vos bases de données, etc.

Trouver des vocabulaires (des ontologies) existants qui se rapportent au domaine de vos données ou créer vos vocabulaires. Vous pouvez utiliser

le Linked Open Vocabularies (LOV) de Mondéca,
le moteur de recherche swoogle,
consulter la liste publiée par Protégé,
ou celle de Co-ode
il doit bien y avoir encore d’autres outils… cherchez bien
pour aligner vos ontologies, vous pouvez regarder par exemple ici.

Il faut alors utiliser des « convertisseurs » pour transformer les données initiales en données sémantisées. Des bibliothèques commencent à se constituer. Elles sont très inégales.

RDFizer
Virtuoso Sponger
Triplify
Triplisty
Ici encore, vous en trouverez d’autres en cherchant…

Dans tous les cas, avancer de façon agile, c’est à dire mesurée. Cela vous donnera des idées …

Le projet de recherche et développement DataLift réalise une infrastructure open source dont les premiers étages sont consacrés 1) à la sélection d’ontologie et 2) à la conversion.

« Older Entries

Blogabriel

Le blog de Gabriel, innovation, recherche et développement … et arménien classique