datalift « Blogabriel

Tag: datalift

Oct/12

Comprendre la philosophie de Datalift par quelques exemples…

by gabriel under linked data, linked opendata, ontologie, opendata, web de données, web sémantique

L’entrepreneur qui crée un nouveau produit, le développe dans son entreprise. Il a besoin d’un accès à l’extérieur pour trouver des informations sur sa concurrence et sur les attentes de sa clientèle présente ou future afin que son innovation trouve une juste place dans le marché.

information = fonction (accès)

L’architecte qui dresse les plans d’un futur complexe sportif, réunit beaucoup de données sur de très nombreux aspects. Lorsqu’il rencontre le maire, il présente un dossier cohérent. Pour cette harmonisation, il convertit les données de base dans un langage compréhensible par ses interlocuteurs.

compréhension = conversion (information)

Lorsque deux mathématiciens se rencontrent, ils peuvent coopérer et partager leurs préoccupations s’ils utilisent un langage commun. Cela leur permet d’exposer leurs travaux à l’aide des concepts qu’ils savent manipuler et qui ont la même signification pour chacun d’eux.

exposition = partage (langage commun, compréhension)

Pour constituer une base de données adresse de qualité, la bonne recette consiste à prendre le plus de sources et à les croiser pour, notamment, supprimer les mauvaises coordonnées. En reliant des données exposées par plusieurs contributeurs, la qualité de l’ensemble s’enrichit.

enrichissement = croisement (exposition)

Dans le monde journalistique, l’information qui a de la valeur, est celle qui est vérifiée par recoupement puis qui est largement diffusée. Elle acquiert sa valeur lors de sa production parce que des croisements ont été effectués par les journalistes pour la valider, lui conférant ainsi un plus haut niveau de confiance. Elle acquiert encore de la valeur parce qu’elle a des lecteurs qui peuvent l’utiliser. Les données n’ont de valeur que parce qu’elles sont exploitables et exploitées.

valeur des données = exploitation (enrichissement) + exploitation (publication)

Ces exemples, que je pourrais multiplier, nous ont permis d’établir intuitivement que les données ont d’autant plus de valeur qu’elles sont accessibles, comprises, partagées, croisées et exploitables. Ces caractéristiques font système, elles forment un tout. Libérer seulement les données n’est pas suffisant. Convertir les données est inutile si on ne les partage pas, etc.

Tout cela peut sembler si simple et évident. Et pourtant, paradoxalement, combien d’entreprises restent assises sur leur capital informationnel, un capital immatériel qui ne demande qu’a se matérialiser économiquement !

C’est ici l’intuition qui est la base des élévateurs de données dont Datalift est le paradigme exemplaire.

Le Web est probablement entré dans la phase de sa plus profonde transition. Après avoir été accessibles sur les ordinateurs personnels et avoir permis d’accéder à des documents liés par des hyperliens voulus par les rédacteurs, il a gagné rapidement en ubiquité en pénétrant chaque partie et chaque moment de nos vies en se faisant plus collaboratif. De nouveaux appareils et de nouveaux usages sont continuellement créés par des utilisateurs promus au rang d’acteur. Et l’omniprésence de l’Internet a créé également une abondance d’informations invisibles, mais non dénuées de valeur pour qui sait en tirer profit.

Ces données circulent dans le Web. Elles y sont stockées, mais qui sait où et en combien d’exemplaires ? Elles sont aussi transformées, traitées, rediffusées. Créées par les utilisateurs, générées par des capteurs, stockées dans des fermes de données dont la croissance semble ne pas avoir de limite, les données peuplent ce web dynamique qu’on appelle web de données. Il est la métaphore d’une base de données distribuée et mondiale.

Ces données n’ont de valeur qu’à condition que l’on puisse y accéder, les comprendre, les croiser et les enrichir pour enfin les partager et les exploiter. Ce sont là les 5 étapes du processus d’élévation de données, celui-là même qui est au cœur de Datalift.

Juin/11

Sémantiser des données brutes

by gabriel under linked data, ontologie, web de données, web sémantique

Quand on veut se lancer dans le monde du Web des données (alias Web sémantique ou Web 3.0, mais sincèrement il vaut mieux parler de Web des données), le plus simple est de partir de ses données, en commençant par celles qui sont structurées. Prenez donc parmi vos feuilles de calcul, vos documents XML, vos bases de données, etc.

Trouver des vocabulaires (des ontologies) existants qui se rapportent au domaine de vos données ou créer vos vocabulaires. Vous pouvez utiliser

le Linked Open Vocabularies (LOV) de Mondéca,
le moteur de recherche swoogle,
consulter la liste publiée par Protégé,
ou celle de Co-ode
il doit bien y avoir encore d’autres outils… cherchez bien
pour aligner vos ontologies, vous pouvez regarder par exemple ici.

Il faut alors utiliser des « convertisseurs » pour transformer les données initiales en données sémantisées. Des bibliothèques commencent à se constituer. Elles sont très inégales.

RDFizer
Virtuoso Sponger
Triplify
Triplisty
Ici encore, vous en trouverez d’autres en cherchant…

Dans tous les cas, avancer de façon agile, c’est à dire mesurée. Cela vous donnera des idées …

Le projet de recherche et développement DataLift réalise une infrastructure open source dont les premiers étages sont consacrés 1) à la sélection d’ontologie et 2) à la conversion.

L	M	M	J	V	S	D
« Mai
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Blogabriel

Le blog de Gabriel, innovation, recherche et développement … et arménien classique

Tag: datalift

Comprendre la philosophie de Datalift par quelques exemples…

Sémantiser des données brutes

Méta

Catégories

Calendrier

Archives

Recent Posts

Archives

Tags