web de données

Petit panorama d’outils sur les ontologies : les moteurs de recherche

(Mise à jour le 14 avril 2013)

Devant la difficulté de créer une ontologie, on peut vouloir en trouver une qui corresponde à son besoin. Mieux, on peut vouloir trouver une ontologie existante car elle aura déjà fait ses preuves, elle aura peut-être une communauté d’adorateurs. Bref, il n’est pas besoin de vous dire l’utilité des moteurs de recherche qui vous permettront de trouver l’ontologie de vos rêves.

L’utilisation de ces moteurs est un peu particulière. L’expression de la recherche se fait en langage naturel avec des mots clés et les résultats produits sont classés. Certaines informations supplémentaires sont souvent fournies.

Mais la difficulté n’est pas dans la recherche à proprement parlé. Une fois que vous avez une liste de résultats, la vraie question est : laquelle choisir ! C’est pour cette raison qu’il existe une nouvelle catégorie d’outils comme LOV (une version indépendante est hébergée à l’OKFN), un des modules de Datalift, destiné à cataloguer, trouver et choisir des ontologies. Ca mérite le détour.

Voici quelques outils, il y en a beaucoup d’autres (vous pouvez d’ailleurs me laisser un commentaire pour je mette à jour cette page).

Catégorie : ceux qui marchent

  • FalconS pour chercher et trouver des objets, des concepts, des ontologies ou des documents. Pour les ontologies, les résultats sont rendus avec des graphes.
  • LOV, l’outil de référence, recherche parmi des ontologies de référence.
  • ontologi.es est une liste de liens … c’est très sommaire, mais ça peut servir (merci Raphaël)
  • ontosearch pour chercher par des termes.
  • Sindice, l’outil facile et utile pour trouver en soumettant des termes, des URI, des propriétés et un mode avancé pour aller plus loin. Il y a encore d’autres fonctions utiles …
  • Swoogle est un ancien outil toujours en ligne, il n’a pas évolué depuis 2007.
  • SWSE permet de rechercher des entités RDF (résultat universitaire, 2011)
  • vocab.cc est un projet open source, qui permet de rechercher des vocabulaires de données liées. Il fournit un classement des URI. (Il tombe en 404 quand il ne trouve pas)
  • vocab.org est destiné à être un espace d’URI ouvert pour des vocabulaires tels que RDF schema ou des documents d’espaces de noms XML (merci Raphaël)
  • Watson est un moteur intéressant car il évolue régulièrement (à suivre).

Catégorie : les morts-vivants, on ne sait pas trop

Catégorie : les disparus

  • schemapedia … ce dernier était le plus intéressant car il fournissait non seulement des vocabulaires mais de nombreux exemples quant à leur utilisation. Malheureusement, il était basé sur la plate-forme Talis et il s’en est allé avec cette plate-forme. Le code est toute fois ouvert sur Google Code (merci Raphaël).

  • Petit panorama d’outils sur les ontologies

    Définition

    Commençons par rappeler ce qu’est une ontologie dans le monde du web des données. Pour cela, je vous renvoie à mon post Comment définir une ontologie ?

    Synonyme

    Le mot ontologie est souvent inconnu. Plutôt que d’être mal compris, il vaut mieux parfois proposer un synonyme. Vous pouvez choisir le mot « vocabulaire », il est régulièrement utilisé dans ce sens.

    Expression

    Pour exprimer une ontologie, il faut un langage. Le plus courant est aujourd’hui OWL. Ce chouette langage qui tire son nom d’un acronyme, Web Ontology Language, a été proposé dès 2004 au W3C (une version française de la proposition est disponible). En 2009, une proposition pour OWL 2 a été soumise, sa dernière version date de 2012.

    Opérations

    Avant de trouver des outils pour manipuler des ontologies, commençons par nous demander ce qu’on peut vouloir faire. Très simplement, on peut créer, modifier (ou transformer), éditer, tester, cataloguer, rechercher, comparer … des ontologies.

    Donc, il nous faut des éditeurs (pour créer, modifier, éditer), des documenteurs, des validateurs (pour tester), des catalogueurs, des moteurs de recherche, des comparateurs, sans oublier des outils d’aide à des traitements plus complexes comme l’alignement d’ontologies, la gestion de version, le split d’ontologie ou son contraire la fusion (merge), la différence, etc…

    Le premier travail, qui est loin d’être facile, c’est la création d’une ontologie (cela peut prendre plusieurs mois !), il n’est guère plus facile de propager les modifications induites par l’évolution d’une ontologie. Humm, ça sent les verrous technos !

    Alors, il faut y aller en douceur : il y a des outils simples et puis des outils carrément pas simples. Et il y a des outils indépendants et des outils intégrés ou intégrables dans des plateformes, comme par exemple la plateforme Datalift.

    Encore deux précisions importantes. La première est que la création d’une ontologie est une oeuvre de l’esprit plutôt que le résultat d’un traitement sauf pour la découverte automatisée de l’ontologie d’un ou plusieurs documents structurés, dans ce cas l’ontologie ad hoc n’apporte pas d’information, elle calque la réalité observée, pas plus. La deuxième est que plusieurs travaux scientifiques ont produit des outils qui ne sont malheureusement pas toujours pérenniser … et le 404 ou le 500 ne sont pas loin.

    Dans les prochains posts, j’aborderai différentes catégories d’outils et je vous invite à réagir pour nous enrichir mutuellement de nos connaissances !


    Open data cardinal

    Le Pape Benoît XVI a convoqué un consistoire pour la création de six nouveaux cardinaux. Le Sacré Collège sera donc formé de 211 membres, parmi lesquels 120 seront électeurs.

    L’occasion est donc toute trouvée de publier de l’open data cardinal. Vous pouvez télécharger ici la liste de Sacré Collège telle qu’elle sera effective au 24 novembre 2012.

    Si l’on considère les représentations par continent, il y aura 18 représentants pour l’Afrique dont 10 électeurs, 22 pour l’Amérique du Nord dont 14 électeurs, 30 pour l’Amérique du Sud dont 20 électeurs, 20 pour l’Asie dont 11 électeurs, 117 pour l’Europe dont 61 électeurs et 4 pour l’Océanie dont 2 électeurs. Par pays, l’Italie à elle seule comptera 50 cardinaux dont 28 électeurs.


    Comprendre la philosophie de Datalift par quelques exemples…

    L’entrepreneur qui crée un nouveau produit, le développe dans son entreprise. Il a besoin d’un accès à l’extérieur pour trouver des informations sur sa concurrence et sur les attentes de sa clientèle présente ou future afin que son innovation trouve une juste place dans le marché.

    information = fonction (accès)

    L’architecte qui dresse les plans d’un futur complexe sportif, réunit beaucoup de données sur de très nombreux aspects. Lorsqu’il rencontre le maire, il présente un dossier cohérent. Pour cette harmonisation, il convertit les données de base dans un langage compréhensible par ses interlocuteurs.

    compréhension = conversion (information)

    Lorsque deux mathématiciens se rencontrent, ils peuvent coopérer et partager leurs préoccupations s’ils utilisent un langage commun. Cela leur permet d’exposer leurs travaux à l’aide des concepts qu’ils savent manipuler et qui ont la même signification pour chacun d’eux.

    exposition = partage (langage commun, compréhension)

    Pour constituer une base de données adresse de qualité, la bonne recette consiste à prendre le plus de sources et à les croiser pour, notamment, supprimer les mauvaises coordonnées. En reliant des données exposées par plusieurs contributeurs, la qualité de l’ensemble s’enrichit.

    enrichissement = croisement (exposition)

    Dans le monde journalistique, l’information qui a de la valeur, est celle qui est vérifiée par recoupement puis qui est largement diffusée. Elle acquiert sa valeur lors de sa production parce que des croisements ont été effectués par les journalistes pour la valider, lui conférant ainsi un plus haut niveau de confiance. Elle acquiert encore de la valeur parce qu’elle a des lecteurs qui peuvent l’utiliser. Les données n’ont de valeur que parce qu’elles sont exploitables et exploitées.

    valeur des données = exploitation (enrichissement) + exploitation (publication)

    Ces exemples, que je pourrais multiplier, nous ont permis d’établir intuitivement que les données ont d’autant plus de valeur qu’elles sont accessibles, comprises, partagées, croisées et exploitables. Ces caractéristiques font système, elles forment un tout. Libérer seulement les données n’est pas suffisant. Convertir les données est inutile si on ne les partage pas, etc.

    Tout cela peut sembler si simple et évident. Et pourtant, paradoxalement, combien d’entreprises restent assises sur leur capital informationnel, un capital immatériel qui ne demande qu’a se matérialiser économiquement !

    C’est ici l’intuition qui est la base des élévateurs de données dont Datalift est le paradigme exemplaire.

    Le Web est probablement entré dans la phase de sa plus profonde transition. Après avoir été accessibles sur les ordinateurs personnels et avoir permis d’accéder à des documents liés par des hyperliens voulus par les rédacteurs, il a gagné rapidement en ubiquité en pénétrant chaque partie et chaque moment de nos vies en se faisant plus collaboratif. De nouveaux appareils et de nouveaux usages sont continuellement créés par des utilisateurs promus au rang d’acteur. Et l’omniprésence de l’Internet a créé également une abondance d’informations invisibles, mais non dénuées de valeur pour qui sait en tirer profit.

    Ces données circulent dans le Web. Elles y sont stockées, mais qui sait où et en combien d’exemplaires ? Elles sont aussi transformées, traitées, rediffusées. Créées par les utilisateurs, générées par des capteurs, stockées dans des fermes de données dont la croissance semble ne pas avoir de limite, les données peuplent ce web dynamique qu’on appelle web de données. Il est la métaphore d’une base de données distribuée et mondiale.

    Ces données n’ont de valeur qu’à condition que l’on puisse y accéder, les comprendre, les croiser et les enrichir pour enfin les partager et les exploiter. Ce sont là les 5 étapes du processus d’élévation de données, celui-là même qui est au cœur de Datalift.


    Big Data et Linked Data : le téra triple

    Les données liées appartiennent au monde du web des données dont les dimensions, déjà énormes, ne cessent de croître à un rythme supérieur à celui qu’on a observé pour le web des documents. Pour répondre à cette explosion, des architectes se sont mis à l’oeuvre et il existe désormais des triplestores dont la capacité de stockage a dépassé 10 puissance 12 triples (les anglais parlent de trillion, on utilise aussi le préfixe téra).

    Deux faits marquants sont à signaler:

    • AllegroGraph en août 2011, il y a juste un an, a déclaré avoir atteint le Téra triple. Ce sont exactement 1.009.690.381.946 triples qui ont été chargé en 338 heures (14 jours et 2 heures), soit une moyenne de 0.83 millions de triples par seconde.
    • La solution 5Store a aussi annoncé avoir franchi cette limite.

    Lorsqu’on atteint de tels ordres de grandeur, les solutions ne sont plus classiques. On n’est plus tranquillement en train de télécharger un triple store open source sur son ordinateur personnel. Les infrastructures sont des architectures puissantes.

    5Store a été conçu à partir de zéro pour des clusters pouvant aller jusqu’à 1000 machines et tenir à plus du Tt (Téra triple).

    D’autres triplestores s’approchent. OWLIM prétend être capable de gérer de 10 à 100 de milliards de triplets (entre 0.01 Tt et 0.1 Tt). La société Ontotex écrit : « OWLIM-Enterprise is a replication cluster infrastructure based on OWLIM-SE. It offers industrial strength resilience and linearly scalable parallel query performance, with support for load-balancing and automatic fail-over. »

    Dommage que la page du W3C consacrée aux grands triplestores ne soit pas mise à jour.


    WWW2012, présentation internationale de Datalift

    La semaine du 16 au 20 avril, la ville de Lyon est devenue la capitale mondiale du Web avec un évènement énorme : le WWW2012. Tout ce que web des données, alias web sémantique, alias web 3.0, se retrouve pour la grand’messe. On se retrouve entre amis, relations, collègues, geaks, web addicts !

    Mercredi 18 avril, je présente le projet Datalift toute la journée sur le stand d’Atos. Je décortiquerai ses composants, son architecture, son business model et répondrai aux questions. Ce sera aussi l’occasion rêvée de discuter avec un public concerné.

    La moitié du consortium Datalift est présent à Lyon. Je pense que ce doit être la même chose pour la plupart des autres grands projets actuels du web sémantique. Pour ceux qui ont le temps, Lyon est the place to be !


    Présentation de Datalift au GFII

    Le Groupement Français des Industries de l’Information organise mardi 13 décembre 2011 une journée d’étude sous le titre de « Introduction illustrée au web sémantique : réalités et perspectives » ?

    Ce séminaire mettra en perspectives les principes du web sémantiques à partir de réalisations concrètes et de travaux de recherche. Il s’adresse aux professionnels de l’information, aussi bien producteurs d’information, éditeurs, gestionnaires et utilisateurs finaux.

    Le projet Datalift sera présenté, notamment comme solution concrète de passage de l’Open Data au Linked Open Data, de la donnée brute à la donnée liée.

    De plus en plus d’administrations et d’entreprises ont à prendre en compte des données hétérogènes, non normalisées, produites par des acteurs de leur écosystème proche comme lointain.

    Dans ce contexte, le projet Datalift crée un système logiciel pour a) capter des jeux de données provenant de multiples sources internes et externes, notamment opendata b) les convertir à l’aide de vocabulaires (ontologies) c) afin d’obtenir leur équivalent exprimé dans les formats du web des données d) permettant alors leur enrichissement croisé et e) l’exploitation de cette nouvelle richesse.

    Tout nouveau jeu de données bénéficient de ceux déjà « liftés » et ceux-ci bénéficient de tout nouveau jeu entrant. Datalift, c’est le cercle vertueux dans le web des données.


    Opendata & Quality

    Cela fait un tour de temps que je navigue et observe ce qui est mis en ligne sous le nom d’Opendata. Bien sûr, ce sont des données, bien sûr elles sont mises à disposition, bien sûr il y a souvent une fiche de méta données plus ou moins complètes, et il y a même des portails qui s’organisent pour les mettre en catalogue … bref ce sont là des ingrédients qui disent que ce sont bien des données publiques répondant aux exigences d’un cahier des charges.

    Mais justement, parlons un peu de ce cahier des charges. Il y a comme une partie importante du problème qui est oubliée. Le jeu de données, le dataset, doit être intrinsèquement de qualité et cette qualité semble ne pas être clairement définie.

    Aujourd’hui, le dataset est de mieux en mieux défini extérieurement. Il a un nom, des dates (création, mise(s) à jour, péremption), des acteurs de référence (créateur, diffuseur, administrateur, etc.), une typologie (format, domaines, etc.) … mais si on veut travailler avec autrement que manuellement, là, ça se complique. En effet, que sait-on de sa qualité interne ?

    Or précisément, un bon dataset n’est-il pas fait pour être utiliser, pour permettre des nouveaux traitements, pour innover et servir à une entreprise, une organisation… Les gouvernements qui poussent à l’ouverture des données attendent qu’un développement économique effectivement en découle. Si les jeux de données ne sont pas exploitables, ou à des coûts trop élevés, ne risque t-on pas de perdre l’élan actuellement suscité ?

    Par exemple, un fichier produit par un traitement de textes a peu de chance de servir à quelque chose dans un dispositif de traitement automatique sauf si on a déjà l’application faite juste pour ce fichier. Avec un fichier PDF, c’est pareil … En fait, les bons formats, on les connait mais ils sont encore trop peu utilisés dans la publication de jeux de données ;-( On a encore du chemin à faire avant de trouver quelques datasets dans les formats du web des données (en RDF, N3,Turtle…) De fait, actuellement, les développements réalisés sur la base de datasets opendata sont pour grande part des travaux spécifiques de conversion de données.

    Un deuxième critère est l’utilisation d’un vocabulaire (ontologie) dans l’expression des données. C’est par ce moyen que les interconnexions de jeux de données deviennent possibles. (Pensez aux mashups).

    Un autre critère de qualité des données est leur exactitude. Par exemple, dans l’étude toute récente réalisée par des étudiants de l’Ecole des Ponts, on peut lire que « les données sur le système
    national de transports publics en Grande-Bretagne, mises en ligne en 2010, contenaient près de 6% de localisations d’arrêts de bus erronées ». Et ces inexactitudes n’ont pu être relevées que par des usagers.

    Une autre qualité est la fraîcheur du dataset. Actuellement, nombre de jeux de données ne semblent être exposés qu’a des fins de test et leur données ne sont pas mises à jour. Que vaut un dataset sur les prix du carburant dans telle région quand il a plus d’un an d’âge ?

    C’est grâce à des plateformes comme Datalift que les datasets actuels pourront être « élevés » pour devenir des objets du web des données. Le lifting des jeux de données permet en effet de satisfaire toutes ces exigences de qualité.

    1 – Publier dans un format dédié au traitement automatique des données : la plateforme automatise les processus d’élévation dans des formats du web des données.

    2 – Référer les données à un vocabulaire : les datasets contiennent des données, des valeurs. L’utilisation d’un vocabulaire (ontologie), c’est un peu comme donner une valeur avec son unité de mesure. Par exemple, c’est plus parlant de savoir que le « mur mesure 4m » plutôt que d’avoir seulement la valeur 4. La plateforme gère un catalogue de vocabulaires de référence.

    3 – Distinguer les données : c’est par exemple permettre de s’assurer que deux applications parlent bien de la même chose quand elles désignent un objet. Techniquement, c’est l’utilisation d’URI.

    4 – Vérifier l’exactitude des données : les datasets élevés dans des formats idoines peuvent être interconnectés et les incohérences peuvent être détectées (par exemple par inférence).

    5 – Rafraîchir les données : c’est un disposant d’une plateforme automatisant le lifting qu’on peut mettre à jour facilement les datasets qui dans le cas contraire nécessiteraient des manipulations manuelles et donc longues et onéreuses.

    La satisfaction de ces 5 qualités permet le passage effectif de l’Opendata au Linked Opendata.


    Quelle autorité pourra porter l’Opendata international ?

    Le mouvement est lancé, l’opendata commence à être compris d’un certain nombre d’acteurs de la scène publique. Au niveau d’une quarantaine de pays (voir mon post Opendata, une vision de la situation internationale), l’intérêt suscité se concrétise avec des réalisations plus ou moins significatives. Les plannings sont à peu près connus, et même si la crise frappe à nos portes, on travaille à mettre sur pied ce nouveau pan d’une économie imaginative et participée.

    Or, il me paraît de plus en plus évident que nous avons besoin de croiser nos Opendata respectifs dans un vaste LinkedOpendata. Quelles sont les conditions de son émergence ?

    a) Mettre en évidence et partager les bonnes pratiques

    Un travail très intéressant est en cours sur le site https://checklists.opquast.com/opendata/workshop/. Je vous invite à participer.

    b) Mettre au point les technologies de l’interconnexion

    Je ne peux que recommander la recherche effectuée dans le projet Datalift.

    c) Politiquement, ne faut-il pas aussi une méta-entité indépendante ?

    Ca y est, je rêve … Thomas More aurait bien écrit une page là-dessus, non ? Sérieusement, peut-on penser que les datasets de valeur et portée internationale ne devraient pas être publiés de façon supranationale ? D’ailleurs, nous avons déjà un exemple … wikipedia et son alter ego dbpedia ! Pas de régulation autre qu’une autorégulation, une crowdregulation ? Avez-vous des modèles à proposer ?


    Opendata, désordre d’URI ?

    Dans mon post d’hier, j’ai collectionné les URL des sites où de nombreux états commencent à publier leurs datasets opendata. Si on regarde bien les règles de nommage de ces URL, on s’aperçoit que le « DATA.GOV » a fait école puisque l’Angleterre a suivi avec son « DATA.GOV.UK » lequel a fait école puisque on trouve désormais des « DATA.GOV.xx » où xx est le pays comme au, ma, md et sg.

    Mais la grosse majorité a choisi de faire autrement. Dommage ! Cela aurait été une bonne façon de faciliter l’ouverture … Au lieu de cela, il faut avoir la bonne URL ou bien chercher, et cela peut prendre du temps.

    Ce sont les URI qui ne vont pas y trouver leur compte, donc le Linked Open Data. Au moment d’ouvrir ses données, pourquoi il n’y a pas de réflexion sur la liaison des données ?


  • Catégories

  • Calendrier

    novembre 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    252627282930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress