web sémantique

Opendata, désordre d’URI ?

Dans mon post d’hier, j’ai collectionné les URL des sites où de nombreux états commencent à publier leurs datasets opendata. Si on regarde bien les règles de nommage de ces URL, on s’aperçoit que le « DATA.GOV » a fait école puisque l’Angleterre a suivi avec son « DATA.GOV.UK » lequel a fait école puisque on trouve désormais des « DATA.GOV.xx » où xx est le pays comme au, ma, md et sg.

Mais la grosse majorité a choisi de faire autrement. Dommage ! Cela aurait été une bonne façon de faciliter l’ouverture … Au lieu de cela, il faut avoir la bonne URL ou bien chercher, et cela peut prendre du temps.

Ce sont les URI qui ne vont pas y trouver leur compte, donc le Linked Open Data. Au moment d’ouvrir ses données, pourquoi il n’y a pas de réflexion sur la liaison des données ?


Opendata, une vision de la situation internationale

Difficile de dresser une carte internationale de l’Opendata, mais en fouillant bien … dans ce monde encore à organiser (vivement que Datalift soit opérationnel !), on peut réussir à extraire de quoi satisfaire la curiosité des ouvreurs de données et autres « philodates ».

Vous serez étonnés de voir certains pays être très en avance et d’autres à la traine …

Au 6 juillet 2011, voici ce que j’ai récolté. N’hésitez pas à m’envoyer des compléments et vos remarques !

  1. Allemagne ; 0 datasets – C’est la ville de Berlin qui avance le premier pion … on réfléchit
  2. Angleterre ; 5138 datasets primaires; 2012 datasets secondaires – Pionnier, après les Etats-Unis
  3. Australie ; 1240 datasets
  4. Autriche ; 0 datasets mais on en se prépare
  5. Canada ; 801 datasets
  6. Catalogne ; quelques datasets
  7. Danemark ; 0 datasets – et aussi http://data.digitaliser.dk/
  8. Espagne ; 0 datasets – voir aussi Catalogne et Pays basque
  9. Estonie ; 0 datasets – Le projet se met en place
  10. Etats-Unis ; 3301 datasets – Le pionnier !
  11. Finlande – Région d’Helsinki : 2011, un environnement de test ; 2012, ouverture du service
  12. France ; 0 datasets – On commence par Etalab … puis viendra data.gouv.fr – En France, ce sont les villes de Rennes et Paris qui ont exposé les premiers datasets
  13. Grèce Un premier effort pour libérer les données géospatiales disponibles
  14. Hong Kong ; 0 datasets – Annonce faite le 31 mars 2011
  15. Irlande ; 75 datasets
  16. Irlande du Nord ; 6 datasets
  17. Italie ; 220 datasets – et ses régions : Piémont ; 230 datasets ; Portail italien et Datasets italiens référencés
  18. Kénya ; 164 datasets
  19. Maroc ; 24 datasets
  20. Moldavie ; 132 datasets
  21. Norvège ; 11 datasets
  22. Nouvelle Zélande ; 594 datasets
  23. Pays basque ; 1630 datasets
  24. Pologne ; 0 datasets – Annonce le 9 juin 2011 du gouvernement polonais
  25. Russie ; 5 datasets
  26. Singapour ; 5978 datasets
  27. Suède ; 20 datasets
  28. Thaïlande ; 26 datasets
  29. Timor-Leste (oriental) ; manque d’info, mais il semble qu’il y ait déjà un projet

Organiser le web des données

Qui sera le google du web des données ?

Le web des données s’organise. Tout le monde en parle, et plusieurs solutions émergent de ci de là. Mais qu’est-ce que cela veut dire que le web des données s’organise ?

  • Du côté des données
    • Les données sont-elles plus organisées (au niveau de la donnée elle-même) ?
    • Les ensembles de données (dataset) sont-ils mieux organisés ?
    • Les regroupements d’ensemble de données (data.dot) sont-ils rationnellement structurés ?
    • Des standards sont-ils reconnus et appliqués significativement ?
  • Du côté des outils
    • Les outils de manipulations de données sont-ils diffusés et utilisés largement ?
    • Les ontologies sont-elles partagées massivement ?
    • Les alignements sont-ils monnaie courante ?
    • Les rdfisations et autres triplisarions sont-elles disponibles ?
    • L’interconnexion des données a-t-elle cours ?
    • Les solutions open source de bout en bout sont-elles téléchargeables ?
    • Les sites d’hébergement sont-ils opérationnels ?
  • Du côté des utilisateurs
    • Est-ce que les enjeux du web des données sont compris ?
    • Les formations universitaires et les écoles d’ingénieur prennent-elles en compte le web des données ?
    • Les entreprises ont-elles des projets dans le web des données ?
    • Les délivreurs de données ouvertes (open data) ont-ils délivré leurs données ouvertes ?
  • Du côtés des usages
    • Est-il facile d’obtenir des données (pas des données brutes bien sûr) ?
    • Est-il facile d’utiliser des données ?
    • Est-il facile de partager des données ?
    • Commence-t-on à utiliser le web des données comme Monsieur Jourdain ?

    Les questions sont nombreuses et je pourrai en ajouter. Globalement, les choses avancent … et il y a du travail pour tous. Comme toujours, les premiers qui auront investi dans ce vaste monde en tireront le meilleur. Y aura-t-il beaucoup de places dans ce web ? Dans le web des documents, c’est Google qui a mangé le gâteau en offrant le moteur de recherche, l’outil qui organise le web des documents.

    Ma question est simple : qui sera le google du web des données ? (et je ne veux pas dire que la solution est d’apporter un moteur de recherche pour le web des données)


  • Sémantiser des données brutes

    Quand on veut se lancer dans le monde du Web des données (alias Web sémantique ou Web 3.0, mais sincèrement il vaut mieux parler de Web des données), le plus simple est de partir de ses données, en commençant par celles qui sont structurées. Prenez donc parmi vos feuilles de calcul, vos documents XML, vos bases de données, etc.

    Trouver des vocabulaires (des ontologies) existants qui se rapportent au domaine de vos données ou créer vos vocabulaires. Vous pouvez utiliser

    Il faut alors utiliser des « convertisseurs » pour transformer les données initiales en données sémantisées. Des bibliothèques commencent à se constituer. Elles sont très inégales.

    Dans tous les cas, avancer de façon agile, c’est à dire mesurée. Cela vous donnera des idées …

    Le projet de recherche et développement DataLift réalise une infrastructure open source dont les premiers étages sont consacrés 1) à la sélection d’ontologie et 2) à la conversion.


    Du Web 2.0 pour anticiper le Web 3.0

    Jeudi 19 mai 2011, je suis invité par sparklingPoint pour débattre de l’émergence du Web sémantique dans le monde de l’entreprise. SparklingPoint est une communauté d’échange d’expériences sur les technologies de l’information.

    Je suis intéressé par le phénomène et l’usage qui, tous les deux, informent nos décisions d’adhérer ou de refuser le 3.0. Je suis persuadé que l’ouverture des données est une chance. Mais adviendra-t-elle ? Comment ? A quelles conditions ?


    La réutilisation des données publiques, ça bouge

    Le monde anglo-saxon s’est déjà engagé dans cette voie depuis quelques années. Tout le monde observe, on s’interroge. Les questions sont techniques, organisationnelles, économiques, normatives… et tout simplement pratiques.

    Et il y a des réponses :

    • techniques : le web des données, l’open data, les bases non SQL, des projets comme Datalift, etc.
    • organisationnelles : la création d’agences, de portails comme Data Publica, etc.
    • économiques : pour l’instant, ce sont essentiellement les états qui financent, les réutilisateurs privés attendent du gratuit
    • normatives : le W3C a déjà produit un important travail
    • pratiques : les usages se cherchent encore, mais des mashups intéressants montrent des pistes prometteuses

    En France, après l’APIE, nous avons depuis une semaine Etalab qui font suite à des initiatives locales avant-gardistes à Rennes et Paris. Ca bouge aussi à Nantes, Bordeaux, Toulouse, Marseille, Montpellier, Toulon, Le Havre …

    Des conférences sont proposées sur le sujet par différentes organisations, comme par exemple :


    Quelques données chiffrées sur des datasets du Linking Open Data

    On me demande souvent des chiffres sur ces fameux datasets qui commencent à peupler le LOD (Linking Open Data). Voici donc quelques statistiques sur des ensembles de données disponibles :

    Voici une requête SPARQL qui permet d’interroger le data.gov américain :

    PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
    SELECT ?g ?number_of_triples
    WHERE
    {GRAPH ?g
    {
    ?s a <http://data-gov.tw.rpi.edu/2009/data-gov-twc.rdf#Dataset> .
    ?s <http://data-gov.tw.rpi.edu/2009/data-gov-twc.rdf#number_of_triples> ?number_of_triples.
    filter ( regex( str(?g) , "Dataset") )
    }
    }
    order by ?g

    Télésanté, web des données, web des objets et Grand emprunt

    Je complète mon post précédent « Datalift et le développement de la télésanté » en relevant certains passages du rapport de Pierre Lasbordes, Député de l’Essonne.

    « L’effort supplémentaire financé par le Grand emprunt pourrait porter sur 1,5 à 2 milliards€ destinés à financer l’amorçage du déploiement de la télésanté (infrastructures, financement d’une partie des projets pilotes confiées aux ARS, transformations des organisations et des pratiques et accompagnement, du changement, aides à la structuration de la filière industrielle (produits et services), réamorçage des projets de recherche et développement dédiés à la télésanté intégrant les apports des nouvelles technologies de communication (web 2.0, web des objets, web sémantique, interface homme/machine conviviaux, capteurs, nanotechnologies, sécurité et sûreté…) et des avancées dans le traitement des grandes pathologies cibles (diabète, cancers, obésité, insuffisances cardiaque et respiratoire…). Les gains de productivité et de qualité obtenus par la télésanté ont vocation à financer la généralisation au-delà des phases pilotes et les frais de fonctionnement. »
    Page 33

    « Cependant, si de nombreuses expérimentations ont été déployées localement pour résoudre des problématiques de soutien de populations isolées, notamment insulaires, il faut constater que les applications de la télésanté (réseau à haut débit, Internet, communications mobiles, PAD hier – très haut débit, Internet des objets, nanotechnologies, Internet sémantique demain) ont progressivement envahi la plupart des champs de la santé que ce soient en termes de pathologies, de mode opératoire, de cycle de vie de la prévention au suivi thérapeutique en passant par l’aide au diagnostic. Il est généralement admis que les nouvelles pratiques introduites à l’instar des grands pays modernes par la télésanté deviendront vraisemblablement incontournables et que la médecine de demain intégrera de manière native et naturelle l’ensemble de ses composants. Il devient impératif de s’engager maintenant, à l’instar des grands pays développés, et de la manière la plus volontaire sur un développement qui conditionne notre santé de demain et celles des générations futures »
    Pages 38-39

    « La majorité des technologies sont d’ores et déjà disponibles et les apports majeurs des nanotechnologies, de l’interactivité du web 2.0, de l’Internet sémantique et des objets vont élargir de manière considérable le spectre des usages potentiels de la télésanté. Les industriels n’ont que quelques blocages à lever comme notamment les adaptations nationales de leurs offres, l’intégration et l’interopérabilité avec les systèmes existants, une ergonomie masquant les aspects techniques pour le patient, l’émergence de plates-formes de services intégrés… »
    Page 96

    « La couche « sémantique » existe hors informatique : elle concerne la compréhension des données elles-mêmes par les applications – puis les êtres humains. Elle pose le problème de la langue, des nomenclatures et des codes pour identifier les affections, les traitements, les équipements… Si l’interopérabilité sémantique n’est pas possible, les applications qui travaillent finement sur les données ne peuvent être mises en œuvre et les humains doivent intervenir. »
    Page 115

    « Les codes, les nomenclatures et les sémantiques
    Il s’agit du niveau le plus complexe et le plus difficile, parce qu’il exige des accords au sein de communautés importantes et la gestion de grands référentiels, dans un domaine où les techniques évoluent rapidement. Il faut en outre prendre en compte, pour les échanges, le fait que les acteurs utilisent les codes en fonction de leurs besoins propres : c’est ce qui explique la multiplicité des nomenclatures médicamenteuses ou même le fait qu’on ait pour la médecine, la CIM-10 qui serve pour la T2A, en même temps que se développent de grands référentiels internationaux comme la classification SNOMED (106 000 concepts) ou l’ontologie SNOMED-CT (330 000 concepts) qui visent à identifier l’ensemble des concepts de la médecine. »
    Page 116

    « La recherche et développement des industriels
    Les industriels doivent s’impliquer dans les projets au sein desquels leur savoir faire est immédiatement utilisable. (…) tant dans le domaine médical (un des axes majeurs du SNRI et des propositions du Ministère de l’enseignement supérieur et de la recherche pour le Grand emprunt) que dans le domaine numérique (Web 3.0, Web des objets, Web sémantique, nanotechnologies, interfaces hommes/machines, encryptage…). Les pôles de compétitivité (notamment Medicen, System@tic, Images et réseaux, Capdigital…) et les grands organismes de recherche (CEA, CNES, INRIA, INSERM…) doivent encourager le développement de projets compétitifs associant des expertises issues d’industries et de taille d’entreprises très différentes en apportant structure d’accueil, expertises en termes de recherche et développement, compétences en matière de montage et de pilotage de projets multidisciplinaires.
    Pages 128-130

    Quels seront les résultats des projets lauréats du Grand Emprunt ? Est-ce que la médecine en sera transformée ? Dans quelle mesure ? Le patient sera mieux soigné, mieux pris en compte ?

    Il est certain qu’il y a là les prémices d’un bouleversement …


    Datalift et le développement de la télésanté

    Télésanté et télémédecine se distinguent maintenant nettement. On ne peut plus les confondre.

    Télésanté : ce sont des moyens techniques qui permettent le suivi à distance de patients à domicile. Ces outils ne demandent pas l’expertise d’un personnel spécialisé, le patient s’en sort tout seul. On pense par exemple au thermomètre, à la balance médicalisée, etc. La particularité de ces équipements est qu’ils communiquent avec un professionnel de la santé qui saura interpréter toutes les informations et prendre des décisions en fonction. En permettant la transmission à distance (merci Internet), la télésanté améliore la qualité de la prise en charge des patients.

    Télémédecine : Quand il s’agit d’établir un diagnostic, d’assurer un suivi à visée préventive ou post-thérapeutique, etc. d’un patient qui ne peut pas se rendre chez le personnel de santé ou réciproquement lorsque le personnel de santé ne peut pas se rendre chez le patient, il existe aujourd’hui une solution : la télémédecine. C’est ainsi, par exemple, que dans des pays vastes et très peu peuplés, la médecine générale « classique » est difficilement praticable. Avec la téléconsultation, un médecin peut être en mesure d’agir à distance. La télémédecine comprend encore ce qu’on dénomme la téléassistance et la téléchirurgie.

    Le développement de la télésanté est lié à l’apparition de nouveaux matériels communiquant, il ne se passe pas une semaine sans de nouvelles annonces, et à la création d’infrastructure technique pour gérer les données et leurs communications. Le web des données et le web des objets sont particulièrement concernés. C’était le propos que je défendais le 19 octobre 2010 à la journée organisée à l’Ecole Télécom ParisTech à Paris par la Fondation Motrice « Quand les objets communicants & intelligents se mettent au service de la santé et du handicap ». Mon intervention, sous le titre de « Infrastructure sémantique pour objets communicants, web de données et télémédecine » (au passage, il faut noter que le titre devrait être « Infrastructure sémantique pour objets communicants, web de données et télésanté »).

    Recherche et Développement, innovation sont sollicitées pour apporter des solutions concrètes. Tout le monde attend ! Plusieurs petites sociétés apportent des réponses pertinentes. Il faut aussi, sans retard, que toutes ces offres se structurent et que l’interopérabilité soit au rendez-vous pour éviter un phénomène de fragmentation, de dispersion, dont la première victime serait, outre le patient, le système de santé lui-même.

    Infrastructure du web des données. Des projets comme Datalift vont apporter des réponses tangibles dans le domaine du web des données. La télésanté a besoin que des ontologies se définissent et s’alignent pour que les données du diagnostic s’interconnectent : le médecin aura alors à sa disposition l’ensemble des informations et pourra prononcer son diagnostic avec le minimum de risque.

    Annexe

    Le rapport Lasbordes fait 15 recommandations (15 oct. 2009) :

    1- Concrétiser l’engagement pour la télésanté par un déploiement pluriannuel régional de projets pilotes
    2- Réduire la fracture territoriale sur le plan médical et médico-social
    3- Mettre en place des services de télésanté pour favoriser le maintien à domicile et accompagner la sortie d’hospitalisation
    4- Offrir un meilleur usage de la permanence des soins notamment l’accès aux urgences
    5- Mobiliser la télésanté au service des handicapés et des personnes âgées dépendantes
    6- Ouvrir les établissements pénitentiaires à la télésanté
    7- Sécuriser et responsabiliser les acteurs par la mise en place d’un nouveau cadre juridique
    8- Définir de nouveaux modes de rémunération maîtrisés
    8- Labelliser les services et les produits et accréditer les prestataires
    9- Former tous les professionnels de santé, les professionnels médico-sociaux et les aidants
    10- Ouvrir un portail « grand public » d’information sanitaire, médicale et médico-sociale
    11- Mettre en oeuvre une politique industrielle incitative et innovante
    12- Améliorer l’observance médicale et développer l’éducation thérapeutique des patients
    13- Sélectionner les investissements productifs
    14- Lancer un plan de communication national pour informer et générer l’intérêt et la confiance.
    15- Lancer un plan de communcation national pour informer et générer l’intérêt et la confiance


    Comment définir une ontologie ?

    Pour faire simple

    Une ontologie est une façon de partager des connaissances entre l’homme et la machine, celle-ci  en permet le traitement.

    Ces connaissances sont un ensemble structuré de concepts (sous la forme d’une hiérarchie ou d’un graphe). Les concepts manipulés peuvent être des choses, des événements, des relations, etc.

    Mais vous voulez peut-être en savoir plus …

    Le Web de données, alias Web 3.0, alias Web sémantique, n’est plus un sujet de pure recherche. Déjà en 1999, Tim Berners-Lee expliquait que « le Web Sémantique est une extension de l’Internet où les informations sont définies sémantiquement afin de faciliter le partage et la coopération ». Aujourd’hui, on voit de plus en plus de projets, et les responsables informatiques et les décideurs des entreprises ou des administrations se renseignent pour comprendre les promesses de ce nouveau continent et envisager ce que leur système d’information y gagnera. Mais les premières difficultés rencontrées sont le vocabulaire et les concepts qu’il faut manipuler. Les oeuvres de vulgarisation sont encore peu nombreuses, il y a encore beaucoup à faire …

    Dans ce billet, il est question d’ontologie. Je vais donner quelques définitions, à différents niveaux, de cet objet particulier et central dont le seul mot déjà peut rebuter.

    Si vous êtes passés par Wikipedia, vous aurez vu qu’il y a bien d’autres acceptions : philosophique, médicale ou géopolitique. Le vocabulaire est bien chargé ! Pour autant, vous allez voir que ce n’est pas si terrible que ça. Wikipedia propose une page intéressante sur l’ontologie, au sens du Web de données ; la page anglaise est plus fournie encore. La visite d’autres sites spécialisés, comme par exemple celui du CNTRL, ne donne en revanche aucune définition sur notre sujet.

    On trouve aussi de bonnes synthèses (en français), comme celles de Benoit Lavoie ou de Gautier Poupeau.

    A – En 1993, Tom Gruber donne la célèbre définition suivante “An explicit specification of a conceptualisation” (une ontologie est une spécification explicite d’une conceptualisation). Cette définition a la vertu d’être courte, mais elle laisse sur sa fin lecteur d’aujourd’hui compte-tenu des développements du Web de données.

    B – En 2003, Sean Bechhofer, Ian Horrocks and Peter F. Patel-Schneider définissent l’ontologie comme un artefact de l’ingénierie

    • constituée par un vocabulaire spécifique, elle est utilisée pour décrire une certaine réalité
    • et un ensemble d’hypothèses explicites sur le sens voulu du vocabulaire.

    Ainsi, une ontologie décrit une spécification formelle d’un certain domaine

    • elle en est une compréhension partagée
    • et un modèle formel et manipulable par une machine.

    C – La définition de l’IEEE (2003)

    Une ontologie est semblable à un dictionnaire ou un glossaire, mais avec plus de détails et une structure qui permettent aux ordinateurs de traiter leur contenu. Une ontologie se compose d’un ensemble de concepts, d’axiomes, et de relations qui décrivent un domaine d’intérêt.

    D – En 2007, le même Tom Gruber précise.

    Dans le contexte de l’informatique et des sciences de l’information, une ontologie définit un ensemble de primitives de représentation pour modéliser un domaine de connaissance.

    Les primitives de représentation sont généralement

    • des classes (ou des ensembles),
    • des attributs (ou des propriétés),
    • et des relations (ou des liens qui relient des éléments de classe)

    Les définitions des primitives de représentation incluent

    • des informations sur leurs significations
    • et des contraintes sur leurs applications, qui doit être logiquement cohérente.

    Dans le contexte des systèmes de base de données, l’ontologie peut être considérée

    • comme un niveau d’abstraction des modèles de données, analogue aux modèles hiérarchiques et relationnels,
    • mais destinée à la modélisation des connaissances sur les individus, leurs attributs et leurs relations avec d’autres individus.

    Les ontologies sont généralement décrites dans les langages qui permettent l’abstraction indépendamment des structures de données et des stratégies de mise en œuvre. En pratique, les langages de description des ontologies ont une puissance expressive plus proche de la logique du premier ordre que celle des langages utilisés pour les modèles de bases de données. Pour cette raison, on dit des ontologies qu’elles sont de niveau « sémantique », tandis que les schémas de bases de données sont des modèles de données de niveau «logique» ou «physique».

    Du fait de leur indépendance par rapport aux modèles de données de niveau inférieur, les ontologies sont utilisées pour l’intégration de bases de données hétérogènes, permettant une interopérabilité entre des systèmes disparates, et la spécification d’interfaces de services indépendants de la connaissance. Dans le stack technologique des standards du Web sémantique, les ontologies représentent explicitement une couche.

    E – Kore Nordmann (2009)

    Les ontologies sont un concept théorique en sciences de l’information destiné à représenter formellement des connaissances dans un logiciel capable de les traiter et de raisonner avec. Souvent aussi la lisibilité pour l’homme est un aspect central.

    F – Pour faire simple, suite (2010)

    Si je reprends ce que j’écrivais au début de cette page et que je complète un peu à l’aide des autres définitions que nous avons maintenant parcourues, on peut esquisser ceci :

    Une ontologie décrit généralement des

    • individus : des objets de base,
    • classes : des ensembles, des collections ou des types d’objets,
    • attributs : des propriétés, des fonctionnalités, des caractéristiques ou des paramètres que les objets possèdent et partagent,
    • relations : des liens qui relient  les objets,
    • événements : des changements qui affectent des attributs ou des relations.

    Ces descriptions sont la formalisation d’un ensemble de connaissances exprimées dans un langage

    • compréhensible par un humain
    • et qui peut être traité par un logiciel à des fins de raisonnement.

    La formalisation d’une ontologie en structure les termes et les concepts à l’aide d’un graphe où les relations sont

    • des relations sémantiques,
    • des relations d’inclusion (subsomption).

    L’ontologie est donc la spécification explicite d’une conceptualisation … Nous avons retrouvé la définition donnée par Tom Gruber en 1993 !

    Concluons

    Les définitions sont nombreuses et couvrent parfois des aspects différents. A l’évidence, il n’existe pas une seule bonne définition. Il faut donc y voir la marque d’une richesse que confirme la difficulté de créer une ontologie. Mais c’est là un autre sujet ! Il existe aujourd’hui plusieurs langages standard pour décrire une ontologie. La gamme d’outils commerciaux ou open source se développe. Ce seront les thèmes de prochains billets. A suivre …


  • Catégories

  • Calendrier

    avril 2024
    L M M J V S D
    « Mai    
    1234567
    891011121314
    15161718192021
    22232425262728
    2930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress