Tag: triple store

Comment utiliser plusieurs triplestores dans Datalift

En standard Datalift utilise deux triplestores

Le premier est le triplestore interne, celui où sont publiées toutes les sources converties en RDF. C’est le 3e étage de l’ascenseur de données Datalift. La vocation de cet espace est d’être utilisé pour les travaux intermédiaires. Le second est le triplestore externe, c’est dans celui-ci que sont publiées les données finalisées et donc prêtes pour être exploitées par les destinataires d’un projet d’élévation de données.

Détaillons un peu. Si vous devez relier plusieurs sources Open Data, vous commencerez par les ajouter comme sources dans un projet Datalift. Puis vous convertirez chacune d’elle en RDF et les publierez dans le triple store interne. Lorsque vous les aurez interconnectées pour produire un unique jeu de données liées, du linked data ou du linked open data, vous publierez ce résultat dans le triple store externe.

Cette dernière opération est réalisée en utilisant le module « Publication vers le RDF store public ».

On trouve dans le répertoire C:\Users\{vous}\AppData\Roaming\Datalift\conf, le fichier de paramètres « datalift-application.properties » où sont placées les caractéristiques de ces deux triplestores. Leurs noms sont réservés : « data » pour le triplestore public , « internal » pour le triplestore interne (ou privé). Il vous est possible de leur donner le libellé de votre choix. Par exemple :

internal.repository.label = Triple Store interne

Datalift permet aussi d’utiliser plus de deux triplestores

Attention : ceci est possible à partir de la version 0.8.1j.

Abordons cet aspect dans le cas où vous utilisez un PC sous Windows et des triplestores gérés par le Workbench de Sesame. C’est le cas standard si vous avez téléchargé Datalift (www.datalift.org) et ne l’avez pas modifié.

Commencez par récupérer le fichier « openrdf-workbench.war », il s’agit du war qui contient, comme son nom l’indique, le workbench de l’openRDF de Sesame. Dans le site http://rdf4j.org/ allez dans la section réservée au téléchargement de Sesame et prenez la version 2.7.3. Dans le fichier openrdf-sesame-2.7.3-sdk.zip obtenu, vous allez trouver, en le dézippant, le war recherché.

Maintenant, avant de lancer Datalift, placez le fichier « openrdf-workbench.war » dans le répertoire .\Datalift\webapps où se trouve déjà « datalift.war » et « openrdf-sesame.war ». Lancez maintenant Datalift.

Vous disposez ainsi de l’interface d’administration de Sesame et vous pourrez agir directement sur vos triplestores. Pour y accéder, l’URL locale est :

http://localhost:9091/openrdf-workbench/

Créer un nouveau triplestore

Vous allez maintenant pouvoir créer un nouveau triplestore.

  • Dans le navigateur, ouvrez la page http://localhost:9091/openrdf-workbench/
  • Cliquez « new repository »
  • Donnez le type « In Memory Store »
  • Cliquez sur Next
  • Donnez maintenant un nom au nouveau triplestore (par exemple « NewTS ») et un intitulé.
  • Laissez « Persist » à « Yes »
  • Donnez la valeur « 1000 » à « Sync Delay »
  • Cliquez sur Create

Paramétrer le nouveau triplestore

  • Allez dans le répertoire C:\Users\{vous}\AppData\Roaming\Datalift\conf
  • Ouvrez le fichier « datalift-application.properties »
  • Allez dans la section des repositories
  • A la ligne de la clef « datalift.rdf.repositories », ajoutez le nom du nouveau triplestore après une virgule.

Par exemple :

datalift.rdf.repositories       = data, internal, newtriplestore

  • Puis ajouter la clef repository.url de ce nouveau triplestore en lui spécifiant le nom que vous lui avez donné dans le workbench sesame.

Par exemple, avec l’ID donné plus haut, c’était NewTS,

newtriplestore.repository.url       = \

http://localhost:${datalift.port}/openrdf-sesame/repositories/ NewTS

  • Si ce doit être un triple externe, spécifiez-le comme ceci

newtriplestore.repository.public     = true

  • Et donnez-lui pour finir un intitulé, celui qui apparaîtra dans le SPARQL Endpoint de Datalift. Par exemple :

newtriplestore.repository.label     = Mon Store

Relancer Datalift

  • Stoppez et relancez Datalift
  • Veillez, le cas échéant, à bien vider le cache de votre navigateur.

Utilisation des Triples Stores internes

Datalift ne peut publier que dans un seul TS interne. En revanche, si vous avez plusieurs TS interne, vous pouvez requêter dans celui de votre choix en l’indiquant dans le SPARQL endpoint. Si vous souhaitez publiez dans un autre TS interne, vous devez stopper Datalift, modifier le fichier de configuration et redémarrer Datalift.

Utilisation des Triples Stores externes

Lorsque vous publiez une source dans un triple store externe, s’il y en a plusieurs, Datalift attend que vous indiquiez lequel. Comme pour les TS internes, vous pouvez requêter dans le TS externe de votre choix en l’indiquant dans le SPARQL endpoint.

Pour en savoir plus, pourquoi ne pas devenir membre de l’association Datalift et suivre la user-list ?

 


Un petit panorama des triplestores

Concepts élémentaires

Un triplestore (ou triple store) est une base de données destinée au stockage des données du web de données : les triplets. Ces derniers sont des déclarations dont la structure est invariablement de la forme de sujet-prédicat-objet, par exemple « Jean a 3 enfants », « Jean est marié à Marie ». Dans un triplestore, le format des triplets est celui de métadonnées RDF (Resource Description Framework).

Tout comme dans une base de données relationnelle classique, on stocke l’information dans un triplestore et on la récupère à l’aide d’un langage de requête. Mais contrairement à la base de données relationnelle, le triplestore est optimisé pour travailler en entrée et en sortie (stockage et récupération) de très nombreux triplets.

Performance

Certains triplestores peuvent stocker des milliards de triplets. La performance d’un triplestore peut être mesurée avec le benchmark (LUBM) de l’Université de Lehigh (Pennsylvanie) ou avec des données réelles d’UniProt (universal protein resource), la base de données sur les protéines.

La page du W3C LargeTripleStores donne une liste de triplestores remarquables pour leur performance.

Implémentation

Les moteurs de certains triplestores sont construits from scratch. D’autres sont réalisés au-dessus de moteurs de base de données existants. Dans ce cas, on peut profiter de la puissance des bases de données en n’apportant qu’un moindre effort pour créer le triplestore. On a ainsi des triplets RDF stockés dans MySQL, PostgreSQL, Oracle, etc.

Catalogue

L’ordre de présentation dans ce catalogue est simplement alphabétique. Si vous avez des informations qui manquent ou qui corrigent celles que je donne ici, merci de les laisser en commentaire en citant vos sources, merci.

  • 3store
    • Langage : C
    • Version actuelle :
    • Site : http://www.aktors.org/technologies/3store/
    • Base : MySQL based triple store
    • Perf : plus de 30 millions de triplets RDF
    • Réalisation : University of Southampton
    • Actualité : il semble qu’il n’y en a plus depuis 2007
  • 4store
    • Langage : C (ANSI C99), conçu pour s’exécuter sur des systèmes UNIX-like
    • Version actuelle : 4store-v1.1.1 le 31 janv. 2011
    • Site : http://www.4store.org/
    • Base : MySQL based triple store
    • Perf : à l’import, 120 kT/s (milliers de triplets par seconde) – requête SPARQL simple, 1 ms (ordre de grandeur)
    • Optimisé pour : shared–nothing clusters jusqu’à 32 noeuds, en lien avec un Ethernet gigabit
    • Réalisation : Garlik
    • Actualité : réalisation en 2009 de QDOS, un annuaire foaf
    • Licence : GNU General Public Licence, version 3
  • 5store
    • Langage : C
    • Version actuelle :
    • Site : http://4store.org/trac/wiki/5store
    • Base :
    • Perf : 1 TT, à l’import une vitesse moyenne de plus de 700kT/s sur un cluster de 10 noeuds a été observée
    • Optimisé pour : clusters de plus de 1000 machines
    • Réalisation : Garlik
    • Actualité : 5store et la suite logique du projet 4store
    • Licence :
  • AllegroGraph
  • ARC
    • Langage : PHP
    • Version actuelle : 2
    • Site : http://arc.semsol.org/
    • Base : MySQL
    • Perf :
    • Réalisation :
    • Actualité : ARC2 est une réécriture complète de ARC1.
    • Licence : GPL (version 2 et 3)
  • Bigdata (mise à jour 1.nov.2011)
  • BigOWLIM
    • Langage : Java
    • Version actuelle : 3.x
    • Site : http://www.ontotext.com/owlim
    • Base :
    • Perf : owl:sameAs optimisation
    • Réalisation :
    • Actualité :
    • Licence :
  • Jena
  • Joseki
    • Langage : Java
    • Version actuelle :
    • Site : http://www.joseki.org/
    • Base :
    • Perf :
    • Réalisation : Hewlett-Packard Development Company
    • Actualité :
    • Licence : LP All rights reserved
  • Mulgara
  • OpenAnzo
  • OntoBroker
  • Parliament
  • Pointrel System
    • Langage : Java, Python, Smalltalk
    • Version actuelle : 2.6.7.0 (2010.04.06)
    • Site : http://sourceforge.net/projects/pointrel/
    • Base :
    • Perf :
    • Réalisation : Open Source
    • Actualité :
    • Licence : GNU Library or « Lesser » General Public License version 3.0 (LGPLv3)
    • The Pointrel System is an RDF-like triple store implemented on the Java/JVM platform, supporting related social semantic desktop applications to create, use, exchange, and organize informational resources for a reasonably joyful and secure world.
  • RAP
    • Langage : PHP
    • Version actuelle : 0.9.6 (2008.02.29)
    • Site : http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/
    • Base :
    • Perf :
    • Réalisation : Open Source
    • Actualité : Je ne sais pas s’il y a des développements actuellement
    • Licence : GNU LESSER GENERAL PUBLIC LICENSE (LGPL)
  • RDF::Core
    • Langage : Perl
    • Version actuelle : 0.51 (2007.02.19)
    • Site : http://search.cpan.org/dist/RDF-Core/
    • Base :
    • Perf :
    • Réalisation : Open Source
    • Actualité : Je ne sais pas s’il y a des développements actuellement
    • Licence : MPL (Mozilla Public License) et GNU’s GPL
  • RDF::Trine
    • Langage : Perl
    • Version actuelle :
    • Site : http://www.perlrdf.org/
    • Base :
    • Perf :
    • Réalisation :
    • Actualité :
    • Licence :
  • RDFBroker
  • Redland
    • Langage : C
    • Version actuelle :
    • Site : http://librdf.org/
    • Base :
    • Perf :
    • Réalisation :
    • Actualité :
    • Licence :
  • RedStore
    • Langage : C et utilise la bibliothèque Redland
    • Version actuelle : 0.4 (2010.04.22)
    • Site : http://code.google.com/p/redstore/
    • Base :
    • Perf :
    • Réalisation : Open Source
    • Actualité :
    • Licence : GNU General Public License v3
  • Semantics Platform
  • SemWeb-DotNet
  • Sesame
  • Soprano
  • SwiftOWLIM
  • Talis
    • Langage :
    • Version actuelle :
    • Site : http://www.talis.com/platform/
    • Base :
    • Perf :
    • Réalisation :
    • Actualité :
    • Licence : Platform API published under a Creative Commons license that supports re-implementation of the API by other services and projects
  • Virtuoso
  • YARS
    • Langage : Java
    • Version actuelle : Release beta3 (2006-06-28)
    • Site : http://sw.deri.org/2004/06/yars/
    • Base :
    • Perf :
    • Réalisation :
    • Actualité : Visiblement aucune actualité
    • Licence : de type BSD

Sources :


  • Catégories

  • Calendrier

    novembre 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    252627282930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress