Je me suis demandé combien de temps cela me prendrait de faire une analyse grammaticale … Ca ne m’a pris que 10 minutes. Voici comment (et vous pourrez vous y essayer aussi).

  1. Installer Datalift, il suffit de télécharger Datalift ici et de le deziper
  2. Vous créez un projet, appelons-le « armenien »
  3. Vous ajoutez la première source, ce sera un texte arménien tokennisé (voir mon post précédent sur la tokennisation de l’arménien). Là j’ai choisi la préface du livre V de l’Adversus Haereses d’Irénée de Lyon (voir le post où je l’ai posté). Avec le tokenniseur, j’ai créé un CSV avec 3 colonnes (chapitre ; rang ; mot). Je l’ai appelé : preface.csv
  4. Vous ajoutez la deuxième source, là j’ai pris mon CSV de lemmisation. Il a 3 colonnes aussi (mot ; lemme ; analyse). Je l’ai appelé : lemmisation.csv
  5. Vous élevez les deux jeux de données pour en faire des sources RDF. Pour l’élévaton de preface.csv, j’ai demandé le changement de type de la colonne « rang » pour que son contenu soit des entiers. J’ai donc obtenu ainsi : preface-csv-rdf-1 et lemmisation-csv-rdf-1
  6. Il ne reste plus qu’à interconnecter. J’ai écrit la requête d’interconnexion suivante :
    PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemmisation-csv-rdf-1#>
    PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/preface-csv-rdf-1#>

    SELECT ?rang ?mot ?lemme ?analyse WHERE {
    ?s P-TEXTE:mot ?mot;
    P-TEXTE:rang ?rang.
    ?s2 P-LEMME:mot ?mot;
    P-LEMME:lemme ?lemme;
    P-LEMME:analyse ?analyse.
    }
    ORDER BY ?rang

  7. J’ai opté pour une sortie en CSV. Je vous recopie les premières lignes

    rang,mot,lemme,analyse
    2,սիրելի,սիրել,verb.pot.nom.acc.loc.sg.
    3,ամենայն,ամենայն,pron.nom.acc.sg.
    5,ի,ի,prep.
    6,չորս,չորք,num.acc.loc.pl.
    7,գիրս,գիր,noun.acc.loc.pl./nom.acc.sg.poss1.
    8,յառաջ,յառաջ,adj.
    9,քան,քան,conj./prep.
    10,զայս,այս (սա),pron.acc.sg.
    11,քեզ,դու,pron.acc.dat.sg.
    12,առաքեալս,առաքել,verb.pfv.acc.loc.pl./nom.acc.loc.sg.poss1.
    13,ի,ի,prep.
    14,մէնջ,մեք,pron.abl.pl.
    15,եւ,եւ,conj.
    17,նոցա,նա,pron.gen.dat.abl.pl.
    18,յայտնի,յայտնի//յայտնել,adj.nom.acc.loc.sg.//verb.pres.3per.sg.pass.
    19,երեւեցելոց,երեւել,verb.pfv.gen.dat.abl.pl.
    20,եւ,եւ,conj.

Et voilà, le tour est joué ! Chaque ligne commence par le rang du mot analysé dans le texte de départ. Vous voyez ainsi que le premier mot n’est pas présent. Cela signifie tout simplement que cette forme du mot n’est pas renseigné dans mon lemmisateur. Le 16e est dans le même cas.

Voilà à quoi peut servir Datalift, dans le monde de la linguistique.