sémantique

Aide à la traduction de l’arménien classique avec DataLift (2)

Pour combler une partie des manques du premier dictionnaire utilisé, j’ai traduit et ajouté le glossaire qu’Antoine Meillet donnait en 1913 à la fin de son fameux Altarmenisches Elementachbuch. J’ai opté pour une structure très simple : le mot et sa définition.

Nous avons donc maintenant 4 jeux de données :

ahv : livre, chapitre, rang, mot
lemme : mot, lemme, analyse
dict : source, uri, mot, prononciation, traduction
meillet : mot, definition

Dans la requête suivante, la clause UNION permet de prendre en compte les deux dictionnaires, les BIND permet de ramener les résultats sur une même variable :

PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/ahv-csv-rdf-1#>
PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemme-csv-rdf-1#>
PREFIX P-DICT: <http://localhost:9091/project/armenien/source/dict-hy-fr-csv-rdf-1#>
PREFIX P-MEILL: <http://localhost:9091/project/armenien/source/meillet-csv-rdf-1#>

SELECT ?rang ?mot ?traduction {
?s1 P-TEXTE:mot ?mot;
P-TEXTE:chapitre "ch1.2";
P-TEXTE:rang ?rang.

OPTIONAL {
?s2 P-LEMME:mot ?mot;
P-LEMME:lemme ?lemme;
P-LEMME:analyse ?analyse.

{ ?s3 P-DICT:mot ?lemme;
P-DICT:traduction ?trad1.
BIND (concat("C: ",?analyse," ",?trad1) as ?traduction)
} UNION
{ ?s4 P-MEILL:mot ?lemme;
P-MEILL:definition ?trad2.
BIND (concat("M: ",?trad2) as ?traduction)
} }

}
ORDER BY ?rang
LIMIT 35

Les 35 premiers résultats sont :

1,արդ,"C: adv. 1) or conj., 2) maintenant adv."
1,արդ,M: (§ 171); tout à l'heure; maintenant; or; donc.
1,արդ,M: -ոյ forme; ornement.
2,իւրով,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
3,արեամբն,C: noun.ins.sg.def. sang nm.
3,արեամբն,M: -եան sang; αἷμα.
4,փրկեցելոյ,
5,զմեզ,M: (pronom; § 75); nous.
6,տեառն,"C: noun.gen.dat.sg. maître, seigneur, propriétaire nm."
6,տեառն,M: տեառն instr. տերամբ; nom. pl. տեարք; § 59 h; seigneur; κύριος (habituellement abrévié ՟տր [ պատիւ; § 26; rem. 4]; lorsqu'il s'agit de Dieu – de տի-այր ; cf. տի-կին).
7,եւ,C: conj. et conj.
7,եւ,M: (§ 164); aussi; et; même.
8,տուեալ,"C: verb.pfv.nom.acc.sg. 1) belle-soeur nf. 2) donner, livrer, offrir vt."
9,զհոգին,"C: noun.nom.acc.sg. 1) esprit nm., âme nf., 2) personne nf."
9,զհոգին,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
10,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
11,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
11,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
11,փոխանակ,M: emprunt (cf. փոխեմ).
12,հոգւոյս,"C: noun.gen.dat.abl.sg.poss1. 1) esprit nm., âme nf., 2) personne nf."
12,հոգւոյս,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
13,մերոյ,C: pron.adj.gen.sg. notre adj.
13,մերոյ,M: (adj. poss. § 72); notre.
14,եւ,C: conj. et conj.
14,եւ,M: (§ 164); aussi; et; même.
15,զմարմինն,C: noun.nom.acc.sg. corps nm.
15,զմարմինն,M: մարﬓոյ corps; chair; σῶμα.
16,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
17,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
17,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
17,փոխանակ,M: emprunt (cf. փոխեմ).
18,մարմնոյս,C: noun.gen.dat.abl.sg.poss1. corps nm.
18,մարմնոյս,M: մարﬓոյ corps; chair; σῶμα.
19,մերոյ,C: pron.adj.gen.sg. notre adj.
19,մերոյ,M: (adj. poss. § 72); notre.


Tokenisation de l’arménien classique

Voici un petit programme que j’ai réalisé, il prend en entrée un texte écrit en caractères arméniens (en unicode) et en réalise la tokenisation (ou normalisation), voir mon article sur ce sujet.

Seuls les caractères arméniens sont conservés, c’est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d’interrogation arménien), le badiv ՟ (signe d’abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l’Âge d’Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d’une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu’à en faire un fichier CSV. (C’est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par le tableur de Libre office, d’Open Office, celui de Microsoft etc.

Lien pour l’outil de tokenisation de l’arménien.


  • Catégories

  • Calendrier

    mai 2017
    L M M J V S D
    « Avr    
    1234567
    891011121314
    15161718192021
    22232425262728
    293031  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress