sémantique

Trouver des synonymes

Quand je cherche des synonymes, j’utilise les services de trois sites :

  • le Dictionnaire Électronique des Synonymes (DES) auquel est adossé un espace sémantique très intéressant (prendre celui qui est en test),
  • le site synonymo.fr qui donne aussi les antonymes,
  • le site synonymes.com qui offre aussi d’autres outils,
  • et le CNTRL qui offre le plus de services avec antonymes, morphologie, lexicographie, étymologie, proxémie et concordance.

Ces services sont très utiles lors du développement de taxonomies, thésaurus ou ontologies car ils permettent de foisonner, mais aussi d’éviter des ambiguïtés.


Aide à la traduction de l’arménien classique avec DataLift (2)

Pour combler une partie des manques du premier dictionnaire utilisé, j’ai traduit et ajouté le glossaire qu’Antoine Meillet donnait en 1913 à la fin de son fameux Altarmenisches Elementachbuch. J’ai opté pour une structure très simple : le mot et sa définition.

Nous avons donc maintenant 4 jeux de données :

ahv : livre, chapitre, rang, mot
lemme : mot, lemme, analyse
dict : source, uri, mot, prononciation, traduction
meillet : mot, definition

Dans la requête suivante, la clause UNION permet de prendre en compte les deux dictionnaires, les BIND permet de ramener les résultats sur une même variable :

PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/ahv-csv-rdf-1#>
PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemme-csv-rdf-1#>
PREFIX P-DICT: <http://localhost:9091/project/armenien/source/dict-hy-fr-csv-rdf-1#>
PREFIX P-MEILL: <http://localhost:9091/project/armenien/source/meillet-csv-rdf-1#>

SELECT ?rang ?mot ?traduction {
?s1 P-TEXTE:mot ?mot;
P-TEXTE:chapitre "ch1.2";
P-TEXTE:rang ?rang.

OPTIONAL {
?s2 P-LEMME:mot ?mot;
P-LEMME:lemme ?lemme;
P-LEMME:analyse ?analyse.

{ ?s3 P-DICT:mot ?lemme;
P-DICT:traduction ?trad1.
BIND (concat("C: ",?analyse," ",?trad1) as ?traduction)
} UNION
{ ?s4 P-MEILL:mot ?lemme;
P-MEILL:definition ?trad2.
BIND (concat("M: ",?trad2) as ?traduction)
} }

}
ORDER BY ?rang
LIMIT 35

Les 35 premiers résultats sont :

1,արդ,"C: adv. 1) or conj., 2) maintenant adv."
1,արդ,M: (§ 171); tout à l'heure; maintenant; or; donc.
1,արդ,M: -ոյ forme; ornement.
2,իւրով,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
3,արեամբն,C: noun.ins.sg.def. sang nm.
3,արեամբն,M: -եան sang; αἷμα.
4,փրկեցելոյ,
5,զմեզ,M: (pronom; § 75); nous.
6,տեառն,"C: noun.gen.dat.sg. maître, seigneur, propriétaire nm."
6,տեառն,M: տեառն instr. տերամբ; nom. pl. տեարք; § 59 h; seigneur; κύριος (habituellement abrévié ՟տր [ պատիւ; § 26; rem. 4]; lorsqu'il s'agit de Dieu – de տի-այր ; cf. տի-կին).
7,եւ,C: conj. et conj.
7,եւ,M: (§ 164); aussi; et; même.
8,տուեալ,"C: verb.pfv.nom.acc.sg. 1) belle-soeur nf. 2) donner, livrer, offrir vt."
9,զհոգին,"C: noun.nom.acc.sg. 1) esprit nm., âme nf., 2) personne nf."
9,զհոգին,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
10,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
11,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
11,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
11,փոխանակ,M: emprunt (cf. փոխեմ).
12,հոգւոյս,"C: noun.gen.dat.abl.sg.poss1. 1) esprit nm., âme nf., 2) personne nf."
12,հոգւոյս,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
13,մերոյ,C: pron.adj.gen.sg. notre adj.
13,մերոյ,M: (adj. poss. § 72); notre.
14,եւ,C: conj. et conj.
14,եւ,M: (§ 164); aussi; et; même.
15,զմարմինն,C: noun.nom.acc.sg. corps nm.
15,զմարմինն,M: մարﬓոյ corps; chair; σῶμα.
16,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
17,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
17,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
17,փոխանակ,M: emprunt (cf. փոխեմ).
18,մարմնոյս,C: noun.gen.dat.abl.sg.poss1. corps nm.
18,մարմնոյս,M: մարﬓոյ corps; chair; σῶμα.
19,մերոյ,C: pron.adj.gen.sg. notre adj.
19,մերոյ,M: (adj. poss. § 72); notre.


Tokenisation de l’arménien classique

Voici un petit programme que j’ai réalisé, il prend en entrée un texte écrit en caractères arméniens (en unicode) et en réalise la tokenisation (ou normalisation), voir mon article sur ce sujet.

Seuls les caractères arméniens sont conservés, c’est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d’interrogation arménien), le badiv ՟ (signe d’abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l’Âge d’Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d’une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu’à en faire un fichier CSV. (C’est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par le tableur de Libre office, d’Open Office, celui de Microsoft etc.

Lien pour l’outil de tokenisation de l’arménien.


  • Catégories

  • Calendrier

    novembre 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    252627282930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress