langue

Trouver des synonymes

Quand je cherche des synonymes, j’utilise les services de trois sites :

  • le Dictionnaire Électronique des Synonymes (DES) auquel est adossé un espace sémantique très intéressant (prendre celui qui est en test),
  • le site synonymo.fr qui donne aussi les antonymes,
  • le site synonymes.com qui offre aussi d’autres outils,
  • et le CNTRL qui offre le plus de services avec antonymes, morphologie, lexicographie, étymologie, proxémie et concordance.

Ces services sont très utiles lors du développement de taxonomies, thésaurus ou ontologies car ils permettent de foisonner, mais aussi d’éviter des ambiguïtés.


Manuel élémentaire d’arménien classique

Le Manuel élémentaire d’arménien classique d’Antoine Meillet est désormais disponible en français. Traduit de l’allemand par Gabriel Képéklian, avec une préface de Charles de Lamberterie, il a été publié par les Editions Lambert-Lucas.

Couverture

L’arménien est enseigné en France depuis la toute fin du XVIIIe siècle. Le décret du 10 germinal an III (30 mars 1795) « établi[t] dans l’enceinte de la Bibliothèque nationale une école publique, destinée à l’enseignement des langues orientales vivantes » dont « les professeurs composeront en français la grammaire des langues qu’ils enseigneront ». Jacques Chahan de Cirbied, premier titulaire de la chaire, publie en 1823 en français une grammaire arménienne qui n’a plus de nos jours qu’une valeur historique. En 1883, Auguste Carrière, quatrième titulaire de la chaire, traduit de l’allemand la grammaire de Max Lauer inspirée des grammaires traditionnelles arméniennes. Élève de Carrière dès 1887-1888, Antoine Meillet complète sa formation en 1888-1889 auprès de Heinrich Hübschmann et en 1890-1891 auprès des Pères Mékhitaristes de Vienne. Dans ce manuel paru en Allemagne et en allemand en 1913, il a décrit l’arménien
classique d’une façon restée inégalée.

Il n’existait jusqu’à ce jour de grammaire arménienne de référence qu’en arménien, en russe et en allemand. Un siècle après sa première édition, la traduction française de l’Altarmenisches Elementarbuch de Meillet met enfin la description de l’arménien classique à la portée des lecteurs francophones.


Aide à la traduction de l’arménien classique avec DataLift (2)

Pour combler une partie des manques du premier dictionnaire utilisé, j’ai traduit et ajouté le glossaire qu’Antoine Meillet donnait en 1913 à la fin de son fameux Altarmenisches Elementachbuch. J’ai opté pour une structure très simple : le mot et sa définition.

Nous avons donc maintenant 4 jeux de données :

ahv : livre, chapitre, rang, mot
lemme : mot, lemme, analyse
dict : source, uri, mot, prononciation, traduction
meillet : mot, definition

Dans la requête suivante, la clause UNION permet de prendre en compte les deux dictionnaires, les BIND permet de ramener les résultats sur une même variable :

PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/ahv-csv-rdf-1#>
PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemme-csv-rdf-1#>
PREFIX P-DICT: <http://localhost:9091/project/armenien/source/dict-hy-fr-csv-rdf-1#>
PREFIX P-MEILL: <http://localhost:9091/project/armenien/source/meillet-csv-rdf-1#>

SELECT ?rang ?mot ?traduction {
?s1 P-TEXTE:mot ?mot;
P-TEXTE:chapitre "ch1.2";
P-TEXTE:rang ?rang.

OPTIONAL {
?s2 P-LEMME:mot ?mot;
P-LEMME:lemme ?lemme;
P-LEMME:analyse ?analyse.

{ ?s3 P-DICT:mot ?lemme;
P-DICT:traduction ?trad1.
BIND (concat("C: ",?analyse," ",?trad1) as ?traduction)
} UNION
{ ?s4 P-MEILL:mot ?lemme;
P-MEILL:definition ?trad2.
BIND (concat("M: ",?trad2) as ?traduction)
} }

}
ORDER BY ?rang
LIMIT 35

Les 35 premiers résultats sont :

1,արդ,"C: adv. 1) or conj., 2) maintenant adv."
1,արդ,M: (§ 171); tout à l'heure; maintenant; or; donc.
1,արդ,M: -ոյ forme; ornement.
2,իւրով,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
3,արեամբն,C: noun.ins.sg.def. sang nm.
3,արեամբն,M: -եան sang; αἷμα.
4,փրկեցելոյ,
5,զմեզ,M: (pronom; § 75); nous.
6,տեառն,"C: noun.gen.dat.sg. maître, seigneur, propriétaire nm."
6,տեառն,M: տեառն instr. տերամբ; nom. pl. տեարք; § 59 h; seigneur; κύριος (habituellement abrévié ՟տր [ պատիւ; § 26; rem. 4]; lorsqu'il s'agit de Dieu – de տի-այր ; cf. տի-կին).
7,եւ,C: conj. et conj.
7,եւ,M: (§ 164); aussi; et; même.
8,տուեալ,"C: verb.pfv.nom.acc.sg. 1) belle-soeur nf. 2) donner, livrer, offrir vt."
9,զհոգին,"C: noun.nom.acc.sg. 1) esprit nm., âme nf., 2) personne nf."
9,զհոգին,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
10,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
11,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
11,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
11,փոխանակ,M: emprunt (cf. փոխեմ).
12,հոգւոյս,"C: noun.gen.dat.abl.sg.poss1. 1) esprit nm., âme nf., 2) personne nf."
12,հոգւոյս,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
13,մերոյ,C: pron.adj.gen.sg. notre adj.
13,մերոյ,M: (adj. poss. § 72); notre.
14,եւ,C: conj. et conj.
14,եւ,M: (§ 164); aussi; et; même.
15,զմարմինն,C: noun.nom.acc.sg. corps nm.
15,զմարմինն,M: մարﬓոյ corps; chair; σῶμα.
16,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
17,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
17,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
17,փոխանակ,M: emprunt (cf. փոխեմ).
18,մարմնոյս,C: noun.gen.dat.abl.sg.poss1. corps nm.
18,մարմնոյս,M: մարﬓոյ corps; chair; σῶμα.
19,մերոյ,C: pron.adj.gen.sg. notre adj.
19,մերոյ,M: (adj. poss. § 72); notre.


Aide à la traduction de l’arménien classique avec DataLift

Depuis mon dernier post relatif à l’analyse grammaticale automatique de l’arménien classique avec DataLift, j’ai ajouté quelques petits ingrédients pour faire de la traduction. Au final, ce sont donc trois jeux de données que j’injecte dans la plateforme : une tokennisation d’un texte (le début du livre V de la version arménienne de l’Adversus Haereses d’Irénée de Lyon), une base de lemmatisation et un dictionnaire. Les trois sont des aux formats CSV dont les structures sont :

ahv : livre, chapitre, rang, mot
lemme : mot, lemme, analyse
dict : source, uri, mot, prononciation, traduction

La liaison est évidemment faite sur le « mot ». Voici une requête destinée à la traduction des 20 premiers mots du chapitre 1.2 :

PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/ahv-csv-rdf-1#>
PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemme-csv-rdf-1#>
PREFIX P-DICT: <http://localhost:9091/project/armenien/source/dict-hy-fr-csv-rdf-1#>

SELECT ?rang ?mot ?analyse ?traduction {
?s1 P-TEXTE:mot ?mot;
P-TEXTE:chapitre "ch1.2";
P-TEXTE:rang ?rang.

OPTIONAL {
?s2 P-LEMME:mot ?mot;
P-LEMME:lemme ?lemme;
P-LEMME:analyse ?analyse.

?s3 P-DICT:mot ?lemme;
P-DICT:traduction ?traduction.
} }
ORDER BY ?rang
LIMIT 20

Comme vous pouvez le voir, le résultat est une bonne aide :

1; արդ; adv.; "1) or conj.; 2) maintenant adv."
2; իւրով; ;
3; արեամբն; noun.ins.sg.def.; sang nm.
4; փրկեցելոյ; ;
5; զմեզ; ;
6; տեառն; noun.gen.dat.sg.; "maître; seigneur; propriétaire nm."
7; եւ; conj.; et conj.
8; տուեալ; verb.pfv.nom.acc.sg.; "1) belle-soeur nf. 2) donner; livrer; offrir vt."
9; զհոգին; noun.nom.acc.sg.; "1) esprit nm.; âme nf.; 2) personne nf."
10; իւր; ;
11; փոխանակ; noun.nom.acc.sg.; au lieu de prép.
12; հոգւոյս; noun.gen.dat.abl.sg.poss1.; "1) esprit nm.; âme nf.; 2) personne nf."
13; մերոյ; pron.adj.gen.sg.; notre adj.
14; եւ; conj.; et conj.
15; զմարմինն; noun.nom.acc.sg.; corps nm.
16; իւր; ;
17; փոխանակ; noun.nom.acc.sg.; au lieu de prép.
18; մարմնոյս; noun.gen.dat.abl.sg.poss1.; corps nm.
19; մերոյ; pron.adj.gen.sg.; notre adj.
20; եւ; conj.; et conj.

La base de lemmatisation est incomplète, l’utilisation de la clause OPTIONAL est donc bien utile pour faire tout de même apparaître les mots non traduits. Une traduction aboutie de ce passage est : « Donc, le Seigneur nous a sauvés par son propre sang, donnant sa propre Âme pour notre âme, sa propre chair pour notre chair, et »
A suivre…


Tokenisation de l’arménien classique

Voici un petit programme que j’ai réalisé, il prend en entrée un texte écrit en caractères arméniens (en unicode) et en réalise la tokenisation (ou normalisation), voir mon article sur ce sujet.

Seuls les caractères arméniens sont conservés, c’est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d’interrogation arménien), le badiv ՟ (signe d’abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l’Âge d’Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d’une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu’à en faire un fichier CSV. (C’est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par le tableur de Libre office, d’Open Office, celui de Microsoft etc.

Lien pour l’outil de tokenisation de l’arménien.


La création de l’Ecole des langues orientales, le 10 germinal an 3

C’est en 1795 que le décret portant sur la création de l’Ecole des langues orientales est publié. Sa lecture mérite le détour.


Quelques techniques d’analyse rapide de textes

Devant un texte, il y a tant et tant de façon de s’y prendre pour le comprendre, y répondre, le résumer, le traduire, etc. C’est le monde du traitement automatique des langues naturelles (TALN). Les techniques sont complexes et réclament des compétences de haut niveau. Mais avant de se lancer à corps perdu dedans, vous pourriez vouloir vous essayer à quelques techniques simples, en tout cas relativement, pour toucher du doigt ce monde du langage naturel. Alors, faisons connaissance avec quelques unes d’entre-elles.

Tokenisation (ou tokenization) ou normalisation

C’est de loin la plus facile ! Elle consiste à consommer le texte et à en réduire tous les mots, quelques soient leurs différentes formes, en jetons (token). Vous pourrez ainsi, par exemple, compter combien de fois un mot donné se trouve dans un texte, ou bien retrouver les textes qui contiennent certains mots en utilisant même les fréquences d’apparition pour donner un peu de pertinence au passage…

Stemming ou racinisation (voire désuffixation)

La précédente techno était trop facile, vous êtes plus fort que ça. Alors, en voilà une autre. La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son préfixe et/ou son suffixe, on trouve alors sa racine. On l’appelle aussi parfois « stemme » du mot. Contrairement au lemme qui correspond à un mot réel de la langue, la racine ou stemme ne correspond généralement pas à un mot réel. Par exemple, le mot marcher a pour radical ou stemme march qui ne correspond pas à un mot réel. Par contre, dans l’exemple de montagne, le radical ou stemme est mont qui lui l’est.

Les algorithmes de racinisation sont de simples algorithmes de manipulation de chaînes de caractères qui dépendent des règles qui identifient les affixes qui peuvent être ôtés (par affixe, on entend préfixe comme suffixe). Ces algorithmes doivent connaître des règles telles que le doublement de la consonne, l’alternance consonantique n/m devant un b ou p, etc. Donc, bien sûr connaître les exceptions. Pour cela, ces algorithmes ont généralement besoin d’un dictionnaire.

L’algorithme le plus connu pour l’anglais est celui de Martin Porter, publié en 1979. Son usage original était la recherche d’information. On trouve des bibliothèques prêtes à l’emploi. Par exemple, celle de www.oleandersolutions.com, basée sur Porter, inclut des raciniseurs (ou stemmers) de l’anglais, du danois, du hollandais, du français, de l’allemand, de l’italien, du norvégien, du portugais, de l’espagnol, du suédois et du russe. Bref, c’est une bonne aide !

Pour en savoir un plus, comme d’hab, il y a wikipedia. Notamment, sur la différence entre lemmatisation et racinisation. Si vous allez sur le site de Jérôme Pasquelin, (Referenceur et Webmaster), vous pourrez essayer son outil de lemmatisation en ligne.

Tagging ou marquage de POS, l’étiquetage morpho-syntaxique

Les POS, ce sont les parties du discours (POS = part of speech). Le marquage des POS consiste à identifier les catégories de mots en restant relativement indépendant de la structure de la phrase. Il existe des moyens assez différents de parvenir à ce résultat. Les étiquettes (tag) sont associées aux mots. Par exemple, la phrase : « Le chien d’Emmanuel chante une mélodie connue » devient « Le/ART chien/NC d’/ART Emmanuel/NP chante/VRB une/ART mélodie/NC connue/PART ».

Le terme consacré, en français, pour cette technique, c’est l’étiquetage morpho-syntaxique. Avouez que ça fait bien. Les outils qui réalisent ce traitement s’appellent des étiqueteurs grammaticaux, ou « POS tagger » en anglais. Autant il en existe beaucoup pour la langue anglaise, autant ils sont difficiles à trouver pour notre langue. Il y a celui du LIA de l’Université d’Avignon.

Ces étiqueteurs grammaticaux prennent donc en entrée un texte brut pour produire en sortie un fichier d’annotations où chaque mot du texte d’entrée est associé à deux entités : son lemme et sa catégorie syntaxique, selon une classification donnée.

Pour continuer dans Wikipedia en français, mais l’article anglais est plus fouillé encore.

Chunking (shallow parsing) ou parsing par morceaux (morcellement)

Il s’agit, avec cette technique, d’identifier les principaux constituant d’une phrase. On ne cherche pas à reconnaître la structure de la phrase ni interne (dans le morceau), ni externe (entre les morceaux). Le morcellement peut donc laisser certaines parties du texte non analysées.

Un morceleur (chunker) est un algorithme qui détermine des séquences de mots, souvent en utilisant le texte étiqueté comme entrée. Les règles de morcellement peuvent être aussi simples que les expressions régulières – d’ailleurs on compare souvent les chunker au analyseur lexicaux des compilateurs. Les chunkers peuvent réaliser des encapsulations, mais en général, sans remonter de beaucoup de niveau. L’article de référence est celui de Steven P. Abney, en 1994 ; il est très compréhensible.

En conclusion

Ces techniques sont abordables, vous en conviendrez. Vous les avez déjà rencontrées, sans le savoir, dans les chat bots, ces programmes capables de dialoguer avec un usager en langue naturelle sur des sujets de nature générale ou bien sur des sujets ayant trait à un domaine particulier. Le premier chat bot, ELIZA, a été réalisé par J. Weizenbaum en 1965. Aujourd’hui, on les trouve dans des applications socio-ludiques sur l’Internet, comme les agents de conversation dans des sites où ils répondent à des questions dans un domaine bien spécifique.

Ils peuvent être utilisés dans des applications très ciblées où le vocabulaire et la syntaxe sont très contraints : commande vocale de machine outils ; commande de téléphone mobile ; langage militaire, etc. Un autre usage vient aussi de ce qu’il s’agit aussi d’un moyen simple permettant de faire un premier profilage. A vous de trouver votre cas d’usage !


Du statut de la langue et de la traduction dans les médias

Lorsqu’une personne s’exprime dans sa langue – une langue autre que la nôtre – et que les médias nous en rendent compte, il nous est donné une traduction. Pour le lecteur, il y a alors une quasi absence de conscience d’un original. Pour l’auditeur ou le téléspectateur, il en va un peu différemment. Il entend souvent un petit quelque chose de ce que dit la personne mais sa voix est couverte par la traduction avec un niveau sonore supérieur.

Nous ne pouvons, trop souvent, accéder aux différences entre le dire original et sa traduction (à l’exception de quelques mentions et notes de traduction laissées intentionnellement en bas de page dans les journaux ou revues). Pour celui à qui l’on donne une traduction, la parole, la voix, l’expression ne sont pas celles de celui qui s’exprime mais celles du traducteur. Il les reçoit avec le statut d’original et pourtant, nous savons bien qu’il n’en est rien. Si bonne soit la traduction, elle fait écran.

Dans notre espace mondialisé, pourquoi les médias ne donnent-ils pas un accès à l’original et à la traduction ? Nous sommes de plus en plus nombreux à parler plusieurs langues, a minima l’anglais imposé dans nos écoles. Je rêve qu’un jour, au moins sur France Culture, on puisse entendre les personnes s’exprimer dans leur langue et qu’après – et non en simultané – on ait la traduction. Nous pourrions alors entendre cette tension irréductible entre nos langues, cette tension si riche et enrichissante.


Translittération arménienne, le système HBM

Le système de translittération arménienne utilisé au niveau international est appelé « système HMB », en référence aux initiales des noms des linguistes Heinrich Hübschmann (1848-1908), Antoine Meillet (1866-1936) et Emile Benveniste (1902-1976).

maj. min. transl. prononciation
Ա ա a
Բ բ b
Գ գ g toujours dur
Դ դ d
Ե ե e à l’initiale, é à l’intérieur d’un mot
Զ զ z
Է է ē ê
Ը ը ə toujours atone, e comme dans les mots le, de
Թ թ tʿ équivalent du grec θ
Ժ ժ ž j
Ի ի i
Լ լ l
Խ խ x comme l’allemand ch ou l’espagnol j
Ծ ծ c tz
Կ կ k toujours occlusif
Հ հ h toujours aspiré
Ձ ձ j dz
Ղ ղ ł comme le r grasseyé français, ou comme le r allemand de Recht
Ճ ճ č dch
Մ մ m
Յ յ y aspiré à l’initiale, prononcé y à l’intérieur du mot, muet en final
Ն ն n
Շ շ š comme le français ch
Ո ո o prononcé vo à l’initiale
Չ չ č̣ tch
Պ պ p
Ջ ջ ǰ dj
Ո ռ r fortement roulé
Ս ս s toujours sourd
Վ վ v
Տ տ t
Ր ր r r serré
Ց ց ts
Ւ ւ w v à l’intérieur d’un mot, devant une voyelle et dans les finales –աւ [-av] et –իւ [-iv] ; ou devant une consonne comme dans իւ [-iou]
Փ փ pʿ équivalent du grec φ
Ք ք kʿ
Օ օ ō ô
Ֆ ֆ f
Digramme
ու u ou
Diphtongues
եա ia
ոյ ouy devant une consonne

NB : en anglais transliteration s’écrit avec un seul l.


Quand la Recherche française ne parle plus qu’anglais

Que se passe-t-il lorsque les publications des chercheurs français ne sont qu’exclusivement rédigées en anglais ? Cet article n’est pas le premier sur ce sujet et il ne sera pas le dernier … mais je ne cesse d’être agacé.

Le chercheur qui publie en anglais veut-il n’être lu que par des anglophones ? Veut-il faciliter le travail de ses pairs anglophones ? Veut-il un meilleur scoring (oups, ça c’est un mot anglais) ? Ne peut-il publier qu’en anglais pour avoir les fameux points qui diront l’excellence de son travail ? etc. Vous pouvez en ajouter encore ! Mais, le chercheur ne le fait pas volontairement. Il est poussé à rédiger en anglais, il sait qu’il peut perdre sa place s’il ne publie pas dans les « bonnes » revues qui imposent l’anglais.

Et qu’en est-il des francophones qui voudront lire les résultats de cette recherche ? Pourquoi devons-nous nous pénaliser doublement : écrire dans une langue qui n’est pas la nôtre, et lire dans cette langue ?

A l’inverse, cet état de fait signifie-t-il que les anglophones sont définitivement nuls en langue ? Avez-vous fait l’expérience de parler « anglich » à un anglais ou un américain ? Quelles étaient leurs réactions ? Vous ont-ils compris ? En fait, souvent, ils vous regardent avec de grands yeux et vous demandent quelle langue étrange (ou étrangère) vous parler ?

Quoiqu’il en soit, le français est aussi une langue scientifique, et depuis fort longtemps. Alors un peu de courage politique ! Ce n’est pas aux chercheurs de changer les choses. Malheureusement, ils sont victimes de la situation. Sauf à tous se liguer, rien ne changera. Alors c’est au niveau politique que les responsabilités doivent être prises.

Lorsqu’au VIe siècle, le grec vécut un véritable « naufrage » en Occident (voir Paul Lemerle, Le premier humanisme byzantin, Paris, PUF, 1971), c’est une très grande partie de la culture qui disparut. Depuis quelques siècles, c’est le latin qui a subi le même sort. Toute langue qui se pense universelle n’est pas loin du déclin. Déjà, en Amérique, on parle plus espagnol qu’anglais …

Combien d’oeuvres n’ont-elles pas été sauvées grâce à leurs traductions qui les ont éloignées des bibliothèques en flamme ou déportées. Sur le site de l’Unesco, une rubrique spéciale est dédiée aux langues en danger. Vous pouvez y lire ceci « On estime que, si rien n’est fait, la moitié des quelques 6 000 langues parlées aujourd’hui disparaîtront d’ici la fin du siècle. Avec la disparition de langues … » (lire la suite). La culture est toujours en danger, elle est fragile par essence. Et nous savons aussi qu’un texte écrit dans telle langue est une oeuvre spécifique, laquelle, traduite devient une autre oeuvre spécifique (il faut relire Walter Benjamin, Antoine Berman, Jacques Derrida ou encore Habermas).

Il y a de la place pour toutes les langues. C’est la vraie richesse de notre monde. C’est comme la biodiversité. Il faut que toutes les langues aient leur part et puissent être à l’honneur ! Il faut éviter à tout prix le monsanto linguistique. Apprenons des langues. Exprimons-nous dans le plus de langues possibles. Enrichissons-nous de la diversité. Osons publier en français, et dans d’autres langues. Plaçons l’anglais à égalité avec les autres langues.


  • Catégories

  • Calendrier

    novembre 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    252627282930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress