linguistique

Quelques techniques d’analyse rapide de textes

Devant un texte, il y a tant et tant de façon de s’y prendre pour le comprendre, y répondre, le résumer, le traduire, etc. C’est le monde du traitement automatique des langues naturelles (TALN). Les techniques sont complexes et réclament des compétences de haut niveau. Mais avant de se lancer à corps perdu dedans, vous pourriez vouloir vous essayer à quelques techniques simples, en tout cas relativement, pour toucher du doigt ce monde du langage naturel. Alors, faisons connaissance avec quelques unes d’entre-elles.

Tokenisation (ou tokenization) ou normalisation

C’est de loin la plus facile ! Elle consiste à consommer le texte et à en réduire tous les mots, quelques soient leurs différentes formes, en jetons (token). Vous pourrez ainsi, par exemple, compter combien de fois un mot donné se trouve dans un texte, ou bien retrouver les textes qui contiennent certains mots en utilisant même les fréquences d’apparition pour donner un peu de pertinence au passage…

Stemming ou racinisation (voire désuffixation)

La précédente techno était trop facile, vous êtes plus fort que ça. Alors, en voilà une autre. La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son préfixe et/ou son suffixe, on trouve alors sa racine. On l’appelle aussi parfois « stemme » du mot. Contrairement au lemme qui correspond à un mot réel de la langue, la racine ou stemme ne correspond généralement pas à un mot réel. Par exemple, le mot marcher a pour radical ou stemme march qui ne correspond pas à un mot réel. Par contre, dans l’exemple de montagne, le radical ou stemme est mont qui lui l’est.

Les algorithmes de racinisation sont de simples algorithmes de manipulation de chaînes de caractères qui dépendent des règles qui identifient les affixes qui peuvent être ôtés (par affixe, on entend préfixe comme suffixe). Ces algorithmes doivent connaître des règles telles que le doublement de la consonne, l’alternance consonantique n/m devant un b ou p, etc. Donc, bien sûr connaître les exceptions. Pour cela, ces algorithmes ont généralement besoin d’un dictionnaire.

L’algorithme le plus connu pour l’anglais est celui de Martin Porter, publié en 1979. Son usage original était la recherche d’information. On trouve des bibliothèques prêtes à l’emploi. Par exemple, celle de www.oleandersolutions.com, basée sur Porter, inclut des raciniseurs (ou stemmers) de l’anglais, du danois, du hollandais, du français, de l’allemand, de l’italien, du norvégien, du portugais, de l’espagnol, du suédois et du russe. Bref, c’est une bonne aide !

Pour en savoir un plus, comme d’hab, il y a wikipedia. Notamment, sur la différence entre lemmatisation et racinisation. Si vous allez sur le site de Jérôme Pasquelin, (Referenceur et Webmaster), vous pourrez essayer son outil de lemmatisation en ligne.

Tagging ou marquage de POS, l’étiquetage morpho-syntaxique

Les POS, ce sont les parties du discours (POS = part of speech). Le marquage des POS consiste à identifier les catégories de mots en restant relativement indépendant de la structure de la phrase. Il existe des moyens assez différents de parvenir à ce résultat. Les étiquettes (tag) sont associées aux mots. Par exemple, la phrase : « Le chien d’Emmanuel chante une mélodie connue » devient « Le/ART chien/NC d’/ART Emmanuel/NP chante/VRB une/ART mélodie/NC connue/PART ».

Le terme consacré, en français, pour cette technique, c’est l’étiquetage morpho-syntaxique. Avouez que ça fait bien. Les outils qui réalisent ce traitement s’appellent des étiqueteurs grammaticaux, ou « POS tagger » en anglais. Autant il en existe beaucoup pour la langue anglaise, autant ils sont difficiles à trouver pour notre langue. Il y a celui du LIA de l’Université d’Avignon.

Ces étiqueteurs grammaticaux prennent donc en entrée un texte brut pour produire en sortie un fichier d’annotations où chaque mot du texte d’entrée est associé à deux entités : son lemme et sa catégorie syntaxique, selon une classification donnée.

Pour continuer dans Wikipedia en français, mais l’article anglais est plus fouillé encore.

Chunking (shallow parsing) ou parsing par morceaux (morcellement)

Il s’agit, avec cette technique, d’identifier les principaux constituant d’une phrase. On ne cherche pas à reconnaître la structure de la phrase ni interne (dans le morceau), ni externe (entre les morceaux). Le morcellement peut donc laisser certaines parties du texte non analysées.

Un morceleur (chunker) est un algorithme qui détermine des séquences de mots, souvent en utilisant le texte étiqueté comme entrée. Les règles de morcellement peuvent être aussi simples que les expressions régulières – d’ailleurs on compare souvent les chunker au analyseur lexicaux des compilateurs. Les chunkers peuvent réaliser des encapsulations, mais en général, sans remonter de beaucoup de niveau. L’article de référence est celui de Steven P. Abney, en 1994 ; il est très compréhensible.

En conclusion

Ces techniques sont abordables, vous en conviendrez. Vous les avez déjà rencontrées, sans le savoir, dans les chat bots, ces programmes capables de dialoguer avec un usager en langue naturelle sur des sujets de nature générale ou bien sur des sujets ayant trait à un domaine particulier. Le premier chat bot, ELIZA, a été réalisé par J. Weizenbaum en 1965. Aujourd’hui, on les trouve dans des applications socio-ludiques sur l’Internet, comme les agents de conversation dans des sites où ils répondent à des questions dans un domaine bien spécifique.

Ils peuvent être utilisés dans des applications très ciblées où le vocabulaire et la syntaxe sont très contraints : commande vocale de machine outils ; commande de téléphone mobile ; langage militaire, etc. Un autre usage vient aussi de ce qu’il s’agit aussi d’un moyen simple permettant de faire un premier profilage. A vous de trouver votre cas d’usage !


Du statut de la langue et de la traduction dans les médias

Lorsqu’une personne s’exprime dans sa langue – une langue autre que la nôtre – et que les médias nous en rendent compte, il nous est donné une traduction. Pour le lecteur, il y a alors une quasi absence de conscience d’un original. Pour l’auditeur ou le téléspectateur, il en va un peu différemment. Il entend souvent un petit quelque chose de ce que dit la personne mais sa voix est couverte par la traduction avec un niveau sonore supérieur.

Nous ne pouvons, trop souvent, accéder aux différences entre le dire original et sa traduction (à l’exception de quelques mentions et notes de traduction laissées intentionnellement en bas de page dans les journaux ou revues). Pour celui à qui l’on donne une traduction, la parole, la voix, l’expression ne sont pas celles de celui qui s’exprime mais celles du traducteur. Il les reçoit avec le statut d’original et pourtant, nous savons bien qu’il n’en est rien. Si bonne soit la traduction, elle fait écran.

Dans notre espace mondialisé, pourquoi les médias ne donnent-ils pas un accès à l’original et à la traduction ? Nous sommes de plus en plus nombreux à parler plusieurs langues, a minima l’anglais imposé dans nos écoles. Je rêve qu’un jour, au moins sur France Culture, on puisse entendre les personnes s’exprimer dans leur langue et qu’après – et non en simultané – on ait la traduction. Nous pourrions alors entendre cette tension irréductible entre nos langues, cette tension si riche et enrichissante.


Translittération arménienne, le système HBM

Le système de translittération arménienne utilisé au niveau international est appelé « système HMB », en référence aux initiales des noms des linguistes Heinrich Hübschmann (1848-1908), Antoine Meillet (1866-1936) et Emile Benveniste (1902-1976).

maj. min. transl. prononciation
Ա ա a
Բ բ b
Գ գ g toujours dur
Դ դ d
Ե ե e à l’initiale, é à l’intérieur d’un mot
Զ զ z
Է է ē ê
Ը ը ə toujours atone, e comme dans les mots le, de
Թ թ tʿ équivalent du grec θ
Ժ ժ ž j
Ի ի i
Լ լ l
Խ խ x comme l’allemand ch ou l’espagnol j
Ծ ծ c tz
Կ կ k toujours occlusif
Հ հ h toujours aspiré
Ձ ձ j dz
Ղ ղ ł comme le r grasseyé français, ou comme le r allemand de Recht
Ճ ճ č dch
Մ մ m
Յ յ y aspiré à l’initiale, prononcé y à l’intérieur du mot, muet en final
Ն ն n
Շ շ š comme le français ch
Ո ո o prononcé vo à l’initiale
Չ չ č̣ tch
Պ պ p
Ջ ջ ǰ dj
Ո ռ r fortement roulé
Ս ս s toujours sourd
Վ վ v
Տ տ t
Ր ր r r serré
Ց ց ts
Ւ ւ w v à l’intérieur d’un mot, devant une voyelle et dans les finales –աւ [-av] et –իւ [-iv] ; ou devant une consonne comme dans իւ [-iou]
Փ փ pʿ équivalent du grec φ
Ք ք kʿ
Օ օ ō ô
Ֆ ֆ f
Digramme
ու u ou
Diphtongues
եա ia
ոյ ouy devant une consonne

NB : en anglais transliteration s’écrit avec un seul l.


200 ans, première grammaire de l’arménien en français

Roger Bellaud, docteur en médecine, publiait en 1812 la première grammaire de l’arménien en langue française. En 96 pages, précédées de viii pages de titre et avertissement, il s’agit là d’un « essai sur la langue arménienne » comme nous l’apprend le titre exact de ce petit livre imprimé à Paris par l’Imprimerie Impériale.

Auparavant, les grammaires publiées en France étaient en latin. On peut citer par exemple celle qui, en 1714, se trouve dans le Dictionnaire Latin / Arménien composé par Villotte, un père Jésuite.


Historische Sprachforschung, linguistique comparée

La revue de linguistique « Historische Sprachforschung » fondée en 1851 par Adalbert Kuhn avait pour titre de « Zeitschrift für Historische Sprachwissenschaft » (jusqu’au volume n.100).

Elle est aujourd’hui conduite aujourd’hui par Alfred Bammesberger (Eichstätt), Olav Hackstein (Munich) et Sabine Ziegler (Iéna). La revue qui paraît chaque année chez l’éditeur « Göttinger Verlag Vandenhoeck & Ruprecht », est principalement dédiée à des questions précises concernant différents domaines de la linguistique historique et les idiomes de différents types de famille de langues indo-européennes.

Des ressources sont disponibles en ligne. En 1997, Alfred Bammesberger a publié un répertoire pour les volumes 1 à 100. Et plusieurs volumes de la revue ont été numérisés :

Pour l’arménien classique, il faut se reporter à la liste publiée sur le site de l’Université : (pdf). Les mots y sont translittérés et triés par ordre alphabétique.


Les Etudes Arméniennes, dans le monde

Les Etudes Arméniennes sont présentes dans plusieurs pays. Abordons la France, le Portugal et l’Amérique du Nord.

France, la Société des Etudes Arméniennes

En France, la Société des Etudes Arméniennes (SEA), fut fondée le 9 janvier 1920 par Victor Bérard, Charles Diehl, André-Ferdinand Hérold, H. Lacroix, Frédéric Macler, Antoine Meillet, Gabriel Millet, Gustave Schlumberger.

Frédéric Macler et Antoine Meillet créent la même année 1920 la Revue des Etudes Arméniennes (REA). Frédéric Macler en est l’administrateur-archiviste, Antoine Meillet le secrétaire général et H. Lacroix le trésorier. Il s’agit d’une revue universitaire de linguistique dédiée à l’étude de l’histoire, de l’histoire de l’art, la philologie, la linguistique et la littérature. Cette première revue s’arrête en 1933 pour ne reprendre qu’en 1964. Le comité de rédaction comprend alors Emile Benvéniste, Cl. Cahen, Marius Canard, Sirapie Der-Nersessian, Georges Dumézil, A. Dupont-Sommer, Frédéric Feydit, A. Grabar, P. Lemelre, Ch. Mercier, A. Mirabel et L. Robert. A partir de 1964, les directeurs de la revue ont été successivement Emile Benveniste (1964-1975), Georges Dumézil (1975-1980) et Sirarpie Der-Nersessian (1981-1989).

En 1992, Claire Mouradian (CNRS) et Anaïd Donabédian (INALCO) créent une association pour réunir à nouveau des chercheurs dans le domaine des études arméniennes. L’association a repris la publication de la Revue des Etudes Arméniennes à partir de 1994 sous la direction de Nina Garsoïan.

Le Portugal, La Fondation Calouste Gulbenkian

La Fondation Calouste Gulbenkian a été créée par dispositions testamentaires de Calouste Gulbenkian, le 18 juillet 1956. C’est une institution portugaise de droit privé et d’utilité publique, dont les objectifs statutaires sont l’Art, la Bienfaisance, la Science et l’Education. Elle intervient au niveau international dans de très nombreuses actions d’envergure.

La Fondation a son siège à Lisbonne où se trouve également le Service des Communautés Arméniennes, l’un de ses premiers services à être créé. Parmi les autres services, en 1969, le Musée est inaugurée. On trouve aussi un Grand Auditorium, des salles d’expositions temporaires, une zone de congrès avec plusieurs salles et auditoriums.

L’Amérique du Nord, the National Association for Armenian Studies and Research

L’Association nationale d’études arméniennes et de la Recherche (NAASR) a été créé en 1955 par un groupe de soixante personnes désirant faire avancer les études arméniennes aux Etats-Unis. Grâce aux efforts de collecte de fonds de la NAASR, les deux premières chaires d’Études Arméniennes ont ouvertes aux États-Unis à Harvard en 1959 et à l’Université de Los Angeles en 1965. NAASR a également soutenu des programmes d’études arméniennes d’un certain nombre d’autres universités américaines, parmi lesquelles Columbia University, University of Massachusetts à Boston et à Amherst, Wayne State University, Tufts University, California State University à Fresno, University of Connecticut, University of California, Berkeley, et Bentley University.


Des bibliothèques de textes grecs anciens

J’ai souvent cherché tel ou tel texte sans jamais systématiser ma recherche. Aujourd’hui, c’est un peu par hasard que j’ai « posé le clic » sur la Βικιθήκη que la version grecque de wikipedia met en ligne.

Si je cherche Platon, Πλάτων, les oeuvres, Έργα, disponibles sont :

  • Ἀλκιβιάδης α
  • Ἀπολογία Σωκράτους
  • Εὐθύφρων
  • Θεαίτητος
  • Ίων
  • Κριτίας
  • Κρίτων
  • Λάχης
  • Πολιτεία
  • Σοφιστής
  • Συμπόσιον
  • Τίμαιος
  • Φαίδων
  • Χαρμίδης
  • C’est un bon début, non ?

    Et comme c’est dans un wiki, chacun peut apporter quelque chose. Parmi tous les auteurs, certains ne sont pas tout à fait grecs. Par exemple, on trouve John Kennedy ! Les textes sont accentués et dans un bel unicode, ça ne gâche rien, super.

    Je ne me suis pas arrêté là, et j’ai poursuivi la fouille. In fine, voici quelques résultats avec des sites spécialisés :

    Bibliotheca Augustina

    Titus

    Philippe Remacle

    Bibliotheca Classica Selecta

    Myriobiblios

    UCL, département d’études grecques, latines et orientales

    Bilbiotheca classica selecta


    L’élamite et le hatti

    Comme tous les ans, l’Ecole des Langues et Civilisations de l’Orient Ancien (ELCOA) propose une journée d’études consacrée aux langues rares. C’est un moment tout aussi rare que les langues rencontrées à cette occasion. Le cru de cette année porte sur deux langues agglutinantes mal connues du moyen orient. L’élamite, comme son nom l’indique, était parlé en Elam, contrée située au sud-ouest de l’actuel Iran. Le hatti était parlé en Anatolie avant l’arrivée des Hittites.

    Où en sont les recherches aujourd’hui ? Rendez-vous à l’ICP le 19 novembre 2010 pour le savoir.


    Albaniens du Caucase, compléments

    Je viens apporter quelques précisions sur un article précédent, intitulé Au Matenadaran, l’alphabet des albans (ou albaniens) du Caucase.

    Bernard Outtier, lors de sa conférence « Georges Dumézil, les langues du Caucase, et l’arménien« , expliquait que la langue oudine est une langue « résiduelle » du nord-est du Caucase qui compte aujourd’hui encore quelques 6.000 locuteurs. Les Oudines sont les descendants des Albaniens du Causase. Le manuscrit où on peut voir le fameux alphabet (en photo dans mon article), avait été découvert en 1937 par le savant géorgien I. Abouladzé qui visitait le Madenataran à Erevan. Et c’est en 1941 que Georges Dumézil a fait connaître au monde occidental l’existence de cette langue dans un article publié dans le Journal Asiatique « Une chrétienté disparue, les albaniens du Caucase ».

    En 1996, Zaza Aleksidzé a découvert des palimpsestes albaniens à Sainte Catherine au Sinaï. Ces nouvelles pages sont les premiers textes a notre disposition pour lire cette langue. Voir l’article paru en 1997 par Jean-Pierre Mahé et Zaza Aleksidzé.

    Le terme albanien a été donné par Georges Dumézil dans son article. Il traduisait le grec Ἀλβανοί. Jean-Pierre Mahé utilise aussi Arwangs, il date la création de l’alphabet albanien en 422. Voir l’article d’Anahid Samikyan.


    Conférence de Bernard Outtier sur Georges Dumézil

    Le 14 janvier 2010, Bernard Outtier a donné une conférence organisée par la Société des Etudes Arméniennes et intitulée « Georges Dumézil, les langues du Caucase, et l’arménien ». Bernard Outtier a bien connu Dumézil et il nous en a donné un portrait de première main.

    Georges Dumézil a inventorié le monde indo-européen. Un de ses apports majeurs est d’avoir trouvé les trois fonctions qui sous-tendent l’idéologie indo-européenne primitive (prêtre, guerrier et producteur). Il est le créateur d’une nouvelle science : la mythologie comparée. Mais le savant a autant travaillé et publié dans les domaines de la linguistique et en particulier de la linguistique caucasienne et caucasique. Il a appris des dizaines de langues et les anecdotes sont nombreuses.

    Bernard Outtier est directeur de recherche au CNRS. Il enseigne le géorgien à l’Institut Catholique de Paris et a enseigné la littérature arménienne à Genève.


  • Catégories

  • Calendrier

    octobre 2017
    L M M J V S D
    « Avr    
     1
    2345678
    9101112131415
    16171819202122
    23242526272829
    3031  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress