unicode

Tokenisation de l’arménien classique

Voici un petit programme que j’ai réalisé, il prend en entrée un texte écrit en caractères arméniens (en unicode) et en réalise la tokenisation (ou normalisation), voir mon article sur ce sujet.

Seuls les caractères arméniens sont conservés, c’est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d’interrogation arménien), le badiv ՟ (signe d’abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l’Âge d’Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d’une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu’à en faire un fichier CSV. (C’est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par le tableur de Libre office, d’Open Office, celui de Microsoft etc.

Lien pour l’outil de tokenisation de l’arménien.


Unicode : arménien de U+0530 a U+058F (1328–1423)


Caractère (décimal) Décimal Hexa Nom
Ա 1329 0531 ARMENIAN CAPITAL LETTER AYB
Բ 1330 0532 ARMENIAN CAPITAL LETTER BEN
Գ 1331 0533 ARMENIAN CAPITAL LETTER GIM
Դ 1332 0534 ARMENIAN CAPITAL LETTER DA
Ե 1333 0535 ARMENIAN CAPITAL LETTER ECH
Զ 1334 0536 ARMENIAN CAPITAL LETTER ZA
Է 1335 0537 ARMENIAN CAPITAL LETTER EH
Ը 1336 0538 ARMENIAN CAPITAL LETTER ET
Թ 1337 0539 ARMENIAN CAPITAL LETTER TO
Ժ 1338 053A ARMENIAN CAPITAL LETTER ZHE
Ի 1339 053B ARMENIAN CAPITAL LETTER INI
Լ 1340 053C ARMENIAN CAPITAL LETTER LIWN
Խ 1341 053D ARMENIAN CAPITAL LETTER XEH
Ծ 1342 053E ARMENIAN CAPITAL LETTER CA
Կ 1343 053F ARMENIAN CAPITAL LETTER KEN
Հ 1344 0540 ARMENIAN CAPITAL LETTER HO
Ձ 1345 0541 ARMENIAN CAPITAL LETTER JA
Ղ 1346 0542 ARMENIAN CAPITAL LETTER GHAD
Ճ 1347 0543 ARMENIAN CAPITAL LETTER CHEH
Մ 1348 0544 ARMENIAN CAPITAL LETTER MEN
Յ 1349 0545 ARMENIAN CAPITAL LETTER YI
Ն 1350 0546 ARMENIAN CAPITAL LETTER NOW
Շ 1351 0547 ARMENIAN CAPITAL LETTER SHA
Ո 1352 0548 ARMENIAN CAPITAL LETTER VO
Չ 1353 0549 ARMENIAN CAPITAL LETTER CHA
Պ 1354 054A ARMENIAN CAPITAL LETTER PEH
Ջ 1355 054B ARMENIAN CAPITAL LETTER JHEH
Ռ 1356 054C ARMENIAN CAPITAL LETTER RA
Ս 1357 054D ARMENIAN CAPITAL LETTER SEH
Վ 1358 054E ARMENIAN CAPITAL LETTER VEW
Տ 1359 054F ARMENIAN CAPITAL LETTER TIWN
Ր 1360 0550 ARMENIAN CAPITAL LETTER REH
Ց 1361 0551 ARMENIAN CAPITAL LETTER CO
Ւ 1362 0552 ARMENIAN CAPITAL LETTER YIWN
Փ 1363 0553 ARMENIAN CAPITAL LETTER PIWR
Ք 1364 0554 ARMENIAN CAPITAL LETTER KEH
Օ 1365 0555 ARMENIAN CAPITAL LETTER OH
Ֆ 1366 0556 ARMENIAN CAPITAL LETTER FEH
ՙ 1369 0559 ARMENIAN MODIFIER LETTER LEFT HALF RING
՚ 1370 055A ARMENIAN APOSTROPHE
՛ 1371 055B ARMENIAN EMPHASIS MARK
՜ 1372 055C ARMENIAN EXCLAMATION MARK
՝ 1373 055D ARMENIAN COMMA
՞ 1374 055E ARMENIAN QUESTION MARK
՟ 1375 055F ARMENIAN ABBREVIATION MARK
ա 1377 0561 ARMENIAN SMALL LETTER AYB
բ 1378 0562 ARMENIAN SMALL LETTER BEN
գ 1379 0563 ARMENIAN SMALL LETTER GIM
դ 1380 0564 ARMENIAN SMALL LETTER DA
ե 1381 0565 ARMENIAN SMALL LETTER ECH
զ 1382 0566 ARMENIAN SMALL LETTER ZA
է 1383 0567 ARMENIAN SMALL LETTER EH
ը 1384 0568 ARMENIAN SMALL LETTER ET
թ 1385 0569 ARMENIAN SMALL LETTER TO
ժ 1386 056A ARMENIAN SMALL LETTER ZHE
ի 1387 056B ARMENIAN SMALL LETTER INI
լ 1388 056C ARMENIAN SMALL LETTER LIWN
խ 1389 056D ARMENIAN SMALL LETTER XEH
ծ 1390 056E ARMENIAN SMALL LETTER CA
կ 1391 056F ARMENIAN SMALL LETTER KEN
հ 1392 0570 ARMENIAN SMALL LETTER HO
ձ 1393 0571 ARMENIAN SMALL LETTER JA
ղ 1394 0572 ARMENIAN SMALL LETTER GHAD
ճ 1395 0573 ARMENIAN SMALL LETTER CHEH
մ 1396 0574 ARMENIAN SMALL LETTER MEN
յ 1397 0575 ARMENIAN SMALL LETTER YI
ն 1398 0576 ARMENIAN SMALL LETTER NOW
շ 1399 0577 ARMENIAN SMALL LETTER SHA
ո 1400 0578 ARMENIAN SMALL LETTER VO
չ 1401 0579 ARMENIAN SMALL LETTER CHA
պ 1402 057A ARMENIAN SMALL LETTER PEH
ջ 1403 057B ARMENIAN SMALL LETTER JHEH
ռ 1404 057C ARMENIAN SMALL LETTER RA
ս 1405 057D ARMENIAN SMALL LETTER SEH
վ 1406 057E ARMENIAN SMALL LETTER VEW
տ 1407 057F ARMENIAN SMALL LETTER TIWN
ր 1408 0580 ARMENIAN SMALL LETTER REH
ց 1409 0581 ARMENIAN SMALL LETTER CO
ւ 1410 0582 ARMENIAN SMALL LETTER YIWN
փ 1411 0583 ARMENIAN SMALL LETTER PIWR
ք 1412 0584 ARMENIAN SMALL LETTER KEH
օ 1413 0585 ARMENIAN SMALL LETTER OH
ֆ 1414 0586 ARMENIAN SMALL LETTER FEH
և 1415 0587 ARMENIAN SMALL LIGATURE ECH YIWN
։ 1417 0589 ARMENIAN FULL STOP
֊ 1418 058A ARMENIAN HYPHEN
֏ 1423 058F ARMENIAN DRAM SIGN

Unicode, pour écrire ou lire l’arménien

A la demande de l’Association Culturelle Arménienne de Marne-la-Vallée (ACAM), j’ai partagé mercredi 3 juin au cours d’une conférence ma conviction qu’il n’est plus possible de communiquer en arménien, notamment sur Internet, par mail, dans les blogs, les sites etc. sans adopter définitivement l’unicode. J’ai déjà écrit plusieurs billets sur ce thème.

Ce mercredi 3 juin 2009, à 20h30 précises, sur la péniche Anako ancrée dans le bassin de la Villette, en face du 61 quai de La Seine (Paris 18e), nous nous sommes retrouvés nombreux. Les intervenants étaient Philippe Pilibossian, Gabriel Kepeklian et Haroutioun Khatchadourian.


Un bon outil Unicode gratuit

De quoi s’agit-il ?

Les utilisateurs de Windows ont à leur disposition un outil Unicode très simple. Il n’est pas adapté à la saisie d’un long texte mais est particulièrement utile pour tous ceux qui ont à saisir des caractères Unicode non accessibles à l’aide du clavier standard. Ce programme étant méconnu pour ses possibilités Unicode, il mérite ce billet d’explication et vous verrez que vous l’adopterez dans votre trousse à outils.

Où trouver ce logiciel ?

Ce logiciel est livré avec Windows pour toutes les versions de Windows 98, 2000, XP et Vista. Il est donc situé dans un des répertoires d’installation du système d’exploitation de Microsoft. Si jamais vous n’aviez pas ce logiciel dans votre ordinateur, il est possible de le télécharger depuis le site de Microsoft.

Comment lancer ce programme ?

Il y a au moins trois méthodes simples. Choisissez.

  1. Cliquez sur Démarrer, Programmes, Accessoires, Outils système, Table des Caractères
  2. Appuyez sur les touches « Fenêtre » + « R », écrivez « charmap », cliquez sur OK
  3. Si cet outil vous est très utile, créez un raccourcis sur charmap et utilisez ensuite ce raccourcis

Comment utilisez Charmap ?

Après avoir lancé Charmap, la fenêtre qui apparaît est dans un mode d’affichage simple. En cochant la case « Affichage avancé » en bas, vous obtenez ceci :

charmap1

Choisissez la police de caractères que vous voulez utiliser. Pour les caractères arméniens, je vous recommande « sylfaen ».

Maintenant voyons comment retrouver un caractère précis.

  1. La première solution consiste à parcourir la page et à repérer le caractère. Mais c’est fastidieux et long.
  2. Vous pouvez aussi saisir le nom de la lettre dans la zone de recherche (en bas) et cliquer sur « recherche ».
  3. Vous pouvez encore choisir « Rangée Unicode » dans la zone « Grouper par » (en bas). A ce moment là, une petite fenêtre s’ouvre sur le côté dans laquelle vous allez trouvez le nom des rangées Unicode disponibles dans la police choisie.

charmap2

Si vous sélectionnez un alphabet, par exemple l’arménien, la fenêtre principale change et se spécialise pour ne présenter que les caractères de l’alphabet choisi.

charmap3

Maintenant, il ne vous reste plus qu’à sélectionner le ou les caractères de votre choix puis à les copier pour les coller dans votre application, par exemple votre traitement de textes ou votre tableur.

Charmap réserve encore d’autres fonctionnalités que vous découvrirez par vous-même, j’en suis sûr !

Pour aller plus loin … mais je ne le recommande pas
Il existe aussi un outil très « confidentiel » et donc bien caché : l’éditeur de caractère privé. Ce logiciel s’appelle : « eudcedit ». Pour y accéder, restez dans la même logique que pour Charmap : Démarrer/Exécuter ou « Fenêtre »+R. Il vous servira à créer vos propres caractères Unicode qui seront enregistrés dans un fichier se terminant par l’extension « .TTE ».

Vous pourrez ensuite utiliser ces nouveaux caractères en choisissant la police que vous aurez ainsi créée. Si vous voulez que vos correspondants vous lisent, il faudra leur donner votre fichier « .TTE ».

Mon conseil : l’utilisation de cette possibilité devrait rester totalement personnelle, limitée à vos besoins propres. Il n’y a en effet aucune pérennité à attendre de caractères créés par vous …


Unicode or not unicode, that’s the question !

Si vous être un utilisateur d’un système Windows, vous trouverez dans le site de Microsoft un utilitaire qui permet de vérifier si un fichier de police (avec une extension .TTF) est conforme à la norme Unicode. Cet outil gratuit et téléchargeable (http://www.microsoft.com/typography/property/property.htm) a été baptisé « Microsoft Opentype Font File Properties Extension ».

unicode11

Quand on fait un clic droit sur un fichier de police dont l’extension est .TTF, choisissez ensuite « Propriétés ». Vous pourrez alors savoir si cette police est compatible avec l’Unicode et quelle est son étendue de caractères (l’onglet « Version » est utile pour préciser).

Sous XP

(Sous XP)

unicode

(sous Vista)

Si vous cliquez sur « Ouvrir », vous pourrez voir un exemple d’utilisation de la police. Mais, il y a là un défaut. Il n’est pas possible de voir tous les caractères. Pour avoir cette possibilité, il faut recourir à d’autres outils. Par exemple, dans les traitements de texte Open Office ou Microsoft Office, on trouve sous le menu « Insertion » le choix « caractères spéciaux » qui ouvre une fenêtre où on voir tous les caractères.

Vous noterez au passage (en regardant bien les illustrations de ce post) que l’Unicode est ici donné comme identique à l’ISO 10646-2. En fait, ce n’est pas tout à fait exact … mais c’est un autre sujet.

Si vous connaissez  d’autres petits outils pratiques … n’hésitez pas à laisser un commentaire.


Glyphe, police, fonte, caractère, casse … et unicode

La terminologie des imprimeurs et des typographes a été percutée par celle de l’informatique il y a déjà un certain temps. Aujourd’hui, combien d’entre nous savent encore distinguer police, fonte, caractère, casse etc. ? Essayons d’y voir un peu plus clair … Cela nous permettra de mieux définir ce qu’est l’unicode à la fin de ce post.

  • Le caractère signifie le dessin d’une lettre. En imprimerie, c’est donc le morceau de métal qui forme une lettre ou un signe.
  • Le glyphe est la représentation visuelle d’un caractère. C’est ce que je vois formé de traits, de courbes, de points …
  • La casse est un casier où, dans chaque cassetin est rangé les plombs d’un même caractère. Une casse est homogène, elle contient une famille de caractères.
  • La fonte désigne l’ensemble des caractères présentant les mêmes caractéristiques de corps, graisse et italique dans une même police. Par exemple, la fonte Arial Gras Italique de corps 14.
  • La police de caractères est l’ensemble des fontes d’une même famille de fonte. Par exemple, la police Garamond.

Lorsqu’apparaît l’informatique, très vite se pose la question du codage des caractères :  » Comment représenter une lettre, un signe ?  » Au début, il s’agit d’avoir un code pour la lettre « A », sans se soucier de son impression. Puis, ça se complique et la question devient :  » Comment faire pour désigner un caractère ? « . Puis, l’informatique n’étant pas que l’affaire des écritures occidentales des pays les plus développés … on commence à se demander comment faire pour avoir des polices de caractères propres aux différents alphabets (romain, grec, arménien, cyrillique, coréen etc.).

C’est ainsi qu’est né un système d’encodage normalisé qui a reçu le nom d’unicode. Chaque caractère y est codé par une unique valeur numérique. Un code précis est destiné à garantir l’affichage et l’impression corrects sur tous les matériels, logiciels et dans toutes les langues du bon caractère. Lorsque la norme unicode sera entièrement définie (c’est probablement une utopie), elle couvrira la totalité des caractères employés dans toutes les langues du monde, toutes les ligatures, tous les signes de ponctuation et tous les symboles (et j’en oublie sûrement).

Quelques repères. La version 1.0 est publié en 1991. En 1998, la version 2.1 d’unicode contient 50 377 caractères, c’est la définition de la  police « Arial Unicode MS » livrée par Microsoft. En 2002, la version 3.2 classe 95 221 caractères, symboles et directives. En 2003, la version 4.0 code 96 447 caractères. Actuellement, nous en sommes à la version 5.1.0 avec plus de 100.000 caractères !

Il est important de comprendre que cette norme est universelle : il n’y a pas plusieurs normes unicode mais une seule. Elle s’applique à tous les ordinateurs, toutes les imprimantes, tous les logiciels … créés depuis la publication de la norme. Par exemple, au niveau des systèmes d’exploitation, l’unicode est supporté depuis Windows XP, MacOS 8.5, les UNIX et Linux récents …

Ainsi, si j’écris un texte en arménien en utilisant un logiciel qui utilise l’unicode, je suis certain que mon texte pourra être lu, imprimé, stocké partout sur terre et sans que celui me lira ait besoin de posséder les mêmes logiciels que moi. Les versions successives de l’unicode garantissent toujours les précédentes.

Alors, il n’y a pas à hésiter un seul instant. Il n’y a plus d’excuse à utiliser les bricolages d’un autre millénaire ;-)

Etes-vous unicodiste ? Avez-vous déjà utilisé l’unicode ? Mais peut-être avez-vous rencontré quelques difficultés ? Quelle est votre expérience ?


  • Catégories

  • Calendrier

    novembre 2024
    L M M J V S D
    « Mai    
     123
    45678910
    11121314151617
    18192021222324
    252627282930  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress