unicode « Blogabriel

26

Jan/14

Tokenisation de l’arménien classique

by gabriel under arménien, language, langue, linguistique, outils, sémantique, unicode

Voici un petit programme que j’ai réalisé, il prend en entrée un texte écrit en caractères arméniens (en unicode) et en réalise la tokenisation (ou normalisation), voir mon article sur ce sujet.

Seuls les caractères arméniens sont conservés, c’est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d’interrogation arménien), le badiv ՟ (signe d’abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l’Âge d’Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d’une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu’à en faire un fichier CSV. (C’est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par le tableur de Libre office, d’Open Office, celui de Microsoft etc.

Lien pour l’outil de tokenisation de l’arménien.

25

Déc/13

Unicode : arménien de U+0530 a U+058F (1328–1423)

by gabriel under arménien, linguistique, outils, unicode

Caractère (décimal)	Décimal	Hexa	Nom
Ա	1329	0531	ARMENIAN CAPITAL LETTER AYB
Բ	1330	0532	ARMENIAN CAPITAL LETTER BEN
Գ	1331	0533	ARMENIAN CAPITAL LETTER GIM
Դ	1332	0534	ARMENIAN CAPITAL LETTER DA
Ե	1333	0535	ARMENIAN CAPITAL LETTER ECH
Զ	1334	0536	ARMENIAN CAPITAL LETTER ZA
Է	1335	0537	ARMENIAN CAPITAL LETTER EH
Ը	1336	0538	ARMENIAN CAPITAL LETTER ET
Թ	1337	0539	ARMENIAN CAPITAL LETTER TO
Ժ	1338	053A	ARMENIAN CAPITAL LETTER ZHE
Ի	1339	053B	ARMENIAN CAPITAL LETTER INI
Լ	1340	053C	ARMENIAN CAPITAL LETTER LIWN
Խ	1341	053D	ARMENIAN CAPITAL LETTER XEH
Ծ	1342	053E	ARMENIAN CAPITAL LETTER CA
Կ	1343	053F	ARMENIAN CAPITAL LETTER KEN
Հ	1344	0540	ARMENIAN CAPITAL LETTER HO
Ձ	1345	0541	ARMENIAN CAPITAL LETTER JA
Ղ	1346	0542	ARMENIAN CAPITAL LETTER GHAD
Ճ	1347	0543	ARMENIAN CAPITAL LETTER CHEH
Մ	1348	0544	ARMENIAN CAPITAL LETTER MEN
Յ	1349	0545	ARMENIAN CAPITAL LETTER YI
Ն	1350	0546	ARMENIAN CAPITAL LETTER NOW
Շ	1351	0547	ARMENIAN CAPITAL LETTER SHA
Ո	1352	0548	ARMENIAN CAPITAL LETTER VO
Չ	1353	0549	ARMENIAN CAPITAL LETTER CHA
Պ	1354	054A	ARMENIAN CAPITAL LETTER PEH
Ջ	1355	054B	ARMENIAN CAPITAL LETTER JHEH
Ռ	1356	054C	ARMENIAN CAPITAL LETTER RA
Ս	1357	054D	ARMENIAN CAPITAL LETTER SEH
Վ	1358	054E	ARMENIAN CAPITAL LETTER VEW
Տ	1359	054F	ARMENIAN CAPITAL LETTER TIWN
Ր	1360	0550	ARMENIAN CAPITAL LETTER REH
Ց	1361	0551	ARMENIAN CAPITAL LETTER CO
Ւ	1362	0552	ARMENIAN CAPITAL LETTER YIWN
Փ	1363	0553	ARMENIAN CAPITAL LETTER PIWR
Ք	1364	0554	ARMENIAN CAPITAL LETTER KEH
Օ	1365	0555	ARMENIAN CAPITAL LETTER OH
Ֆ	1366	0556	ARMENIAN CAPITAL LETTER FEH
ՙ	1369	0559	ARMENIAN MODIFIER LETTER LEFT HALF RING
՚	1370	055A	ARMENIAN APOSTROPHE
՛	1371	055B	ARMENIAN EMPHASIS MARK
՜	1372	055C	ARMENIAN EXCLAMATION MARK
՝	1373	055D	ARMENIAN COMMA
՞	1374	055E	ARMENIAN QUESTION MARK
՟	1375	055F	ARMENIAN ABBREVIATION MARK
ա	1377	0561	ARMENIAN SMALL LETTER AYB
բ	1378	0562	ARMENIAN SMALL LETTER BEN
գ	1379	0563	ARMENIAN SMALL LETTER GIM
դ	1380	0564	ARMENIAN SMALL LETTER DA
ե	1381	0565	ARMENIAN SMALL LETTER ECH
զ	1382	0566	ARMENIAN SMALL LETTER ZA
է	1383	0567	ARMENIAN SMALL LETTER EH
ը	1384	0568	ARMENIAN SMALL LETTER ET
թ	1385	0569	ARMENIAN SMALL LETTER TO
ժ	1386	056A	ARMENIAN SMALL LETTER ZHE
ի	1387	056B	ARMENIAN SMALL LETTER INI
լ	1388	056C	ARMENIAN SMALL LETTER LIWN
խ	1389	056D	ARMENIAN SMALL LETTER XEH
ծ	1390	056E	ARMENIAN SMALL LETTER CA
կ	1391	056F	ARMENIAN SMALL LETTER KEN
հ	1392	0570	ARMENIAN SMALL LETTER HO
ձ	1393	0571	ARMENIAN SMALL LETTER JA
ղ	1394	0572	ARMENIAN SMALL LETTER GHAD
ճ	1395	0573	ARMENIAN SMALL LETTER CHEH
մ	1396	0574	ARMENIAN SMALL LETTER MEN
յ	1397	0575	ARMENIAN SMALL LETTER YI
ն	1398	0576	ARMENIAN SMALL LETTER NOW
շ	1399	0577	ARMENIAN SMALL LETTER SHA
ո	1400	0578	ARMENIAN SMALL LETTER VO
չ	1401	0579	ARMENIAN SMALL LETTER CHA
պ	1402	057A	ARMENIAN SMALL LETTER PEH
ջ	1403	057B	ARMENIAN SMALL LETTER JHEH
ռ	1404	057C	ARMENIAN SMALL LETTER RA
ս	1405	057D	ARMENIAN SMALL LETTER SEH
վ	1406	057E	ARMENIAN SMALL LETTER VEW
տ	1407	057F	ARMENIAN SMALL LETTER TIWN
ր	1408	0580	ARMENIAN SMALL LETTER REH
ց	1409	0581	ARMENIAN SMALL LETTER CO
ւ	1410	0582	ARMENIAN SMALL LETTER YIWN
փ	1411	0583	ARMENIAN SMALL LETTER PIWR
ք	1412	0584	ARMENIAN SMALL LETTER KEH
օ	1413	0585	ARMENIAN SMALL LETTER OH
ֆ	1414	0586	ARMENIAN SMALL LETTER FEH
և	1415	0587	ARMENIAN SMALL LIGATURE ECH YIWN
։	1417	0589	ARMENIAN FULL STOP
֊	1418	058A	ARMENIAN HYPHEN
֏	1423	058F	ARMENIAN DRAM SIGN

8

Juin/09

Unicode, pour écrire ou lire l’arménien

by gabriel under arménien, unicode

A la demande de l’Association Culturelle Arménienne de Marne-la-Vallée (ACAM), j’ai partagé mercredi 3 juin au cours d’une conférence ma conviction qu’il n’est plus possible de communiquer en arménien, notamment sur Internet, par mail, dans les blogs, les sites etc. sans adopter définitivement l’unicode. J’ai déjà écrit plusieurs billets sur ce thème.

Ce mercredi 3 juin 2009, à 20h30 précises, sur la péniche Anako ancrée dans le bassin de la Villette, en face du 61 quai de La Seine (Paris 18e), nous nous sommes retrouvés nombreux. Les intervenants étaient Philippe Pilibossian, Gabriel Kepeklian et Haroutioun Khatchadourian.

30

Mai/09

Un bon outil Unicode gratuit

by gabriel under unicode

De quoi s’agit-il ?

Les utilisateurs de Windows ont à leur disposition un outil Unicode très simple. Il n’est pas adapté à la saisie d’un long texte mais est particulièrement utile pour tous ceux qui ont à saisir des caractères Unicode non accessibles à l’aide du clavier standard. Ce programme étant méconnu pour ses possibilités Unicode, il mérite ce billet d’explication et vous verrez que vous l’adopterez dans votre trousse à outils.

Où trouver ce logiciel ?

Ce logiciel est livré avec Windows pour toutes les versions de Windows 98, 2000, XP et Vista. Il est donc situé dans un des répertoires d’installation du système d’exploitation de Microsoft. Si jamais vous n’aviez pas ce logiciel dans votre ordinateur, il est possible de le télécharger depuis le site de Microsoft.

Comment lancer ce programme ?

Il y a au moins trois méthodes simples. Choisissez.

Cliquez sur Démarrer, Programmes, Accessoires, Outils système, Table des Caractères
Appuyez sur les touches « Fenêtre » + « R », écrivez « charmap », cliquez sur OK
Si cet outil vous est très utile, créez un raccourcis sur charmap et utilisez ensuite ce raccourcis

Comment utilisez Charmap ?

Après avoir lancé Charmap, la fenêtre qui apparaît est dans un mode d’affichage simple. En cochant la case « Affichage avancé » en bas, vous obtenez ceci :

charmap1

Choisissez la police de caractères que vous voulez utiliser. Pour les caractères arméniens, je vous recommande « sylfaen ».

Maintenant voyons comment retrouver un caractère précis.

La première solution consiste à parcourir la page et à repérer le caractère. Mais c’est fastidieux et long.
Vous pouvez aussi saisir le nom de la lettre dans la zone de recherche (en bas) et cliquer sur « recherche ».
Vous pouvez encore choisir « Rangée Unicode » dans la zone « Grouper par » (en bas). A ce moment là, une petite fenêtre s’ouvre sur le côté dans laquelle vous allez trouvez le nom des rangées Unicode disponibles dans la police choisie.

charmap2

Si vous sélectionnez un alphabet, par exemple l’arménien, la fenêtre principale change et se spécialise pour ne présenter que les caractères de l’alphabet choisi.

Maintenant, il ne vous reste plus qu’à sélectionner le ou les caractères de votre choix puis à les copier pour les coller dans votre application, par exemple votre traitement de textes ou votre tableur.

Charmap réserve encore d’autres fonctionnalités que vous découvrirez par vous-même, j’en suis sûr !

Pour aller plus loin … mais je ne le recommande pas
Il existe aussi un outil très « confidentiel » et donc bien caché : l’éditeur de caractère privé. Ce logiciel s’appelle : « eudcedit ». Pour y accéder, restez dans la même logique que pour Charmap : Démarrer/Exécuter ou « Fenêtre »+R. Il vous servira à créer vos propres caractères Unicode qui seront enregistrés dans un fichier se terminant par l’extension « .TTE ».

Vous pourrez ensuite utiliser ces nouveaux caractères en choisissant la police que vous aurez ainsi créée. Si vous voulez que vos correspondants vous lisent, il faudra leur donner votre fichier « .TTE ».

Mon conseil : l’utilisation de cette possibilité devrait rester totalement personnelle, limitée à vos besoins propres. Il n’y a en effet aucune pérennité à attendre de caractères créés par vous …

9

Mar/09

Unicode or not unicode, that’s the question !

by gabriel under unicode

Si vous être un utilisateur d’un système Windows, vous trouverez dans le site de Microsoft un utilitaire qui permet de vérifier si un fichier de police (avec une extension .TTF) est conforme à la norme Unicode. Cet outil gratuit et téléchargeable (http://www.microsoft.com/typography/property/property.htm) a été baptisé « Microsoft Opentype Font File Properties Extension ».

unicode11

Quand on fait un clic droit sur un fichier de police dont l’extension est .TTF, choisissez ensuite « Propriétés ». Vous pourrez alors savoir si cette police est compatible avec l’Unicode et quelle est son étendue de caractères (l’onglet « Version » est utile pour préciser).

Sous XP

(Sous XP)

unicode

(sous Vista)

Si vous cliquez sur « Ouvrir », vous pourrez voir un exemple d’utilisation de la police. Mais, il y a là un défaut. Il n’est pas possible de voir tous les caractères. Pour avoir cette possibilité, il faut recourir à d’autres outils. Par exemple, dans les traitements de texte Open Office ou Microsoft Office, on trouve sous le menu « Insertion » le choix « caractères spéciaux » qui ouvre une fenêtre où on voir tous les caractères.

Vous noterez au passage (en regardant bien les illustrations de ce post) que l’Unicode est ici donné comme identique à l’ISO 10646-2. En fait, ce n’est pas tout à fait exact … mais c’est un autre sujet.

Si vous connaissez d’autres petits outils pratiques … n’hésitez pas à laisser un commentaire.

19

Fév/09

Glyphe, police, fonte, caractère, casse … et unicode

by gabriel under unicode

La terminologie des imprimeurs et des typographes a été percutée par celle de l’informatique il y a déjà un certain temps. Aujourd’hui, combien d’entre nous savent encore distinguer police, fonte, caractère, casse etc. ? Essayons d’y voir un peu plus clair … Cela nous permettra de mieux définir ce qu’est l’unicode à la fin de ce post.

Le caractère signifie le dessin d’une lettre. En imprimerie, c’est donc le morceau de métal qui forme une lettre ou un signe.
Le glyphe est la représentation visuelle d’un caractère. C’est ce que je vois formé de traits, de courbes, de points …
La casse est un casier où, dans chaque cassetin est rangé les plombs d’un même caractère. Une casse est homogène, elle contient une famille de caractères.
La fonte désigne l’ensemble des caractères présentant les mêmes caractéristiques de corps, graisse et italique dans une même police. Par exemple, la fonte Arial Gras Italique de corps 14.
La police de caractères est l’ensemble des fontes d’une même famille de fonte. Par exemple, la police Garamond.

Lorsqu’apparaît l’informatique, très vite se pose la question du codage des caractères : » Comment représenter une lettre, un signe ? » Au début, il s’agit d’avoir un code pour la lettre « A », sans se soucier de son impression. Puis, ça se complique et la question devient : » Comment faire pour désigner un caractère ? « . Puis, l’informatique n’étant pas que l’affaire des écritures occidentales des pays les plus développés … on commence à se demander comment faire pour avoir des polices de caractères propres aux différents alphabets (romain, grec, arménien, cyrillique, coréen etc.).

C’est ainsi qu’est né un système d’encodage normalisé qui a reçu le nom d’unicode. Chaque caractère y est codé par une unique valeur numérique. Un code précis est destiné à garantir l’affichage et l’impression corrects sur tous les matériels, logiciels et dans toutes les langues du bon caractère. Lorsque la norme unicode sera entièrement définie (c’est probablement une utopie), elle couvrira la totalité des caractères employés dans toutes les langues du monde, toutes les ligatures, tous les signes de ponctuation et tous les symboles (et j’en oublie sûrement).

Quelques repères. La version 1.0 est publié en 1991. En 1998, la version 2.1 d’unicode contient 50 377 caractères, c’est la définition de la police « Arial Unicode MS » livrée par Microsoft. En 2002, la version 3.2 classe 95 221 caractères, symboles et directives. En 2003, la version 4.0 code 96 447 caractères. Actuellement, nous en sommes à la version 5.1.0 avec plus de 100.000 caractères !

Il est important de comprendre que cette norme est universelle : il n’y a pas plusieurs normes unicode mais une seule. Elle s’applique à tous les ordinateurs, toutes les imprimantes, tous les logiciels … créés depuis la publication de la norme. Par exemple, au niveau des systèmes d’exploitation, l’unicode est supporté depuis Windows XP, MacOS 8.5, les UNIX et Linux récents …

Ainsi, si j’écris un texte en arménien en utilisant un logiciel qui utilise l’unicode, je suis certain que mon texte pourra être lu, imprimé, stocké partout sur terre et sans que celui me lira ait besoin de posséder les mêmes logiciels que moi. Les versions successives de l’unicode garantissent toujours les précédentes.

Alors, il n’y a pas à hésiter un seul instant. Il n’y a plus d’excuse à utiliser les bricolages d’un autre millénaire ;-)

Etes-vous unicodiste ? Avez-vous déjà utilisé l’unicode ? Mais peut-être avez-vous rencontré quelques difficultés ? Quelle est votre expérience ?

Blogabriel

Le blog de Gabriel, innovation, recherche et développement … et arménien classique

unicode

Tokenisation de l’arménien classique

Unicode : arménien de U+0530 a U+058F (1328–1423)

Unicode, pour écrire ou lire l’arménien

Un bon outil Unicode gratuit

Unicode or not unicode, that’s the question !

Glyphe, police, fonte, caractère, casse … et unicode

Méta

Catégories

Calendrier

Archives

Recent Posts

Archives

Tags

avril 2026
L	M	M	J	V	S	D
« Mai
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30