Unicode

Dimanche 27 juillet 2025 - 07:09

Translate

Rubriques

Actualité (récente)
Actualité (archive)
Comparatifs
Dossiers
Entrevues
Matériel (tests)
Matériel (bidouilles)
Points de vue
En pratique
Programmation
Reportages
Quizz
Tests de jeux
Tests de logiciels
Tests de compilations
Trucs et astuces
Articles divers

Articles in English

Réseaux sociaux

Suivez-nous sur X

Liste des jeux Amiga

0, A, B, C, D, E, F,
G, H, I, J, K, L, M,
N, O, P, Q, R, S, T,
U, V, W, X, Y, Z,
ALL

Trucs et astuces

0, A, B, C, D, E, F,
G, H, I, J, K, L, M,
N, O, P, Q, R, S, T,
U, V, W, X, Y, Z

Glossaire

0, A, B, C, D, E, F,
G, H, I, J, K, L, M,
N, O, P, Q, R, S, T,
U, V, W, X, Y, Z

Galeries

Menu des galeries

BD d'Amiga Spécial
Caricatures Dudai
Caricatures Jet d'ail
Diagrammes de Jay Miner
Images insolites
Fin de jeux (de A à E)
Fin de Jeux (de F à O)
Fin de jeux (de P à Z)
Galerie de Mike Dafunk
Logos d'Obligement
Pubs pour matériels
Systèmes d'exploitation
Trombinoscope Alchimie 7
Vidéos

Téléchargement

Documents
Jeux
Logiciels
Magazines
Divers

Liens

Associations
Jeux
Logiciels
Matériel
Magazines et médias
Pages personnelles
Réparateurs
Revendeurs
Scène démo
Sites de téléchargement
Divers

Partenaires

A Propos

A propos d'Obligement

Contact

David Brunet

Dossier : L'Unicode
(Article écrit par Pierre-Philippe Launay et extrait d'Amiga News - novembre 1991)

Quelle est la frontière entre la divulgation de secret et le secret de Polichinelle ? Sachez que depuis plusieurs années, les 22 entreprises américaines les plus performantes dans le domaine informatique travaillent à l'élaboration d'un code universel pour le stockage des informations.

Il n'était pas question pour moi de révéler ce secret dont j'avais la connaissance depuis fort longtemps. Pourtant j'étais libre car je n'avais pas signé de protocole. Cela s'appelle la déontologie. Il y a, en effet, de grands conflits d'intérêts financiers à la divulgation d'informations confidentielles. C'est souvent le concurrent qui donne le scoop afin de détruire son rival. Unicode est maintenant tombé dans le domaine public car il a été décrit dans plusieurs magazines à forts tirages dont Der Spiegel (1 131 000 exemplaires) mais aussi Courrier International et Datamation.

L'unification de l'informatique

Avant l'existence de l'American Standard Code for Information Interchange (ASCII), c'était la pagaille. Chaque société développait son propre système de codage pour transcrire les codes binaires en un format humain plus facilement compréhensible comme sont supposées l'être les symboles A, B et C. En dehors de cette norme américaine, il existe encore d'autres systèmes de codage des lettres latines (nos lettres "a" à "z") mais ils sont si confidentiels que leur diffusion n'intéresse que quelques spécialistes. Cette diversité est déplorable mais a résisté à trois siècles d'évolution depuis la pascaline d'un célèbre Clermontois à l'Amiga, car l'ordinateur ne comprend finalement que les suites de 0 et de 1, le reste n'est que de l'habillage.

L'historique

L'American Standard Code for Information Interchange fut créé durant la période protohistorique (vers 1960) par les grandes entreprises informatiques des années préhistoriques (1950). C'était une grande innovation car il représentait 128 symboles à l'aide du groupement de 7 chiffres 0 ou 1 (bit). "1" signifie "état activé" et "0" signifie "état inactivé". Un huitième bit servait à des besoins internes.

La réunion de ces 8 bits forment un octet. Ces symboles étaient les lettres majuscules de A à Z, les chiffres de 0 à 9, les signes de ponctuation et des ordres spécifiques. Comme les premières vraies applications consistaient surtout à sortir des résultats sur imprimante, on ne s'étonne plus que les 32 premiers symboles de ce système soient surtout dédiés à l'impression.

Puis apparurent les lettres minuscules mais cela n'était déjà plus suffisant. Cette unification était trop belle pour être vraie et chaque constructeur avait son idée sur la question. Chacun entendait aussi utiliser à sa guise les codes 128 à 256.

Au cours du Moyen-âge (1984), j'ai pu alors lire des tableaux de comparaisons décrivant plus de 50 a.s.c.i.i. différents. Cependant, alors que Monsieur Sinclair, l'inventeur du premier ordinateur à moins de 1000 FF, commençait à devenir Lord, la situation commençait à s'éclaircir à grands coups de faillites spectaculaires. Les rescapés semblent avoir enfin compris la nécessité de la standardisation.

Un code beaucoup trop restreint

Cela amène des problèmes d'insuffisance de symboles, des problèmes de communications internationales et donc des conséquences mercatiques. Comment faire, en effet, pour indiquer en seulement 128 symboles les spécificités propres à chaque langue comme le ñ ("n" avec "~" espagnol) le "n" avec un "°", les lettres accentuées "â", "ï", etc. ?

L'Organisation Pour La Standardisation Internationale (ISO, siégeant à Genève) avait bien élargi le code ASCII de 128 à 256 symboles mais c'était un peu comme de vouloir créer un F5 dans un studio. La gageure était mathématiquement impossible. Certains (tous ?) pensaient avoir trouvé une parade : plusieurs ordres ou symboles étaient codés sur 16 bits (2 octets) voire davantage. Cela devient vite tellement et complètement farfelu que seul un informaticien peut s'y retrouver. Au moins avec ce système originaire du monde des PC, même les programmeurs de PC ont encore de l'avenir sur Amiga. Cette idée de codage sur deux octets n'était pas vraiment stupide. Elle était plutôt inachevée.

Cela devient urgent

Le problème devient maintenant très urgent avec le développement des télécommunications. Imaginez la tête de votre correspondant lorsque vous transmettez par Minitel ou un autre modem les caractères propres à votre langue comme les paroles de l'été indien et que cela devient l'@t@ indien. Toutes les spécificités de nos langues francophones comme les é, è, ç, à, ù deviennent très folkloriques à l'arrivées dans un autre pays. Pire, même dans des pays de langues voisines comme la Suisse et la Belgique, les surprises ne manquent pas : c'est ce que rendent compte les différents claviers du répertoire "Keymaps". Ne parlons pas non plus des unités monétaires qui passe du $ (dollar) à la £ (livre) ou à ¤ (n'importe quoi). Ces erreurs sont dues à la limites physique des 256 symboles. Certains numéros de codes sont attribués à plusieurs symboles variant au gré du pays.

Et ce n'est pas tout. Nous n'avons parlé que des symboles de l'alphabet latin. Autrement dit, ASCII se montre particulièrement protectionniste contre les écritures arabes, asiatiques, cyrilliques et autres langues prédominantes. Ceux-ci utilisent donc des systèmes matériels et logiciels différents.

ASCII n'est pas le seul code dominant

Pour pallier à l'insuffisance du code américain, une grande partie du monde s'est singularisée avec le code japonais en deux octets et le code taïwanais en trois octets.

Le Japan Industrial Standard a été créé sous la pression d'un magnat de la presse nippone en 1978. Il était scandaleux que le pays du soleil levant ne puisse pas utiliser son écriture nationale, les kanji et les kana. Les kanji sont des idéogrammes chinois utilisés par les Japonais depuis fort longtemps. Un idéogramme est un symbole qui représente un objet ou un concept : "1" est un idéogramme arabe qui représente le nombre.

Les kana sont plus élaborés et semblent supplanter les kanji : un kana représente un simple son et est le mieux adapté à la transcription du japonais. Dans ce genre d'écriture, le nombre de symboles devient vite gigantesque. Ces symboles sont ici représentés par une matrice de 94 lignes et de 94 colonnes. C'est le règne des imprimantes à aiguilles.

Ce système permet de représenter 94x94=8836 caractères, signes de ponctuations, chiffres arabes, alphabets latins, cyriliques (russe, ukrainien, bulgare, serbe), grecs, kana (hirakana et katakana) et 6349 kanji. Il reste un trou de 1034 codes non utilisés et qui sera peut-être comblé par les signes diacritiques (accents non prononçables mis sur une lettre pour la distinguer d'une autre comme "à" et "a") ou par l'insertion d'autres signes kanji.

Le code de Taïwan est top secret mais la gestion de trois octets semble au premier abord trop compliqué à gérer par un esprit humain.

Unicode permet de représenter 65 536 caractères

Il utilise 2 octets soit 2x8 bits=16 bits. Chaque bit étant positionné sur 0 ou 1, cela nous donne 2 puissance 16 possibilités différentes,(2x2x2x2x2x2x2x2x2x2x2x2x2x2x2x2) soit 65 536 caractères. Cela signifie aussi que le stockage des caractères se fera sur un mot (2 octets) au lieu de un octet. Un fichier de 100 gigaoctets de données codées en ASCII passera à 200 gigaoctets de données Unicode.

Les avantages

Oui mais. Les avantages sont considérables car cela permet de tout transcrire. Une entreprise qui possède un fichier énorme, international, a tout intérêt à stocker correctement ses données. De plus, la compartimentation de Unicode permet de conserver les anciens fichiers écris en ASCII avec de simples routines de traduction. Enfin, l'écriture sur 16 bits au lieu de 8 est plus rapide sur une machine 16 bits comme l'Amiga.

Unicode permet d'écrire correctement :

Le code arabe.
L'alphabet romain.
Les lettres européennes spécifiques.
Les alphabets grecs anciens et modernes.
Les caractères cyrilliques.
L'écriture Han (27000 cases Unicode).
Les symboles hébreux.
Les phonogrammes malemutes (1200 sons).
Les idéogrammes chinois, japonais, coréens...

Grâce à son universalité, Unicode va pouvoir infiltrer tous les marchés. Savez-vous par exemple qu'International Business Machines a failli être boycotté par le marché espagnol à cause d'un décret européen interdisant l'utilisation du "ñ" de façon à rester "compatible" ?

La position de Commodore sur Unicode

J'avais appris qu'Unicode n'existe pas et est en compétition avec le langage ISO norme 10646. Ce concurrent est cependant rejeté par les 14 pays utilisant le plus l'informatique et Unicode était déjà en phase de test final il y a un an. En téléphonant au service support Amiga pour confirmer certaines informations, je n'ai rien pu savoir sur Unicode : on ne peut pas en vouloir à Commodore France car le contenu d'un pacte de non-divulgation signé et divulgué signifie une attaque judiciaire que n'a pas à soutenir notre constructeur.

Notre sympathique assistance technique francophone devrait cependant avoir bientôt les mains libres car le mode d'emploi de ce langage devrait maintenant être publié sous forme d'un livre, sauf si un accord est intervenu entre l'écriture de cet article et sa publication. Les développeurs Commodore n'ont donc pas encore reçu de directives à ce sujet.

C'est dommage car les grandes entreprises de logiciels, comme Microsoft, sont en train de prendre de l'avance. Windows est déjà écrit en Unicode. D'autres constructeurs ont commencé à informer leurs développeurs préférés.

[Retour en haut] / [Retour aux articles]