Comprendre les caractères spéciaux

Les webmestres qui travaillent dans le code source le savent bien: on n’écrit pas dans le code source de la même manière qu’on écrit dans un éditeur web (Dreamweaver). En plus de la mise en forme, il faut convertir les caractères spéciaux et accentués pour que vos pages web soient interprétées et affichées correctement par tous les navigateurs.

Quels sont les caractères à coder ?

On sait que les 128 premiers caractères de base forment l’ASCII codé de 0 à 127. Ils ont été définis de façon universelle. Il n’est donc pas nécessaire des les coder puisqu’ils s’afficheront correctement partout.

Chaque langue possède ses propres caractères spéciaux; le japonais, l’arabe, le russe, le français… Pour les afficher correctement, le navigateur repère le jeu de caractère dans le code source HTML. La langue française utilise le jeu de caractères latin-1 appelé aussi ISO-8859-1. Dans ce type de codage, les caractères spéciaux doivent être remplacés par leur entité nommée ou numérique (é é). Mais ce n’est pas l’idéal.

{code type=html}

Titre de la page

Contenu…

{/code}

Le jeu de caractère UFT-8 reconnaît plus de 65.000 caractères. Ce qui est largement suffisant pour regrouper tous les caractères de toutes les langues à ce jour et même d’ajouter des caractères particuliers sans rapport avec les caractéristiques linguistiques. Dans ce cas, il n’y a aucune raison de coder les caractères spéciaux dans son code source.

ASCII, ASCII étendu

L’American Standard Code for Information Interchange (ASCII) – prononcé [asky]- est le premier jeu de caractères apparu. Il était codé sur 8 bits (256 possibilités) mais comportait un bit de parité. Par conséquent, seulement 7 bits pouvaient contenir de l’information (128 possibilités). Disposer de 128 caractères pour échanger de l’information est certainement suffisant en anglais mais très insuffisant pour couvrir les besoins des autres langues du monde occidental.

Jeu de caractères ASCII
Tableau ASCII de Normand Lamoureux (source: W3QC)

ASCII étendu — On décida alors d’étendre ce jeu de caractères en remplaçant le bit de parité par un bit utilisable. Les 128 premiers caractères sont donc communs à tous les jeux de caractères, les 128 caractères suivants sont destinés aux signes spécifiques à une langue. Chaque nouveau jeu de caractères a été normalisé par l’Organisation internationale de normalisation (ISO). Ainsi est né l’ISO-8859-1 ou ISO-Latin1 qui correspond aux signes utilisés en langue française.

Petite anecdote, l’ISO-8859-15 est un ISO-8859-1 modifié pour prendre en compte des caractères « oubliés » comme le sigle € ou la ligature œ.

ANSI

L’American National Standard Institute (ANSI) est un organisme de normalisation américain, constitué de producteurs, de consommateurs et de groupes d’intérêt général. Il est le représentant américain à l’ISO. De nouveau, les 128 premiers caractères sont ceux du code ASCII alors que les 128 suivants sont différents de l’ASCII étendu. Windows utilise ce standard.

Unicode

Du premier jeu de caractères à 128 combinaisons, on est passé à 256 en espérant couvrir une large gamme de caractères. Cependant, cela reste insuffisant pour certaines langues comme le japonais. Impossible donc pour un amoureux du pays du soleil levant de faire une page web avec un lexique franco-japonais.

Pour répondre à ce besoin, l’Unicode Transformation Format (UFT-8) a vu le jour. Codé sur 24 bits, il accepte plus de 16 millions de caractères. Le consortium Unicode est chargé de la standardisation des caractères, de sorte que tous les caractères de chaque langue puissent réellement être représentés et soient définis par un code unique qui remplacerait les tables ASCII ou ANSI.

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s