Les différents codages utilisés

Le codage ASCII utilisait jadis 7 bits pour représenter les caractères.
L'ISO 8859-1(appelé aussi latin-1) ajoutait un bit pour tenir compte des caractères accentués soit donc 8 bits (comme la plupart des autres pages de codes nationales).
Aujourd'hui, les systèmes Windows utilisent Unicode.
Unicode dont l'ambition est de coder toutes les écritures utilisées dans l’histoire de l’humanité, est basé sur un répertoire universel et rassemble les caractères de chaque page de code. Les jeux de caractères codés ASCII et ISO 8859-1, sont respectivement identiques aux 128 et 256 premiers caractères indexés par ce répertoire universel
Ce répertoire universel (commun à la norme ISO 10646-1 et à Unicode), permet d'associer à tout caractère un unique entier, appelé point de code, compris entre 0 et 10FFFF (en hexadécimal) soit un peu plus de 1,1 million. Certains points de code sont réservés et d'autres ne sont pas encore assignés. Les points de codage de tous les caractères de la base multilangue (premier plan ) comportent 4 chiffres hexadécimaux soit donc entre 0 et FFFD (65534), FFFE et FFFF n'étant pas assignés à des caractères. Mais dans cette plage la partie D800 (55296) à DFFF n'est pas une zone valide pour des points de code isolés.

En définitive, on devra veiller à ce que les codes des caractères utilisés dans les programmes ne dépassent pas 55295, les 256 premiers caractères étant ceux de la norme ISO 8859-1 comprenant les 128 codes ASCII, les lettres accentuées et des caractères spéciaux.

 
© Matabu mars 2020 - Tous droits réservés. Limitation à l'usage non commercial, privé ou scolaire.