5) Du binaire au codage en base 2.
a) Mots et octets.
Un ordinateur est capable de :
- stocker une grande quantité de 0 et de 1 dans des BITs (chiffres binaires).
- d’effectuer très rapidement des calculs sur des ensembles de BITs.
Cependant, rien que pour écrire en binaire le nombre 13 (1101), il nous faut déjà 4 BITs.
Pour manipuler des objets plus complexes que 0 et 1, les ordinateurs regroupent les BITs par paquets indivisibles :
- Octet : paquet de 8 BITs.
- Mot : ensemble de plusieurs octets.
Exemples :
- les ordinateurs des années 80 (Thomson MO5, Amstrad CPC … ) manipulaient des mots d'un octet (8 BITs) : 00000110, par exemple.
- un ordinateur 32 bits manipule des mots de 4 octets (4x8 = 32) : 00000000 00000000 00000000 00000110, par exemple.
- aujourd’hui, la mode est plutôt aux ordinateurs 64 bits qui manipulent des mots de 8 octets (8*8 = 64) : 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000110, par exemple.
b) Codage des caractères.
Puisqu'un texte est une suite caractères, on peut le représenter en écrivant les caractères les uns après les autres.
Comme nous savons écrire n'importe quel nombre dans le langage de l'ordinateur (en binaire), il suffit alors d'établir une table de correspondance entre les caractères dont on peut avoir besoin et les nombres. C'est ainsi que fut élaboré le code
ASCII dont voici une table ci-dessous.

On y trouve les dix chiffres, les lettres (majuscules et minuscules), les symboles de ponctuation classiques. Les 33 premiers caractères étant des symboles de mise en page, tel que le retour chariot (retour à la ligne).
Remarque :
Aux débuts de l'informatique, où les capacités de mémorisation étaient très limitées, on pensait que ce jeu de 128 caractères serait suffisant. On n'imaginait pas que ceux-ci seraient utilisés un jour pour traiter d'autres textes que des communications techniques, essentiellement en anglais. Cela permettait de représenter chaque caractère sur un petit nombre de bits, et ainsi d'occuper aussi peu de place que possible sur les coûteuses unités de stockage de l'époque.
Avec l'explosion de l'informatique à la fin du vingtième siècle, il a fallu établir de nouveaux codes pour les caractères accentués du français ou de l'allemand (entre autres), les caractères grecs, cyrilliques, chinois, japonais ...
La norme Unicode recense aujourd'hui près de 110 000 caractères et associe à chacun un numéro. Il existe plusieurs déclinaisons de l'
Unicode, parmi lesquelles le format
UTF-8, qui est celle que nous utilisons cette année et dans laquelle, les caractères les plus courants sont exprimés sur 8 bits, les moins courants sur 16, 32 ou 64 bits.