Codes ` a longueur variable et d´ecodabilit´e

1.3 Codes à longueur variable et décodabilité

Tous les exemples précédents permettent de compresser un texte en réduisant le nombre de bits nécessaires à coder l’unité de base d’un texte : le caractère. Tous les caractères de l’alphabet sont codés avec un même nombre de bits. On constate aisément à la lecture d’un texte que la distribution de ces caractères n’est pas uniforme ; ainsi dans un texte écrit en fran¸cais, la proportion de e s’avère plus importante que celle de n ou de k. Cette simple observation est à la base des codes à longueur variable dans lesquels les divers caractères sont codés sur un nombre de bits d’autant plus petit que leur fréquence est grande. Un code utilisant ce principe de longueur variable en fonction de la fréquence du caractère a été mis au point par Samuel F.B. Morse (tableau 1.1). Le code Morse, du nom de son inventeur, code à la base de la télégraphie sans fil, et dont l’idée remonte à 1832, fut présenté pour la première fois en 1837. Il permet de représenter 42 caractères ou signaux à l’aide de trois signes, le point, le trait et l’espace, ce dernier jouant le rôle de séparateur. Le trait dure trois fois plus longtemps que le point. L’espace représente une unité de temps et sera noté t. Le point et le trait sont séparés par un espace, les caractères par 3 espaces, les mots par 6 espaces.

Ecrivons selon ce code le mot DE :

DE = −t·t·ttt·

Dans le cadre informatique, nous devons utiliser un codage binaire. Suppo-sons que l’on ´ecrive le mot DE sans s´eparateur.

Nous avons : DE= − · ··

Nous pouvons bien sûr relire aisément le mot DE. Cependant le texte codé peut être lu de plusieurs manières : TEEE, TEI, TIE, TS, NEE, NI, B.

Cet exemple fait apparaitre la notion de décodabilité. En effet, pour relire le mot DE et ne relire que lui, (unicité du décodage), il faut que l’on sache découper correctement le message en mots du code, puis en symboles.

Car. Code Car. Code A ·− 1 · − − − − B − · ·· 2 · · − − − C − · −· 3 · · · − − D − · · 4 · · · · − E · 5 · · · · · F · · −· 6 − · · · · G − − · 7 − − · · · H · · ·· 8 − − − · · I · · · 9 − − − − · J · · · 0 − − − − − K − · − . · − · − ·− L · − · , − − · · −− M · · · : − − − · ·· N −· ? · · − − ·· O − − − - − · · · · − − · · − · P · − −· / · − · · −· Q − − ·− ( ou ) · − − · − R · − · = − · · · − S · · · compris · · · − · T − erreur · · · ·· U · · − + · − · − · V · · ·− inv − · − W · − − attente · − · · · X − · − ﬁn de travail · · · − ·− Y − · −− commencement − · − · − Z − − ·· s´eparateur · − · · −

Tab. 1.1 – Code Morse

Ce problème de décodabilité provient du fait que contrairement aux codes dont nous avons parlé précédemment, le code Morse est à longueur variable. En effet, lorsqu’un code est de longueur fixe k bits par symbole, nous savons que tous les k bits, on obtient le code d’un symbole. Dans le cas d’un code à longueur variable, tel le code Morse, il faut savoir à quel instant un symbole a été lu. On dira désormais qu’un ensemble de mots sur un alphabet A est un code si l’unicité du décodage est garantie. Celle du code Morse est obtenue grâce aux espaces séparateurs.

1.3 Codes à longueur variable et décodabilité 15

D´efinition : Soit A un alphabet.

Un code est un ensemble de mots X ⊆ A+ qui v´eriﬁe : ∀x₁, x₂, ..., xn, y₁, y₂, ..., ym ∈ X x₁x₂...xn= y₁y₂...ym ⇒ n = m et ∀i xi= yi.

Exemple : Consid´erons les ensembles de 4 mots E₁, E₂, E₃, E₄, E₅ .

M ot E1 E2 E3 E4 E5

m1 00 0 0 0 0

m2 01 1 10 01 10

m3 10 00 110 011 110

m4 11 11 1110 0111 111

Tab. 1.2 – Ensembles de mots

E₁ est un ensemble de mots de longueur ﬁxe, c’est donc un code.

En ce qui concerne E₂, si nous consid´erons la suite 100, elle peut se lire de 2 fa¸cons : m₂m₃ ou m₂m₁m₁. E₂ n’est donc pas un code.

On voit facilement que E₃ est un code. Il suffit de remarquer qu’un nouveau mot a été reconnu dès l’arrivée d’un 0. Le zéro, qui appartient au mot du code reconnu, joue ici le même rôle de séparateur que les 3 unités de temps du code Morse. Le code E₃, est un code appelé code instantané.

De plus, E₄ est, en quelque sorte, le miroir du code E₃. L’occurrence d’un 0 indique, comme dans le cas précédent, qu’un nouveau mot a été lu. Cepen-dant, contrairement au code E3 le 0 n’appartient pas au mot du code reconnu, mais au début du mot du code suivant. En effet, supposons que nous ayons lu 01, il n’est pas possible à ce stade, de reconnaitre m₂, il faut lire un bit supplémentaire. Si celui-ci est 0, le mot précédent était bien m2. Si le bit lu est un 1, il faut lire encore un bit pour savoir si le symbole codé est m₃ ou m₄. Ce type de code est dit non instantané.

En ce qui concerne E₅, on remarque qu’un mot est reconnu d`es l’occurrence d’un 0 ou de trois 1 successifs. E₅ est donc un code intantan´e.

D´efinition :

X ⊆ A+ est un code préfixe si et seulement si, aucun mot de X n’est préfixe d’un autre mot de X :

∀x, x′ ∈ X x ≤ x′ ⇒ x = x′.

Une condition nécessaire et suffisante pour qu’un code soit instantané est qu’il soit préfixe.

– Cette condition est suffisante car la lecture d’un mot complet du code entraˆıne le découpage à la fin de ce mot.

– Cette condition est nécessaire : Si x < y, on ne sait pas après avoir lu x si le découpage doit se faire à cette position ou s’il s’agit du début de y. Si nous revenons à l’étude des ensembles de mots E₃, E₄, E₅, le code E₃ est effectivement un code préfixe. En revanche, pour le code E₄, 0111 a 3 préfixes : 0,01,011, qui appartiennent à ce code.

Dans le document Compression de textes en langue naturelle (Page 32-36)