Compression de texte
Thierry Lecroq
Universit´e de Rouen FRANCE
La compression
message −→ message cod´e gain d’espace de stockage gain de temps de transmission
La compression
2 types
sans perte : le message d´ecod´e est ´egal au message d’origine
⇒ texte
avec perte : le message d´ecod´e est diffrent du message d’origine
⇒ images et sons
Entropie
A={a0, . . . , an−1} ets=cardA
Soit une source d’informations S= (A,P) P = (p0, . . . , ps−1)
pi : probabilit´e d’occurrence de ai dans un mot surA+
S est une sourcesans m´emoire si les pi sont ind´ependants et stables (source stationaire)
S est une sourcemarkoviennesi les pi d´ependent des symboles pr´ec´edemment ´emis
Entropie
D´efinition
H(S) =H(p0, . . . , ps−1)
=−
s−1
X
i=0
pilog2(pi)
=
s−1
X
i=0
pilog2(1 pi)
Entropie
Proposition
Soit S = (A,P) une source alors0≤H(S)≤log2s
Longueur moyenne d’un code
C : code
f : fonction de codage S = (A,P) : source
|C|=
s−1
X
i=0
|f(ai)|pi
Exemple 1
S = ({a,b,c,d},(12,14,18,18)) C
f(a) =00 f(b) =01 f(c) =10 f(d) =11
|C|= 2
H(S) = 1 ×1 +1 ×2 +1 ×3 +1 ×3 = 1,75
Exemple 2
S = ({a,b,c,d},(12,14,18,18)) C
f(a) =0 f(b) =10 f(c) =110 f(d) =1110
|C|= 1,875 H(S) = 1,75
Th´ eor` eme de Shannon
Th´eor`eme
Soit S une source sans m´emoire d’entropieH. Tout code uniquement d´echiffrable deS sur un alphabetA de cardinals, de longueur moyenne ` v´erifie :
`≥ H
log2s.
De plus il existe un code uniquement d´echiffrable de S sur un alphabet de cardinal sde longueur moyenne `qui v´erifie :
` < H + 1.