• Aucun résultat trouvé

Chapitre 4 Classification

5.1 Bases de th´ eorie de l’information

Chapitre 5

L’apport de la th´ eorie de

l’information

106 CHAPITRE 5. L’APPORT DE LA TH ´EORIE DE L’INFORMATION Un calcul ´el´ementaire confirme que dans le cas d’une distribution de Dirac, on aH(X) = 0 et dans le cas d’une distribution uniforme, H(X) = ln(S). L’entropie est traditionnelle-ment mesur´ee en bits, en utilisant des logarithmes de base 2 dans la formule pr´ec´edente. Ici, on gardera la notation en logarithme n´ep´erien, sans se poser le probl`eme de l’unit´e, car ce sont comparaisons d’entropie qui vont nous int´eresser. On remarquera que l’entropie d’une distribution n’est rien d’autre, suivant cette d´efinition, que l’esp´erance math´ematique de ln(p(x)).

Soient de deux variables al´eatoires X etY de distribution jointe z(x, y) =q(y|x)p(x) et de supports respectifs S et T, o`u q(y|x) est la probabilit´e conditionnelle d’observer un ´ev´enement y sachant qu’un ´ev´enement x a ´et´e observ´e. L’entropie des deux variables jointesH(X, Y) s’´ecrit naturellement :

H(X, Y) =− Z Z

S,T

z(x, y) ln(z(x, y))dxdy. (5.3) Cette notion peut ˆetre g´en´eralis´ee de la mˆeme fa¸con `a N variables.

Une derni`ere d´efinition est celle de l’entropie conditionnelle de la variable al´eatoireY, sachant le r´esultat du tirage x de la variable al´eatoire X. On voit que si X et Y sont tr`es coupl´es, cette entropie conditionnelle doit ˆetre faible : l’information sur la valeur dex nous renseigne beaucoup sur les valeurs possibles dey. Au contraire, pour deux variables ind´ependantes, l’entropie deY sachantX est la mˆeme que l’entropie deY : l’information sur x ne nous apporte rien sur y. On voit tout de suite que l’in´egalit´e H(Y|X) ≤H(Y) doit toujours ˆetre respect´ee : le conditionnement apporte toujours de l’information, et la connaissance d’une variable ne peut pas diminuer la pr´edictibilit´e d’une autre. On d´efinit l’entropie conditionnelle en termes des distributions de probabilit´es comme suit :

H(Y|X) = Z Z

S,T

z(y, x) ln(q(y|x)). (5.4)

5.1.2 Distance et information mutuelle

Une notion qui va nous int´eresser `a cause de son lien avec la notion de dissimilarit´e, est celle de distance entre deux distribution de probabilit´espetq, associ´ees `a la mˆeme variable al´eatoire X. Cette distance est une fa¸con de mesurer l’´ecart entre les deux distributions, ou la diff´erence attendue entre un tirage d’une s´erie d’´ev´enements avec la distribution p.

et un tirage fait avec la distribution q. Cette notion permet par exemple de quantifier l’erreur faite sur la valeur d’un tirage deX, dont la vraie distribution estp, si on l’estime avecq, et c’est pour cela qu’elle est tr`es employ´ee. On peut la calculer comme suit :

D(pkq) = Z

S

p(x) ln

p(x) q(x)

dx. (5.5)

Cette distance, dite de Kullback-Leibler, n’est pas une m´etrique, car elle ne respecte pas l’in´egalit´e triangulaire et n’est pas sym´etrique : on n’a pas forc´ement D(pkq) = D(qkp), bien que cela puisse arriver en fonction des distributions choisies. Ce deuxi`eme point peut ˆetre corrig´e par sym´etrisation :

D?(pkq) = 1

2[D(pkq) +D(qkp)] = 1 2

Z

S

p(x)log

p(x) q(x)

dx+

Z

S

q(x)log

q(x) p(x)

dx

. (5.6)

5.1. BASES DE TH ´EORIE DE L’INFORMATION 107 La distance D? est la distance de Kullback-Leibler sym´etris´ee. On voit que si p(x) = q(x) presque partout (au sens math´ematique du terme), on a bien D?(pkq) = 0. Une g´en´eralisation de la distance de Kullback-Leibler sym´etris´ee est (Lin, 1991) :

Dλ(pkq) = λD(pkλp+ (1−λ)q) + (1−λ)D(qkλp+ (1−λ)q). (5.7) Cette g´en´eralisation permet de voir que la distance de Kullback-Leibler n’est qu’un repr´esentant d’une famille beaucoup plus large. L’un de ces repr´esentant, la distance de Jensen-Shannon, correspondant `a la valeur λ = 12, est plus connu car il poss`ede l’int´eressante propri´et´e d’ˆetre le carr´e d’une m´etrique, la m´etrique de Hellinger. Cette propri´et´e, et d’une fa¸con plus g´en´erale la famille des distancesDλ, quoique d´epassant lar-gement le cadre de notre ´etude, sont grandement utilis´ees dans les probl`emes de th´eorie de la d´ecision, `a cause de ce que permettent de mesurer ces distances comme ´evoqu´e plus haut.

Ces diff´erents points nous am`enent `a une d´efinition importante, celle d’information mutuelle. Soient deux variables al´eatoires X et Y de support S et T et de distributions respectivespetq. Notons comme avantz(x, y) la distribution jointe de ces deux variables, avec z(x, y) =q(y|x)p(x). L’information mutuelle repr´esente le niveau de corr´elation, ou de couplage, entre p et q. Cette corr´elation est mesur´ee comme la diff´erence entre la distribution z et la distribution produit p×q. On a :

I(X, Y) =D(p(x, y)kp(x)q(y)) = Z Z

S,T

z(x, y) ln

z(x, y) p(x)q(y)

. (5.8)

Dans le cas de distributions p(x) et q(y) ind´ependantes, cette information mutuelle vaut bien 0. L’information mutuelle repr´esente en quelque sorte ce qui est d´ej`a connu de la variable al´eatoire Y, si l’on connaˆıt X.

On peut ´egalement d´efinir l’information mutuelle comme la quantit´e d’entropie pr´esente dans la distributionqqui est d´ej`a dansp. La notion d’information mutuelle est intimement reli´ee `a l’entropie conditionnelle de Y, sachant X. On peut montrer que :

H(Y|X) =H(Y)−I(X, Y). (5.9) Cette relation montre comment l’incertitude sur la variable al´eatoire Y diminue grˆace `a la connaissance du r´esultat de la variable al´eatoire X, et pourquoi le conditionnement r´eduit l’incertitude. Elle permet ´egalement de d´eduire que I(X, Y)≥0. Essentiellement, l’entropie conditionnelle est celle de la distribution conditionnelleq(y|x), comme on peut le voir en ´ecrivant :

H(Y|X) = Z Z

S,T

z(x, y) ln(q(y|x) = Z

S

p(x) Z

T

q(y|x) ln(q(y|x)). (5.10) En ´ecrivant la mˆeme relation pourXconditionn´ee parY et en sommant avec l’´equation 5.9, on obtient :

H(X, Y) =H(X) +H(Y)−I(X, Y). (5.11) Cette derni`ere relation rappelle l’´egalit´e de th´eorie des probabilit´es p(A∪B) = p(A) + p(B)−p(A∩B), pour deux ensemble d’´ev´enementsA etB quelconques. Visuellement, il s’agit bien de la mˆeme chose : l’entropie de la distribution jointe de X et Y est la somme des deux entropies ind´ependantes, moins le facteur d’information mutuelle repr´esentant ce que la connaissance d’une variable apporte sur l’autre.

108 CHAPITRE 5. L’APPORT DE LA TH ´EORIE DE L’INFORMATION

5.1.3 Information transmise par un canal

La th´eorie de Shannon, originellement, visait `a mod´eliser les t´el´ecommunications. Dans ce cadre il est naturel de visualiser le probl`eme comme celui de la transmission, la plus fid`ele possible, du r´esultat d’´ev´enements de la variable al´eatoireX, sur un canal. Les no-tions de codage qui ont ´et´e introduites `a l’´epoque vont nous ˆetre utiles pour comprendre l’approche informationnelle de la classification, nous allons donc les d´evelopper quelque peu ici. Le probl`eme pos´e est le suivant : quelle est la longueur minimale L d’un message d´ecrivant compl`etement un ´ev´enement x de X? Cela d´epend ´evidemment de la “com-plexit´e” de l’´ev´enement x, ou plus pr´ecis´ement de la complexit´e d’un ´ev´enement typique issu de X1. Si l’on veut parfaitement transmettre le signal, Shannon a montr´e que la r´eponse ´etait :

H(X)≤L < H(X) + 1. (5.12)

Ici Lest la longueur du message d´ecrivant un ´ev´enement x deX. Si le logarithme utilis´e est de base 2, l’unit´e est le bit et le message est le codage de x en binaire. Dans le cas du logarithme n´ep´erien, on peut imaginer le mˆeme codage, mais la longueur doit ˆetre multipli´ee par une constante, ln(2), que l’on n´eglige car elle sera pr´esente partout.

Le bit suppl´ementaire du terme de droite vient de la possibilit´e pour H(X) d’ˆetre non-entier. On peut am´eliorer ce r´esultat en bornant le nombre Ln de bits n´ecessaire en moyenne par symbole pour d´ecrire une s´equence densymbolesxi,i= 1..nproduits par la mˆeme sourceX, suppos´ee stationnaire et sans m´emoire. Dans ce cas le bit suppl´ementaire se partage sur les n´ev´enements, et on a :

H(X)≤Ln< H(X) + 1

n. (5.13)

Pour n → ∞, on voit qu’on peut dire que “l’entropie d’une source est la complexit´e des ´ev´enements qu’elle produit”, o`u la complexit´e est mesur´ee par la longueur n´ecessaire pour d´ecrire fid`element un ´ev´enement. Il est important de remarquer que dans ce cas, la longueur du message envoy´e est exactement la quantit´e d’information envoy´ee.

Ces r´esultats nous permettent donc de calculer quelle quantit´e d’information est n´ ecess-aire pour repr´esenter fid`element un ´ev´enement. Mais un probl`eme qui s’est tr`es tˆot pos´e en t´el´ecommunications, est celui de la transmission de l’information sur un canal bruit´e. Sup-posons qu’un ´ev´enementxd’une variable al´eatoireX soit transmis sur un canal bruit´e. `A cause du bruit, le receveur ne pourra pas connaˆıtrexavec pr´ecision. Pour chaque message x envoy´e, le receveur verra arriver y, qui d´epend de x par un ensemble de probabilit´es conditionnelles p(y|x) g´en´er´ees par le bruit. Dans ce cas, Shannon a montr´e que la quan-tit´e d’information re¸cue n’est plus en moyenne L=H(X) par message envoy´e, mais une quantit´e inf´erieure L0 = H(X)−H(X|Y), soit L0 = I(X, Y). Si on n’a pas de bruit, y = x ∀x et I(X, Y) = H(X) : on se retrouve dans le cas pr´ec´edent. Si le bruit est tellement fort que l’on peut consid´erer X et Y comme des variables ind´ependantes, on trouve H(X|Y) = H(X) : le fait de connaˆıtre la valeur y en sortie du canal ne donne aucune information sur la valeur x en entr´ee. Dans ce cas l’information transmise L0 est

1La diff´erence fondamentale entre la complexit´e moyenne de X et la complexit´e de chacun des

´ev´enements xest prise en compte dans la th´eorie de la complexit´e algorithmique de Kolmogorov. Des eveloppements r´ecents pour appliquer cette th´eorie aux probl`emes de classification et de compression ont eut lieu, mais ne seront pas abord´es ici. Le lecteur int´eress´e pourra se r´ef´erer `a Li et al. (2003), Cilibrasi and Vitanyi (2005) ou encore Grunwald and Vitanyi (2004).