• Aucun résultat trouvé

On a I1+ I2 = I, ce qui peut se formuler : choisir un élément dans A (I1) et préciser cet élément (I2), correspond à la même quantité d’information que choisir un élément dans Ω (I). Ce qui s’écrit : log2||Ω|| = I(A) + log2||A||, où I(A) représente la quantité d’information de I1 (l’événement réalisé appartient à A). On a donc : I(A) = log2||Ω|| − log2||A|| = log2(||Ω||||A||)

Par exemple, si Ω contient 8 éléments, codés {000, 001, 010, 011, 100, 101, 110, 111}, on a besoin de transmettre 3 unités d’informations pour spécifier un élément de Ω. Si on a précisé que cet élément appartient au sous-ensemble A = {000, 001, 010, 011} on n’a besoin de transmettre que 2 unités d’information pour spécifier un élément particulier de A. Donc, pour dire que l’évé-nement appartient à A on a eu besoin de log2||Ω|| − log2||A||, soit 3-2=1 unité d’information (dans cet exemple, il suffit de transmettre le premier bit).

La mesure d’information logarithmique précédente est algébrique, c’est-à-dire qu’elle ne prend pas en compte la probabilité de choix d’un message. Nous considérons maintenant le cas où Ω est un ensemble où tous les événements sont équiprobables. La probabilité qu’un élé-ment quelconque de Ω soit dans la partie A est ||A||

||Ω||. La quantité d’information apportée par la réalisation d’un événement de A est : log2(||Ω||||A||) =−log2(||A||||Ω||) =−log2P (A)

1.3.2 Détermination d’une fonction pour mesurer la quantité d’Information

Supposons qu’on a un ensemble d’événements possibles avec une distribution de probabilités. Pour un événement x avec une probabilité p(x), soit h(x) la quantité d’information apportée par la réalisation de x. Pour trouver h(x)8

:

– h doit être une fonction croissante f de l’improbabilité de x, parce que tant que la proba-bilité augmente la quantité d’information (incertitude) diminue. L’incertitude d’un événe-ment x est l’inverse de sa probabilité et l’on peut poser :

h(x) = f (P1(x))

– Un événement certain P(x)=1 n’apporte aucune information ; la quantité d’information est nulle et f doit vérifier : f(1)=09.

– La quantité d’information apportée par la réalisation de deux événements indépendants est la somme de leurs quantités d’information respectives, soit :

h(x, y) = f (P(x,y)1 ) = f (P(x)P (y)1 ) = f (P(x)1 ) + f (P1(y)) = h(x) + h(y)

Ces critères conduisent à utiliser la fonction logarithme10. Le choix de la base de logarithme définit l’unité d’information. On choisit la base 2 de telle sorte que l’alternative entre deux termes équiprobables apporte une unité d’information, que Shannon a appelée bit (binary digit).

8

Nous suivons ici la présentation faite par Louis Wehenkel dans son cours sur la théorie de l’information [We-henkel, 2001].

9

limx→1f(x) = 0.

10

Supposons maintenant que l’on a un ensemble d’événements possibles avec des probabilités P1, P2, ..., Pn. Pour un événement x avec une probabilité Pi, appelons H(x) la quantité d’information apportée par la réalisation de x. Pour déterminer la fonction H, Shannon a imposé trois critères :

– H doit être une fonction continue des Pi. – Si tous les pisont égaux (Pi= 1

n), H doit être une fonction monotone croissante de n.

– Si un choix est décomposé en deux choix successifs, H doit être la somme pondérée des H des choix consti-tuants.

Shannon a montré que la seule fonction satisfaisant ces trois critères était de la forme : H =−P

h(x) = logP1(x) =−logP (x) unités d’information.

Dans la théorie de l’information, les concepts de quantité d’information et de quantité d’in-certitude sont équivalents. Si on a une source d’information (S, P) où le choix d’un élément

de S a une probabilité P, la probabilité de choisir xi est P (xi). Avant que l’événement xi ne se

produise, on a une quantité d’incertitude sur son résultat, et après l’exécution de cet événement,

on a une quantité d’information gagnée sur la source. Par exemple : si P (x1) = 1 et P (xi) = 0

pour i>1 alors x1 est toujours choisi ; dans ce cas, on n’a pas d’incertitude et on n’a pas non

plus d’information.

Shannon utilise les concepts de quantité d’information, de liberté de choix et d’incertitude, de manière équivalente. La quantité d’information moyenne mesure le nombre minimum de bits nécessaires en moyenne pour coder de façon binaire les symboles émis par une source. La quan-tité d’information associée à un événement peut également être vue comme une mesure de la réduction de l’incertitude suite à l’observation d’un événement [Roman, 1992].

Conclusion sur la quantité d’information

On voit que la quantité d’information est d’autant plus importante que l’événement était a priori improbable du point de vue de l’observateur. Inversement, si un événement est a priori très probable (à la limite certain) l’information qui lui est associée sera faible (à la limite nulle). Selon les propriétés du logarithme, nous avons :

– x > 1 =⇒ log x >0 – 0 <x ≤ 1 =⇒ log x ≤ 0 Donc :

– P(x) augmente =⇒ h(x) diminue

– P(x) > P(y) =⇒ log P(x) >log P(y) =⇒ - log P(x) < - log P(y)=⇒ h(x) < h(y)

Donc, nous pouvons dire que quand la probabilité augmente, l’information propre demandée pour quantifier l’événement diminue.

1.3.3 Entropie

On définit h(x) comme la quantité d’information apportée par la réalisation de l’événement x. Donc :

h(x)= -log P(x)

La quantité d’information moyenne pour une source d’information ou un ensemble d’événements X est définie comme l’espérance mathématique de l’information propre fournie par la réalisation de cet événement de l’ensemble :

H(X) = E{h(X)} = −P

iP (xi)logP (xi)

Propriétés

– L’entropie d’un attribut X à n valeurs est maximale et vaut log(n) lorsque la loi de X est uniforme. c’est-à-dire que l’incertitude de X est la plus grande si toutes les valeurs possibles ont la même probabilité de se réaliser. Exemple : pour un ensemble de 4 événements équiprobables 1

4 l’entropie est : H(X) = −4

4 ∗ log14 = log4.

– L’entropie augmente lorsque le nombre de valeurs possibles augmente.

– Shannon utilise l’entropie H(X) pour calculer le nombre moyen de bits nécessaires à la réalisation de X.

1.3. Information Mutuelle

L’entropie conditionnelle

D’après Shannon dans la théorie de la communication, l’entropie conditionnelle H(X|Y) est la quantité d’information (incertitude) moyenne dans la source de message quand le signal est reçu. D’une autre façon, on peut dire que H(X|Y) est la quantité d’information apportée par la réalisation de X sachant que Y a été réalisée.

H(Y|X) =X i P (X = xi)H(Y|xi) (1.3) =−X i P (X = xi)X j P (Y = yj|X = xi)logP (Y = yj|X = xi) =−X i X j P (xi)P (yj|xi)logP (yj|xi) =−X i X j P (yj, xi)logP (yj|xi) L’entropie jointe

H(X,Y) est la quantité d’information moyenne apportée par la réalisation de deux événements X, Y. H(X, Y ) =−X i X j P (X = xi, Y = yj)logP (X = xi, Y = yj) (1.4) =−X i X j P (X = xi, Y = yj)log(P (X = xi)P (Y = yj|X = xi)) =−X i X j P (xi, yj)logP (yj|xi)−X i X j P (xi, yj)logP (xi) = H(Y|X) −X i P (xi)logP (xi) = H(Y|X) + H(X)

Nous avons : PjP (Y = yj, X = xi) = P (X = xi) Nous pouvons donc calculer l’entropie conditionnelle à partir de l’équation 1.4 comme suit :

Fig. 1.2 – L’Information Mutuelle

1.3.4 Information Mutuelle

Nous avons vu précédemment que l’entropie d’une variable est la mesure de son degré d’in-certitude. il semble naturel de dire que l’obtention d’information sur cette variable diminue son incertitude. La quantité d’information obtenue sur cette variable peut donc être mesurée par la diminution de son entropie. Nous avons également vu que l’entropie conditionnelle H(X|Y) peut être interprétée comme la quantité d’information demandée sur X, une fois que l’on possède déjà une information sur Y. Donc, le fait de connaître une information sur Y va réduire l’in-formation demandée sur X. L’inl’in-formation que l’on peut gagner (figure 1.2) est appelée le gain d’information ou l’Information Mutuelle (IM).

L’information mutuelle IM(X,Y) est la réduction de l’incertitude sur X lorsque Y est connu :

IM (X, Y ) = H(Y )− H(Y |X) = H(X)− H(X|Y )

L’information mutuelle pour deux variables aléatoires X, Y mesure la relation de dépendance entre les deux variables. Plus la valeur de l’information mutuelle augmente, plus la dépendance entre X et Y est forte.

Selon (Shannon,1949) :

Dans la théorie de l’information, on peut définir l’Information Mutuelle de la manière suivante : On a une source d’information, un émetteur des messages et un récepteur :

H(X) = l’incertitude moyenne des messages envoyés (émis) ou l’entropie de la source des mes-sages.

H(Y) = l’incertitude moyenne (l’information ou l’entropie) des signaux reçus.

H(X|Y) = l’incertitude moyenne dans la source de messages quand le signal reçu est connu. H(Y|X) = l’incertitude moyenne dans les signaux reçus quand les messages émis sont connus. Si on fait la différence on gagne une quantité d’information ; on cherche toujours à trouver le gain d’information maximum. IM(X,Y) est le nombre moyen de bits nécessaires pour spécifier les messages émis moins le nombre de bits nécessaires pour spécifier les messages émis après avoir reçu un signal. On peut dire aussi que la capacité d’un canal est le maximum de l’Informa-tion Mutuelle moyenne IM(X,Y) où X,Y sont les variables aléatoires associées respectivement à l’entrée et à la sortie de ce canal.

1.3. Information Mutuelle

Propriétés

– L’Information Mutuelle est symétrique.

IM (X, Y ) = H(Y )− H(Y |X) (1.5) =−X j P (Y = yj)logP (Y = yj) +X i X j P (Y = yj, X = xi)logP (Y = yj|X = xi) =−X j P (Y = yj)logP (Y = yj) +X i X j P (Y = yj, X = xi)logP (Y = yj, X = xi) P (X = xi) =−X j P (yj)logP (yj) +X i X j P (yj, xi)logP (yj, xi)−X i X j P (yj, xi)logP (xi) =−X j X i P (yj, xi)logP (yj) +X i X j P (yj, xi)logP (yj, xi)−X i P (xi)logP (xi) = +X j X i P (yj, xi)(logP (yj, xi)− logP (yj))−X i P (xi)logP (xi) = +X j X i P (yj, xi)logP (yj, xi) P (yj) −X i P (xi)logP (xi) =−X i P (xi)logP (xi) +X j X i P (yj, xi)logP (xi|yj) = H(X)− H(X|Y ) Nous avons : PiP (yj, xi) = P (yj) et P jP (yj, xi) = P (xi)

– Le conditionnement diminue l’incertitude ; cela signifie que H(X) ≥ H(X|Y).

– L’Information Mutuelle moyenne de X et de Y est toujours positive, car H(X) ≥ H(X|Y) donc H(X)-H(X|Y) ≥ 0.

– IM(X,Y) = 0 si X et Y sont indépendants. Parce que H(X|Y) = H(X) alors IM(X, Y) = H(X)-H(X|Y) = H(X)- H(X) = 0.

On peut définir une mesure d’information comme dans la figure 1.2 pour n’importe quels ensembles de variables aléatoires. L’Information Mutuelle a pour but de minimiser l’entropie d’un système. Elle mesure l’information commune entre deux objets ; si cette quantité est faible alors la dépendance entre les deux objets est faible et inversement. On a vu aussi que l’Information Mutuelle est la différence entre l’incertitude initiale et l’incertitude conditionnelle.

Information Mutuelle conditionnelle

On peut introduire la notion d’Information Mutuelle (moyenne) entre deux variables X et Y conditionnellement à l’événement (Z=z) où Z est une troisième variable :

IM (X, Y|Z = z) = H(X|Z = z) − H(X|Y, Z = z) (1.6) En multipliant les deux membres de l’équation 1.6 par P(Z=z) et en sommant sur toutes les valeurs possibles de Z, on obtient :

P P (Z = z)IM (X, Y |Z = z) = H(X|Z) − H(X|Y, Z)

Le membre de gauche pouvant être interprété comme IM(X,Y|Z), on définit l’Information Mu-tuelle entre X et Y sachant Z par :

IM (X, Y|Z) = H(X|Z) − H(X|Y, Z) = H(Y |Z) − H(Y |X, Z) IM (X, Y|Z) =P

i,j,kP (xi, yj, zk)log P(xi,yj,zk) P(xi|zk)P (yj,zk)

L’Information Mutuelle moyenne conditionnelle a les mêmes propriétés que l’Information Mu-tuelle moyenne.

1.3.5 Information Mutuelle Normalisée

Nous avons remarqué que d’une part, l’Information Mutuelle est une mesure de dépendance entre les attributs. Elle augmente quand la relation entre les attributs augmente. Par exemple, si la dépendance entre deux attributs (A et B) est assez importante, la quantité d’information demandée pour réaliser A diminue lorsque l’information sur B est connue. D’autre part, on sait que plus un attribut a de valeurs, plus son Information Mutuelle, relativement à la classe, a tendance à être élevée [Crémilleux, 1991]. Dans ce cas, l’Information Mutuelle favorise les attributs ayant un nombre de valeurs assez grand. Le problème se pose quand ces attributs ne sont pas assez pertinents et les informations qu’ils portent sont faibles. De plus, dans une base de données, nous pouvons avoir des attributs ayant un nombre de valeurs assez grand et qui classent parfaitement les objets autant que des attributs qui ne sont pas pertinents mais qui possèdent un nombre de valeurs assez grand.

L’Information Mutuelle entre deux attributs ne dépend pas seulement du nombre de valeurs des attributs mais également de la distribution des valeurs d’un attribut relativement à l’autre dans la base. La meilleure solution pour rendre l’Information Mutuelle insensible au nombre de valeurs de l’attribut testé est de la normaliser.

Pour normaliser le gain d’information, plusieurs propositions ont été faites :

– On peut diviser le gain par log m (où m est le nombre de valeurs de l’attribut testé). Des résultats expérimentaux [Kononenko et al., 1984] ont montré que ce facteur semble pénaliser les attributs ayant un nombre élevé de valeurs.

– [Quinlan, 1986, Quinlan, 1993] utilise le ratio du gain qui consiste à diviser l’Information Mutuelle par l’entropie de l’attribut testé (à condition que celle-ci ne soit pas nulle). – Si on divise l’Information Mutuelle par la cardinalité des espaces Dxet Dy, on obtient une

normalisation qui favorise les attributs ayant peu de réponses possibles.

– Il y a également d’autres stratégies de normalisation de l’Information Mutuelle mais nous avons utilisé la normalisation proposée par Lobo et Numao [Lobo, 2000, Lobo et Numao, 2001]( (cf. section 3.4.2)) qui divise l’Information Mutuelle entre deux attribut X et Y par (log|Dx| + log|Dy|)11.