• Aucun résultat trouvé

Le principe VIB pour l’extraction d’information

4.5 Le principe de Variational Information Bottleneck (VIB)

4.5.5 Le principe VIB pour l’extraction d’information

Le principe VIB est le probl`eme dual du principe IB. Consid´erons une variable Y qui v´ehicule une information de d´esint´erˆet. C’est-`a-dire que nous ne trouvons aucune importance `a cette information. Alors, nous voulons extraire de X une information port´ee par ˜X qui ne soit pas sans importance. Cette extraction d’information est formalis´ee par le principe VIB suivant :

max

p(˜x|y),p(x|˜x)V I( ˜X, Y )− βV I( ˜X, X) (4.112)

o `u la distribution p(X | Y ) est donn´ee a priori. Ainsi, nous voulons maximiser les diff´e- rences entre eX et Y tout en restreignant ces diff´erences entre eX et X.

4.6. R ´ESUME´ 101

ce qui n’est pas important est une approche tr`es rare. Cette id´ee est difficile `a concep- tualiser, mais pourrait ˆetre appliqu´ee dans le domaine de l’extraction d’information par l’identification de l’information de d´esint´erˆet. Cette strat´egie d’exploration de l’informa- tion en fonction de ce qu’on ne souhaite pas, pourrait apporter un moyen de d´ecouvrir de nouvelles connaissances dans les donn´ees.

Les r´esultats de la minimisation p(x| ˜x) permet de d´efinir un clustering par Maximum de Vraisemblance. De plus, la connaissance des deux distributions conditionnelles permet d’´etablir un canal de communication de l’information de d´esint´erˆet Y vers les donn´ees X.

4.6

R´esum´e

Dans un premier temps, nous avons pr´esent´e le principe d’Information Bottleneck pour l’extraction d’information d’une variable al´eatoire. Les algorithmes permettant d’extraire l’information ont ´et´e d´ecrits en s’appuyant sur les ´equations consistantes. De plus, nous avons introduit la proc´edure de recuit simul´e pour converger vers des minima globaux de la courbe d´ebit-distorsion. Ensuite, nous nous sommes attach´es `a d´ecrire l’information d’importance port´ee par les mod`eles. Dans ce cas, l’algorithme d’InformationBottleneck int`egre une s´election floue de mod`ele. D’autre part, nous avons d´ecrit un crit`ere heuris- tique de s´election de couple (R, D) dont l’efficacit´e a ´et´e exp´erimentalement valid´e sur des donn´ees synth´etiques. Puisque ce crit`ere permet de s´electionner un couple (R, D) op- timal, il d´etermine le clustering flou optimal et de ce fait un nombre optimal de clusters. Enfin, pour qualifier l’information d’importance, nous exploitaons les champs al´eatoires de Gauss-Markov et autobinomiaux. Ainsi, nous avons voulu faire ressortir l’information relative `a l’´evolution des textures, contenue dans les champs spatio-temporels.

Dans un second temps, nous avons pr´esent´e le principe de Multi-Information Bottleneck. Ce principe est une extension du principe d’Information Bottleneck et il permet de prendre en compte plusieurs types d’information ind´ependants. De plus, il permet de privil´egier un type d’information lors de l’extraction d’information. Pour ce principe, nous avons ´etendu le crit`ere de courbure pour d´eterminer la quantit´e d’information optimale. Fina- lement, nous d´ecrivons comment appliquer la m´ethodologie li´ee `a ce principe sur les champs spatio-temporels en consid´erant deux types d’information. En effet, nous vou- lons extraire conjointement les informations de couleur et d’´evolution texturale.

Dans un dernier temps, nous d´ecrivons un m´eta principe fond´e sur l’α-information. Cette mesure permet d’unifier l’information mutuelle et la variation de l’information. Nous donnons les ´equations consistantes qui sont obtenues `a partir de ce principe et remar- quons qu’elles sont fortement semblables aux ´equations du principe IB. Ce m´eta principe nous permet d’obtenir le principe de Variational Information Bottleneck qui est le dual du probl`eme originel. Enfin, nous montrons que ce principe peut ˆetre utilis´e pour l’extrac- tion d’information en mettant de cot´e l’information non int´eressante ou non pertinente connue a priori.

En conclusion, nous avons pr´esent´e deux premi`eres m´ethodologies fond´ees sur les prin- cipes IB et MIB qui permettent d’extraire des STIS une quantit´e d’information suffisante et d’int´erˆet pour caract´eriser et indexer les ´ev´enements spatio-temporels.

103

Chapitre 5

Extraction d’information fond´ee sur

les complexit´es

Dans ce chapitre, nous pr´esentons une nouvelle m´ethodologie pour extraire l’infor- mation fond´ee sur la complexit´es de Kolmogorov. Cette m´ethode permet de produire un code d’une base d’objets qui inclut un index du contenu informationnel.

Dans un premier temps, nous pr´esentons un distance informationnelle inspir´ee de l’Eq. 3.129 en y int´egrant la d´ecomposition LDM. Ensuite, nous pr´esentons un crit`ere qui per- met de coder une base d’objets en exploitant les redondances. L’algorithme sous-optimal qui en d´ecoule tire parti d’un codeur sans perte et de la distance pr´ec´edemment intro- duite pour incorporer l’index au code. Enfin, dans le but d’appliquer cette m´ethode `a des signaux trimensionnels, nous d´ecrivons un codeur sans perte qui donne une d´ecomposi- tion en deux parties de l’information en suivant le principe LDM.

5.1

Int´egration du principe LDM dans la mesure de similarit´e

informationnelle

5.1.1 Nouvelle similarit´e fond´ee sur les mod`eles

Nous rappelons que le principe LDM s’´enonce dans la th´eorie de Kolmogorov comme la description en deux parties de longueur minimale (cf.§3.5.3). Nous faisons la suppo- sition que pour chaque objet informatif x, il existe une description en deux parties ou un mod`eleMxtel que l’´egalit´e suivante soit respect´ee :

K(x) ˇ=K(x| Mx) + K(Mx) (5.1)

Dans un cadre statistique, le mod`ele Mx s’interpr`ete comme une statistique suffisante

(Gr ¨unwald & Vitanyi, 2004), et elle se suffit `a elle-mˆeme pour d´ecrire les propri´et´es de x. Pour un couple d’objets (x, y), nous avons un mod`eleMx,y qui v´erifie l’Eq. 5.1. Ces sup-

positions permettent de donner une nouvelle formulation de la distance informationnelle d(x, y) (cf. Eq. 3.129) en remplac¸ant les mesures de complexit´e par les longueurs de codes en deux parties. Nous obtenons, comme premi`ere expression de la distance, la formule suivante :

K(x, y | Mx,y) + K(Mx,y)− min {K(x | Mx) + K(Mx), K(y| My) + K(My)}

104 5. EXTRACTION D’INFORMATION FONDEE SUR LES COMPLEXIT´ ES´

Pour simplifier l’expression de la distance pr´ec´edente, nous consid´erons le cas o `u K(x)≤ K(y). Le cas oppos´e est obtenu facilement en inversant x et y. L’expression de la distance devient : d(x, y) = K(x, y| Mx,y) + K(Mx,y)− K(x | Mx)− K(Mx) K(y | My) + K(My) (5.3) d(x, y) = K(x, y| Mx,y)− K(x | Mx) K(y | My) K(y | My) K(y | My) + K(My) +K(Mx,y)− K(Mx) K(My) K(My) K(y| My) + K(My) (5.4)

Nous remarquons que :

K(y| My)

K(y | My) + K(My)

+ K(My)

K(y| My) + K(My)

= 1 (5.5)

Nous introduisons une nouvelle variable α d´efinie par : α = K(y | My)

K(y| My) + K(My)

= K(y | My)

K(y) (5.6)

o `u α appartient `a l’intervalle [0, 1]. Nous r´e´ecrivons l’Eq. 5.4 comme : d(x, y) = αK(x, y| Mx,y)− K(x | Mx)

K(y| My)

+ (1− α)K(Mx,y)− K(Mx)

K(My) (5.7)

Nous notons que la distance de similarit´e est divis´ee en deux parties. La partie gauche mesure la distance entre objets exprim´es dans leur mod`ele, tandis que la partie droite mesure la similarit´e entre mod`eles. Quand α tend vers 0, la mesure se concentre vers les mod`eles puisque toute l’information est contenue dans le mod`ele. Dans le cas oppos´e, le raisonnement contraire convient aussi.

A partir de l’´egalit´e pr´ec´edente, nous d´efinissons dans le cas g´en´eral la mesure de simi- larit´e suivante (Gueguen & Datcu, 2007b) :

δ(x, y) = αK(x, y| Mx,y)− K(x | Mx) K(y | My)

+ (1− α)K(Mx,y)− K(Mx)

K(My) (5.8)

o `u K(x | Mx) + K(Mx) ≤ K(y | My) + K(My) et α = K(y|MK(y)y). Dans l’autre cas, o `u

K(x| Mx) + K(Mx)≥ K(y | My) + K(My), nous avons α = K(x|MK(x)x)et l’expression de

la mesure de similarit´e devient :

δ(x, y) = αK(x, y | Mx,y)− K(y | My) K(x| Mx)

+ (1− α)K(Mx,y)− K(My)

K(Mx) (5.9)

Pour d´efinir cette mesure, nous ne supposons pas que l’Eq. 5.1 soit v´erifi´ee. Nous ´elargis- sons les contraintes d’´egalit´es qui se traduisent par :

∀x | K(x | Mx) + K(Mx)− K(x) |≤ c (5.10)

Ces contraintes imposent que la repr´esentation en deux parties soit obtenue `a une constan- te pr`es ne d´ependant pas des objets. Par cons´equent, nous obtenons les bornes suivantes pour la mesure de similarit´e en deux parties :

| δ(x, y) − 1 1 − cη

d(x, y)|≤ c

5.1. INTEGRATION DU PRINCIPE´ LDMDANS LA MESURE DE SIMILARITE´

INFORMATIONNELLE 105

o `u η = max{K(x | Mx) + K(Mx), K(y| My) + K(My)}. Le coefficient1−1c

η est sup´erieur `a 1 quand c≤ η. Cela implique que la mesure δ(x, y) a de fortes chances d’ˆetre sup´erieure `a d(x, y) tout en lui ´etant proportionnelle. La cas favorable est obtenu quand c << η, puisque nous obtenons l’´egalit´e :

δ(x, y) ˇ=d(x, y) + O(1) (5.12)

En l’occurrence, la mesure δ(x, y) se rapproche de la distance universelle quand le prin- cipe LDM est v´erifi´e. Si nous appliquons le principe LDM pour inf´erer les mod`eles de chaque objet, nous nous attendons `a obtenir une bonne approximation de d(x, y), puisque nous approchons des conditions favorables.