Le principe VIB pour l’extraction d’information

4.5 Le principe de Variational Information Bottleneck (VIB)

4.5.5 Le principe VIB pour l’extraction d’information

Le principe VIB est le problème dual du principe IB. Considérons une variable Y qui véhicule une information de désintérêt. C’est-à-dire que nous ne trouvons aucune importance à cette information. Alors, nous voulons extraire de X une information portée par ˜X qui ne soit pas sans importance. Cette extraction d’information est formalisée par le principe VIB suivant :

max

p(˜x|y),p(x|˜x)V I( ˜X, Y )− βV I( ˜X, X) (4.112)

o ù la distribution p(X | Y ) est donnée a priori. Ainsi, nous voulons maximiser les diffé- rences entre eX et Y tout en restreignant ces différences entre eX et X.

4.6. R ´ESUME´ 101

ce qui n’est pas important est une approche très rare. Cette idée est difficile à concep- tualiser, mais pourrait être appliquée dans le domaine de l’extraction d’information par l’identification de l’information de désintérêt. Cette stratégie d’exploration de l’information en fonction de ce qu’on ne souhaite pas, pourrait apporter un moyen de découvrir de nouvelles connaissances dans les données.

Les résultats de la minimisation p(x| ˜x) permet de définir un clustering par Maximum de Vraisemblance. De plus, la connaissance des deux distributions conditionnelles permet d’établir un canal de communication de l’information de désintérêt Y vers les données X.

4.6 R´esum´e

Dans un premier temps, nous avons présenté le principe d’Information Bottleneck pour l’extraction d’information d’une variable aléatoire. Les algorithmes permettant d’extraire l’information ont été décrits en s’appuyant sur les équations consistantes. De plus, nous avons introduit la procédure de recuit simulé pour converger vers des minima globaux de la courbe débit-distorsion. Ensuite, nous nous sommes attachés à décrire l’information d’importance portée par les modèles. Dans ce cas, l’algorithme d’InformationBottleneck intègre une sélection floue de modèle. D’autre part, nous avons décrit un critère heuris- tique de sélection de couple (R, D) dont l’efficacité a été expérimentalement validé sur des données synthétiques. Puisque ce critère permet de sélectionner un couple (R, D) optimal, il détermine le clustering flou optimal et de ce fait un nombre optimal de clusters. Enfin, pour qualifier l’information d’importance, nous exploitaons les champs aléatoires de Gauss-Markov et autobinomiaux. Ainsi, nous avons voulu faire ressortir l’information relative à l’évolution des textures, contenue dans les champs spatio-temporels.

Dans un second temps, nous avons présenté le principe de Multi-Information Bottleneck. Ce principe est une extension du principe d’Information Bottleneck et il permet de prendre en compte plusieurs types d’information indépendants. De plus, il permet de privilégier un type d’information lors de l’extraction d’information. Pour ce principe, nous avons étendu le critère de courbure pour déterminer la quantité d’information optimale. Fina- lement, nous décrivons comment appliquer la méthodologie liée à ce principe sur les champs spatio-temporels en considérant deux types d’information. En effet, nous voulons extraire conjointement les informations de couleur et d’évolution texturale.

Dans un dernier temps, nous décrivons un méta principe fondé sur l’α-information. Cette mesure permet d’unifier l’information mutuelle et la variation de l’information. Nous donnons les équations consistantes qui sont obtenues à partir de ce principe et remarquons qu’elles sont fortement semblables aux équations du principe IB. Ce méta principe nous permet d’obtenir le principe de Variational Information Bottleneck qui est le dual du problème originel. Enfin, nous montrons que ce principe peut être utilisé pour l’extraction d’information en mettant de coté l’information non intéressante ou non pertinente connue a priori.

En conclusion, nous avons présenté deux premières méthodologies fondées sur les prin- cipes IB et MIB qui permettent d’extraire des STIS une quantité d’information suffisante et d’intérêt pour caractériser et indexer les événements spatio-temporels.

103

Chapitre 5

Extraction d’information fond´ee sur

les complexit´es

Dans ce chapitre, nous présentons une nouvelle méthodologie pour extraire l’information fondée sur la complexités de Kolmogorov. Cette méthode permet de produire un code d’une base d’objets qui inclut un index du contenu informationnel.

Dans un premier temps, nous présentons un distance informationnelle inspirée de l’Eq. 3.129 en y intégrant la décomposition LDM. Ensuite, nous présentons un critère qui permet de coder une base d’objets en exploitant les redondances. L’algorithme sous-optimal qui en découle tire parti d’un codeur sans perte et de la distance précédemment intro- duite pour incorporer l’index au code. Enfin, dans le but d’appliquer cette méthode à des signaux trimensionnels, nous décrivons un codeur sans perte qui donne une décomposi- tion en deux parties de l’information en suivant le principe LDM.

5.1 Int´egration du principe LDM dans la mesure de similarit´e

informationnelle

5.1.1 Nouvelle similarité fondée sur les modèles

Nous rappelons que le principe LDM s’énonce dans la théorie de Kolmogorov comme la description en deux parties de longueur minimale (cf.§3.5.3). Nous faisons la suppo- sition que pour chaque objet informatif x, il existe une description en deux parties ou un modèleMxtel que l’égalité suivante soit respectée :

K(x) ˇ=K(x| Mx) + K(Mx) (5.1)

Dans un cadre statistique, le mod`ele Mx s’interpr`ete comme une statistique suffisante

(Gr ünwald & Vitanyi, 2004), et elle se suffit à elle-même pour décrire les propriétés de x. Pour un couple d’objets (x, y), nous avons un modèleMx,y qui vérifie l’Eq. 5.1. Ces sup-

positions permettent de donner une nouvelle formulation de la distance informationnelle d(x, y) (cf. Eq. 3.129) en remplaçant les mesures de complexité par les longueurs de codes en deux parties. Nous obtenons, comme première expression de la distance, la formule suivante :

K(x, y _{| M}x,y) + K(Mx,y)− min {K(x | Mx) + K(Mx), K(y| My) + K(My)}

104 5. EXTRACTION D’INFORMATION FONDEE SUR LES COMPLEXIT´ ES´

Pour simplifier l’expression de la distance précédente, nous considérons le cas o ù K(x)≤ K(y). Le cas opposé est obtenu facilement en inversant x et y. L’expression de la distance devient : d(x, y) = K(x, y| Mx,y) + K(Mx,y)− K(x | Mx)− K(Mx) K(y | My) + K(My) (5.3) d(x, y) = K(x, y| Mx,y)− K(x | Mx) K(y _{| M}y) K(y | My) K(y _{| M}y) + K(My) +K(Mx,y)− K(Mx) K(My) K(_My) K(y| My) + K(My) (5.4)

Nous remarquons que :

K(y_{| M}y)

K(y | My) + K(My)

+ K(My)

K(y| My) + K(My)

= 1 (5.5)

Nous introduisons une nouvelle variable α d´efinie par : α = K(y | My)

K(y_{| M}y) + K(My)

= K(y | My)

K(y) (5.6)

o ù α appartient à l’intervalle [0, 1]. Nous réécrivons l’Eq. 5.4 comme : d(x, y) = αK(x, y| Mx,y)− K(x | Mx)

K(y| My)

+ (1− α)K(Mx,y)− K(Mx)

K(My) (5.7)

Nous notons que la distance de similarité est divisée en deux parties. La partie gauche mesure la distance entre objets exprimés dans leur modèle, tandis que la partie droite mesure la similarité entre modèles. Quand α tend vers 0, la mesure se concentre vers les modèles puisque toute l’information est contenue dans le modèle. Dans le cas opposé, le raisonnement contraire convient aussi.

A partir de l’égalité précédente, nous définissons dans le cas général la mesure de simi- larité suivante (Gueguen & Datcu, 2007b) :

δ(x, y) = αK(x, y| Mx,y)− K(x | Mx) K(y _{| M}y)

+ (1− α)K(Mx,y)− K(Mx)

K(_My) (5.8)

o `u K(x | Mx) + K(Mx) ≤ K(y | My) + K(My) et α = K(y|M_K(y)y). Dans l’autre cas, o `u

K(x_{| M}x) + K(Mx)≥ K(y | My) + K(My), nous avons α = K(x|M_K(x)x)et l’expression de

la mesure de similarit´e devient :

δ(x, y) = αK(x, y | Mx,y)− K(y | My) K(x_{| M}x)

+ (1_{− α)}K(Mx,y)− K(My)

K(_Mx) (5.9)

Pour définir cette mesure, nous ne supposons pas que l’Eq. 5.1 soit vérifiée. Nous élargis- sons les contraintes d’égalités qui se traduisent par :

∀x | K(x | Mx) + K(Mx)− K(x) |≤ c (5.10)

Ces contraintes imposent que la représentation en deux parties soit obtenue à une constan- te près ne dépendant pas des objets. Par conséquent, nous obtenons les bornes suivantes pour la mesure de similarité en deux parties :

| δ(x, y) − ₁ 1 − cη

d(x, y)_|≤ c

5.1. INTEGRATION DU PRINCIPE´ LDMDANS LA MESURE DE SIMILARITE´

INFORMATIONNELLE 105

o `u η = max{K(x | Mx) + K(Mx), K(y| My) + K(My)}. Le coefficient₁₋1c

η est supérieur à 1 quand c≤ η. Cela implique que la mesure δ(x, y) a de fortes chances d’être supérieure à d(x, y) tout en lui étant proportionnelle. La cas favorable est obtenu quand c << η, puisque nous obtenons l’égalité :

δ(x, y) ˇ=d(x, y) + O(1) (5.12)

En l’occurrence, la mesure δ(x, y) se rapproche de la distance universelle quand le principe LDM est vérifié. Si nous appliquons le principe LDM pour inférer les modèles de chaque objet, nous nous attendons à obtenir une bonne approximation de d(x, y), puisque nous approchons des conditions favorables.

Dans le document Joint Information Extraction and Compression of Satellite Image Time Series (Page 109-114)