Extraction d’information et mesure de similarit´e

5.3 Description d’un codeur sans perte pour STIS

5.3.6 Extraction d’information et mesure de similarit´e

Nous nous référons au système de codage en deux passes présenté dans la Figure 5.2. Nous avons présenté les moyens pour combiner les différents modules et obtenir un codeur sans perte en deux parties efficace. Le codage du prédicteur et de l’arbre, représente le modèle du signal ou l’information d’importance extraite. D’autre part, le signal d’erreur constitue la seconde partie du code qui est considérée comme purement aléatoire connaissant l’arbre de contexte. En l’occurrence, nous faisons en sorte que chaque bit

5.3. DESCRIPTION D’UN CODEUR SANS PERTE POURSTIS 121 k g l h m i j f e x q(x) c b a d t−1 t _temps

|a−c| gradient horizontal |c−b| gradient vertical |b−h| gradient temporel |e−k| gradient diagonal vecteur de contexte |a−c| |c−b| |b−h| |e−k| q(|a−c|) q(|c−b|) q(|b−h|) q(|e−k|) contexte quantifié

FIG. 5.5 –Le contexte d’un pixel, représenté en noir, est défini à partir des gradients avoisinants. Ces gradients sont quantifiés pour réduire le nombre total de contextes et éviter une dissolution de l’information conditionnelle. Dans le cadre de STIS, nous considérons les gradients horizontaux, verticaux, diagonaux et temporels pour définir le contexte.

q(|b−h|) q(|c−b|) q(|a−c|)

...

{10..14} {15...} {2..5} {0,1} {6..9} états quantifiés chemin de contexte q(|e−k|)

FIG. 5.6 –L’arbre complet correspondant aux contextes_{{q(| a−c |), q(| c−b |), q(| b−h |), q(| e−k |}

)} est représenté. Chaque vecteur de contexte correspond à un chemin vers un des 45_contextes.

122 5. EXTRACTION D’INFORMATION FONDEE SUR LES COMPLEXIT´ ES´

numérique transmis contienne un bit d’information. C’est la définition d’un signal purement aléatoire. Par analogie avec les techniques classiques d’extraction d’information dans les images, nous pouvons considérer le prédicteur et l’arbre comme primitives du signal codé.

Ce schéma de codage en deux parties permet de définir la Distance Normalisée Suffi- sante de Compression (DNSC) entre deux signaux tridimensionnels x et y. Dans le calcul de cette distance, nous nous intéressons aux complexités conditionnelles C1(x | My) et

C1(y | Mx). Prenons la mesure C1(x | My). Cette quantit´e mesure la quantit´e de bits

nécessaire à coder l’erreur de prédiction de x en prenant le prédicteur et l’arbre statis- tique contextuel obtenus avec y. L’union de ces deux objets, prédicteur et arbre, est par conséquent notéMy.

Finalement, notre codeur peut être utilisé pour le codage de la STIS vue comme un ensemble de structures spatio-temporelles en se basant sur la méthodologie présentée au §5.2.1. En effet, en codant indépendamment les structures spatio-temporelles, nous réduisons les redondances et extrayons l’information intrinsèque à chaque objet. Dans une seconde étape, en exploitant les similarités inter-objets, nous réduisons les redondances qui existent entre les événements spatio-temporels. Cette méthode permet d’aug- menter la compression de toute la STIS tout en créant un index du contenu information- nel.

Nous terminons par signaler que le codeur présenté s’applique aux séries temporelles monospectrales. Néanmoins, il est possible de généraliser notre codeur à des séries temporelles multispectrales.

5.4 R´esum´e

Nous avons introduit la Distance Normalisée Suffisante de Compression (DNSC) pour comparer deux objets en utilisant l’information structurante des objets. Nous avons déduit cette distance de la DCN qui présente de très bons résultats pour le clustering de différents types d’objets, tels que le texte, les textures ou l’ADN. La DNSC est pertinente dans le cadre de l’extraction d’information, puisqu’elle intègre le principe LDM qui vise à extraire l’information d’intérêt.

Ensuite, nous avons présenté un critère général de codage d’un ensemble d’objets en exploitant les redondances inter-objets. Ce principe rentre dans le cadre LDM, o ù l’information est divisée en deux parties. D’autre part, nous montrons que la minimisation de la longueur de code s’apparente à la minimisation d’un couple débit-distorsion. Ce lien conforte le fait qu’une extraction d’information est opérée lors du codage conjoint de l’ensemble d’objet. Dans le cadre de la théorie débit-distorsion, nous montrons que le critère de longueur minimale s’apparente au principe IB puisque une troisième va- riable contenant l’information pertinente est introduite. Le critère proposé dans l’Eq. 5.27 ne peut être minimisé directement. Pour surmonter le problème, nous proposons une méthode d’optimisation fondée sur la DNSC et sur la décomposition de l’information en deux parties par un codeur universel. Cette méthode permet de construire un index des modèles. D’une part, cet index contient l’information pertinente extraite, d’autre part il est intégré dans le code en deux parties de l’ensemble d’objets.

Dans le but d’appliquer notre méthodologie d’extraction aux STIS, nous créons un codeur sans perte pour les signaux tridimensionnels. Nous exploitons l’expérience scien- tifique accumulée sur le codage d’image (Weinberger et al., 2000; Wu & Memon, 1997)

5.4. R ´ESUME´ 123

pour construire ce codeur universel. Plus le codage est efficace, plus le modèle sous- jacent explique bien les données codées.

Néanmoins, la couleur n’est pas prise en considération. En effet le codeur proposé est dédié aux séries monospectrales. Pour inclure l’information de couleur, comme cela est fait au§4.4.4, nous préconisons d’utiliser des transformées de décrorrélation spectrales, du type Karhunen-Loeve, comme modèle de l’information de couleur (Gueguen et al., 2005).

125

Troisi`eme partie

Exp´erimentation et analyse des

r´esultats

127

Chapitre 6

Validation et analyse des r´esultats

Dans ce chapitre, nous nous attachons à valider les méthodologies que nous avons in- troduites. Pour pouvoir les évaluer, nous les appliquons à des données que nous synthéti- sons. Ensuite, nous comparons les différentes méthodes à des méthodes d’extraction d’information de référence. Enfin, nous discutons des résultats d’extraction d’information obtenus sur la STIS ADAM.

6.1 Validation des m´ethodologies fond´ees sur le principe IB

Dans ce chapitre, nous mettons en évidence la pertinence des résultats obtenus sur des données synthétiques. Dans le but de valider les méthodologies fondées sur le principe IB et MIB, nous expérimentons ces algorithmes sur des données déjà classées. Ainsi, nous pouvons comparer les résultats de clustering aux classes existantes. Enfin, nous appliquons les deux méthodologies aux STIS et discutons des résultats.

Dans le document Joint Information Extraction and Compression of Satellite Image Time Series (Page 129-136)