• Aucun résultat trouvé

Les m´ethodes de r´eduction et d’analyse de donn´ees permettent de synth´etiser un ensemble r´eduit de valeurs tout en cherchant `a conserver le maximum d’informations pr´esentes dans les observations originales. Notre probl´ematique ´etant de fournir une repr´esentation synth´etique des observations sous la forme d’une composition color´ee, une m´ethode d’analyse de donn´ees (l’analyse factorielle discriminante) est ´etudi´ee. Une r´eduction ´etant n´ecessaire lorsque c > 10, une m´ethode bas´ee sur un algorithme de coa- lescences est ´egalement pr´esent´ee.

4.4.1

L’analyse factorielle discriminante

L’analyse factorielle discriminante (AFD [74]) est une m´ethode classique d’analyse de donn´ees supervis´ee qui permet la projection des donn´ees dans un espace maximisant la variance inter-classes tout en minimisant la variance intra-classe. L’utilisation de ces deux crit`eres permet de d´eterminer les axes de projection s´eparant lin´eairement les classes.

Soit Y = (y1, ..., yb) les observations avec c le nombre de bandes et N le nombre de

pixels de chaque image. Chaque site s de Y est associ´e `a une classe ωk avec k ∈ {1..K}.

L’ensemble des sites s de la carte de segmentation X appartenant `a ωk est not´e Jk. On

peut alors repr´esenter Y sous forme matricielle en adoptant les conventions de notation pr´ecis´ees dans la fig. 4.3.

L’AFD consiste `a calculer trois matrices de covariance :

– T (total) : matrice totale de covariance (´eq. (4.2)) ;

B (between) : matrice de covariance inter-classes (´eq. (4.3)) ;W (within) : matrice de covariance intra-classes (´eq. (4.4)) ;

Fig. 4.3 – Repr´esentation matricielle des observations. Le vecteur yj repr´esente la bande j de Y mise sous la forme d’un vecteur colonne. ykj correspond aux sites de la bande j appartenant `a la classe ωk.

Ces trois matrices v´erifient la propri´et´e [74] :

T = W + B (4.1) avec tjj′ = 1 N N X i=1

(yij− ¯yj)(yij′ − ¯yj′) (4.2)

et bjj′ = K X k=1 ♯Jk N (¯ykj− ¯yj)(¯ykj′ − ¯yj′) (4.3) et wjj′ = 1 N K X k=1 X j∈Jk

(ykj− ¯ykj)(ykj′ − ¯ykj′) (4.4)

o`u ¯yj est la moyenne de la bande j :

¯ yj = 1 N p X i=1 yij (4.5)

et ¯ykj est la moyenne de la bande j pour tous les sites s appartennant `a la classe ωk :

¯ ykj = 1 ♯Jk ♯Jk X i=1 yij (4.6)

On montre alors que les axes de projection donn´es par les vecteurs propres E ∈ {E1...EN} de T−1B v´erifient [74] :

T−1BE

i = ΞiEi (4.7)

On supposera par la suite que les vecteurs propres sont ordonn´es par valeurs propres d´ecroissantes. Les observations sont ensuite projet´ees sur cette base de vecteurs propres et seules les n premi`eres images r´esultantes, correspondantes aux n valeurs propres les plus grandes, sont conserv´ees. On obtient donc les images projet´ees zl de la mani`ere suivante :

zl ∝ N

X

j=1

yij × El(j) (4.8)

El(j) ´etant la composante j du vecteur propre associ´e `a la l-i`eme plus grande valeur

propre.

Il convient de noter, d’une mani`ere g´en´erale, qu’il suffit de k− 1 axes pour s´eparer k classes.

Notre m´ethode de visualisation des images astronomiques multispectrales cherche `a transcrire dans la composition color´ee, les variations de luminance intra-classes. L’analyse factorielle discriminante permet de r´ealiser ceci au travers des crit`eres de maximisation de la variance intra-classes et de minimisation de la variance inter-classe.

4.4.2

R´eduction des donn´ees

Les m´ethodes de r´eduction de donn´ees sont g´en´eralement utilis´ees lorsqu’intervient le ph´enom`ene de mal´ediction de la dimensionnalit´e. Le travail dans un espace r´eduit permet de faciliter les traitements post´erieurs dans un espace de dimension bien inf´erieure `a la dimension de l’espace originale.

Les m´ethodes ACP et ACI, d´eriv´ees des m´ethodes de poursuites de projection, pro- jetant les donn´ees dans un espace maximisant un certain crit`ere, sont g´en´eralement uti- lis´ees pour leur simplicit´e. Cependant, la projection r´esultante peut ˆetre difficilement interpr´etable et l’espace obtenu de manipulation peu intuitive. Les m´ethodes d’approxi- mation de spectres par m´elange de lois gaussiennes[24] permettent de repr´esenter un spectre sous la forme d’une combinaison lin´eaire de lois gaussiennes. Dans [24], l’estima- tion des param`etres du m´elange de lois se fait grˆace `a l’algorithme EM. Ces m´ethodes restent peu applicables dans le cas de grands cubes de donn´ees pr´esentant de nombreuses raies d’´emission/absorption.

Lorsque le nombre de bandes d´epasse la dizaine, nous adoptons au pr´ealable une strat´egie de regroupement de bandes utilisant un algorithme de ”bottom up clustering” avec une mesure de similarit´e multi´echelles [14, 25]. L’approche consiste `a supposer que les bandes dont les longueurs d’ondes sont proches, sont g´en´eralement tr`es corr´el´ees et leur apport d’informations est redondant. La m´ethode se d´ecompose alors en deux phases :

– regroupement des bandes en cluster en fonction d’un crit`ere de similarit´e ;

– projection dans chacun des clusters `a l’aide d’une ACP ou d’une ACI.

L’algorithme utilis´e consiste `a grouper les bandes deux par deux au fur et `a mesure des it´erations en fonction d’une mesure de similarit´e multir´esolution bas´ee sur les histo- grammes normalis´es[13] combin´es avec les moments d’inertie d’ordre 1 (barycentre). Soit

hk

i l’histogramme normalis´e d’une image i `a l’´echelle k, alors la mesure de divergence `a

l’´echelle k est : Dk ij = (hki − hkj)log hk i hk j. On pose g k

i comme ´etant le barycentre de l’image

i `a l’´echelle k. On note alors lkij comme la distance euclidienne entre les deux barycentres

gk

i et gkj. En sommant tous les barycentres et toutes les divergences `a toutes les ´echelles,

on obtient alors une mesure de similarit´e entre deux images i et j. Cette mesure est alors utilis´ee pour grouper les bandes deux `a deux.

L’utilisateur fournit, en entr´ee de l’algorithme, le nombre de bandes r´eduites voulues, correspondant ainsi au nombre de clusters `a construire.

La r´eduction au sein de chaque sous-ensemble est alors r´ealis´ee par une ACP ou une ACI (algorithme FastICA avec d´ecorr´elation d´eflationniste [35])