• Aucun résultat trouvé

Méthodes de séparation aveugle de sources et application à l'imagerie hyperspectrale en astrophysique

N/A
N/A
Protected

Academic year: 2021

Partager "Méthodes de séparation aveugle de sources et application à l'imagerie hyperspectrale en astrophysique"

Copied!
181
0
0

Texte intégral

(1)

HAL Id: tel-02013532

https://tel.archives-ouvertes.fr/tel-02013532

Submitted on 11 Feb 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Méthodes de séparation aveugle de sources et

application à l’imagerie hyperspectrale en astrophysique

Axel Boulais

To cite this version:

Axel Boulais. Méthodes de séparation aveugle de sources et application à l’imagerie hyperspectrale en

astrophysique. Traitement du signal et de l’image [eess.SP]. Université Paul Sabatier - Toulouse III,

2017. Français. �NNT : 2017TOU30318�. �tel-02013532�

(2)

TH `ESE TH `ESE

En vue de l’obtention du

DOCTORAT DE L’UNIVERSIT´E DE TOULOUSE

D´elivr´e par : l’Universit´e Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)

Pr´esent´ee et soutenue le 15 d´ecembre 2017 par :

Axel BOULAIS

M´ethodes de s´eparation aveugle de sources et application `a l’imagerie hyperspectrale en astrophysique.

Said Moussaoui Professeur, IRCCyN, Nantes JURY Rapporteur Danielle Nuzillard Professeur, CReSTIC, Reims Rapporteur Patrick Dan`es Professeur, LAAS, Toulouse Pr´esident du Jury Alain Abergel Professeur, IAS, Paris Sud Examinateur Yannick Deville Professeur, IRAP-SISU, Toulouse Directeur de th`ese Olivier Bern´e CR, IRAP-MICMAC, Toulouse Directeur de th`ese

´Ecole doctorale et sp´ecialit´e :

MITT : Signal, Image, Acoustique et Optimisation Unit´e de Recherche :

Institut de Recherche en Astrophysique et Plan´etologie (IRAP - UMR 5277) Directeur(s) de Th`ese :

Yannick Deville (IRAP) et Olivier Bern´e (IRAP) Rapporteurs :

Said Moussaoui (IRCCyN) et Danielle Nuzillard(CReSTIC)

(3)
(4)

Table des mati` eres

Abr´ eviations . . . . v

Introduction g´ en´ erale . . . . 1

1 Contexte et objectifs . . . . 1

2 Organisation du manuscrit . . . . 2

Chapitre 1 – La S´ eparation Aveugle de Sources . . . . 5

Introduction . . . . 7

1.1 G´ en´ eralit´ es . . . . 7

1.2 Mod` eles de m´ elange . . . . 8

1.2.1 M´ elanges Lin´ eaires . . . . 8

1.2.2 M´ elanges non lin´ eaires . . . . 9

1.3 Param` etres compl´ ementaires . . . . 10

1.3.1 Estimation du nombre de sources . . . . 10

1.3.2 Ind´ eterminations . . . . 12

1.4 M´ ethodes pour les m´ elanges lin´ eaires instantan´ es . . . . 13

1.4.1 Analyse en Composantes Ind´ ependantes . . . . 15

1.4.2 Factorisation en matrices non n´ egatives . . . . 16

1.4.3 Analyse en composantes parcimonieuses . . . . 23

1.4.4 Inf´ erence bay´ esienne . . . . 34

1.4.5 M´ ethodes g´ eom´ etriques . . . . 35

Conclusion . . . . 39

Chapitre 2 – L’imagerie hyperspectrale . . . . 41

Introduction . . . . 42

2.1 G´ en´ eralit´ es . . . . 42

2.2 Mod` ele physique de m´ elange . . . . 44

2.2.1 En observation de la Terre . . . . 45

2.2.2 En astrophysique . . . . 49

2.3 Mod` ele du cube . . . . 51

2.3.1 Mod` ele spectral . . . . 52

2.3.2 Mod` ele spatial . . . . 52

2.3.3 Choix du mod` ele . . . . 53

(5)

2.4 M´ ethodes de SAS en observation de la Terre . . . . 53

2.4.1 Panorama des m´ ethodes standard . . . . 54

2.4.2 M´ ethodes g´ eom´ etriques . . . . 56

2.5 Etat de l’art de la SAS en astrophysique . . . . ´ 59

2.5.1 Analyse en composantes ind´ ependantes . . . . 59

2.5.2 M´ ethodes bay´ esiennes . . . . 60

2.5.3 Factorisation en matrices non n´ egatives . . . . 60

2.5.4 Analyse en composantes parcimonieuses . . . . 61

2.6 Etude de nos donn´ ´ ees et choix m´ ethodologiques . . . . 61

2.6.1 Caract´ eristiques des images hyperspectrales . . . . 62

2.6.2 Choix m´ ethodologiques . . . . 63

2.6.3 Positionnement de nos travaux . . . . 65

Conclusion . . . . 66

Chapitre 3 – M´ ethodes hybrides SpaceCORR-NMF . . . 67

Introduction . . . . 69

3.1 Limites de SpaceCORR et de la NMF . . . . 69

3.2 Approche propos´ ee . . . . 70

3.2.1 La m´ ethode SpaceCORR . . . . 70

3.2.2 La m´ ethode MC-NMF . . . . 72

3.2.3 Les m´ ethodes hybrides . . . . 75

3.3 R´ esultats exp´ erimentaux sur donn´ ees synth´ etiques . . . . 76

3.3.1 Construction des donn´ ees synth´ etiques r´ ealistes . . . . 76

3.3.2 Mesures de performances . . . . 78

3.3.3 Performances des m´ ethodes . . . . 81

3.3.4 Comparaisons et discussion des r´ esultats . . . . 98

3.4 R´ esultats exp´ erimentaux sur donn´ ees r´ eelles . . . . 101

3.4.1 SpaceCORR . . . . 102

3.4.2 MC-NMF . . . . 104

3.4.3 M´ ethodes hybrides . . . . 105

3.4.4 Bilan de l’´ etude du cas r´ eel . . . . 106

Conclusion . . . . 109

Chapitre 4 – M´ ethode g´ eom´ etrique ` a pixels purs et somme d’abondance non contrainte . . . 111

Introduction . . . . 113

4.1 Propri´ et´ es g´ eom´ etriques . . . . 114

4.1.1 Cˆ one simplicial . . . . 114

4.1.2 Crit` ere de s´ eparation . . . . 116

4.2 La m´ ethode MASS . . . . 118

4.2.1 Estimation de la matrice de m´ elange . . . . 118

4.2.2 Reconstruction des sources . . . . 120

4.3 M´ ethodes hybrides . . . . 120

4.4 R´ esultats exp´ erimentaux sur donn´ ees synth´ etiques . . . . 121

(6)

4.4.1 MASS . . . . 122

4.4.2 MASS-NMF-Spec . . . . 125

4.4.3 MASS-NMF-Map . . . . 129

4.4.4 Comparaisons et discussion des r´ esultats . . . . 132

4.5 R´ esultats exp´ erimentaux sur donn´ ees r´ eelles . . . . 136

4.5.1 MC-NMF . . . . 137

4.5.2 MASS . . . . 138

4.5.3 M´ ethodes hybrides . . . . 140

4.5.4 Bilan pour les donn´ ees r´ eelles . . . . 141

Conclusion . . . . 144

Chapitre 5 – M´ ethode de SAS bas´ ee sur l’intersection de sous-espaces . . . . 145

Introduction . . . . 146

5.1 Contexte g´ eom´ etrique . . . . 148

5.2 La m´ ethode SIBIS . . . . 149

5.2.1 Identification des paires de zones IMS . . . . 150

5.2.2 Estimation de la matrice de m´ elange . . . . 151

5.2.3 Reconstruction des sources . . . . 152

5.3 R´ esultats exp´ erimentaux . . . . 153

5.3.1 Tests sur donn´ ees synth´ etiques . . . . 153

5.3.2 Test sur donn´ ees r´ eelles . . . . 155

Conclusion . . . . 155

Conclusion g´ en´ erale et perspectives . . . 159

Bibliographie . . . 172

(7)
(8)

Abr´ eviations

ALS Alternating Least Square

BiSCorr Bi-Source Correlation

CCA Convex Cone Analysis

CMB Cosmic Microwave Background

DUET Degenerate Unmixing Estimation Technique GMCA Generalized Morphological Component Analysis HIFI Heterodyne Instrument for the Far-Infrared

ICA Independent Component Analysis

i.i.d. ind´ ependant et identiquement distribu´ e

IR InfraRouge

IRS Infrared Spectrograph

JADE Joint Approximate Diagonalization of Eigen-matrices MASS Maximum Angle Source Separation

MASS-NMF-Spec MASS-MC-NMF avec initialisation spectrale MASS-NMF-Map MASS-MC-NMF avec initialisation spatiale

MC Monte Carlo

MCMC Markov Chain Monte Carlo

MC-NMF Monte-Carlo - Nonnegative Matrix Factorization

MVC-NMF Minimum Volume Constrained Nonnegative Matrix Factorization MVES Minimum Volume Enclosing Simplex

MVSA Minimum Volume Simplex Analysis NMCEB Normalized Monte Carlo Error Bar NMF Nonnegative Matrix Factorization

NNLS NonNegative Least Square

NRMSE Normalized Root Mean Square Error OSP Orthogonal Subspace Projection PAH Polycyclic Aromatic Hydrocarbons PCA Principal Component Analysis PDF Probability Density Function PDR Photo-Dissociation Regions PMF Positive Matrix Factorisation

PPI Pixel Purity Index

PSF Point Spread Function

(9)

QNS Quasi Non-Sparse

SAM Spectral Angle Mapper

SAS S´ eparation Aveugle de Sources

SCA Sparse Component Analysis

SCA-NMF-Spec SpaceCORR-MC-NMF avec initialisation spectrale SCA-NMF-Map SpaceCORR-MC-NMF avec initialisation spatiale SCSA Simplicial Cone Shrinking Algorithm

SISAL Simplex Identification via Split Augmented Lagrangian SIBIS Subspace Intersection Blind Identification and Separation SMACC Sequential Maximum Angle Convex Cone

SMICA Spectral Matching Independent Component Analysis

SNR Signal to Noise Ratio

SOBI Second Order Blind Identification SpaceCORR Spatial CORRelation

SVD Singular Value Decomposition TempCORR Temporal CORRelation TempROM Temporal Ratios Of Mixtures TiFCORR Time-Frequency CORRelation TiFROM Time-Frequency Ratios Of Mixtures TiSCORR Time-Scale Ratios Of Mixtures

UV UltraViolet

VCA Vertex Component Analysis

VSG Very Small Grains

WDO W-Disjoint-Orthogonality

(10)

Introduction g´ en´ erale

1 Contexte et objectifs

Les r´ egions de notre galaxie situ´ ees entre les ´ etoiles sont regroup´ ees sous l’appellation de “milieu interstellaire”. Bien que ce milieu soit g´ en´ eralement tr` es dilu´ e, on y trouve de la mati` ere inject´ ee par les ´ etoiles en fin de vie. Cette mati` ere n’est pas r´ epartie uniform´ ement dans le milieu interstellaire mais concentr´ ee dans des nuages de gaz et de poussi` ere. Ces nuages pr´ esentent la particularit´ e d’absorber la lumi` ere ´ emise par les ´ etoiles dans l’ultraviolet (UV) pour en r´ e´ emettre la majeure partie dans l’infrarouge (IR).

Plus sp´ ecifiquement, certaines portions des nuages interstellaires sont baign´ ees par un flux de rayonnement UV suffisamment intense pour dissocier les mol´ ecules. Ces zones d’interaction entre rayonnement et mati` ere sont appel´ ees r´ egions de photodissociation (PDR pour Photo- Dissociation Regions en anglais). Ce type d’interface a un impact majeur sur la structure, la dynamique, la chimie et l’´ equilibre thermique du nuage.

On s’int´ eresse ici aux r´ egions de formations stellaires, caract´ eris´ ees par la pr´ esence de jeunes ´ etoiles massives entour´ ees d’un nuage de mati` ere o` u l’interaction entre le gaz, la poussi` ere et les photons UV est particuli` erement importante. L’´ etude de ces PDR permet de comprendre l’influence d’une ´ etoile massive sur son voisinage, qui peut favoriser l’effondre- ment gravitationnel du nuage de mati` ere, entraˆınant la formation de nouvelles ´ etoiles.

L’imagerie hyperspectrale dans le domaine IR est l’outil privil´ egi´ e pour l’´ etude de ces r´ egions. Elle donne acc` es aux principales raies de refroidissement du gaz et ` a l’´ emission de la poussi` ere, ` a partir desquelles il est possible de d´ eterminer les conditions physiques locales en s’appuyant sur les mod` eles de transfert de rayonnement ou de r´ egions photodomin´ ees.

Une image hyperspectrale (ou cube hyperspectral) est une fonction de trois variables,

`

a savoir deux variables de position (position d’un pixel dans une image) et une variable spectrale (longueur d’onde). Ainsi, ` a chaque pixel de l’image correspond un spectre d’intensit´ e

´

electromagn´ etique.

Dans le contexte d’´ etude des PDR, les images hyperspectrales acquises par les t´ elescopes

spatiaux (e.g. Spitzer et Herschel) pr´ esentent une caract´ eristique majeure. Tout d’abord le

milieu observ´ e est, au premier ordre, “transparent” aux longueurs d’onde consid´ er´ ees. Le

spectre mesur´ e pour chaque pixel correspond donc ` a l’´ emission sur toute la profondeur du

nuage de mati` ere. Ensuite, sous l’effet du rayonnement UV intense, le nuage de mati` ere

est structur´ e en strates. Chaque couche du nuage est constitu´ ee de mol´ ecules de gaz et de

poussi` eres sp´ ecifiques, et poss` ede donc une signature spectrale propre que l’on appellera

composante ´ el´ ementaire.

(11)

Le spectre global obtenu pour un pixel donn´ e est alors une combinaison (lin´ eaire instan- tan´ ee dans notre cas) des spectres ´ el´ ementaires ´ emis par les diff´ erentes couches du nuage de mati` ere.

L’´ etude des structures de la PDR passe donc par l’extraction d’une part des spectres

´

el´ ementaires associ´ es ` a chaque couche du nuage de matiere observ´ e et d’autre part des cartes de r´ epartition donnant la disposition des diff´ erentes couches du nuage dans la n´ ebuleuse.

Pour r´ ealiser cette d´ ecomposition math´ ematique du cube spectral, on utilise des m´ ethodes de s´ eparation aveugle de sources (SAS). Les probl` emes de SAS consistent ` a estimer un en- semble de signaux sources inconnus ` a partir d’un ensemble de signaux observ´ es qui sont des m´ elanges de ces signaux sources, l’op´ erateur de m´ elange ´ etant en partie inconnu. Dans notre contexte, on mod´ elise le m´ elange par une combinaison lin´ eaire instantan´ ee, cependant les param` etres du m´ elange (i.e. les coefficients donnant la contribution de chaque source dans chaque observation) sont inconnus et sont aussi ` a estimer.

L’objectif de ces travaux de th` ese est le d´ eveloppement de m´ ethodes de SAS d´ edi´ ees ` a l’analyse des donn´ ees hyperspectrales et r´ epondant aux contraintes impos´ ees par les observa- tions de r´ egions de photodissication. Dans ce but, nous avons ´ etudi´ e dans un premier temps les possibilit´ es qu’offrent les m´ ethodes de SAS pr´ esentes dans la litt´ erature et applicable ` a notre contexte sp´ ecifique. Apr` es avoir soulign´ e les avantage et inconv´ enient des m´ ethodes existantes et utilisables, nous avons d´ evelopp´ e des m´ ethodes de SAS originales permettant une d´ ecomposition des images hyperspectrales sous les contraintes impos´ ees par le contexte astrophysique.

2 Organisation du manuscrit

Nous commencerons cette ´ etude par deux chapitres portant sur l’´ etat de l’art. Dans le premier chapitre, nous pr´ esenterons le concept de la SAS dans un contexte g´ en´ eral. Nous d´ ecrirons les diff´ erents types de m´ elanges rencontr´ es dans les principaux domaines d’applica- tion, puis nous pr´ esenterons les diff´ erentes classes de m´ ethodes de la litt´ erature permettant de r´ esoudre le probl` eme de SAS pour un mod` ele lin´ eaire instantan´ e. Nous nous focaliserons davantage sur les m´ ethodes utilisables dans notre contexte.

Dans le second chapitre, nous aborderons la probl´ ematique de SAS que soul` eve l’imagerie hyperspectrale en observation de la Terre et en astrophysique. Ensuite, nous ´ etablirons un panorama des m´ ethodes de SAS sp´ ecifiques ` a ces deux domaines d’application. Pour finir, nous d´ ecrirons les donn´ ees sur lesquelles nous travaillerons tout au long de ce manuscrit et conclurons ainsi sur nos choix m´ ethodologiques.

Les trois chapitres suivant pr´ esentent nos contributions en termes de m´ ethodes de SAS.

Le chapitre trois porte sur l’hybridation d’une m´ ethode d’analyse en composantes parcimo- nieuses, appel´ ee SpaceCORR, avec une m´ ethode de factorisation en matrices non n´ egatives (NMF). L’objectif de cette approche est d’exploiter les avantages des m´ ethodes SpaceCORR et NMF tout en contrebalan¸cant leurs inconv´ enients respectifs.

Dans le chapitre quatre, nous proposerons une premi` ere approche permettant de relˆ acher

(12)

la contrainte de parcimonie impos´ ee par SpaceCORR. La m´ ethode d´ evelopp´ ee, appel´ ee MASS, est bas´ ee sur l’exploitation de la structure g´ eom´ etrique que prennent les donn´ ees sous certaines conditions de parcimonie. Nous ´ etudierons ´ egalement l’hybridation de MASS avec la NMF.

Dans le chapitre cinq, nous proposons une seconde approche permettant de relˆ acher la contrainte de parcimonie impos´ ee par SpaceCORR. La m´ ethode d´ evelopp´ ee, appel´ ee SIBIS, est une m´ ethode g´ eom´ etrique bas´ ee sur l’´ etude de l’intersection des sous-espace engendr´ es par certaines r´ egions de l’image hyperspectrale pr´ esentant des propri´ et´ es de parcimonie.

Pour chacun des chapitres d´ etaillant nos contributions m´ ethodologiques, un ensemble de tests sur donn´ ees simul´ ees est r´ ealis´ e afin d’´ etudier les performances et les limites de nos approches. Chaque m´ ethode est enfin appliqu´ ee sur les donn´ ees r´ eelles ` a notre disposition.

Pour finir, nous proposons dans un dernier chapitre une conclusion g´ en´ erale ` a ces travaux

ainsi qu’un ensemble de perspectives.

(13)
(14)

Chapitre 1

La S´ eparation Aveugle de Sources

Sommaire

Introduction . . . . 7

1.1 G´ en´ eralit´ es . . . . 7

1.2 Mod` eles de m´ elange . . . . 8

1.2.1 M´ elanges Lin´ eaires . . . . 8

1.2.1.1 M´ elange lin´ eaire instantan´ e . . . . 8

1.2.1.2 M´ elange lin´ eaire ` a retard . . . . 9

1.2.1.3 M´ elange convolutif . . . . 9

1.2.2 M´ elanges non lin´ eaires . . . . 9

1.2.2.1 M´ elange post non lin´ eaire . . . . 9

1.2.2.2 M´ elange lin´ eaire quadratique . . . . 10

1.3 Param` etres compl´ ementaires . . . . 10

1.3.1 Estimation du nombre de sources . . . . 10

1.3.2 Ind´ eterminations . . . . 12

1.4 M´ ethodes pour les m´ elanges lin´ eaires instantan´ es . . . . 13

1.4.1 Analyse en Composantes Ind´ ependantes . . . . 15

1.4.1.1 M´ ethodes bas´ ees sur la non gaussianit´ e . . . . 15

1.4.1.2 M´ ethodes bas´ ees sur la structure des signaux . . . . 16

1.4.2 Factorisation en matrices non n´ egatives . . . . 16

1.4.2.1 Principe g´ en´ eral . . . . 17

1.4.2.2 Algorithmes standard de NMF . . . . 18

1.4.2.3 Unicit´ e et convergence . . . . 20

1.4.3 Analyse en composantes parcimonieuses . . . . 23

1.4.3.1 Parcimonie conjointe . . . . 25

1.4.3.2 Espace de repr´ esentation . . . . 25

1.4.3.3 Cat´ egories de m´ ethodes de SCA . . . . 27

1.4.3.4 Principe g´ en´ eral des m´ ethodes QNS . . . . 29

1.4.3.5 SpaceCORR . . . . 33

1.4.4 Inf´ erence bay´ esienne . . . . 34

(15)

1.4.5 M´ ethodes g´ eom´ etriques . . . . 35

1.4.5.1 Principe g´ en´ eral . . . . 35

1.4.5.2 M´ ethodes d’identification par les sommets . . . . 36

1.4.5.3 M´ ethodes d’identification par les facettes . . . . 38

Conclusion . . . . 39

(16)

Introduction

Dans ce chapitre, nous introduirons le concept de la S´ eparation Aveugle de Sources (SAS) dans un contexte g´ en´ eral. Nous d´ ecrirons les diff´ erents types de m´ elanges rencontr´ es dans les principaux domaines d’application, puis nous pr´ esenterons les diff´ erentes classes de m´ ethodes de la litt´ erature permettant de r´ esoudre le probl` eme de SAS pour un mod` ele lin´ eaire instantan´ e. Nous nous focaliserons davantage sur les m´ ethodes bas´ ees sur la factori- sation en matrices non-n´ egatives, l’analyse en composantes parcimonieuses ainsi que sur les m´ ethodes g´ eom´ etriques, ces classes de m´ ethodes nous servant de base afin de traiter notre probl´ ematique.

1.1 G´ en´ eralit´ es

La s´ eparation aveugle de sources est un probl` eme g´ en´ erique de traitement de donn´ ees rencontr´ e dans de nombreux domaines d’application. L’´ etude de ph´ enom` enes physiques, ou la caract´ erisation d’un milieu, passe g´ en´ eralement par la mesure de signaux d’int´ erˆ et nous renseignant sur les ph´ enom` enes ou le milieu consid´ er´ e. Dans certains cas, les signaux d’int´ erˆ et que l’on souhaite ´ etudier sont m´ elang´ es lors de leur propagation simultan´ ee jusqu’aux cap- teurs et sont ´ eventuellement bruit´ es. Le terme signal ici est ` a prendre au sens large puisqu’il d´ epend de la nature du ph´ enom` ene observ´ e : acoustique, spectroscopique, images ou encore d’autre type de donn´ ees plus complexes. Ainsi, un capteur (un microphone, une antenne, un imageur...) fournit des donn´ ees constituant un signal observ´ e issu du m´ elange des signaux d’int´ erˆ et, appel´ es signaux sources.

Parmi les domaines d’application de la SAS, on mentionnera par exemple l’´ etude des signaux acoustiques [1, 50, 95, 121, 140], les t´ el´ ecommunications [47, 128], le biom´ edicale [42, 77, 87, 91, 134, 141], l’observation de la Terre [80] ou encore l’astrophysique [16, 27, 113].

Ces deux derni` eres applications, et en particulier la t´ el´ ed´ etection en astrophysique, seront d´ etaill´ ees dans la suite de ce manuscrit. Pour un panorama plus complet des m´ ethodes de SAS g´ en´ erales et des applications, le lecteur pourra consulter [33, 37, 38, 39, 44, 46, 71].

La grande vari´ et´ e de champs d’application de la SAS conduit ` a l’´ elaboration de plusieurs mod` eles de m´ elange de donn´ ees.

Pour illustrer la proc´ edure de m´ elange, on prend l’exemple d’un ensemble de M observa- tions not´ ees x

m

(m ∈ {1, . . . , M }) issues du m´ elange de L sources not´ ees s

`

(` ∈ {1, . . . , L}).

Chaque signal source et signal observ´ e est constitu´ e de N ´ echantillons que l’on indicera par n. Suivant le domaine d’application, n peut d´ esigner un indice temporel, fr´ equentiel, spatial...

La Figure 1.1 illustre le m´ elange des sources s

`

par un syst` eme de m´ elange M.

La relation entre les sources et les observations est donn´ ee par l’application :

x

m

= M(s

1

, s

2

, ..., s

L

). (1.1)

L’objectif de la SAS est d’estimer l’ensemble des signaux sources s

`

uniquement ` a par-

tir des signaux observ´ es x

m

. L’op´ erateur de m´ elange M est en partie inconnu. La classe

de l’op´ erateur est pr´ ed´ efinie et d´ epend du mod` ele de m´ elange mais les param` etres de cet

op´ erateur sont inconnus et sont donc aussi ` a estimer. C’est pourquoi on parle de m´ ethodes

(17)

Figure 1.1 – Proc´ edure de m´ elange aveugles de s´ eparation.

En plus de la classe de l’op´ erateur de m´ elange, d’autres param` etres sont ` a prendre en compte pour r´ esoudre la probl` eme de SAS comme l’estimation du nombre de sources, le nombre d’observations par rapport au nombre de sources ainsi que des ind´ eterminations de permutation et d’´ echelle. Ces diff´ erents points sont d´ etaill´ es dans les paragraphes suivants.

1.2 Mod` eles de m´ elange

Le mod` ele de m´ elange caract´ erise le syst` eme liant les sources aux observations. Il peut ˆ etre lin´ eaire (instantan´ e ou convolutif), ou non lin´ eaire. Les donn´ ees astrophysiques sur lesquelles nous travaillons sont issues de m´ elanges lin´ eaires instantan´ es (ce point sera d´ etaill´ e dans la Section 2.2.2). C’est pourquoi nous ne pr´ esentons ici qu’un simple panorama des mod` eles existants sans en d´ etailler la nature ni les applications.

1.2.1 M´ elanges Lin´ eaires

Les m´ elanges lin´ eaires appartiennent ` a la premi` ere cat´ egorie de type de m´ elange. Ils sont largement r´ epandus dans la litt´ erature et comportent trois sous cat´ egories.

1.2.1.1 M´ elange lin´ eaire instantan´ e

Dans ce mod` ele, chaque observation est une combinaison lin´ eaire des sources. On parle de m´ elange instantan´ e lorsque la valeur du n

i`eme

´ echantillon de l’observation d´ epend uniquement de la combinaison lin´ eaire des valeurs des sources au mˆ eme n

i`eme

´ echantillon :

x

m

(n) =

L

X

`=1

a

m`

s

`

(n), (1.2)

o` u a

m`

sont les coefficients de m´ elange donnant la contribution de la source ` dans l’observa- tion m. Ce mod` ele peut ˆ etre ´ ecrit sous la forme matricielle suivante :

X = AS, (1.3)

(18)

o` u X ∈ R

M×N

est la matrice des observations, A ∈ R

M×L

la matrice de m´ elange et S ∈ R

L×N

la matrice des sources.

1.2.1.2 M´ elange lin´ eaire ` a retard

Ce mod` ele de m´ elange lin´ eaire est une g´ en´ eralisation du mod` ele pr´ ec´ edent. Dans ce cas, la valeur du n

i`eme

´ echantillon de l’observation est une combinaison lin´ eaire des valeurs des sources ` a un indice diff´ erent :

x

m

(n) =

L

X

`=1

a

m`

s

`

(n − n

m`

), (1.4)

o` u n

m`

correspond au d´ ecalage de la source ` dans l’observation m. Par exemple, dans le cas de signaux temporels, ce d´ ecalage peut ˆ etre introduit lorsque le temps de propagation des sources jusqu’aux capteurs est diff´ erent pour chaque source.

1.2.1.3 M´ elange convolutif

Dans ce mod` ele, chaque observation est une combinaison lin´ eaire des sources convolu´ ees par un filtre propre ` a chaque source et ` a chaque observation :

x

m

(n) =

L

X

`=1

f

m`

∗ s

`

(n), (1.5)

o` u f

m`

est la r´ eponse impulsionnelle du filtre relatif ` a la source ` dans l’observation m. Par exemple, dans le cas de signaux temporels, ce mod` ele est utilis´ e en pr´ esence de r´ eflexions (un capteur re¸coit plusieurs fois la mˆ eme source avec des d´ ecalages diff´ erents).

1.2.2 M´ elanges non lin´ eaires

La seconde cat´ egorie de m´ elange concerne les m´ elanges non lin´ eaires. Ces mod` eles, moins r´ epandus dans la litt´ erature, se rapportent ` a des applications pour lesquelles le mod` ele lin´ eaire est insuffisant pour d´ ecrire le m´ elange des signaux d’int´ erˆ et. On distinguera les deux mod` eles suivants :

1.2.2.1 M´ elange post non lin´ eaire

Ce mod` ele de m´ elange est caract´ eris´ e par l’ajout d’une transformation non lin´ eaire f

m

`

a un mod` ele lin´ eaire instantan´ e, chaque observation pouvant subir une transformation non lin´ eaire diff´ erente :

x

m

(n) = f

m

L

X

`=1

a

m`

s

`

(n)

!

. (1.6)

(19)

1.2.2.2 M´ elange lin´ eaire quadratique

Ce mod` ele de m´ elange est caract´ eris´ e par l’ajout d’interactions possibles entre les sources elle-mˆ emes. L’interaction entre deux sources est mod´ elis´ ee par le produit des valeurs des

´

echantillons de ces sources : x

m

(n) =

L

X

`=1

a

m`

s

`

(n) + X

16i6j6L

b

mij

s

i

(n) s

j

(n). (1.7) Pour plus de d´ etails sur les m´ elanges non lin´ eaires, le lecteur peut se r´ ef´ erer ` a [30, 46, 49, 66, 67, 84, 100, 130].

1.3 Param` etres compl´ ementaires

1.3.1 Estimation du nombre de sources

Un probl` eme inh´ erent ` a la SAS est l’estimation du nombre L de sources pr´ esentes dans les observations. Dans la majorit´ e des cas, ce param` etre doit ˆ etre fix´ e avant de proc´ eder ` a la s´ eparation des sources proprement dite. On notera que certaines m´ ethodes (par exemple celle explicit´ ee dans la Section 1.4.3.4) peuvent estimer le nombre de sources parall` element

`

a la s´ eparation. L’approche classique pour estimer le nombre de sources que nous allons d´ etailler est bas´ ee sur la d´ ecomposition en ´ el´ ements propres de la matrice de covariance des donn´ ees (proc´ ed´ e similaire ` a l’Analyse en Composantes Principales (PCA pour Principal Component Analysis en anglais) [131]. Le principe de la m´ ethode est disponible dans [97].

Notons qu’il existe d’autres m´ ethodes pour estimer le nombre de sources d’un m´ elange mais elles n´ ecessitent des contraintes suppl´ ementaires sur le mod` ele de m´ elange lin´ eaire. On re- trouve cette configuration en imagerie hyperspectrale pour l’observation de la Terre (voir par exemple [18]).

La m´ ethode consiste ` a chercher le nombre minimum de composantes qui contribuent le plus dans la variance totale des donn´ ees, en supposant que le bruit est ind´ ependant et identiquement distribu´ e (i.i.d.). Ce nombre correspond au nombre de sources pr´ esentes dans les observations. Notons Σ

X

la matrice de covariance empirique des observations X :

Σ

X

= 1

N X

c

X

cT

, (1.8)

o` u X

c

est la matrice des donn´ ees centr´ ees : X

c

(m, .) = X(m, .) − X(m, .). La d´ ¯ ecomposition de Σ

X

en ´ el´ ements propres s’´ ecrit :

Σ

X

=

M

X

i=1

λ

i

e

i

e

Ti

, (1.9)

o` u λ

i

est la i

i`eme

valeur propre associ´ ee au vecteur propre e

i

. Les valeurs propres de Σ

X

ont

alors les propri´ et´ es suivantes (une preuve de ces propri´ et´ es est disponible dans [51]).

(20)

Propri´ et´ e 1 : Pour des donn´ ees non bruit´ ees (on note X

0

la matrice des observations non bruit´ ees), la matrice de covariance Σ

X0

poss` ede L valeurs propres positives et M − L valeurs propres nulles.

Le nombre L de sources est alors directement d´ eduit de cette propri´ et´ e. Pour une ap- plication r´ eelle, les donn´ ees sont g´ en´ eralement perturb´ ees par un bruit que l’on ne peut pas n´ egliger. Supposons donc que les observations X sont perturb´ ees par un bruit E, blanc sui- vant les indices m et n, additif, centr´ e et de variance σ

E2

. On a alors X = X

0

+ E. La relation entre la matrice de covariance des observations non bruit´ ees Σ

X0

et la matrice de covariance des observations bruit´ ees Σ

X

est donn´ e par :

Σ

X

= Σ

X0

+ σ

E2

I

M

, (1.10)

o` u I

M

est la matrice identit´ e (M × M ).

Propri´ et´ e 2 : Les valeurs propres λ de Σ

X

et les valeurs propres λ

0

de Σ

X0

sont li´ ees par la relation :

λ = λ

0

+ σ

2E

. (1.11)

Ces deux propri´ et´ es permettent alors de d´ eduire que les valeurs propres ordonn´ ees λ

(i)

de Σ

X

pour un m´ elange de L sources sont telles que :

λ

(1)

> . . . > λ

(L)

> λ

(L+1)

= . . . = λ

(M)

= σ

E2

. (1.12) En pratique, ` a cause du nombre limit´ e d’´ echantillons et de l’hypoth` ese forte d’un bruit blanc ayant la mˆ eme variance pour toutes les observations, l’´ egalit´ e λ

(L+1)

= . . . = λ

(M)

= σ

E2

n’est pas v´ erifi´ ee. Cependant, la diff´ erence entre les valeurs propres λ

(L+1)

, . . . , λ

(M)

est faible compar´ ee ` a la diff´ erence entre les valeurs propres λ

(1)

, . . . , λ

(L)

(en particulier entre les valeurs propres λ

(L)

et λ

(L+1)

). La courbe des valeurs propres ordonn´ ees est donc constitu´ ee de deux parties. La premi` ere partie Ω

S

contient les L premi` eres valeurs propres associ´ ees aux composantes ayant une forte contribution dans la variance totale des donn´ ees. Dans cette partie de la courbe, les valeurs propres sont significativement diff´ erentes. La seconde partie Ω

E

contient les valeurs propres restantes associ´ ees au bruit. Dans cette partie, les valeurs propres sont similaires. Un exemple de courbe est donn´ e sur la Figure 1.2.

Le but de la m´ ethode d’estimation du nombre de sources est d’identifier ` a partir de quel in- dice r = L+1 les valeurs propres ne varient plus significativement. Cette ´ etape de la proc´ edure peut ˆ etre r´ ealis´ ee par un algorithme automatique introduit dans [97]. Cette m´ ethode bas´ ee sur le gradient de la courbe des valeurs propres permet d’identifier une cassure dans cette courbe.

Par ailleurs, selon la valeur L du nombre de sources par rapport au nombre des observa- tions M pr´ esentes dans les donn´ ees, on peut distinguer trois situations ind´ ependamment du mod` ele de m´ elange :

— Si le nombre d’observations est ´ egal au nombre de sources (M = L), on parle de m´ elange d´ etermin´ e.

— Si le nombre d’observations est sup´ erieur au nombre de sources (M > L), on parle de

m´ elange sur-d´ etermin´ e.

(21)

Figure 1.2 – Exemple de courbe des valeurs propres ordonn´ ees pour un m´ elange synth´ etique de 4 sources en pr´ esence d’un bruit blanc suivant les indices m et n.

— Si le nombre d’observations est inf´ erieur au nombre de sources (M < L), on parle de m´ elange sous-d´ etermin´ e.

Les m´ elanges d´ etermin´ es et sur-d´ etermin´ es sont en g´ en´ eral ´ equivalents en terme de traite- ment par des m´ ethodes de SAS, les m´ elanges sur-d´ etermin´ es ´ etant souvent plus avantageux notamment en terme de robustesse au bruit. Cependant des subtilit´ es peuvent apparaˆıtre comme nous le verrons dans le Chapitre 5 o` u la m´ ethode que nous proposons n´ ecessite un nombre minimale d’observations sup´ erieur au nombre de sources (au moins 2L observations dans le meilleur cas). Il est parfois n´ ecessaire de ramener un m´ elange sur-d´ etermin´ e ` a un m´ elange d´ etermin´ e en utilisant des m´ ethodes de r´ eduction de dimensions telle que l’ana- lyse en composantes principales (PCA) [131]. Par exemple, ce cas peut apparaˆıtre lorsque la m´ ethode de s´ eparation n´ ecessite le calcul de d´ eterminant de la matrice de m´ elange A (par exemple la m´ ethode N-FINDR [139] d´ ecrite dans la Section 2.4.2). Le cas des m´ elanges sous- d´ etermin´ es est plus difficile ` a r´ esoudre et n´ ecessite l’ajout de contraintes suppl´ ementaires ou d’utiliser des m´ ethodes sp´ ecifiques.

1.3.2 Ind´ eterminations

A partir du mod` ele de m´ elange lin´ eaire instantan´ e, on peut mettre en ´ evidence deux incertitudes de la SAS. En effet, sans information a priori sur les signaux sources m´ elang´ es, l’´ echange d’un facteur quelconque entre une source et son coefficient de m´ elange n’affecte en rien les observations :

x

m

(n) =

L

X

`=1

a

m`

s

`

(n) (1.13)

=

L

X

`=1

a

m`

b

`

b

`

s

`

(n). (1.14)

(22)

Cette incertitude est appel´ ee ind´ etermination d’´ echelle sur les signaux sources. Afin de pal- lier cette ind´ etermination, une normalisation des sources ou des coefficients de m´ elanges est possible (par exemple fixer la norme `

2

de chaque source ` a l’unit´ e, ou fixer les ´ el´ ements dia- gonaux de la matrice de m´ elange ` a l’unit´ e). Ces solutions sont en g´ en´ eral des conventions et n’ont aucune incidence sur la forme du signal source estim´ e. On notera cependant que ces normalisations ont parfois un sens lorsque l’on peut exprimer les signaux ou les coefficients de m´ elange dans une unit´ e de mesure physique.

Par ailleurs, l’indice ` associ´ e ` a chaque source est arbitraire car les sources sont estim´ ees

`

a une permutation pr` es des vraies sources. En effet, si on change l’ordre des sources et des coefficients de m´ elanges associ´ es dans l’´ equation (1.13), l’observation n’est pas modifi´ ee. Cette permutation est appel´ ee ind´ etermination d’ordre. Notons que cette ind´ etermination doit ˆ etre prise en compte dans le cas de r´ esultats issus de donn´ ees synth´ etiques permettant d’´ evaluer les performances d’une m´ ethode, les mesures d’erreurs d’estimations ´ etant affect´ ees par les permutations des sources.

1.4 M´ ethodes pour les m´ elanges lin´ eaires instantan´ es

La SAS est la discipline regroupant les m´ ethodes permettant d’estimer les L signaux sources s

`

(et leurs coefficients de m´ elange associ´ es a

m`

) ` a partir de leurs m´ elanges contenus dans les M signaux observ´ es x

m

. Comme mentionn´ e pr´ ec´ edemment, notre champ d’investi- gation concerne la SAS pour des donn´ ees issues d’un m´ elange lin´ eaire instantan´ e. Dans cette section, on s’int´ eresse donc aux m´ ethodes les plus r´ epandues dans la litt´ erature en rapport avec le m´ elange lin´ eaire instantan´ e :

x

m

(n) =

L

X

`=1

a

m`

s

`

(n), (1.15)

´

ecrit sous forme matricielle :

X = AS, (1.16)

avec X (M ×N ) la matrice des observations, A (M ×L) la matrice de m´ elange et S (L× N ) la matrice des sources. L’objectif de la SAS est donc d’obtenir une estimation des deux matrices inconnues A et S aux ind´ eterminations pr` es. On note ˆ A et ˆ S les estimations respectives de A et S :

X ≈ A ˆ S. ˆ (1.17)

La proc´ edure g´ en´ erale de la SAS est illustr´ ee sur la Figure 1.3.

Le probl` eme de la SAS est un probl` eme mal-pos´ e, et ce ind´ ependamment du mod` ele de

m´ elange. Si on ne dispose pas d’information suppl´ ementaire sur le m´ elange et/ou les sources,

l’´ equation (1.17) poss` ede une infinit´ e de solutions. En effet si le couple { A, ˆ S} ˆ est une solu-

tion, alors { AP ˆ

−1

, P S} ˆ est aussi une solution pour toute matrice P inversible. Pour r´ esoudre

le probl` eme de nombre infini de solutions, il est n´ ecessaire d’ajouter des contraintes sur les co-

efficients de m´ elanges et/ou sur les sources afin de parvenir ` a une solution unique, ou tout au

moins afin de r´ eduire le nombre de solutions admissibles. Selon le domaine d’application, on

(23)

Figure 1.3 – Proc´ edure de s´ eparation

dispose d’informations a priori sur les donn´ ees permettant d’imposer des contraintes comme par exemple l’ind´ ependance statistique, la non-n´ egativit´ e, la parcimonie, etc... La nature des contraintes que l’on impose d´ efinit les diff´ erentes classes de m´ ethodes de la SAS.

Historiquement, les premiers travaux portant sur la SAS sont attribu´ es ` a J. H´ erault, C.

Jutten et B. Ans dans les ann´ ees 80 [72]. Depuis, plusieurs grandes classes de m´ ethodes ont

´

emerg´ e et sont abondamment ´ etudi´ ees dans la litt´ erature.

La premi` ere classe concerne les m´ ethodes d’Analyse en Composantes Ind´ ependantes (ICA pour Independent Component Analysis en anglais). Elles sont bas´ ees sur un forma- lisme probabiliste et requi` erent que les signaux sources soient mutuellement statistiquement ind´ ependants. Jusqu’au d´ ebut des ann´ ees 2000, l’ICA ´ etait la seule classe de m´ ethodes per- mettant de r´ ealiser la SAS. Pour plus de d´ etails sur cette classe de m´ ethodes, le lecteur pourra consulter [37, 44, 46, 71].

La seconde classe de m´ ethodes concerne les m´ ethodes de Factorisation en Matrices Non- n´ egatives (NMF pour Nonnegative Matrix Factorisation en anglais). Ces m´ ethodes apparues au d´ ebut des ann´ ees 2000 requi` erent que les sources et les coefficients de m´ elange soient non n´ egatifs. Pour plus de d´ etails sur cette classe de m´ ethodes, le lecteur pourra consulter [33, 89, 90].

La troisi` eme classe de m´ ethodes concerne les m´ ethodes d’Analyse en Composantes Par- cimonieuses (SCA pour Sparse Component Analysis en anglais). Ces m´ ethodes requi` erent que les signaux sources soient parcimonieux dans un domaine de repr´ esentation (temporel, spatial, temps-fr´ equence ou temps-´ echelle par exemple). Pour plus de d´ etails sur cette classe de m´ ethodes, le lecteur pourra consulter [37, 45, 46, 63].

La derni` ere classe de m´ ethodes concerne les m´ ethodes bas´ ees sur l’inf´ erence bay´ esienne.

Ces m´ ethodes permettent d’ajouter de l’information a priori en attribuant des densit´ es de probabilit´ e aux sources et aux coefficients de m´ elange. Pour plus de d´ etails sur cette classe de m´ ethodes, le lecteur pourra consulter le Chapitre 12 de [37].

Parmi les m´ ethodes de SAS existantes, une autre classe de m´ ethodes couramment utilis´ ees

est ` a ´ evoquer : les m´ ethodes bas´ ees sur une repr´ esentation g´ eom´ etrique des donn´ ees [19]. Ces

m´ ethodes g´ eom´ etriques sont g´ en´ eralement incluses dans les m´ ethodes SCA puisqu’elles re-

qui` erent des hypoth` eses plus ou moins restrictives de parcimonie. La plupart des m´ ethodes

g´ eom´ etriques ´ etant d´ evelopp´ ees pour des applications en t´ el´ ed´ etection, elles requi` erent l’ajout

de contraintes suppl´ ementaires au mod` ele lin´ eaire usuel Eq. (1.16). Nous pr´ esenterons donc

(24)

cette classe de m´ ethodes en deux temps. Dans ce chapitre, nous d´ etaillerons les m´ ethodes g´ eom´ etriques applicables au mod` ele lin´ eaire standard, puis dans le Chapitre 2 d´ edi´ e ` a l’ima- gerie hyperspectrale nous pr´ esenterons un panorama des m´ ethodes g´ eom´ etriques n´ ecessitant un mod` ele lin´ eaire contraint.

1.4.1 Analyse en Composantes Ind´ ependantes

Les premi` eres m´ ethodes de SAS ont ´ et´ e des m´ ethodes bas´ ees sur l’ICA [37, 46, 71].

Cette classe de m´ ethodes peut ˆ etre vue comme un prolongement de l’analyse en compo- santes principales (PCA) [131], dans laquelle le crit` ere de non corr´ elation des sorties est remplac´ e par l’ind´ ependance statistique. Comme nous le verrons dans la Section 2.6.2, nous nous int´ eressons ` a des donn´ ees astrophysiques pour lesquelles les sources sont spatialement et spectralement corr´ el´ ees (voir Section 2.6.2.1 pour plus de d´ etails). Ainsi cette classe de m´ ethodes ne pourra pas ˆ etre utilis´ ee dans notre contexte. N´ eanmoins, l’ICA ´ etant l’une des classes de m´ ethodes les plus utilis´ ees en SAS, nous en pr´ esentons ici le principe g´ en´ eral.

Dans l’ICA, les sources sont mod´ elis´ ees par des variables al´ eatoires, ainsi s

`

(n) est la n

i`eme

r´ ealisation de la variable al´ eatoire s

`

. L’objectif de l’ICA est d’estimer les sources de telle sorte que celles-ci soient mutuellement statistiquement ind´ ependantes. Cependant, cette hypoth` ese sur les propri´ et´ es des sources n’est pas suffisante pour garantir la s´ eparation des sources. En effet, il a ´ et´ e d´ emontr´ e dans [36] que s´ eparer des signaux ind´ ependants et identiquement distribu´ es (i.i.d) suivant une loi gaussienne est impossible. La r´ esolution du probl` eme de SAS passe par l’ajout d’une des deux hypoth` eses compl´ ementaires suivantes : soit les sources suivent une loi de probabilit´ e non gaussienne (sauf au plus une), soit les sources sont non i.i.d. On aboutit donc ` a deux cat´ egories de m´ ethodes ICA bas´ ees sur l’une ou l’autre de ces hypoth` eses compl´ ementaires.

1.4.1.1 M´ ethodes bas´ ees sur la non gaussianit´ e

Cette premi` ere cat´ egorie comprend les m´ ethodes applicables aux sources i.i.d. avec la n´ ecessit´ e que les sources soient non gaussiennes (sauf au plus une). En pratique, l’estima- tion des sources est r´ ealis´ ee par l’optimisation d’un crit` ere d’ind´ ependance statistique. Nous pr´ esentons ci-dessous les principaux crit` eres utilis´ es par l’ICA pour cette premi` ere cat´ egorie : Maximisation de la non gaussianit´ e Le principe de ce crit` ere est de forcer les sources estim´ ees ` a ˆ etre le plus non gaussiennes possible. La mesure la plus utilis´ ee pour la non gaussianit´ e est le kurtosis normalis´ e. Il vaut z´ ero pour une distribution gaussienne. Plus la valeur absolue du kurtosis normalis´ e d’une distribution augmente, plus la densit´ e de cette derni` ere s’´ eloigne de la densit´ e gaussienne. Une autre mesure de la non gaussianit´ e est bas´ ee sur la th´ eorie de l’information : la n´ eguentropie. Elle est toujours positive ou nulle, et vaut z´ ero uniquement pour une distribution gaussienne. L’une des m´ ethodes les plus connues bas´ ee sur la maximisation de la non gaussianit´ e est FastICA [70].

Minimisation de l’information mutuelle Ce crit` ere est d´ eduit de la th´ eorie de l’in-

formation. L’information mutuelle est une mesure permettant de caract´ eriser directement

l’ind´ ependance statistique entre des variables al´ eatoires. Elle est toujours positive et s’annule

(25)

si et seulement si les variables al´ eatoires sont statistiquement ind´ ependantes. Elle donne donc une mesure directe de l’ind´ ependance statistique des sources. On peut citer comme exemple d’utilisation de ce crit` ere les travaux [5, 36, 37, 118].

Maximisation de la vraisemblance Ce crit` ere permet d’estimer les sources et les coeffi- cients de m´ elange qui maximisent la vraisemblance des observations. En pratique les densit´ es de probabilit´ e des sources sont inconnues, elles sont alors suppos´ ees comme appartenant ` a une famille de distributions donn´ ee. Le crit` ere de maximisation de la vraisemblance a ´ et´ e notamment ´ etudi´ e dans [9, 59, 120].

Approche tensorielle Cette approche est bas´ ee sur l’utilisation des cumulants d’ordre sup´ erieur (en g´ en´ eral d’ordre 4) comme crit` ere d’ind´ ependance statistique. Les cumulants crois´ es d’ordre 4 de variables al´ eatoires forment un op´ erateur multilin´ eaire appel´ e tenseur de cumulants d’ordre 4. Une propri´ et´ e du tenseur de cumulants d’ordre 4 est qu’il est diagonal pour des variables al´ eatoires mutuellement ind´ ependantes. Les sources sont alors estim´ ees par diagonalisation du tenseur relatif aux signaux de sortie du syst` eme de s´ eparation. C’est sur ce principe qu’est fond´ ee la m´ ethode JADE [26].

1.4.1.2 M´ ethodes bas´ ees sur la structure des signaux

Cette seconde cat´ egorie comprend les m´ ethodes applicables aux sources gaussiennes avec la n´ ecessit´ e que les sources soient non i.i.d. Parmi ces m´ ethodes, on distingue celles bas´ ees sur l’autocorr´ elation des sources et celles bas´ ees sur la non stationnarit´ e des sources.

Lorsque les sources sont autocorr´ el´ ees, la s´ eparation est r´ ealis´ ee en imposant la nullit´ e de l’intercorr´ elation des sources pour diff´ erents d´ ecalages temporels. Cette approche est utilis´ ee dans la m´ ethode SOBI [8] et la m´ ethode AMUSE [133].

Lorsque les sources sont non stationnaires, la s´ eparation est r´ ealis´ ee par d´ ecorr´ elation des sources entre elles ` a diff´ erent instants. Nous citerons [119] comme exemple de travaux utilisant cette approche.

1.4.2 Factorisation en matrices non n´ egatives

Les m´ ethodes de NMF sont bas´ ees sur la d´ ecomposition d’une matrice non n´ egative (i.e. dont les ´ el´ ements sont positifs ou nuls) en un produit de deux matrices ´ egalement non n´ egatives. Ces m´ ethodes ne se limitent pas au probl` eme de SAS et peuvent ˆ etre rencontr´ ees dans d’autres applications, notamment en classification avec par exemple, la classification de texture, la reconnaissance faciale ou encore la surveillance d’email (Chapitre 8 de [33]).

Nos travaux portant sp´ ecifiquement sur la SAS, nous nous restreindrons dans la suite de ce manuscrit au vocabulaire et aux notations introduits pr´ ec´ edemment pour la d´ ecomposition du m´ elange lin´ eaire instantan´ e Eq. (1.16) pour d´ ecrire les m´ ethodes de NMF.

La premi` ere m´ ethode de factorisation a ´ et´ e introduite au milieu des ann´ ees 90 par P.

Paatero et U. Tapper [115, 116] sous la d´ enomination de PMF (pour Positive Matrix Facto-

risation en anglais). Bien que ces travaux initient l’approche originale d’utiliser la positivit´ e

comme contrainte pour estimer un produit matriciel, les m´ ethodes NMF sont popularis´ ees ` a

(26)

la fin des ann´ ees 90 par les travaux de D.D. Lee et H.S. Seung [89, 90]. Ces travaux intro- duisent un algorithme tr` es simple ` a mettre en œuvre et convergeant plus rapidement que la PMF. Depuis cette p´ eriode, d’autres approches ont ´ et´ e propos´ ees dans la litt´ erature afin de r´ esoudre le probl` eme de la NMF.

1.4.2.1 Principe g´ en´ eral

L’objectif de ces m´ ethodes est de d´ ecomposer la matrice des observations non n´ egatives X ∈ R

M+×N

en un produit de deux matrices non n´ egatives A ∈ R

M+×L

et S ∈ R

L×N+

` a une er- reur d’estimation pr` es : X ≈ A ˆ S. En terme de SAS, les matrices ˆ ˆ A et ˆ S sont respectivement, les estimations des coefficients de m´ elange et des sources aux ind´ eterminations d’´ echelle et de permutation pr` es. Dans le suite du manuscrit, on notera les matrices estim´ es ˆ A et ˆ S en omettant le “chapeau” (` a quelques exceptions pr` es), afin d’all´ eger les notations.

La factorisation est r´ ealis´ ee en deux ´ etapes. La premi` ere ´ etape consiste ` a d´ efinir une mesure pour quantifier la diff´ erence entre la matrice des observations X et le produit AS.

Le choix de cette mesure (ou distance) d´ epend de la structures des donn´ ees, de la nature du bruit et donc de l’application. On note D(X||AS) la distance entre X et AS. La distance la plus naturelle et la plus utilis´ ee dans la litt´ erature est la distance euclidienne d´ efinie par la norme de Frobenius :

D(X||AS) = 1

2 kX − ASk

2F

. (1.18)

Une autre distance fr´ equemment utilis´ ee dans la litt´ erature est la divergence g´ en´ eralis´ ee de Kullback-Leibler :

D(X||AS) = X

m,n

X

m,n

ln

X

m,n

[AS]

m,n

− X

m,n

+ [AS]

m,n

. (1.19) On trouve ´ egalement dans la litt´ erature de nombreux algorithmes de NMF bas´ es sur d’autres mesures que celles introduites par D.D. Lee et H.S. Seung [89, 90] et d´ efinies par Eq. (1.18) et Eq. (1.19). On mentionnera par exemple les classes des alpha-divergences ou des beta-divergences. Une liste d´ etaill´ ee et une ´ etude comparative des mesures couramment utilis´ ees par la NMF sont donn´ ees dans le Chapitre 2 de [33].

La seconde ´ etape consiste ` a minimiser la mesure de distance entre X et AS d´ efinie pr´ ec´ edemment. Il s’agit de trouver les matrices optimales ˆ A et ˆ S ` a valeurs non n´ egatives qui minimisent la fonction de coˆ ut J suivante :

J (A, S) = D(X||AS) A > 0, S > 0. (1.20) Le probl` eme d’optimisation se r´ esume donc ` a :

A, ˆ S ˆ

= argmin

A,S

J (A, S) tq. ˆ A > 0, S ˆ > 0. (1.21)

Plusieurs approches sont possibles afin d’optimiser cette fonction de coˆ ut. On trouve

notamment dans la litt´ erature des algorithmes bas´ es sur la m´ ethode des moindres carr´ es

(27)

altern´ es (ALS pour Alternating Least Square en anglais) [116], la m´ ethode du gradient projet´ e [32, 96, 142], la m´ ethode Quasi-Newton (Chapitre 6 de [33]) ou encore les mises ` a jour multiplicatives [89]. Nous donnons dans le paragraphe suivant quelques exemples de ces m´ ethodes. Bien que les approches pour optimiser la fonction de coˆ ut Eq. (1.20) soient assez vari´ ees selon les applications, le principe g´ en´ eral de ces algorithmes reste le mˆ eme. On peut r´ esumer la structure de ces algorithmes comme suit :

1. Initialisation des matrices A et S.

2. Estimation it´ erative et altern´ ee des matrices A et S selon les ´ equations de mise ` a jour d´ efinies par la m´ ethode (ALS, multiplicative...) et par la mesure de distance.

3. L’estimation s’ach` eve lorsque la condition d’arrˆ et est satisfaite.

En g´ en´ eral, les matrices A et S sont initialis´ ees al´ eatoirement. Cependant, nous verrons par la suite que la solution donn´ e par la NMF est fortement d´ ependante de l’initialisation de l’algorithme. Il existe plusieurs alternatives possibles afin de rendre la NMF plus robuste aux conditions initiales (voir Section 1.4.2.3).

Concernant les conditions d’arrˆ et, plusieurs versions sont possibles afin de fixer la conver- gence de l’algorithme. On note D

(k)

la valeur de la distance D ` a l’it´ eration k. Voici les crit` eres d’arrˆ et les plus courants :

— L’algorithme a converg´ e ` a l’it´ eration k si la distance D

(k)

devient inf´ erieure ` a un seuil :

D

(k)

(X|| A ˆ S) ˆ 6 . (1.22)

— L’algorithme a converg´ e ` a l’it´ eration k si la distance D n’a pas vari´ e (ou tr` es peu) entre deux it´ erations successives de la minimisation :

D

(k)

(X|| A ˆ S) ˆ − D

(k−1)

(X|| A ˆ S) ˆ

D

(k)

(X|| A ˆ S) ˆ 6 . (1.23)

— Le nombre d’it´ erations de l’algorithme est pr´ ed´ efini.

D’autres crit` ere d’arrˆ et avanc´ es sont disponibles dans le Chapitre 1 de [33].

1.4.2.2 Algorithmes standard de NMF

Nous pr´ esentons dans ce paragraphe les familles d’algorithmes les plus r´ epandues dans la litt´ erature utilis´ ees pour optimiser la fonction de coˆ ut Eq. (1.20). Pour chacune d’elle, nous d´ ecrivons le concept de base en nous limitant ` a la distance euclidienne Eq. (1.18) comme mesure de distance. Depuis les premiers travaux portant sur la NMF, de nombreuses va- riantes ont ´ et´ e propos´ ees dans la litt´ erature pour chacune de ces familles. Ces variantes ont souvent pour objectif soit d’acc´ el´ erer la convergence des algorithmes, soit d’ajouter des contraintes suppl´ ementaires ` a la fonction de coˆ ut J afin de prendre en compte des pro- pri´ et´ es suppl´ ementaires disponibles sur les donn´ ees. Nous reviendrons sur cet aspect dans le paragraphe suivant.

Algorithmes ALS La premi` ere version de la NMF, introduite par P. Paatero et U. Tapper

[116] sous la d´ enomination de PMF, utilise comme m´ ethode d’optimisation un algorithme

ALS. Le principe de l’ALS est d’optimiser la fonction de coˆ ut Eq. (1.20) en proc´ edant par

(28)

minimisation altern´ ee suivant les deux variables A et S. A chaque it´ eration, une des deux va- riables est fix´ ee et l’autre est optimis´ ee par moindres carr´ es. Afin de garantir la non n´ egativit´ e, le r´ esultat de chaque ´ equation de mise ` a jour et ensuite projet´ e sur l’orthant positif. On ob- tient alors les deux r` egles de mise ` a jour suivantes :

S ←

(A

T

A)

−1

A

T

X

+

(A fix´ e) (1.24)

A ←

XS

T

(SS

T

)

−1

+

(S fix´ e), (1.25)

o` u [P ]

+

est la projection de P sur l’orthant positif. En pratique cette projection est r´ ealis´ ee en rempla¸cant les valeurs n´ egatives de P par une petite valeur positive : [P ]

+

= max(, P ).

Le lecteur pourra se r´ ef´ erer au Chapitre 4 de [33] pour obtenir des d´ etails suppl´ ementaires et des versions diff´ erentes de l’algorithme ALS.

Algorithmes du Gradient Projet´ e Les algorithmes du gradient projet´ e sont une classe de m´ ethodes classiques pour r´ esoudre un probl` eme d’optimisation. Le principe est de r´ ealiser l’optimisation en cherchant les points stationnaires de la fonction de coˆ ut (dans le cas d’une optimisation convexe un unique point stationnaire existe pour la fonction de coˆ ut). Cette op´ eration est r´ ealis´ ee par descente de gradient en incorporant la projection sur l’orthant positif des r´ esultats des ´ equations de mise ` a jour ` a chaque it´ eration. Dans leur forme g´ en´ erale, les r` egles de mise ` a jour du gradient projet´ e sont d´ efinies par :

S ← [S − η

S

S

J (A, S)]

+

(1.26)

A ← [A − η

A

A

J (A, S)]

+

, (1.27)

o` u ∇

S

J (A, S) (resp. ∇

A

J (A, S)) est le gradient de la fonction de coˆ ut J par rapport ` a S (resp. A). η

S

et η

A

sont deux pas d’apprentissage positifs. La difficult´ e de mise en œuvre des algorithmes du gradient provient du choix du pas d’apprentissage. Il peut ˆ etre fixe, ou variable selon les m´ ethodes et influe directement sur le point de convergence et la vitesse de convergence de l’algorithme. Des travaux portant sur le choix d’un pas d’apprentissage optimal sont disponible dans le Chapitre 5 de [33].

Algorithmes Quasi-Newton Projet´ e Les algorithmes Quasi-Newton projet´ es sont une extension des algorithmes du gradient projet´ e. Dans ces derniers, la fonction de coˆ ut Eq.

(1.20) est optimis´ ee grˆ ace ` a une approximation du premier ordre (i.e. le gradient) de J . Le principe des m´ ethodes Quasi-Newton est d’utiliser une approximation du second ordre (le Hessien) de J afin d’en trouver les points stationnaires. Notons H

S

= ∇

2S

J (A, S) et H

A

= ∇

2A

J (A, S) les Hessiens de J suivant respectivement S et A. La forme g´ en´ erale des

´

equations de mise ` a jour devient alors : vec(S) ←

vec(S) − H

S−1

vec(∇

S

J (A, S))

+

(1.28)

vec(A) ←

vec(A) − H

A−1

vec(∇

A

J (A, S))

+

, (1.29)

o` u vec(P ) = [p

11

, p

21

, . . . , p

I1

, p

12

, . . . , p

IJ

]

T

d´ esigne la version vectoris´ ee de la matrice P ∈

R

I×J

. Le principal avantage des algorithmes Quasi-Newton est d’avoir une vitesse de conver-

gence acc´ el´ er´ ee par rapport aux algorithmes du gradient grˆ ace ` a la prise en compte de la cour-

bure de la fonction de coˆ ut J . On peut trouver des exemples d’algorithmes Quasi-Newton

dans le chapitre 6 de [33].

(29)

Algorithmes Multiplicatifs La version de la NMF introduite par D.D. Lee et H.S.

Seung [89] utilise comme m´ ethode d’optimisation un algorithme multiplicatif. La simpli- cit´ e d’impl´ ementation et de mise en œuvre de cette m´ ethode en fait l’une des m´ ethodes les plus populaires. Elle est bas´ ee sur le mˆ eme concept que l’algorithme du gradient projet´ e.

Cependant, on exprime le pas d’apprentissage en fonction des param` etres A et S, l’id´ ee ´ etant de faire apparaˆıtre une multiplication dans les r` egles de mise ` a jour. C’est pourquoi on parle d’algorithmes multiplicatifs en opposition aux algorithmes additifs (du type gradient projet´ e) dans lesquels les matrices A et S sont mises ` a jour en leur ajoutant une variation pond´ er´ ee par le pas d’apprentissage. En choisissant comme mesure la distance euclidienne Eq. (1.18), on obtient les r` egles de mise ` a jour multiplicatives suivantes :

S ← S (A

T

X) (A

T

AS) (1.30)

A ← A (XS

T

) (ASS

T

), (1.31)

o` u et sont respectivement le produit et la division ´ el´ ement par ´ el´ ement. On remarque qu’en plus de ne pas avoir de pas d’apprentissage ` a calculer, les r` egles de mise ` a jour multi- plicatives ne n´ ecessitent pas d’´ etape de projection des r´ esultats. En effet la non n´ egativit´ e de A ˆ et ˆ S est garantie par la structure des r` egles de mise ` a jour (` a condition que l’initialisation soit non n´ egative). Cependant, il n’est pas toujours possible d’´ etablir des r` egles de mises ` a jour multiplicatives pour des fonctions de coˆ ut plus complexe, ceci d´ ependant de la distance choisie et d’´ eventuelles contraintes suppl´ ementaires ajout´ ees au crit` ere J . Le lecteur pourra se r´ ef´ erer au Chapitre 3 de [33] contenant plusieurs variantes d’algorithmes multiplicatifs (notamment en terme d’extension de cette approche ` a d’autres mesures).

1.4.2.3 Unicit´ e et convergence

Les diff´ erents algorithmes de la NMF d´ ecrits ci-dessus, pr´ esentent deux inconv´ enients majeurs. Le premier, directement issu de la nature de la NMF, est la non unicit´ e de la solution donn´ ee par la NMF. Le second inconv´ enient provient de la non convexit´ e de la fonction de coˆ ut J ` a minimiser entraˆınant une sensibilit´ e des algorithmes ` a l’initialisation.

Pr´ ec´ edemment, nous avons montr´ e que le probl` eme de SAS g´ en´ erique pour un m´ elange lin´ eaire instantan´ e Eq. (1.16) est mal pos´ e et poss` ede une infinit´ e de solutions. La factorisation d’une matrice non n´ egative X en deux matrices non n´ egatives souffre du mˆ eme inconv´ enient, bien que le domaine des solutions possible soit r´ eduit. En effet si le couple { A, ˆ S} ˆ est une solution, alors { AP ˆ

−1

, P S} ˆ est aussi une solution pour toute matrice P inversible telle que : X ≈ AP ˆ

−1

P S ˆ tq. ˆ AP

−1

> 0 et P S ˆ > 0. (1.32) Notons qu’il n’est pas n´ ecessaire que P ou que P

−1

soit non n´ egative pour v´ erifier cette relation. Ainsi le probl` eme d’optimisation Eq. (1.21) poss` ede une infinit´ e de solutions, sous la seule contrainte de non n´ egativit´ e. Cette ind´ etermination s’ajoute aux ind´ eterminations standard de permutation et d’´ echelle de la SAS (voir Section 1.3.2). Les travaux de D.L.

Donoho [54] puis de S. Moussaoui [108] donnent une ´ etude d´ etaill´ ee de l’unicit´ e des solutions

de la NMF. D’un point de vue g´ eom´ etrique, en consid´ erant chaque observation x

m

comme

un ´ el´ ement de l’espace vectoriel R

N

, la NMF revient ` a identifier le plus petit cˆ one inclus dans

l’orthant positif contenant le nuage de points des observations. On repr´ esente cette situation

(30)

en 2D sur la Figure 1.4. Intuitivement, on remarque que le cˆ one englobant le nuage de points n’est pas unique. D.L. Donoho et S. Moussaoui montrent qu’une condition suppl´ ementaire

`

a la non n´ egativit´ e est n´ ecessaire pour conduire ` a l’unicit´ e de la solution. Cependant ces a priori sur les donn´ ees sont difficilement justifiables dans le cas de donn´ ees r´ eelles.

Figure 1.4 – Illustration des cˆ ones englobant le nuage de points des observations x

m

dans un espace ` a deux dimensions (N = 2).

Par ailleurs, la fonction de coˆ ut J ` a minimiser pour r´ esoudre le probl` eme de la NMF est non convexe simultan´ ement suivant les deux variables A et S. La fonction de coˆ ut est strictement convexe suivant une variable, l’autre ´ etant fix´ ee. La fonction de coˆ ut ` a optimiser contient donc des minima locaux. Ainsi les diff´ erentes m´ ethodes d’optimisation pr´ esent´ ees ci- dessus convergent g´ en´ eralement vers un minimum local, le point de convergence d´ ependant fortement du point d’initialisation de l’algorithme. Une initialisation al´ eatoire peut donc conduire ` a une solution non satisfaisante.

Plusieurs approches sont disponibles dans la litt´ erature afin de compenser ces deux in- conv´ enients, en adoptant par exemple diff´ erentes strat´ egies d’initialisation pour ´ eviter les minima locaux ou encore en ajoutant des contraintes suppl´ ementaires afin de r´ eduire le do- maine des solutions possibles. On pr´ esente ci-dessous quelques unes de ces m´ ethodes.

Initialisation Le point de convergence optimal des algorithmes de NMF d´ epend fortement de la distance entre le point initial et le minimum global de la fonction de coˆ ut. Une initiali- sation al´ eatoire n’est donc pas satisfaisante. Il existe dans la litt´ erature plusieurs approches afin d’obtenir une initialisation conduisant ` a une fonction de coˆ ut la plus faible possible.

Les travaux de A.N. Langville et al. [86] comparent les performances de six m´ ethodes d’initialisation diff´ erentes. Parmi elles, on trouve des approches bas´ ees sur la D´ ecomposition en Valeurs Singuli` eres (SVD pour Singular Value Decomposition en anglais), sur des m´ ethodes de classification ou encore sur une initialisation par les donn´ ees. On notera que le choix et les performances de ces m´ ethodes d’initialisation d´ epend de l’application et des donn´ ees. On mentionnera ´ egalement les travaux [25, 124, 138] portant sur les m´ ethodes d’initialisation de la NMF.

Une autre approche est d’utiliser une initialisation multiple (Chapitre 1 de [33]). Le prin-

cipe est de r´ ealiser un certain nombre de factorisations avec une initialisation al´ eatoire et un

Références

Documents relatifs

Il est donc intéressant de commencer par voir les méthodes de démélange ayant été propo- sées dans ce domaine en commençant naturellement par le cas linéaire et en nous

Examinateurs : Jean-Philippe Bernard, Charg´ e de recherche CNRS, CESR, Toulouse Shahram Hosseini, Maˆıtre de conf´ erences, LATT, Universit´ e de

Dans ce chapitre, une nouvelle méthode a été proposée pour extraire des spectres hyperspectraux à partir d’une image hyperspectrale de télédétection spatiale ne

Indique les angles droits et les mesures de chaque côté, colorie le carré.. Indique les angles droits et les mesures de chaque côté, colorie

Face aux échecs de l’Etat et des formes traditionnelles du marché, les entreprises sociales sont porteuses d’innovations sociales et leurs contributions au

Bain liquide ImagesCam1Coax C-Link ImagesCam2 Transv Traitement d’images Contrôleur Puissance, Vitesse Observables : Géométrie du bain ou température PROJECTION LASER

Periods of exploration (red), grooming (black), and quiet wakefulness (cyan) are shown below the spectrogram, related to Figure 4.... Correlation of gamma power

L’objectif de ce travail de recherche consiste d’une part à évaluer l’effet de la graine de Nigella sativa sur les manifestations cliniques de la maladie cœliaque à