• Aucun résultat trouvé

Estimation robuste de la matrice de covariance en traitement du signal

N/A
N/A
Protected

Academic year: 2021

Partager "Estimation robuste de la matrice de covariance en traitement du signal"

Copied!
158
0
0

Texte intégral

(1)

HAL Id: tel-00906143

https://tel.archives-ouvertes.fr/tel-00906143

Submitted on 19 Nov 2013

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Estimation robuste de la matrice de covariance en traitement du signal

Mélanie Mahot

To cite this version:

Mélanie Mahot. Estimation robuste de la matrice de covariance en traitement du signal. Autre. École

normale supérieure de Cachan - ENS Cachan, 2012. Français. �NNT : 2012DENS0078�. �tel-00906143�

(2)

Ecole doctorale de Sciences Pratiques Ecole Normale Supérieure de Cachan

Laboratoire SONDRA, Supélec

THESE DE DOCTORAT DE L’ECOLE NORMALE SUPERIEURE DE CACHAN

présentée par

Mélanie Mahot

pour obtenir le grade de

DOCTEUR DE L’ECOLE NORMALE SUPERIEURE DE CACHAN Domaine : Traitement du signal

Sujet de la thèse :

Estimation robuste de la matrice de covariance en traitement du signal

Thèse présentée et soutenue à Cachan le 6 décembre 2012, devant le jury composé de :

BESSON Olivier Professeur Rapporteur

BERTHOUMIEU Yannick Professeur Rapporteur

PASCAL Frédéric Professeur Assistant Examinateur (Encadrant Supélec) FORSTER Philippe Professeur Examinateur (Directeur de thèse) OVARLEZ Jean-Philippe Maître de Recherche Examinateur (Co-Directeur de thèse) MARCOS Sylvie Directrice de Recherche Examinatrice

OLLILA Esa Professeur Assistant Invité

(3)
(4)

Table des matières

Introduction 13

1 Etat de l’art 16

1.1 Estimation de paramètres statistiques . . . 16

1.2 Modélisation de données et définitions importantes . . . 17

1.3 Première approche : hypothèses classiques en traitement de signal . . . 19

1.3.1 La Sample Covariance Matrix . . . 20

1.4 Seconde approche : les distributions gaussiennes-composées . . . 20

1.4.1 Vecteurs gaussiens-composés . . . 21

1.4.2 Exemples de GCV . . . 22

1.4.3 L’estimateur du Point-Fixe . . . 23

1.4.4 Comparaison de la robustesse et des performances du Point-fixe par rapport à la SCM . . . 24

1.4.5 Simulation MUSIC pour comparer l’estimateur FP et la SCM . . . 26

1.5 Troisième approche : les distributions elliptiques . . . 31

1.5.1 Les distributions elliptiques réelles . . . 31

1.5.2 Les distributions elliptiques complexes généralisées . . . 32

1.5.3 Les distributions elliptiques complexes (circulaires du second-ordre) . . . 33

1.5.4 Lien avec les distributions sphériques . . . 33

1.5.5 Lien avec les distributions gaussiennes-composées . . . 35

1.5.6 Cas particulier des distributions gaussiennes complexes généralisées . . . 36

1.6 Estimateurs du Maximum de Vraisemblance de la matrice de covariance, dans le cadre des distributions elliptiques . . . 36

1.7 Illustrations : distribution elliptique réelle . . . 37

1.8 Synthèse . . . 39

2 Théorie de la robustesse 41 2.1 Théorie de la robustesse . . . 41

2.1.1 Qu’est ce qu’un estimateur robuste ? . . . 41

2.1.2 Théorie de la robustesse . . . 42

2.2 Les M-estimateurs . . . 42

2.2.1 Matrices de dispersion et de pseudo-dispersion . . . 42

2.2.2 Définition des M-estimateurs . . . 43

2.2.3 Exemples de M -estimateurs . . . 44

2.3 Critères de robustesse . . . 49

2.3.1 Fonction d’influence . . . 50

2.3.2 Point de rupture . . . 50

2.3.3 Biais asymptotique et biais asymptotique maximum . . . 51

2.3.4 Synthèse . . . 52

(5)

TABLE DES MATIÈRES

2.4 Application des critères de robustesse aux différents estimateurs étudiés . . . 52

2.4.1 Fonction d’influence . . . 52

2.4.2 Point de rupture . . . 59

2.4.3 Biais asymptotique . . . 65

2.5 Synthèse . . . 67

3 Performances statistiques des estimateurs 69 3.1 Distribution asymptotique de la SCM et de l’estimateur FP . . . 69

3.1.1 Distribution asymptotique de la SCM . . . 69

3.1.2 Distribution asymptotique de l’estimateur FP . . . 69

3.2 Distribution asymptotique des M -estimateurs . . . 70

3.2.1 Distribution asymptotique des M -estimateurs réels . . . 70

3.2.2 Distribution asymptotique des M -estimateurs complexes . . . 70

3.3 Propriétés particulières des estimateurs étudiés . . . 77

3.3.1 Cas réel . . . 77

3.3.2 Cas complexe . . . 78

3.3.3 Exemple : variance asymptotique de l’équivalent complexe du M -estimateur de Huber . . . 79

3.3.4 Etude du coefficient ν 1 . . . 81

3.4 Simulation sur la méthode MUSIC . . . 96

3.5 Synthèse . . . 98

4 Mise en oeuvre sur des applications de traitement du signal 100 4.1 Contexte : . . . 100

4.1.1 Problème de détection des traitements adaptatifs . . . 100

4.1.2 Détecteur utilisé : Adaptive Normalized match filter (ANMF) . . . 101

4.2 Performances de l’ANMF en fonction de l’estimateur utilisé . . . 101

4.2.1 Relation P f a -seuil des M-estimateurs . . . 103

4.3 Caractéristiques de mise en oeuvre des estimateurs . . . 105

4.3.1 Vitesse de convergence du M -estimateur d’Huber . . . 106

4.3.2 Vitesse de convergence du M -estimateur issu d’une t-distribution . . . 111

4.4 Applications . . . 116

4.4.1 Traitements spatio-temporels adaptatifs (STAP) . . . 116

4.4.2 Détection en imagerie hyperspectral . . . 130

4.5 Synthèse . . . 135

Conclusion 137

A Biais additionnel dû aux perturbations 142

B Opérations sur la fonction de transformation matrice complexe-matrice réelle 148

B.1 Propriétés . . . 148

(6)

Table des figures

1.1 Biais b (dégradé de couleurs) de la SCM en fonction du pourcentage et de la puissance

des perturbations . . . 25

1.2 Biais b (dégradé de couleurs) de l’estimateur FP en fonction du pourcentage et de la puissance des perturbations . . . 26

1.3 Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien, estimation avec la SCM. . . 28

1.4 Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien, estimation avec l’estimateur FP. . . . 28

1.5 Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé peu impulsif, estimation avec la SCM. . . 29

1.6 Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé peu impulsif, estimation avec l’estimateur FP. . . 29

1.7 Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé assez impulsif, estimation avec la SCM. . . 30

1.8 Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé assez impulsif, estimation avec l’estimateur FP. . . 30

1.9 Support de la distribution uniforme sur l’hypersphère S 1 . . . 37

1.10 Support de la distribution de Λu (2) . . . 38

1.11 Echantillons générés selon une distribution elliptique E (0, ΛΛ T , g r ) . . . 38

2.1 Fonction de pondération u du M-estimateur de Huber . . . 45

2.2 Densité de probabilité de la t-distribution pour différentes valeurs de ν , exemple à une dimension en réel. . . 48

2.3 Comparaison des fonctions de pondération de la SCM, de l’estimateur FP, de l’estima- teur d’Huber et de l’estimateur de la t-distribution, m = 10. . . . 49

2.4 Erreur relative moyenne entre l’EIF et l’IF de la SCM, en fonction du nombre d’échan- tillons . . . 57

2.5 Erreur relative moyenne entre l’EIF et l’IF de l’estimateur FP, en fonction du nombre d’échantillons . . . 58

2.6 Erreur relative moyenne entre l’EIF et l’IF de l’estimateur d’Huber (q=0.75), en fonction du nombre d’échantillons . . . 58

2.7 Comparaison des EIF et IF de la SCM, de l’estimateur FP et du M-estimateur d’Huber. Evolution en fonction du nombre d’échantillons . . . 59

2.8 Conditionnement de la SCM en fonction du pourcentage de perturbation . . . 61

2.9 Conditionnement de l’esimateur FP en fonction du pourcentage de perturbation . . . 62

2.10 Conditionnement de l’estimateur d’Huber en fonction du pourcentage de perturbation . . 62

2.11 DOA détectée avec la SCM, en fonction du pourcentage de perturbation et pour diffé-

rentes puissances de perturbation . . . 63

(7)

TABLE DES FIGURES

2.12 DOA détectée avec l’estimateur FP, en fonction du pourcentage de perturbation et pour différentes puissances de perturbation . . . 64 2.13 DOA détectée avec l’estimateur d’Huber, en fonction du pourcentage de perturbation et

pour différentes puissances de perturbation . . . 64 3.1 Erreur relative e entre les covariances expérimentale et théorique de l’estimateur d’Hu-

ber, lorsque les données ont une distribution gaussienne . . . 80 3.2 Erreur relative e entre les covariances expérimentale et théorique de l’estimateur d’Hu-

ber, lorsque les données ont une K-distribution . . . 81 3.3 Valeur de σ 1 (q) pour des données gaussiennes, avec différentes tailles de vecteurs . . . . 84 3.4 Fonction de pondération u(s) pour différentes valeurs de q, m = 3 . . . 84 3.5 Valeur de σ 1 (q) pour des données suivant une t-distribution ν = 1000, avec différentes

tailles de vecteurs . . . 85 3.6 Valeur de σ 1 (q) pour des données suivant une t-distribution ν = 5, avec différentes

tailles de vecteurs . . . 86 3.7 Valeur de σ 1 (q) pour des données suivant une loi de Cauchy (t-distribution à paramètre

ν = 1), avec différentes tailles de vecteurs . . . 86 3.8 Valeur de σ 1 (q) pour des données suivant une t-distribution ν = 0.1, avec différentes

tailles de vecteurs . . . 87 3.9 Comparaison des densités de probabilités d’une gaussienne et d’une t-distribution avec

différents paramètres ν . . . 87 3.10 Valeur de σ 1 (q) pour des données K-distribuées, ν = 100, avec différentes tailles de

vecteurs . . . 88 3.11 Valeur de σ 1 (q) pour des données K-distribuées, ν = 5, avec différentes tailles de vecteurs 89 3.12 Valeur de σ 1 (q) pour des données K-distribuées, ν = 1, avec différentes tailles de vecteurs 89 3.13 Valeur de σ 1 (q) pour des données K-distribuées, ν = 0.1, avec différentes tailles de

vecteurs . . . 90 3.14 Comparaison des densités de probabilités d’une gaussienne et d’une K-distribution avec

différents paramètres ν . . . 91 3.15 Valeur de σ 1 (ν) pour des données gaussiennes, avec différentes tailles de vecteurs . . . . 92 3.16 Valeur de σ 1 (ν) pour des données t-distribuées de paramètre ν t = 30, avec différentes

tailles de vecteurs . . . 93 3.17 Valeur de σ 1 (ν) pour des données t-distribuées de paramètre ν t = 1, avec différentes

tailles de vecteurs . . . 93 3.18 Valeur de σ 1 (ν) pour des données t-distribuées de paramètre ν t = 0.1, avec différentes

tailles de vecteurs . . . 94 3.19 Valeur de σ 1 (q) pour des données suivant une K-distribution de paramètre ν k = 5, avec

différentes tailles de vecteurs . . . 95 3.20 Valeur de σ 1 (q) pour des données suivant une K-distribution de paramètre ν k = 0.8,

avec différentes tailles de vecteurs . . . 95 3.21 EQM (échelle logarithmique) de l’angle estimé avec l’estimateur FP, d’Huber et la SCM.

Bruit additif blanc gaussien. . . 97 3.22 EQM (échelle logarithmique) de l’angle estimé avec l’estimateur FP, d’Huber et la SCM.

Bruit additif K-distribué de paramètre de forme 0.1. . . 97 4.1 Variance du détecteur ANMF pour l’estimée d’Huber et la SCM. Bruit additif blanc

gaussien. . . 102 4.2 Variance du détecteur ANMF pour l’estimée d’Huber et la SCM. Bruit additif K-distribué.103 4.3 Relation P f a -seuil du détecteur obtenue avec la SCM, l’estimateur FP et l’estimateur FP

avec m+1 m N données. Bruit blanc gaussien. . . 104

(8)

TABLE DES FIGURES 4.4 Relation P f a -seuil du détecteur obtenue avec la SCM, l’estimateur d’Huber et l’estima-

teur d’Huber avec σ 1 N données. Bruit blanc gaussien. Ici σ 1 = 1.23, q = 0.25. . . 105

4.5 Influence du point d’initialisation de l’algorithme itératif du M -estimateur d’Huber. m = 5, N = 20, ρ = 0.5 . . . 107

4.6 Influence du nombre d’échantillons N , sur la vitesse de convergence de l’algorithme du M -estimateur d’Huber. m = 5, M (0) = I m , ρ = 0.5 . . . 108

4.7 Influence de la taille des vecteurs m, sur la vitesse de convergence de l’algorithme du M -estimateur d’Huber. N = 200, M (0) = I m , ρ = 0.5 . . . 109

4.8 Influence du paramètre ρ, sur la vitesse de convergence de l’algorithme du M-estimateur d’Huber. N = 20, M (0) = I m , m = 5 . . . 110

4.9 Influence du paramètre q, sur la vitesse de convergence de l’algorithme du M-estimateur d’Huber. N = 20, M (0) = I m , m = 5, ρ = 0.5 . . . 111

4.10 Influence du paramètre ν, sur la vitesse de convergence de l’algorithme du M-estimateur de la t-distribution. N = 20, M (0) = I m , m = 5, ρ = 0.5 . . . 111

4.11 Influence du point d’initialisation de l’algorithme itératif du M -estimateur de la t-distribution. m = 5, N = 20, ρ = 0.5 . . . 112

4.12 Influence du nombre d’échantillons N , sur la vitesse de convergence de l’algorithme du M -estimateur de la t-distribution. m = 5, M (0) = I m , ρ = 0.5 . . . 113

4.13 Influence de la taille des vecteurs m, sur la vitesse de convergence de l’algorithme du M -estimateur de la t-distribution. N = 200, M (0) = I m , ρ = 0.5 . . . 114

4.14 Influence du paramètre ρ, sur la vitesse de convergence de l’algorithme du M-estimateur de la t-distribution. N = 20, M (0) = I m , m = 5 . . . 115

4.15 Traitement spatial, traitement temporel et traitement spatio-temporel . . . 117

4.16 Balayage d’angles pour une configuration à visée latérale . . . 117

4.17 Data-cube de données STAP . . . 118

4.18 Angles de détection . . . 119

4.19 Détection de cible avec la SCM, dans un environnement gaussien non-perturbé . . . 121

4.20 Détection de cible avec l’estimateur FP, dans un environnement gaussien non-perturbé . 121 4.21 Détection de cible avec le M -estimateur d’Huber de paramètre q = 0.6, dans un envi- ronnement gaussien non-perturbé . . . 122

4.22 Détection de cible avec le M-estimateur de Student de paramètre ν = 2, dans un envi- ronnement gaussien non-perturbé . . . 122

4.23 Détection de cible avec la SCM, dans un environnement Gaussien perturbé . . . 123

4.24 Détection de cible avec l’estimateur FP, dans un environnement Gaussien perturbé . . . . 123

4.25 Détection de cible avec l’estimateur d’Huber de paramètre q = 0.6, dans un environne- ment Gaussien perturbé . . . 124

4.26 Détection de cible avec l’estimateur de Student de paramètre ν = 2, dans un environne- ment Gaussien perturbé . . . 124

4.27 Détection de cible avec la SCM, dans un environnement légèrement non-gaussien, non- perturbé . . . 125

4.28 Détection de cible avec l’estimateur FP, dans un environnement légèrement non-gaussien, non-perturbé . . . 126

4.29 Détection de cible avec l’estimateur d’Huber de paramètre q = 0.6, dans un environne- ment légèrement non-gaussien, non-perturbé . . . 126

4.30 Détection de cible avec l’estimateur de Student de paramètre ν = 2, dans un environne- ment légèrement non-gaussien, non-perturbé . . . 127

4.31 Détection de cible avec la SCM, dans un environnement non-gaussien perturbé . . . 128

4.32 Détection de cible avec l’estimateur FP, dans un environnement non-gaussien perturbé . 128

(9)

TABLE DES FIGURES

4.33 Détection de cible avec l’estimateur d’Huber de paramètre q = 0.6, dans un environne-

ment non-gaussien perturbé . . . 129

4.34 Détection de cible avec l’estimateur de Student de paramètre ν = 2, dans un environne- ment non-gaussien perturbé . . . 129

4.35 Cube de données normalisé . . . 133

4.36 Relation P f a -seuil avec la SCM . . . 133

4.37 Relation P f a -seuil avec l’estimateur FP . . . 134

(10)

Acronymes

EMV Estimateur du Maximum de Vraisemblance EQM/MSE Erreur Quadratique Moyenne/ Mean Square Error

FP Fixed Point

GCV Vecteur Gaussien-Composé

NSCM Normalized Sample Covariance Matrix PDF Probability Density Function

RMSE Root Mean Square Error SAR Synthetic Aperture Radar SCM Sample Covariance Matrix

SIRV Spherically Invariant Random Vector

SIRP Spherically Invariant Random Process

STAP Space-Time Adaptive Process

(11)

Symboles

Simboles généraux

R Ensemble des nombres réels C Ensemble des nombres complexes

T représente l’opérateur transposée

H représente l’opérateur hermitien

∗ représente l’opérateur conjugué

∼ signifie "distribué selon",

= d signifie "a la même distribution que",

→ d représente la convergence en distribution,

−→ P est la convergence en probabilité,

⊗ représente le produit de Kronecker

vec est l’opérateur qui transforme une matrice m × n en un vecteur de taille mn, en concaténant ces n colonnes en une seule colonne

I m est la matrice identité de taille m × m 0 m,p la matrice nulle de taille m × p, J m

2

=

X m i

J ii ⊗ J ii où J ii est la matrice de taille m × m avec un 1 à la position (i, i) et des zéros sinon,

K est la matrice de commutation telle que Kvec(A) = vec(A T ), Im(z) représente la partie imaginaire du vecteur complexe z,

Re(z) représente la partie réelle du vecteur complexe z, cov(z) = E

(z − E[z])(z − E[z]) H

est la covariance de z.

pcov(z) = E

(z − E[z])(z − E[z]) T

est la pseudo-covariance de z.

|| . || F RO indique la norme de Frobenius.

P f a Probabilité de fausse alarme.

P nd Probabilité de non détection.

P d Probabilité de détection.

(12)

TABLE DES FIGURES

Distributions

N distribution gaussienne réelle CN distribution gaussienne complexe

GCN distribution gaussienne complexe généralisée G distribution gamma

G distribution gamma

CCG distribution gaussienne-composée complexe E distribution elliptique réelle

CE distribution elliptique complexe

GCE distribution elliptique complexe généralisée W distribution de Wishart réelle

CW distribution de Wishart complexe

S distribution sphérique

(13)

TABLE DES FIGURES

(14)

Introduction

En 1864, lorsque Maxwell présente pour la première fois devant la Royal Society ses quatre équa- tions de l’électromagnétisme, se doute-t-il de toutes les implications que cela va avoir ? Radio, TSF, radar, ... les découvertes se succèdent, se multiplient et abondent au XXème siècle. En parallèle, de nou- velles disciplines apparaissent dont celle du traitement de signal. Car ces signaux qu’on envoie et reçoit, encore faut-il pouvoir les interpréter, les filtrer, les transformer, et pourquoi pas les prédire, les classi- fier... A mesure que les techniques s’améliorent, s’enrichissent et se complexifient, le nombre d’éléments à prendre en compte s’accroît. Tout se complique encore lorsque certains paramètres s’avèrent inconnus ou semblent imprévisibles voire aléatoires. Le déterminisme ne suffit plus ? Qu’à cela ne tienne, rapide- ment le traitement de signal se tourne vers les mathématiques statistiques. Les signaux reçus sont alors considérés comme aléatoires et c’est leur distributions qui sont étudiées. De la multitude de données recueillies, quelques paramètres statistiques sont estimés ou supposés et c’est à partir de ces éléments que le traitement peut enfin être réalisé.

En pratique cependant, il est rare de parfaitement connaître la statistique du milieu. Des modèles sont communément utilisés, tels que l’hypothèse d’un milieu gaussien. Ne reste alors qu’à estimer les moments d’ordre un et/ou deux. Mais l’exactitude du résultat est alors, à la fois dépendante du traitement, de la bonne estimation du paramètre (lorsque celui-ci doit être estimé) et bien sûr, de la validité du modèle général.

Dans cette thèse, il est question de chutes de performances dues à des paramètres mal estimés, et à des modèles inadaptés. Plus exactement, nous nous intéressons à l’estimation de la matrice de co- variance, le moment d’ordre deux, paramètre récurrent des traitements statistiques. A noter que l’es- timation du paramètre peut représenter une part inhérente au traitement (par exemple en localisation de source par la méthode MUSIC), ou une opération préliminaire avant le traitement proprement dit (comme c’est le cas en radar adaptatif). Dans ce dernier cas de figure, des données doivent être récol- tées indépendamment des données principales. Elles sont parfois appelées données d’apprentisage ou données secondaires.

Ce travail se tourne plus particulièrement vers les problématiques rencontrées en traitement d’an- tenne, dont notamment les applications liées au radar. En effet, pour améliorer les techniques de dé- tection de position et de vitesse de cible (rôle du radar), les détecteurs actuels prennent en compte la statistique du milieu. Ces traitements dits adaptatifs nécessitent à tout instant de connaître le moment d’ordre deux de l’environnement. A noter que le fait que le modèle gaussien soit le plus classiquement utilisé, explique probablement pourquoi les moments d’ordres supérieurs sont rarement exploités. Cette thèse se décompose comme suit.

Dans le premier chapitre, nous récapitulons les différents modèles statistiques et estimateurs de ma-

trice de covariance qui ont été utilisés ces dernières années en traitement d’antenne. La remise en ques-

tion d’un modèle est bien souvent liée à l’évolution des applications. En effet, il semble logique qu’une

technique haute précision ne puisse se satisfaire d’un modèle ou estimateur peu précis. Mais bien sou-

vent, c’est aussi tout simplement que les données récoltées n’ont plus du tout la même forme. Ce premier

(15)

I NTRODUCTION

chapitre donne lieu à une constatation simple : à l’heure de la haute résolution et de la diversification des données récoltées, on ne peut disposer d’un modèle statistique unique, adapté à toutes les situations.

Concrètement, ceci se traduit par le remplacement du modèle gaussien classique, par un modèle plus général, plus flexible et qui représente plusieurs distributions. Plusieurs solutions sont possibles. Dans les applications de traitement d’antenne et notamment en radar, les distributions gaussiennes-composées ont souvent été préférées. On leur associe un estimateur qui n’est pas optimal (au sens du maximum de vraisemblance), mais qui s’en rapproche dans la plupart des cas : l’estimateur du Point-Fixe (FP). De nombreuses études ont montré que les distributions gaussiennes-composées permettent de représenter beaucoup mieux les données récoltées, et ceci dans de très nombreux cas de figure [41], [80], [32], [89], [90], [15], [16], [72], [29].

Dans le chapitre deux, nous introduisons une nouvelle notion : la robustesse. A modèle fixé, il peut arriver que pour des raisons purement techniques, météorologiques ou autres, une partie des données contiennent des erreurs. Contrairement au chapitre précédent où l’objectif était d’adapter le modèle et l’estimateur à toutes les données reçues, le but est ici de rejeter cette portion d’erreurs. Il s’agit donc d’utiliser des estimateurs robustes aux perturbations. S’utilisant dans le cadre plus général des distribu- tions elliptiques, nous présentons alors les M-estimateurs. Ces derniers ont été introduits par Huber en 1964, et s’appliquent à la moyenne [36] et à la matrice de covariance [39]. Maronna en 1976 [57] liste les conditions permettant d’assurer leur robustesse. Dans ce chapitre, nous présentons également la théorie de la robustesse et nous étudions certains critères de robustesse afin de les appliquer à l’estimateur FP et les M -estimateurs.

Le chapitre trois contient les résultats de notre étude sur les performances asymptotiques des diffé- rents estimateurs. Il s’agit bien souvent d’extension au cas complexe de propriétés établies (notamment par Tyler [83],[84]) en réel. Cependant cette étude n’est pas dénuée d’intérêt car actuellement en traite- ment d’antenne, les données à traiter sont bien souvent complexes. Nous mettons ensuite en avant une propriété particulière, aux conséquences très intéressantes pour l’utilisation pratique des M -estimateurs et de l’estimateur FP. En effet, les performances de bon nombre d’applications sont parfaitement connues et contrôlées dans le cas où on y injecte l’estimateur du maximum de vraisemblance du milieu gaussien, et que le milieu est effectivement gaussien. Cette propriété stipule que sous certaines conditions et en uti- lisant un peu plus de données, les performances asymptotiques obtenues avec toute une gammes d’autres estimateurs, sont les mêmes que dans le cas classique. Ainsi, une amélioration des performances et de la robustesse du traitement considéré, peut se faire de manière très simple, en utilisant tous les résultats déjà connus, et sans avoir à recalculer tous les paramètres de réglage du traitement.

Nous poursuivons par le chapitre quatre, dans lequel nous appliquons nos résultats à la détection radar : des traitements sur données réelles et synthétiques sont effectuées. Il s’agit ici de mettre en avant tous nos résultats théoriques, de les illustrer mais également de montrer leur utilité pratique. Après avoir défini le contexte des traitements spatio-temporels adaptatifs, nous décrivons le détecteur utilisé, l’Adaptive Normalized Matched Filter (ANMF). Nous comparons d’abord la robustesse et les perfor- mances des estimateurs étudiés, en utilisant des données synthétiques. Nous étudions ensuite la relation P f a -seuil, paramètre indispensable aux radaristes, ceci afin d’illustrer les résultats du chapitre trois. Des traitements sur données réelles sont ensuite réalisées et enfin, nous analysons la vitesse de convergence des algorithmes itératifs donnant les estimées, ceci sous différentes configurations.

Enfin, nous concluons par une synthèse des résultats présentés avant d’aborder, de manière non-

exhaustive bien sûr, les nouvelles problématiques, possibilités et pistes, que ce travail nous suggère.

(16)

I NTRODUCTION

(17)

Chapitre 1

Etat de l’art

1.1 Introduction : estimation des paramètres statistiques en traitement de signal

Nous nous proposons ici de récapituler les principales méthodes existant, pour estimer les statistiques du second ordre de données reçues. Le moment d’ordre un (la moyenne), sera considéré comme connu et supposé nul. En effet, cette dernière hypothèse revient simplement à considérer des données dont on connaît la moyenne et qui ont été recentrées. L’hypothèse de moyenne nulle est faite dans de nombreuses applications (radar, localisation de source) permettant à cette étude de rester proche de nombreux cas réels.

Les évolutions entre deux méthodes, sont parfois directement liées aux évolutions technologiques : en radar par exemple, le modèle des données gaussiennes a longtemps été utilisé et validé pour estimer les échos du sol et de l’environnement en général. Puis la haute résolution est apparue. Avec la nouvelle précision obtenue, il s’est vite avéré que le modèle gaussien était non seulement très loin de la réalité mais qu’en plus les détecteurs et techniques basés sur l’ancien modèle n’étaient plus du tout fiables. On a alors eu l’idée de s’inspirer de ce qu’il se passe en réalité : avec cette haute résolution, l’environnement n’est pas assimilable à un bruit relativement homogène mais on y discerne différentes zones, une texture en quelque sorte. Ainsi, on peut considérer que le bruit est toujours gaussien mais avec une puissance variable en fonction de l’endroit. C’est ainsi que l’utilisation des distributions gaussiennes-composées a commencé à se répandre dans les applications de traitement de signal, et notamment en radar. Il a fallu également adapter les estimateurs de paramètres statistiques ainsi que les techniques associées. Tout cela sera repris en détail dans les sections suivantes.

Par ailleurs, les évolutions ne s’arrêtent pas aux distributions gaussiennes-composées. En effet, celles-ci ne sont en réalité qu’un cas particulier d’une famille de distributions plus grande, très flexible et aux propriétés déjà beaucoup étudiées par les statisticiens : les distributions elliptiques. Le fait est qu’elles sont pratiquement inutilisées en traitement de signal, en dehors de quelques rares exceptions [64]. Une raison probable est qu’elles n’ont été étendues au cas complexe que très récemment et qu’en traitement de signal, les données sont très souvent complexes. A noter d’ailleurs, que dans des domaines tels que la finance où les données à traiter sont réelles, l’abandon du modèle gaussien s’est fait très souvent au profit des données elliptiques. La littérature des distributions elliptiques se retrouve donc très souvent dans le cadre d’applications liées à la finance. La dernière partie de ce chapitre sera donc consacrée aux distributions elliptiques.

Avant d’entrer plus en détail dans les distributions gaussiennes-composées, elliptiques ou autres,

posons le cadre de l’étude en décrivant les hypothèses classiques du traitement de signal.

(18)

1.2 Modélisation de données et définitions importantes

1.2 Modélisation de données et définitions importantes

Comme évoqué précédemment, dans les applications de traitement de signal on s’intéresse très sou- vent à la distribution des données reçues. Par exemple en radar, le milieu ambiant est modélisé avec une certaine distribution. Un élément inhabituel - la cible, se différencie alors par les échos statistique- ment différents qu’il renvoie. Deuxième exemple : les applications minières de l’hyperspectrale, dont l’objectif est de caractériser les différents minéraux d’une zone. On dispose d’une banque de données des différentes réponses fréquentielles moyennes qui apparaissent pour chaque élément et l’objectif est donc d’identifier les rayonnements. Des phénomènes de mélanges peuvent évidemment se produire et de nombreuses techniques ont été développées afin de "démélanger" les signaux reçus.

La moyenne (statistique du premier ordre) est également souvent étudiée mais dans de nombreuses applications elle est tout simplement considérée comme nulle. C’est d’ailleurs l’hypothèse que nous ferons tout au long de cette thèse.

Quoi qu’il en soit, ces paramètres statistiques, quels que soient leurs ordres, sont rarement dispo- nibles. Ils doivent donc être estimés à l’aide des données reçues.

En traitement radar, les données reçues sont généralement composées de bruit thermique additif (du à l’électronique du système récepteur), d’un bruit additif lié à l’environnement (échos ou rayonnements du sol, de la végétation, de bâtiments...) et en fonction de l’application, d’un signal cible. Afin de simplifier les choses, nous modéliserons donc de manière très générale, les données reçues par des vecteurs z complexes de taille m :

z = s + n (1.1)

avec s le signal cible (parfois vecteur nul) et n le bruit additif résultant des différents éléments précé- demments cités.

Avant d’aller plus loin, définissons les termes dont la connaissance est indispensable pour pouvoir lire cette thèse, et qui seront utilisés tout au long de ce document. Parlons tout d’abord de statistiques du second ordre.

Nous avons évoqué précédemment, les statistiques du second ordre des données reçues. De manière plus concrète, il s’agit de la matrice de covariance et de la matrice de pseudo-covariance. Avec ces deux paramètres, on est en mesure de décrire complètement les statistiques du second ordre d’un vecteur aléatoire.

Définition 1.2.1 Matrice de covariance

La matrice de covariance cov(z) ∈ P DH (m) du vecteur complexe z = x + jy, est définie comme cov(z) = E[zz H ]

= E[xx T ] + E[yy T ] + j(E[yx T ] − E[xy T ]), (1.2) où P DH (m) est l’ensemble des matrices m × m hermitiennes définies positives.

Définition 1.2.2 Matrice de pseudo-covariance

La matrice de pseudo-covariance pcov(z) ∈ CS(m) du vecteur complexe z = x + jy est définie comme

pcov(z) = E[zz T ]

= E[xx T ] − E[yy T ] + j(E[xy T ] + E[yx T ]), (1.3) où CS(m) est l’ensemble des matrices m × m symétriques complexes.

Cette matrice de pseudo-covariance est également appelée matrice de relation par exemple dans [73] ou matrice complémentaire dans [77].

Un terme qui reviendra souvent est la notion de circularité ainsi définie en statistique (voir par

exemple [73]) :

(19)

C HAPITRE 1 : E TAT DE L ’ ART

Définition 1.2.3 Symétrie circulaire

Un vecteur z complexe est dit circulaire si

z = d e z pour tout θ ∈ R , (1.4)

où = d signifie que ces vecteurs ont la même distribution.

Lorsque la densité de probabilité f(.) de z existe, elle vérifie

f(z) = f (e z) pour tout θ ∈ R . (1.5) Les signaux sont très souvent considérés comme circulaires en traitement de signal. Dans le cas gaussien centré, cette circularité est équivalente à une circularité du second ordre :

Définition 1.2.4 Circularité du second-ordre

Le vecteur complexe z est dit circulaire du second-ordre [73] lorsque pcov(z) = 0 ou de manière équivalente, lorsque E[xx T ] = E[yy T ] et E[xy T ] = − E[yx T ].

Ainsi, dans ce cas là, les parties réelle et imaginaire ont la même matrice de covariance.

C’est bien souvent cette circularité du second-ordre qui est exploitée en traitement de signal. Afin de se rapprocher des termes habituellement utilisés, nous parlerons simplement de circularité lorsqu’il s’agit de circularité du second-ordre.

Dans ce document, les signaux seront toujours considérés comme circulaires. En effet, comme dit précédemment, c’est une hypothèse très souvent faite en traitement de signal : le bruit additif des cap- teurs, présent dans les données observées, est sans trop d’erreur, communément modélisé par une distri- bution complexe circulaire, et de nombreux signaux complexes "fabriqués" rencontrés en communica- tion sans fil ou traitement d’antenne ont des propriétés de symétrie circulaire.

Pour ne rien négliger, notons toutefois qu’il existe de nombreux exemples de signaux non-circulaires et prendre en compte cette non-circularité peut améliorer considérablement les performances dans cer- taines applications [1], [11]. De nombreuses études ont par ailleurs été menées pour tester cette circula- rité (voir par exemple [2] chapitre 2, [60], [65]).

Dans la suite de ce document, on introduit plusieurs estimateurs de matrice de covariance dont on donne ou étudie les propriétés statistiques. Les plus souvent citées sont le biais, la consistance et la gaussianité asymptotique d’un estimateur.

Définition 1.2.5 Biais d’un estimateur de M

Le biais B(c M) d’un estimateur M c de M est défini par : B( c M) = E h

M c

i − M (1.6)

Lorsque B(c M) = 0, l’estimateur M c est appelé estimateur sans biais ou non biaisé de M.

Définition 1.2.6 Consistance d’un estimateur de M

Un estimateur c M de M est dit consistant s’il converge en probabilité vers M lorsque N tend vers l’infini :

∀ ε > 0, P

|| M c − M || ≥ ε

−−−−−→

N→+∞ 0, (1.7)

où N est le nombre de données utilisées pour estimer M, P (.) désigne la probabilité et || . || est une norme matricielle quelconque.

Afin de définir la gaussianité asymptotique, nous rappelons d’abord, la définition d’un vecteur gaus-

sien réel puis complexe.

(20)

1.3 Première approche : hypothèses classiques en traitement de signal Définition 1.2.7 Loi gaussienne

Le vecteur réel x de taille m a une distribution gaussienne (ou normale) si sa densité de probabilité s’écrit

f (x) = 1

(2π) m/2 | Σ | 1/2 exp − 1 2

! x − µ) T Σ −1 (x − µ "

(1.8) où µ est la moyenne statistique et Σ = E

(x − µ)(x − µ) T

la matrice de covariance.

Cette distribution sera notée N (µ, Σ).

Le vecteur complexe z = x + jy de taille m a une distribution gaussienne (ou normale) complexe généralisée si et seulement si v = (x T , y T ) T ∈ R 2m une distribution gaussienne (ou normale). On notera cette distribution GCN (µ, Σ, Ω), avec µ la moyenne, Σ = E

(z − µ)(z − µ) H

la matrice de covariance, et Ω = E

(z − µ)(z − µ) T

la matrice de pseudo-covariance.

Lorsque les vecteurs sont circulaires du second ordre et que la pseudo-covariance est nulle, la distribution gaussienne complexe est dite circulaire et on la notera simplement gaussienne complexe, CN (µ, Σ).

La densité de probabilité de la distribution gaussienne complexe peut alors s’écrire simplement : f c (z) = 1

π m | Σ | exp !

− $

z − µ) H Σ −1 (z − µ

(1.9) où µ est la moyenne statistique et Σ la matrice de covariance.

Définition 1.2.8 Gaussianité asymptotique

Etudier la distribution asymptotique d’un estimateur c M de M revient à étudier la distribution de

√ Nvec( M c − M) lorsque N tend vers l’infini. vec(.) est l’opérateur qui transforme une matrice en vecteur, il est décrit dans la partie Symboles.

Un estimateur réel est asymptotiquement gaussien si

√ N

vec( M c − M) d

−−−−−→

N →+∞ N (0, C) (1.10)

où C est une matrice symétrique de taille m 2 × m 2 .

Respectivement, un estimateur complexe est asymptotiquement complexe gaussien généralisé si

√ N

vec( c M − M) d

−−−−−→

N→+∞ GCN (0, C c , P c ) (1.11)

où C c ∈ P DS(m 2 ) et P c ∈ CS(m 2 ).

A présent que les bases sont posées, nous pouvons décrire les hypothèses et estimateurs classique- ment utilisés en traitement de signal.

1.3 Première approche : hypothèses classiques en traitement de signal

Comme évoqué en introduction de ce chapitre, dans la majorité des applications de traitement de signal, on a longtemps considéré que les vecteurs reçus avaient une distribution s’apparentant à une gaussienne. C’est d’ailleurs encore le cas pour de nombreuses applications. Plus exactement, en l’ab- sence de connaissance particulière sur la phase des signaux et comme les signaux reçus sont souvent complexes, on fait l’hypothèse d’une distribution gaussienne complexe circulaire.

Cette modélisation est d’autant plus pratique que les Estimateurs optimaux au sens du Maximum de Vraisemblance (EMV) des paramètres statistiques, sont très faciles à obtenir dans le cas gaussien.

Du fait de l’hypothèse de circularité, la pseudo-covariance est considérée comme nulle. Ainsi, la connaissance des statistiques du second ordre se résume à l’estimation de la matrice de covariance.

Dans le cas d’une distribution gaussienne complexe, l’EMV est la Sample Covariance Matrix (SCM),

également appelée moyenne empirique.

(21)

C HAPITRE 1 : E TAT DE L ’ ART

1.3.1 La Sample Covariance Matrix

La SCM est très facile à mettre en œuvre et à obtenir à partir d’un jeu de données. Considè- rons (z 1 , ..., z N ) un N -échantillons de vecteurs indépendants gaussiens complexes, de dimension m et moyenne nulle. La SCM s’écrit alors

M c SCM = 1 N

X N n=1

z n z H n . (1.12)

En l’absence d’information sur la distribution des données, il est très tentant d’utiliser cette SCM si facile d’utilisation. Dans le contexte gaussien, la matrice obtenue a une distribution de Wishart : Définition 1.3.1 Loi de Wishart

La distribution de Wishart réelle (resp.complexe) W (N, Λ) (resp. CW (N, Λ)) est la distribution de X N

n=1

z n z T n (resp.

X N n=1

z n z H n ) où les z n sont réels (resp. complexes circulaires), indépendants et identique- ment distribués (i.i.d), gaussiens de moyenne nulle et de matrice de covariance Λ. Par extension, nous nommerons aussi la matrice W N = N −1

X N n=1

z n z T n (resp. W N c = N −1 X N n=1

z n z H n ) ; matrice de Wishart.

La distribution asymptotique de cette matrice de Wishart est (e.g. [8])

√ N vec(W N − Λ) −→ N d 0 m

2

,1 , (Λ ⊗ Λ)(I m

2

+ K)

dans le cas réel

√ N vec(W c N − Λ) −→ GCN d 0 m

2

,1 , (Λ T ⊗ Λ), (Λ T ⊗ Λ)K

dans le cas complexe, (1.13) où K est la matrice de commutation définie dans la liste des symboles.

Ainsi, les performances obtenues avec la SCM sont parfaitement connues, celle-ci est non-biaisée, consistante et asymptotiquement gaussienne.

Cependant, en présence de valeurs atypiques ou d’une distribution différente de la gaussienne (queue lourde), cet estimateur est très peu robuste. En effet, les paramètres statistiques obtenus à partir de cette matrice (par exemple les valeurs propres) ne sont alors pas fiables, voire très loin des résultats optimaux.

En fait, les EMV gaussiens en général, souffrent de grosses dégradations en présence d’un pourcentage même minime d’observations contenant des données aberrantes ou atypiques.

C’est un inconvénient non négligeable, même lorsque l’hypothèse gaussienne est admise, car on n’est jamais à l’abri d’erreurs dans les données. Un pré-traitement est donc souvent nécessaire.

Quoi qu’il en soit, de nombreuses études [80], [32], [40], [89], [42], [90],[29], [15], [16], [6], [78], [54], [79], montrent qu’il existe actuellement quantités d’applications (radar Haute Résolution (HF), traitements hyperspectraux ou localisation de source : MUSIC, ESPRIT,...), qui traitent des données dont la distribution s’éloigne du modèle gaussien complexe circulaire s’apparentant globalement à des distributions à queue lourde ou impulsives.

L’objectif est donc d’utiliser des techniques robustes à la place des EMV gaussiens : proche de l’op- timal quand les hypothèses nominales sont suivies et qui produisent des estimées suffisamment fiables ou fidèles sinon.

L’approche suivante consiste à obtenir la robustesse en modélisant plus fidèlement les données re- çues.

1.4 Seconde approche : les distributions gaussiennes-composées

Afin d’améliorer l’estimation des paramètres, une approche consiste à changer de modèle de dis-

tribution des données pour se rapprocher de leur distribution réelle. Comme dans le cas gaussien, on

(22)

1.4 Seconde approche : les distributions gaussiennes-composées fait une hypothèse très générale sur la distribution des données et il faut ensuite estimer ses paramètres exacts (la matrice de covariance). Pour cela, on tente d’utiliser les EMV correspondants. La "robustesse"

est alors obtenue par le fait qu’on se rapproche du modèle exact des données et de l’EMV associé.

Cependant en pratique, on se heurte à d’innombrables cas particuliers [80], [32], [40], [89], [42], [90], [15], [16], [6], [78], [7], [29]. Pour éviter d’avoir à traiter chaque cas séparément, il a fallu se résoudre à considérer une famille de distributions de probabilité qui englobe une grande partie de ces cas.

1.4.1 Vecteurs gaussiens-composés

Les vecteurs aléatoires complexes gaussiens-composés sont souvent appelés Spherically Invariant Random Vectors ou SIRV par les radaristes bien qu’ils ne s’agissent pas nécessairement de vecteurs à distributions sphériques. Ainsi, les vecteurs gaussiens-composés forment bien une sous-famille des vecteurs elliptiques mais cela ne correspond pas à la sous-famille des vecteurs sphériques. Les diffé- rentes notions évoquées ci-dessus seront précisées dans le chapitre suivant qui traite des distributions elliptiques. Dans la suite de cette partie, nous ne décrirons donc que les vecteurs gaussiens-composés (GCV).

Comme évoqué précédemment, l’idée première des distributions gaussiennes-composées appliquées au traitement de signal, est d’affiner la modélisation du milieu en ajoutant l’hypothèse que le milieu loca- lement gaussien, est de puissance variable spatialement. Ceci doit permettre de représenter l’information de "texture" que la haute résolution (ou tout autre traitement amélioré) apporte. Les GCV s’écrivent donc comme le produit de la racine d’une variable aléatoire τ scalaire positive, et d’un vecteur aléatoire com- plexe Gaussien circulaire z de dimension m, moyenne µ (nulle ici) et matrice de covariance M. τ est de plus appelée la texture et z le speckle. τ et z sont indépendants entre eux. Ainsi le GCV c s’écrit :

c = √

τ z. (1.14)

où la distribution de τ n’est pas forcément connue.

On notera cette distribution CCG (0, M, τ ) (Complex Compound-Gaussian distribution).

Ce problème n’est malheureusement pas identifiable au sens statistique : on voit bien qu’à cause du produit, on ne peut définir τ et z qu’à un facteur près. Ainsi une condition de normalisation sur la matrice de covariance de z est souvent imposée. Dans de nombreux travaux, on choisit Tr(M) = m, où Tr est la trace comme indiqué dans la liste des symboles.

Afin d’obtenir l’EMV de la matrice de covariance dans ce contexte, il nous faut obtenir la densité de probabilité d’un GCV. Des difficultés s’annoncent d’ores et déjà étant donné que la densité de probabilité de τ si elle existe, est supposée inconnue en dehors de cas très particuliers.

En posant f co (τ, z) la densité de probabilité conjointe de z et τ , la densité de probabilité de c s’écrit f c (c) =

Z +∞

0

f co (t, c

√ t ) | J (c, t) | dt (1.15) où J (c, t) est le jacobien associé aux changements de variables

c = √ τ z

t = τ (1.16)

et | . | est la fonction déterminant, comme indiqué dans la partie Symboles.

τ et z étant indépendants, l’égalité f co (τ, z) = p τ (τ ).g z (z) est vérifiée, avec p τ la densité de pro-

babilité de τ , variable aléatoire réelle et positive. Cette distribution de probabilité n’est pas forcément

(23)

C HAPITRE 1 : E TAT DE L ’ ART

connue. g z est la densité de probabilité de z, variable complexe gaussienne circulaire à m composantes, de moyenne nulle et matrice de covariance M. Rappelons que cette densité de probabilité assez souvent rencontrée s’écrit

g z,M (z) = 1

(2π) m | M | exp $

− z H M −1 z

(1.17) Un calcul rapide du jacobien nous donne : | J(c, t) | = t 1

m

. L’équation (1.15) peut donc s’écrire

f c (c) = Z +∞

0

1 t m g z,M

c

√ t

p τ (t) dt = Z +∞

0

g z,Mt (c) p τ (t) dt, (1.18) qu’on retrouve parfois sous la forme

f c (c) = 1

(2π) m | M | h m (α), (1.19)

h m (α) = Z +∞

0

1 t m exp

− α t

p τ (t) dt (1.20)

et α = c H M −1 c est une forme quadratique positive si on considère que M ∈ P DS(m).

Ainsi, un GCV est complètement déterminé par sa moyenne (nulle ici), sa matrice de covariance M et la densité de probabilité de τ . On peut remarquer de plus que le vecteur aléatoire gaussien complexe est un cas particulier de GCV, obtenu lorsque p τ (t) = δ(τ − a) où δ(.) est l’impulsion de dirac et a une constante réelle positive.

Les GCV modélisent le milieu de manière très fidèle dans de nombreux cas de figures, citons par exemple [41], [80], [32], [89], [90], [15], [16], [72], [29]. A noter que ces auteurs utilisent comme annoncé préalablement, le terme SIRV (ce qui signifie qu’il s’agit de distributions elliptiques avec des hypothèses implicites sur leurs densités de probabilité).

1.4.2 Exemples de GCV La loi gaussienne

Elle s’obtient avec p(τ ) = δ(τ − a) la fonction dirac en a ≥ 0.

La loi de Laplace

La loi de Laplace de paramètre b : elle s’obtient avec τ qui suit une loi exponentielle de paramètre b 2

2 définie sur R + par p(τ ) = b 2

2 exp − b 2 τ 2

! .

La K-distribution

La K-distribution est une loi à deux paramètres ν et b. Le paramètre ν est appelé paramètre de forme car il détermine la forme de la loi. Quand il est petit, la densité de probabilité est très "piquée" tandis que lorsqu’il tend vers l’infini la densité de probabilité tend vers une densité de probabilité gaussienne.

La K-distribution est obtenue avec p(τ ) = b 2 2

! ν

τ ν−1

Γ(ν) exp − b 2 τ 2

!

.

Une synthèse plus complète des propriétés des GCV est donnée dans [43].

(24)

1.4 Seconde approche : les distributions gaussiennes-composées 1.4.3 L’estimateur du Point-Fixe

Avec cette modélisation des données, l’EMV n’est plus la SCM. Gini et al. ont obtenu l’EMV cor- respondant, dans [28]. Nous donnons ici les points principaux de ce calcul.

On considère un N -échantillons (c 1 , c 2 , ...c N ) indépendants, ayant tous la même distribution que c dans l’équation (1.14). Attention, il s’agit ici d’une distribution gaussienne-composée particulière, pas de la famille entière de ces distributions. En d’autres termes τ a une distribution fixée (mais potentiellement inconnue). La matrice de covariance du speckle est M.

Ainsi, l’EMV est la matrice c M M L qui maximise p(c 1 , c 2 , ...c N ; M) =

Y N i=1

p(c i ; M) (1.21)

où le ; signifie conditionnellement à.

En d’autres termes il s’agit de maximiser par rapport à M l’équation Y N

i=1

f c (c i ) = Y N i=1

1

(2π) m | M | h mi ), (1.22)

avec, h m (α) définie dans l’équation (1.20) et α i = c H i M −1 c i . On dérive alors le logarithme de cette vraisemblance par rapport à M et on cherche la valeur de M qui vérifie

− N ∂ln | M |

∂M + X N i=1

1 h mi )

∂h m (α i )

∂α i

! ∂α i

∂M

!

= 0. (1.23)

Les différentes dérivées se calculent assez aisément (voir [28]) et on peut montrer que ∂h m (x)

∂x =

− h m+1 (x).

On obtient alors

M c M L = 1 N

X N i=1

h m+1 (c H i M c −1 M L c i )

h m (c H i M c −1 M L c i ) c i c H i (1.24) ou encore

c M M L = 1 N

X N i=1

− h m (c H i c M −1 M L c i )

h m (c H i c M −1 M L c i ) c i c H i (1.25) où l’opérateur ’ indique la dérivée.

En l’absence de connaissance ou d’hypothèse sur la densité de probabilité de τ , cette équation ne peut pas être simplifiée. Cet estimateur est donc inutilisable tel quel. Plusieurs auteurs [28], [67], [14]

ont pu, à l’aide d’approximations (notamment en considérant que les τ i sont déterministes, ce qui revient à estimer des paramètres dans un cas gaussien ou les différentes données ont des puissances différentes), donner un EMV approché appelé estimateur du Point Fixe.

Soit (c 1 , ..., c N ) un N -échantillons de GCV ayant tous la même distribution que c dans l’équa- tion (1.14). L’estimateur du Point Fixe (FP) est défini comme l’unique solution, à un facteur près, de l’équation suivante :

M c F P = m N

X N n=1

z n .z H n

z H n M c −1 F P z n (1.26)

Ce nom vient du fait qu’il est obtenu par un algorithme itératif de type Point Fixe [68] et F. Pascal a

démontré qu’il est consistant, non biaisé [67] et asymptotiquement gaussien complexe [69] lorsque les

données sont GCV.

(25)

C HAPITRE 1 : E TAT DE L ’ ART

On peux remarquer qu’en remplaçant les vecteurs c i par le produit √ τ i z i , les τ i se simplifient et cet estimateur donne également l’estimée de la matrice de covariance des z i à un facteur près.

On pourra alors imposer une normalisation à l’estimée obtenue, par exemple la même que celle im- posée au speckle des GCV ( Tr( M c F P ) = m, par exemple).

Remarque 1.4.1 En réalité l’estimateur FP avait d’abord été étudié dans le cas réel par Tyler [85]

depuis 1987. Il le décrit comme un cas limite d’un autre estimateur appelé M-estimateur d’Huber et prouve son existence et unicité dans un contexte plus large, celui des distributions elliptiques. Dans les chapitres suivant, nous préciserons les termes de distributions elliptiques et M -estimateurs.

En réel, il est également obtenu par un algorithme itératif de type Point Fixe [85]. Tyler démontre également qu’il est consistant, non biaisé et asymptotiquement gaussien lorsque les données sont ellip- tiques.

1.4.4 Comparaison de la robustesse et des performances du Point-fixe par rapport à la SCM

Sans rentrer dans une véritable étude (voir chapitre 2) on peut simplement constater que la robustesse de l’estimateur FP vient tout d’abord du fait que le modèle statistique des données a été élargi. Ainsi, les éléments qui représentaient des perturbations dans le cadre de la SCM, sont maintenant en grande partie pris en compte dans le modèle.

Afin d’obtenir les meilleures performances possibles, il aurait fallu pouvoir obtenir la forme exacte de l’EMV, dans le cas des GCV. Malheureusement, étant donné que la distribution des données n’est qu’en partie connue (la densité de τ reste inconnue), l’estimateur est une approximation de ce que serait l’optimal pour chaque distribution gaussienne-composée.

Ainsi, l’objectif est que l’estimateur FP se rapproche plus de l’EMV que ne le fait la SCM, dans la majorité des cas (en dehors du cas gaussien pour lequel la SCM est l’EMV).

Les simulations suivantes illustrent bien l’amélioration apportée par l’estimateur FP.

Biais dû à des perturbations

Dans cette simulation, nous estimons la matrice de covariance ( c M SCM , c M F P ) d’un jeu de N = 100 vecteurs aléatoires gaussiens de taille m = 3, de moyenne nulle et matrice de covariance identité. Puis, nous remplaçons un pourcentage de ces données par des vecteurs déterministes p, représentant des perturbations. Ils s’écrivent

p = √ p

 1 0 0

 (1.27)

où p est la puissance de chaque perturbation.

Les nouvelles matrices ( M c SCM

p

, M c F P

p

) estimées sont biaisées par rapport aux estimations sans perturbation. On calcule alors les biais

(

B SCM = E[c M SCM − c M SCM

p

]

B F P = E[ M c F P − M c F P

p

] (1.28)

pour chaque estimateur, et on représente sur les figures 1.1 et 1.2 la valeur

b = 10log 10 || B || F RO (1.29)

où || . || F RO représente la norme de Frobenius.

(26)

1.4 Seconde approche : les distributions gaussiennes-composées En pratique, l’espérance de l’équation (1.28) est obtenue en moyennant les données sur 300 itéra- tions.

Puissance de chaque perturbation en dB: 10log 10 (||σ α || 2 )

P o u rc en ta g e d e d o n n ee s a b er ra n te s

0 5 10 15 20

5 10 15 20 25

−15

−10

−5 0 5 10

F IGURE 1.1 – Biais b (dégradé de couleurs) de la SCM en fonction du pourcentage et de la puissance

des perturbations

(27)

C HAPITRE 1 : E TAT DE L ’ ART

Puissance de chaque perturbation en dB: 10log 10 (||σ α || 2 )

P o u rc en ta g e d e d o n n ee s a b er ra n te s

0 5 10 15 20

5 10 15 20 25

−15

−10

−5 0 5 10

F IGURE 1.2 – Biais b (dégradé de couleurs) de l’estimateur FP en fonction du pourcentage et de la puissance des perturbations

1.4.5 Simulation MUSIC pour comparer l’estimateur FP et la SCM

Cette simulation utilise la méthode MUltiple SIgnal Classification (MUSIC). Celle-ci permet, à l’aide de la matrice de covariance estimée avec un nombre N d’échantillons, d’estimer la direction d’arrivée d’un ou plusieurs signaux.

Principe de la méthode MUSIC

Contexte On considère une antenne linéaire uniforme (ALU) de m capteurs et p sources (m > p) recevant un signal centré et à bande étroite, modélisé par le vecteur y :

y(t) = A(θ 0 )s(t) + b(t) (1.30) avec

– θ 0 = $

θ 1 θ 2 ... θ p T

avec θ k l’angle d’où provient le signal k, – A(θ 0 ) = $

a(θ 1 ) a(θ 2 ) ... a(θ p ) ,

– a(θ) le vecteur directionnel. Il mesure la fonction de transfert du réseau. Il dépend de la géométrie du réseau et de la direction d’arrivée θ de l’onde plane,

– s(t) = $

s 1 (t) s 2 (t) ... s p (t) T

est le vecteur des signaux source,

– b(t) est un vecteur de bruit additif stationnaire et de moyenne nulle. Sa distribution sera précisée en fonction de l’application. Les vecteurs b(t) sont indépendants entre eux.

Méthode MUSIC Le vecteur y étant centré, sa matrice de covariance s’écrit

cov(y) = E[yy H ] = A(θ 0 )SA H0 ) + σ 2 I (1.31)

(28)

1.4 Seconde approche : les distributions gaussiennes-composées avec S = E[s(t)s H (t)] de taille p × p et de rang plein p, en suivant l’hypothèse des signaux non- cohérents.

Puisque A est de rang plein, A(θ 0 )SA H0 ) est de rang p. De plus, tout vecteur du noyau de A(θ 0 )SA H0 ) est vecteur propre de cov(y) associé à σ 2 . On note

– λ p ≤ ... ≤ λ 1 , les valeurs propres de A(θ 0 )SA H (θ 0 ),

– E s = [e 1 ...e p ], matrice des p vecteurs propres associés aux p plus grandes valeurs propres de cov(y), engendrant le sous-espace signal. Taille m × p.

– E n = [e p+1 ...e m ] matrice des m − p derniers vecteurs propres de cov(y), engendrant le sous- espace bruit. Taille m × (m − p).

– Λ s la matrice diagonale contenant les vecteurs propres

k + σ 2 ) , k = 1, ..., p } de l’espace signal, de taille p × p.

On peut alors écrire cov(y) =

X p k=1

k + σ 2 )e k e H k + X m k=p+1

σ 2 e k e H k = E s Λ s E H s + σ 2 E n E H n . (1.32) Le sous-espace engendré par E s est orthogonal au sous-espace engendré par E n . En d’autres termes, tout vecteur de l’espace signal est orthogonal à l’espace bruit. En cherchant les vecteurs directionnels a(θ) orthogonaux à l’espace bruit (en faisant varier θ), on peut ainsi retrouver les vecteurs directionnels des p signaux et donc les angles d’où proviennent ces signaux.

Concrètement, on cherchera les p plus grands maxima de la fonction V music (θ) = 1

a(θ)E n E H n a(θ) (1.33) Application

Considérons une antenne linéaire uniforme de m = 8 capteurs espacés d’une demi-longueur d’onde.

Cette antenne reçoit 2 signaux gaussiens stationnaires à bande étroite de direction d’arrivée (DOA) respectivement 10 et 15 . Ces signaux sont perturbés par du bruit thermique et éventuellement des défauts de l’électronique. Dans un premier temps, nous modélisons l’ensemble de ces perturbations par un bruit additif blanc gaussien puis par un bruit additif K-distribué dont on fait varier le paramètre de forme. Les K-distributions correspondent au cas des distributions gaussiennes composées dont le paramètre τ suit une loi gamma (voir chapitre 5). Lorsque le paramètre de forme est très petit (<< 1) le bruit est dit "piqué" car il est très impulsif. Lorsqu’en revanche il tend vers l’infini, la K-distribution tend vers une loi gaussienne.

Dans cette simulation, le rapport signal à bruit (SNR) par capteur est de 3dB et les N = 300 échantillons sont supposés indépendants.

Sur les figures 1.3,1.4,1.5,1.6,1.7,1.8, sont représentées les fonctions dont les maxima correspondent aux angles détectés. La détection sera d’autant meilleure que les maxima sont bien définis et le plus proche possible des angles 10 et 15 . Pour chaque configuration, 100 essais sont réalisés. Sur les deux premières figures, on observe que dans le cas gaussien, la SCM qui est alors l’EMV, et l’estimateur FP, ont des résultats similaires. En revanche, les exemples de bruits K-distribués montrent que les perfor- mances de la SCM sont très variables : résultats peu fidèles, voire absence de résultat pour un bruit très impulsif. L’estimateur FP lui, donne de très bons résultats quelle que soit la K-distribution considérée.

On remarque même que plus la K-distribution est impulsive, meilleure est l’estimation. En effet, dans ce cas, le bruit est composé de quelques pics très élevés, et de nombreux échantillons de valeur d’autant plus faible, afin que la puissance moyenne reste la même pour toutes les simulations.Tout ce passe comme si l’estimateur FP rejetait les pics trop élevés telles des perturbations, ne laissant que les vecteurs de faible puissance. Le SNR résultant est alors d’autant plus élevé que le bruit est impulsif.

D’où une meilleure estimation des angles.

(29)

C HAPITRE 1 : E TAT DE L ’ ART

5 10 15 20 25

0 50 100

−2 0 2 4 6

8 Fonction MUSIC obtenue avec donnees Gaussiennes

Angle en degres

Fonction MUSIC

Essai

F IGURE 1.3 – Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien, estimation avec la SCM.

5 10 15 20 25

0 50 100

−2 0 2 4 6

8 Fonction MUSIC obtenue avec donnees Gaussiennes

Angle en degres

Fonction MUSIC

Essai

F IGURE 1.4 – Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien,

estimation avec l’estimateur FP.

(30)

1.4 Seconde approche : les distributions gaussiennes-composées

5 10 15 20 25

0 50 100

−2

−1 0 1 2 3 4 5

6 Fonction MUSIC obtenue avec donnees K distribuees de parametre0.5

Angle en degres

Fonction MUSIC

Essai

F IGURE 1.5 – Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé peu impulsif, estimation avec la SCM.

5 10 15 20 25

0 50 100

−2 0 2 4 6 8

10 Fonction MUSIC obtenue avec donnees K distribuees de parametre0.5

Angle en degres

Fonction MUSIC

Essai

F IGURE 1.6 – Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien-

composé peu impulsif, estimation avec l’estimateur FP.

(31)

C HAPITRE 1 : E TAT DE L ’ ART

5 10 15 20 25

0 20 40 60 80 100

−2

−1 0 1 2 3 4 5

6 Fonction MUSIC obtenue avec donnees K distribuees de parametre0.1

Angle en degres

Fonction MUSIC

Essai

F IGURE 1.7 – Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé assez impulsif, estimation avec la SCM.

5 10 15 20 25

0 20 40 60 80 100

−5 0 5 10 15 20

25 Fonction MUSIC obtenue avec donnees K distribuees de parametre0.1

Angle en degres

Fonction MUSIC

Essai

F IGURE 1.8 – Fonction MUSIC de détection d’angles d’arrivée à 10 et 15 , bruit additif gaussien- composé assez impulsif, estimation avec l’estimateur FP.

Ces exemples semblent montrer que l’estimateur FP est robuste selon la définition intuitive que nous

en avons donné dans les paragraphes précédents : il est proche de l’optimal quand les hypothèses no-

minales sont suivies (hypothèses gaussiennes) et il produit des estimées suffisamment fiables ou fidèles

sinon. Nous étudierons plus en détail la robustesse de l’estimateur FP, dans le chapitre 2.

Références

Documents relatifs

Ce calcul nous a permis aussi de définir une nouvelle distance naturelle sur cette variété associée aux distributions el- liptiques complexes.. Les simulations sur des

2 we recall the known results for the sample covariance matrix estimator under light-tailed assumptions, together with some recent high-probability results for an alternative

Cette borne intrins`eque a ensuite ´et´e calcul´ee dans le contexte de l’estimation de la matrice de covariance d’un vecteur gaussien `a l’aide de la distance riemannienne

Finalement, le signal sera modélisé dans ce papier comme un fouillis hétérogène SIRV de rang R M plus un bruit blanc gaussien (BBG).. Dans ce contexte, nous dérivons un algorithme

In Chapter 3 we study empirical risk minimization for unbounded functions based on minimizing Catoni estimator defined in Section 2.2.2.. 2.5 Multivariate estimation

Comme la distribution de risque est dans la plupart du temps inconnue, en se basant sur les estimateurs de Matthys et Beirlant (2003) pré- sentés dans le chapitre 3; nous proposons

Finalement, deux problèmes sont à résoudre de façon concomitante : la classification des données, c'est-à-dire leur allocation aux différents modèles locaux, et l'estimation

Montrer que l’inclusion r´ eciproque n’est jamais