• Aucun résultat trouvé

Introduction de la nouvelle densité de probabilité

5.2 Présentation du modèle de mélange ellipsoïdal

5.2.1 Introduction de la nouvelle densité de probabilité

Notre but est de construire un modèle décrivant des points répartis autour d’une surface ellipsoï-dale de Rd. Un ellipsoïde est caractérisé par son centre µ ∈ Rd et sa matrice de forme Σ ∈ Rd×d

symétrique définie positive. La surface ellipsoïdale est définie par n

x∈ Rd, (x− µ)TΣ−1(x− µ) = 1o. (5.2.1) Le centre µ est le point d’intersection entre les d axes et détermine la position de l’objet dans l’espace. La matrice Σ contient l’information de forme et d’orientation de la surface. Plus précisément, considérons la décomposition en éléments propres

Σ = P DP−1 (5.2.2) où D est la matrice diagonale contenant les valeurs propres (λ1, . . . , λd) de Σ telles que 0 < λ1 ≤ . . . ≤ λd et P la matrice de passage dont les colonnes sont les vecteurs propres (v1, . . . , vd) de Σ. Les axes principaux de l’ellipsoïde sont donnés par les vecteurs propres de Σ et les longueurs des demi-axes sont les racines carrées des valeurs propres correspondantes. La Figure 5.2.1 représente une ellipse du plan notée E de centre µ = (0, 0)T et de matrice de forme Σ =

 4 0 0 1



. Les valeurs propres valent 1 et 4 et correspondent bien aux longueurs des demi-axes élevées au carré. Les vecteurs propres correspondants sont les axes du repère.

CHAPITRE 5. MODÈLE DE MÉLANGE ELLIPSOÏDAL 138

Pour construire le modèle dans le cas de la sphère, nous nous étions basés sur la distance signée entre le point x ∈ Rdet la surface considérée. Malheureusement, l’expression exacte de cette distance est difficile à écrire explicitement et simplement dans le cas de l’ellipsoïde. Par conséquent, nous utilisons à la place la métrique de Mahalanobis ([124]) permettant de quantifier la distance entre le point x et l’ellipsoïde de centre µ et de matrice de forme Σ. Cette distance est définie par

dmah(x, µ, Σ) = q

(x− µ)TΣ−1(x− µ). (5.2.3) La métrique de Mahalanobis est différente de la distance Euclidienne classique et prend en compte la répartition des points dans les différentes directions de l’espace. Elle vaut 1 si x appartient à l’ellip-soïde caractérisé par (µ, Σ) et s’annule lorsque x = µ. Elle est égale à la distance Euclidienne lorsque Σ = Id. Les lignes de niveaux de la distance de Mahalanobis à l’ellipse E sont représentées Figure 5.2.2. On observe que la distance est différente de la distance Euclidienne classique et qu’elle varie selon les directions de l’espace. Elle constitue toutefois une information de proximité que nous allons exploiter.

FIGURE5.2.2 – Lignes de niveaux de la distance de Mahalanobis à l’ellipse E. Les remarques précédentes nous conduisent à définir la densité de probabilité suivante

f (x) = Cd exp ! −12 q (x− µ)TΣ−1(x− µ) − 1 2" (5.2.4) où µ ∈ Rd est le centre, Σ ∈ Rd×d la matrice de forme symétrique définie positive et σ2 > 0 la dispersion par rapport à la surface. La constante de normalisation Cd est donnée par

Cd = Γ(d/2)

d/2 | Σ |1/2 Jd−1(σ) (5.2.5) où Γ( . ) désigne la fonction Gamma et pour q ∈ N et α > 0,

139 5.2. PRÉSENTATION DU MODÈLE DE MÉLANGE ELLIPSOÏDAL Jq(α) = Z 0 tqexp  −(t− 1) 22  dt. (5.2.6)

Le centre µ caractérise la position de l’ellipsoïde, la matrice Σ sa forme et son orientation et le paramètre σ2contrôle la dispersion des points autour de la surface. Notons que cette densité n’est pas une généralisation au sens mathématique du terme de la densité sphérique introduite au Chapitre 3. En effet, si on pose Σ = r2Id, on ne retrouve pas exactement la densité sphérique. Ceci est dû au fait que nous n’avons pas utilisé la distance Euclidienne dans le terme exponentiel.

Cette distribution étant conçue pour modéliser des points répartis autour d’une surface ellipsoïdale, nous ne considérons que le cas où le paramètre σ est suffisamment faible pour que les fluctuations n’interagissent pas avec le côté opposé de la surface. Si le paramètre σ est choisi trop élevé, la densité génère des points situés à l’intérieur de la surface et vers le centre, ce qui n’est pas la configuration qui nous intéresse. Plus précisément, la dispersion induite par la valeur de ce paramètre doit être faible par rapport à la longueur du plus petit demi-axe de l’ellipsoïde, c’est à dire la racine carrée de la plus petite valeur propre de Σ. Cette hypothèse est analogue à celle faite dans le cas de la sphère et nous assure que la densité devient nulle (numériquement) lorsque l’on s’éloigne suffisamment de la surface. La densité associée à l’ellipse E (pour d = 2) avec σ = 1 est représentée Figure 5.2.3.

FIGURE5.2.3 – Représentation de la densité ellipsoïdale associée à l’ellipse E (d = 2) et avec σ = 1.

Le calcul de l’expression exacte (5.2.5) de la constante de normalisation Cda été détaillé en Annexe A. Les expressions exactes de cette constante pour les premières valeurs de d s’écrivent (indépendamment

CHAPITRE 5. MODÈLE DE MÉLANGE ELLIPSOÏDAL 140

de l’hypothèse sur les paramètres) C1−1 =  2σ√ 2π| Σ |1/2[1− Φ (−1/σ)]−1 (5.2.7) C2−1 =  (2π)3/2| Σ |1/2σ [1− Φ (−1/σ)]−1 (5.2.8) C3−1 = ! 2(2π)3/2| Σ |1/2σ(1 + σ2) # 1− Φ (−1/σ) + σ exp −1/(2σ 2) (1 + σ2)√ 2π %"−1 (5.2.9) où Φ désigne la fonction de répartition de la loi Normale centrée réduite. En utilisant le fait que le pa-ramètre σ est choisi suffisamment faible, ces expressions peuvent être raisonnablement approximées. Comme cela a été discuté en Annexe A, l’hypothèse sur les paramètres nous permet d’écrire

C1−1 =  2σ√ 2π| Σ |1/2−1 (5.2.10) C2−1 =  (2π)3/2| Σ |1/2σ−1 (5.2.11) C3−1 =  2(2π)3/2 | Σ |1/2σ(1 + σ2)−1 . (5.2.12)

5.2.2 Propriétés

Nous allons maintenant nous focaliser sur les principales propriétés de la densité (5.2.4). Lorsque d≥ 2, la densité ellipsoïdale appartient à la famille des distributions elliptiques présentée au Chapitre 3 section 3.2. En effet, si on considère la fonction

gα(t) = Γ (d/2)d/2Jd−1(α)exp ! − √ t− 122 " , (5.2.13) alors la densité f peut s’écrire sous la forme

f (x) =| Σ |−1/2gσ (x− µ)TΣ−1(x− µ), (5.2.14) ce qui implique d’après la Définition 3.2.2 du Chapitre 3 que f est la densité d’une distribution el-liptique. Par conséquent, d’après la Définition 3.2.4, si on pose Y = Σ−1/2(X− µ), alors Y a pour densité gσ(yTy) et peut s’écrire sous la forme Y = W U où W est une variable aléatoire positive indépendante de U uniformément distribuée sur la sphère unité de Rd. Le vecteur aléatoire X peut donc s’écrire d’après le Théorème 3.2.1

X = µ + Σ1/2W U (5.2.15) et la densité de W est de la forme

ϕ (t) = d/2 Γ (d/2)t d−1gσ(t2) = t d−1 Jd−1(σ) exp ! −(t− 1) 22 " 1I{t≥0}. (5.2.16) Intuitivement, l’écriture (5.2.15) consiste à bruiter avec W la sphère unité U, à la déformer via Σ1/2et à la translater jusqu’en µ. Remarquons que les fonctions g et φ sont identiques à celles obte-nues dans le cas de la densité sphérique. Ceci implique que les fluctuations autour de la surface sont de

141 5.2. PRÉSENTATION DU MODÈLE DE MÉLANGE ELLIPSOÏDAL

même nature que dans le cas sphérique. La méthode de simulation de la densité sera quasi identique à celle déjà mise en œuvre puisque les variables aléatoires W et U sont définies de la même ma-nière. Il suffira donc d’introduire le terme en Σ1/2pour donner la forme ellipsoïdale à la distribution conformément à (5.2.15).

Les résultats exposés ci-dessus permettent de calculer assez facilement les premiers moments de X. Les résultats du théorème suivant seront utile pour justifier les propriétés des estimateurs introduits en section 5.3.

Théorème 5.2.1. Soit X un vecteur aléatoire de Rd (avec d ≥ 2) et de densité de probabilité f introduite en (5.2.4). On pose pour toutq≥ 1, Jq= Jq(σ). Alors,

E[X] = µ et Var [X] = Eh(X − µ) (X − µ)Ti= Jd+1

d Jd−1Σ = d

−1Σ (5.2.17)

où l’on a poséΣ= Jd+1

Jd−1Σ. De plus, Varq (X− µ)TΣ−1 (X − µ)  = Jd+1Jd−1− J2 d Jd−1 = eσ2. (5.2.18) Démonstration. La démonstration du théorème est immédiate en utilisant la décomposition X = µ + Σ1/2W U où W est une variable aléatoire réelle indépendante de U uniformément distribuée sur la sphère unité de Rd. De plus, on a kUk = 1, E [U] = 0 et Var [U] = d−1Id et on en déduit que E[X] = µ et Var [X] = d−1E

W2

Σ = d−1Σ.

On conclut en rappelant que pour tout q ≥ 0, E [Wq] = Jd+q−1Jd−1−1. Posons ξ = q (X− µ)TΣ−1 (X− µ). Alors ξ = (EW2 )−1/2W et on en déduit que Var q (X− µ)T Σ−1 (X− µ)  = E ξ2 − (E [ξ])2= 1−(E [W ]) 2 E[W2] , ce qui termine la preuve du théorème.

Remarque 5.2.1. Les résultats du théorème sont formulés pour toute dimension d ≥ 2 et pour toutes valeurs de σ. Dans le cas particulier où d = 3 et σ suffisamment faible, on peut effectuer les approximations (voir Annexe A) suivantes : J2 = C 1 + σ2

, J3 = C 1 + 3σ2 et J4 = C 1 + 6σ2+ 3σ4 avecC = σ√ 2π. Par conséquent, on aΣ= (1+6σ2+3σ4) (1+σ2)−1Σ et ˜σ2= (1+3σ4) (1+7σ2+9σ4+3σ6)−1σ2. Finalement, commeσ est supposé suffisamment petit, on a Σ≃ Σ et ˜σ2 ≃ σ2.

Théorème 5.2.2. Soit X un vecteur aléatoire d-dimensionnel défini comme dans le Théorème 5.2.1. Si on pose X = X− q (X− µ) (X− µ)TΣ−1(X− µ) , (5.2.19) alors E[X] = µ et Var (X) = Jd+1− 2 Jd+ Jd−1 d Jd−1 Σ. (5.2.20)

CHAPITRE 5. MODÈLE DE MÉLANGE ELLIPSOÏDAL 142

Démonstration. La démonstration est basée sur la décomposition X = µ + Σ1/2W U . On peut alors écrire X = µ + Σ1/2U (W − 1). Puisque les variables W et U sont indépendantes, et comme E[U ] = 0, on conclut que E [X] = µ.

Ce premier résultat permet de calculer la variance : Var [X] = Eh

(X− µ) (X− µ)Ti. Étant donné que les variables W et U sont indépendantes et que Var [U] = d−1Id, on obtient Var [X] = d−1E

(W − 1)2

Σ. Le résultat du théorème vient ensuite en remarquant que E [Wq] = Jd+q−1Jd−1−1 . Remarque 5.2.2. La variable aléatoire Xpeut s’écrire plus généralement en introduisant un para-mètreΛ∈ Rd×d

X = X−q X− µ

(X− µ)TΛ−1(X − µ) .

Il est clair que E[X] = µ n’est pas vérifié pour toute matrice Λ−1puisque l’on a E[X] = µ− Σ

1/2U √

UTΣ1/2Λ−1Σ1/2U.

Toutefois, si on poseΛ−1 = c Σ−1 avecc > 0, alors on retrouve la propriété E [X] = µ. Cette remarque est vraie en particulier pourΣ−1

= Jd−1Jd+1−1 Σ−1. Cette observation sera utile lors de l’étude du comportement des estimateurs des paramètres du modèle.

Enfin, on montre facilement quekVar[X]k < kVar [X]k en remarquant que Jd> Jd−1.

Les résultat des Théorèmes 5.2.1 et 5.2.2 et des Remarques 5.2.1 et 5.2.2 seront particulièrement utiles lors de l’estimation des paramètres de la distribution à partir d’un échantillon.

5.2.3 Modèle de mélange

Nous introduisons maintenant le modèle de mélange que nous considérerons pour modéliser les nuages de points 3D. Les modèles de mélange ont été brièvement présentés au Chapitre 3 section 3.3.3. La densité de probabilité du mélange à K composantes considéré est de la forme

h (x| Θ) =

K

X

k=1

πkf (x| θk) (5.2.21) où les πk sont les proportions du mélange telles que πk ≥ 0, 1 ≤ k ≤ K et PKk=1πk = 1 et où Θ = (π1, . . . , πK, θ1, . . . , θK) est le vecteur contenant tous les paramètres du modèle. Comme nous souhaitons modéliser un nuage de points 3D par des ellipsoïdes, la densité f décrivant chaque composante est choisie comme étant la nouvelle densité ellipsoïdale définie en (5.2.4) avec d = 3. Dans ce cas, le vecteur de paramètres caractérisant la composante k et contenant les paramètres de l’ellipsoïde s’écrit θk = µk, Σk, σk2

et la densité est de la forme

f (x| θk) = 1 2(2π)3/2 | Σk |1/2σk(1 + σ2 k) exp ! − 12 k q (x− µk)T Σ−1k (x− µk)− 1 2" . (5.2.22)

143 5.3. ESTIMATION DES PARAMÈTRES DU MODÈLE

5.3 Estimation des paramètres du modèle

Dans cette section, nous nous intéressons à l’estimation des paramètres inconnus du modèle de mélange introduit en section 5.2.3 dans le cas de la dimension d = 3. Le modèle à une seule compo-sante est d’abord traité en section 5.3.1. L’estimation du modèle à plusieurs compocompo-santes est ensuite considéré en section 5.3.2.