Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Analyse discriminante linéaire de données mixtes

Dans le document Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque (Page 85-89)

Lorsqu’on effectue une analyse discriminante linéaire de données mixtes obtenues à partir

d’observations de caractères quantitatifs ou qualitatifs, une méthode classique est :

1. d’effectuer une analyse factorielle préliminaire selon la nature des données, comme une

analyse en composantes principales (ACP) pour des données continues, une analyse

factorielle des correspondances multiples (AFCM) [36] pour des données catégorielles,

une analyse canonique généralisé (ACG) [10] ou une analyse factorielle multiple

(AFM) [21] pour des groupes de variables, une analyse factorielle de données mixtes

(AFDM) [46], ...

2. après avoir défini une distance adéquate, de réaliser ensuite l’analyse discriminante à

partir des facteurs obtenus, qui sont non corrélés.

Nous citerons la méthode DISQUAL (DIScrimination sur variables QUALitatives) de

Saporta [61], dont le principe est d’effectuer une AFCM, puis d’appliquer une LDA ou une

QDA sur les facteurs de l’AFCM.

Nous établissons que dans l’analyse factorielle discriminante linéaire avec la métrique de

Mahalanobis, ceci n’est pas nécessaire et que l’on peut faire l’analyse directement à partir du

tableau des valeurs des caractères quantitatifs et des indicatrices de modalités des caractères

qualitatifs.

Soit I ={1,2, ..., n} un ensemble de n individus, répartis en q classes disjointes I₁, ..., I_q. On

note n_k= #I_k, p_ki le poids du ieindividu de la classe I_k (i= 1, ..., n_k;k= 1, ..., q) et P_k le

poids de la classe Ik.

On a observé sur ces n individus pcaractères quantitatifs ou indicatrices de modalités de

caractères qualitatifs, notés x¹, ..., x^p, tels qu’il n’existe pas de relation affine entre eux. Ainsi,

pour chaque caractère qualitatif, on enlève une indicatrice de modalité pour que cette

condition soit satisfaite. Pour j = 1, ..., p, on note x^j_ki la valeur de x^j pour le ie individu de la

classe I_k. On note x_ki le vecteur (x¹_ki...x^p_ki)⁰. On note g_k le barycentre des x_ki, pour i∈I_k :

g_k = ¹

P_k

X

i∈I

_k

p_kix_ki.

Soit W la matrice (p, p) d’inertie intra, que l’on suppose de plein rang :

W =

q

X

k=1

n

_k

X

i=1

p_ki(x_ki−g_k) (x_ki−g_k)⁰.

La distance de Mahalanobis couramment utilisée en analyse discriminante linéaire d_W

−1

(a, b)

entre deux points a etb de_R^p est telle que :

d²_W

−1

(a, b) = (a−b)⁰W⁻¹(a−b).

Le principe de la LDA est d’affecter un individu pour lequel on a obtenu le vecteur de mesures

a à la classe I_k dont il est le plus proche, c’est à dire telle que d²_W

−1

(a, g_k) soit minimal.

Définissons maintenant de nouveaux caractères y¹, ..., y^m combinaisons affines de x¹, ..., x^p,

avec m≥p, tel que :

yki = Axki+β,

avec y_ki = (y_ki¹...y^m_ki)⁰, A étant une matrice (m, p) de rang p etβ un vecteur de _Rm.

Déterminons le barycentre h_k des y_ki dans _R^m pour i∈I_k :

h_k = ¹

P_k

X

i∈I

_k

p_kiy_ki = ¹

P_k

X

i∈I

_k

p_ki(Ax_ki+β) =Ag_k+β,

y_ki−h_k = A(x_ki−g_k).

Soit Z la matrice de covariance intra des y_ki, de dimension (m, m) :

Z =

q

X

k=1

X

i∈I

_k

p_ki(y_ki−h_k) (y_ki−h_k)⁰ =AW A⁰.

Le rang de Z est égal au rang de A, p≤m. Pourm > p, la matrice Z de taille (m, m) n’est

pas inversible. Dans le cas m > p, nous allons utiliser la pseudo-inverse de Z, notée Z+, qui

est égale à l’inverse de Z lorsque m =p, pour définir la pseudo-distance de Mahalanobis notée

d_Z

+

dans _Rm. On dit pseudo-distance carZ+ de rangp < m n’est pas définie positive.

Rappelons la définition de la pseudo-inverse.

Définition de la pseudo-inverse

Soit A une matrice de dimension (k, l) et de rang r. On appelle pseudo-inverse de A l’unique

matrice A+ de dimension (l, k) vérifiant les conditions suivantes :

• AA+A=A

• A+AA+ =A+

• (AA⁺)0 =AA⁺

• (A+A)⁰ =A+A

Nous avons les deux théorèmes suivants [57] :

Soit A une matrice (k, l) de rang r, alors il existe deux matrices F de dimension (k, r) et G de

dimension (r, l) de plein rang (rg(F) =rg(G) =r) telles que :

A = F G.

Théorème 2 : Expression de A+

Soit A =F G une décomposition de rang maximal de la matrice A, alors :

A⁺ = G⁰(F⁰AG⁰)⁻¹F⁰.

On établit maintenant le résultat suivant :

Proposition 1.

d²_Z₊(Aa+β, Ab+β) = d²_W

−1

(a, b).

Démonstration. On a Z = (AW)A⁰, AW et A⁰ étant de rang maximalp. Donc d’après le

théorème énoncé précédemment :

Z⁺ = (A⁰)⁰((AW)⁰AW A⁰(A⁰)⁰)⁻¹(AW)⁰

= A(A⁰A)⁻¹((AW)⁰AW)⁻¹(AW)⁰

= A(A⁰A)⁻¹(W A⁰AW)⁻¹(AW)⁰

= A(A⁰A)⁻¹W⁻¹(A⁰A)⁻¹A⁰.

Notons que lorsque m=p, A est inversible et Z⁺= (A⁰)⁻¹W⁻¹A⁻¹ = (AW A⁰)⁻¹ =Z⁻¹.

De façon générale :

A⁰Z⁺A = W⁻¹

et

d²_Z

+

(Aa+β, Ab+β) = (A(a−b))⁰Z⁺(A(a−b)) = (a−b)⁰W⁻¹(a−b).

On en déduit la proposition suivante :

Proposition 2. Soit, pourk = 1, ..., q, i= 1, ..., n_k, y_ki =Ax_ki+β, A étant une matrice

(m, p) de rang p , m > p. Les résultats de la LDA des données (x_ki) avec la métrique de

Mahalanobis W⁻1 dans _Rp sont les mêmes que ceux de la LDA des données (y_ki) avec la

pseudo-métrique de Mahalanobis Z+ = (AW A⁰)⁺.

1. Si l’on dispose du tableau des mesures de p caractères quantitatifs sur les individus de

I, effectuer la LDA à partir de ce tableau de données est équivalent à effectuer la LDA

sur le tableau des valeurs des p facteurs issus d’une analyse en composantes principales

(comme l’ACP normée, l’analyse canonique généralisée ou l’analyse factorielle

multiple), car les facteurs de l’ACP sont des combinaisons linéaires des caractères

centrés.

2. Si l’on dispose du tableau disjonctif complet des valeurs des indicatrices de variables

qualitatives observées sur les individus deI, effectuer la LDA sur le tableau des valeurs

de l’ensemble des facteurs d’une analyse factorielle des correspondances multiples est

équivalent à effectuer la LDA à partir du tableau de données en utilisant la

pseudo-inverse de W.

Remarquons que dans ce cas, la matrice W n’est pas inversible car il existe une

relation affine entre les indicatrices d’une même caractère et on doit alors utiliser la

pseudo-inverse de W. On peut aussi supprimer une des indicatrices pour chacun des

caractères et utiliser alors l’inverse deW.

3. Dans le cas d’un tableau de données mixtes, si l’on a observép₁ caractères quantitatifs

t1, ..., t^p

1

et q caractères qualitatifs z1, ..., z^q avec au total p₂ indicatrices de modalités

z11, ..., zqm

q

avecp₁+p₂ =p, une solution est de faire une analyse factorielle de

données mixtes (AFDM) [46], qui est une ACP dans _Rp muni de la métrique M définie

de la façon suivante :































1

s

2 t¹

. ..

1

s

2 t¹

1

f

11

. ..

1

f

qmq































oùs2

t

j

est la variance du caractère tj etfkl la fréquence de la le modalité du caractère

zk, et de prendre pour ensemble de caractères discriminants dans la LDA l’ensemble

des facteurs de cette ACP. Ceci revient à faire la LDA directement sur l’ensemble des

caractères et des indicatrices de modalités des caractères.

On peut aussi utiliser d’autres métriques définies pour traiter des données mixtes comme celle

de Friedman [23] ou celle de Gower [25].

Dans le document Aide à la décision médicale et télémédecine dans le suivi de l’insuffisance cardiaque (Page 85-89)

Télécharger maintenant "Aide à la décision méd..."

Outline

Documents relatifs