• Aucun résultat trouvé

Analyse en composantes principales de variables symboliques de type histogramme

N/A
N/A
Protected

Academic year: 2021

Partager "Analyse en composantes principales de variables symboliques de type histogramme"

Copied!
302
0
0

Texte intégral

(1)

UNIVERSITÉ PARIS DAUPHINE

ÉCOLE DOCTORALE EDDIMO

Ecole Doctorale Décision, Informatique, Mathématiques, Organisation

T H È S E

pour obtenir le titre de

Docteur en Sciences

de l'Université PARIS DAUPHINE

Mention : Informatique-Analyse des Données

Présentée et soutenue par

Sun MAKOSSO KALLYTH

Analyse en Composantes

Principales de variables

symboliques de type histogramme

Thèse dirigée par le Pr. Edwin DIDAY

préparée à l'Université PARIS DAUPHINE -CEREMADE

14 Décembre 2010

Jury :

Pr. Pierre CAZES - Université Paris Dauphine Pr. Edwin DIDAY - Université Paris Dauphine Pr. Ludovic LEBART - Telecom-Paris Tech

Pr. Monique NOIRHOMME - Université de Namur Rapporteurs : Pr. Lynne BILLARD - University of Georgia

(2)
(3)

L'Université n'entend donner aucune approbation ni improbation aux opinions émises dans les thèses : ces opinions doivent être considérées comme propres à leurs auteurs.

(4)
(5)

Remerciements

Je tiens à remercier le Professeur Edwin Diday pour m'avoir accueilli, après mon Master, dans son équipe de recherche, pour m'avoir coné ce sujet et aussi pour sa disponibilité, ses remarques ainsi que pour toutes ses contributions et conseils dans le cadre de cette thèse.

Je remercie le Professeur Pierre Cazes pour ses relectures minutieuses, sa disponibilité, ses conseils, ses contributions. Je le remercie également pour toutes les remarques eectuées tout au long des diérents entretiens que nous avons eus durant ces trois dernières années dans son bureau à Dauphine.

Je suis très honoré de la présence à mon jury de thèse et je tiens à remer-cier :

La Professeure Lynne Billard, Professeure à l'Université de Georgie aux USA, pour sa participation à mon jury de thèse en qualité de rapporteur, pour le temps qu'elle a consacré à la lecture de cette thèse et pour toutes les remarques intéressantes qu'elle m'a faites. Je tiens également à l'assurer de ma profonde reconnaissance pour l'intérêt qu'elle porte à ce travail.

Le Professeur Gilbert Saporta, Professeur au Conservatoire National des Arts et Métiers (CNAM), pour sa participation à mon jury de thèse en qualité de rapporteur, pour le temps consacré à la lecture de cette thèse, pour les suggestions et les remarques judicieuses qu'il m'a indiquées. Je tiens à l'assurer de ma profonde reconnaissance.

Le Professeur Ludovic Lebart, Professeur à Telecom-Paris Tech, pour l'hon-neur qu'il me fait en qualité de membre de mon jury de thèse. Je tiens à l'assurer de ma profonde reconnaissance pour l'intérêt et le temps consacrés à la lecture de cette thèse.

La Professeure Monique Noirhomme-Fraiture, Professeure à l'Université de Namur, pour l'honneur qu'elle me fait en qualité de membre de mon jury de thèse. Je tiens à l'assurer de ma profonde reconnaissance pour l'intérêt et le temps qu'elle a consacrées à la lecture de cette thèse.

Je remercie l'Université Paris Dauphine, Mme Bazgan, l'école doctorale ED-DIMO, le CEREMADE, Mme Claudine Dhuin, le corps professoral, les secrétaires pour l'aide apportée et les précieuses connaissances qui m'ont été transmises tout au long des années passées en France.

(6)

leur soutien.

Je remercie enn Tatala Robert, Foa Ndengue, Malonga Hypolyte, Ngoubeli Joseph, Taty Ngabele Madeleine, Oba Ayina, Aya, Ma Kallyth, Makosso Mavioka, Ya Léthitia, Lydia, Deshis, Cynthia, Cathie, Tchicaya Serge, Samba David, Mantsounga Moulary, Soami Gomez-Gnali, Igor, Olivienne, Senga Kiesse, Ampion Didier, Mialoundama Mbitsi, Backoulas Poaty, l'institut Biyoudi, l'EED et l'UCAD de Dakar, le Congo mon Pays et tous ceux qui m'ont soutenu.

(7)

Table des matières

1 Etat de l'art. 5

1.1 De l'ACP classique à l'ACP de données complexes. . . 6

1.2 Présentation de l'ACP . . . 11

1.2.1 Formulation mathématique . . . 11

1.2.2 Forme des composantes principales . . . 11

1.2.2.1 Formalisme classique algébrique de L'ACP . . . 12

1.2.2.2 Formalisme classique géométrique de L'ACP . . . . 14

1.2.2.3 ACP et Théorème de Eckart et Young. . . 15

1.2.3 Histoire de l'Analyse en Composantes Principales . . . 16

1.3 Type de données traitées et dicultés inhérentes au problème posé. 17 1.4 Motivations de la généralisation de l'ACP à des données complexes 18 1.4.1 Point de vue de l'analyse des données structurées. . . 19

1.4.1.1 Aperçu de quelques méthodes envisageables en ana-lyse des données structurées. . . 19

1.4.1.2 Cas particulier des données cubiques . . . 20

1.4.2 Point de vue de l'Analyse des Données Symboliques. . . 23

1.4.2.1 ACP symbolique des données de type intervalle. . . 23

1.4.2.2 ACP de variables symboliques de type histogramme. 27 1.4.3 Synthèse des extensions de l'ACP. . . 29

2 Méthode I : ACP des variables de type histogramme associées au rang des modalités. 31 2.1 De l'ACP de Nagabhushan et Kumar (2007) à l'ACP des variables de type histogramme associées au rang des modalités. . . 33

2.2 Principe de l'ACP des variables de type histogramme associées au rang des modalités. . . 38

2.2.1 Etapes de l'ACP des variables de type histogramme associées au rang des modalités. . . 38

2.2.2 Outils pour les cartes de corrélations de l'ACP des variables de type histogramme associées au rang des modalités. . . 39

2.2.2.1 Somme pondérée des coecients de corrélations. . 39

2.2.2.2 Somme pondérée des carrés des corrélations. . . 39

2.2.2.3 Le RV de Escouer (1973). . . 40

2.2.3 Calcul des contributions individus. . . 41

2.2.3.1 Contribution relative des individus. . . 41

2.2.3.2 Contribution absolue des individus . . . 42

2.2.4 Inertie des composantes principales généralisées et pourcen-tage de variabilité. . . 42

(8)

2.2.5 Outils de l'ACP des variables de type histogramme associées au rang des modalités pour la visualisation des individus sur

les plans. . . 43

2.2.5.1 L'Analyse procustéenne. . . 43

2.2.5.2 ACP des variables de type histogramme associées au rang des modalités : recherche d'un système d'axe principal. . . 45

2.2.6 Présentation de la procédure informatique HPCA1 écrite en langage R. . . 46

2.2.6.1 Exemple d'application de l'ACP des variables de type histogramme associées au rang des modalités. . 47

2.3 Apport de l'ACP des variables de type histogramme associées au rang des modalités. . . 51

3 Méthode II : ACP d'histogrammes basée sur le produit scalaire. 53 3.1 Principe de l'ACP de variables de type histogramme basée sur le produit scalaire.. . . 55

3.1.1 Etapes de l'ACP de variables de type histogramme basée sur le produit scalaire. . . 55

3.1.2 Produit scalaire et produit matriciel. . . 57

3.1.2.1 Produit scalaire de deux histogrammes. . . 57

3.1.2.2 Calcul matriciel.. . . 57

3.1.2.3 Produit scalaire de deux variables de type histo-gramme. . . 58

3.1.3 Formulation de la méthode II basée sur le produit scalaire. . 59

3.1.3.1 Covariance de deux variables de type histogramme Yj et Yj0. . . 59

3.1.3.2 Détermination des composantes principales généra-lisées Zα. . . 60

3.1.3.3 Pourcentage de variabilité des valeurs propres. . . . 60

3.1.4 Exemple sur les données Cancer. . . 61

3.1.5 Sorties de l'ACP de variables de type histogramme basée sur le produit scalaire. . . 61

3.1.5.1 Visualisation des coordonnées des projections des modalités des individus. . . 62

3.1.5.2 Carte des corrélations. . . 62

3.2 Présentation de la procédure informatique HPCA2 écrite en langage R. 64 3.3 Apport de l'ACP de variable de type histogramme basée sur le produit scalaire et perspectives. . . 65

4 Méthode III : ACP d'histogrammes à partir de transformations normalisatrices. 67 4.1 Principe de l'ACP d'histogrammes à partir de transformations nor-malisatrices. . . 69

(9)

Table des matières vii

4.2 Formulation de l'ACP d'histogrammes à partir de transformations

normalisatrices. . . 70

4.2.1 Opérateur ⊗2 produit. . . 70

4.2.2 Problèmes posés par la contrainte unitaire. . . 73

4.2.2.1 Problèmes de courbures. . . 73

4.2.2.2 Problèmes posés par la contrainte unitaire . . . 74

4.2.2.3 Le problème du biais négatif . . . 75

4.2.3 Résolutions des problèmes inhérents aux données composi-tionnelles par le choix d'une transformation. . . 77

4.2.3.1 Transformation angulaire ou Arcsinus . . . 77

4.2.3.2 Transformation racine carrée : . . . 80

4.2.3.3 Transformations logarithmiques. . . 80

4.2.4 Détermination des axes principaux et composantes principales généralisées de l'ACP d'histogrammes à partir de transforma-tions normalisatrices. . . 82

4.2.4.1 Moyenne et covariance empirique. . . 82

4.2.5 Composantes principales, Outils numériques et graphiques. . 84

4.2.5.1 Composantes principales. . . 84

4.2.5.2 Outils numériques. . . 84

4.3 Présentation de la procédure informatique HPCA3 . . . 85

4.4 Exemple d'application de l'ACP d'histogrammes à partir de transfor-mations normalisatrices. . . 86

4.5 Méthode basée sur l'ACP du tableau des moyennes géométriques. . . 89

4.5.1 Application de l'approche des moyennes géométriques aux données Cancer. . . 90

4.5.2 Limites de l'approche basée sur les moyennes géométriques. . 90

4.6 Apport de l'ACP d'histogrammes à partir de transformations norma-lisatrices . . . 91

5 Méthode IV : ACP d'histogrammes basée sur les moyennes des variables. 93 5.1 Principes de la méthode basée sur l'ACP des moyennes des variables. 97 5.1.1 Etapes de la méthode basée sur l'ACP des moyennes des va-riables.. . . 97

5.1.2 Codage des modalité des variables de type histogramme. . . 99

5.1.2.1 Codage paramétrique des modalités des variables. . 99

5.1.2.2 Codage non paramétrique des modalités des variables. 99 5.1.3 ACP des centres. . . 100

5.1.4 Représentation de la variabilité des individus . . . 102

5.1.4.1 Utilisation des hypercubes d'intervalles. . . 102

5.1.4.2 Utilisation des longueurs d'intervalles. . . 105

5.1.4.3 Utilisation des quantiles. . . 106

5.1.4.4 Signication des axes. . . 108

(10)

5.1.6 Présentation de la procédure informatique HPCA4 . . . 109

5.1.7 Application de la méthode IV sur les données Cancer de la

table 5.4. . . 110

5.1.7.1 Application de la méthode IV avec utilisation des

hypercubes. . . 110

5.1.7.2 Application de la méthode IV avec utilisation des

longueurs d'intervalles. . . 112

5.1.7.3 Application de la méthode IV avec utilisation des

quantiles. . . 113

5.2 Comparaison des deux variantes de la méthode IV avec et sans

trans-formation angulaire à partir des données TGV. . . 114

5.2.1 Utilisation des hypercubes dans la méthode IV. . . 114

5.2.1.1 Utilisation des hypercubes sans transformation

an-gulaire. . . 115

5.2.1.2 Utilisation des hypercubes avec transformation

an-gulaire. . . 116

5.2.2 Utilisation des longeurs d'intervalles dans la méthode IV. . . 117

5.2.2.1 Utilisation des longeurs d'intervalles sans

transfor-mation angulaire. . . 117

5.2.2.2 Utilisation des longeurs d'intervalles avec

transfor-mation angulaire. . . 119

5.2.3 Utilisation des quantiles dans la méthode IV. . . 120

5.2.3.1 Utilisation des quantiles sans transformation angulaire.120

5.2.3.2 Utilisation des quantiles avec transformation angulaire.122

5.3 Apport de la méthode IV. . . 123

6 Méthode V : ACP d'histogrammes à partir des min et des max

d'intervalles. 125

6.1 Principes de l'ACP d'histogrammes à partir des min et des max

d'in-tervalles. . . 128

6.1.1 Etapes de l'ACP d'histogrammes à partir des min et des max

d'intervalles. . . 128

6.1.2 Etapes préliminaires . . . 129

6.1.3 Calcul de la matrice de covariance W induite par ⊗2 . . . 130

6.1.4 Détermination des composantes principales de type intervalle 131

6.1.4.1 Composantes principales généralisées. . . 131

6.1.5 Statistiques descriptives de variables de type intervalle. . . 131

6.1.5.1 Opérateur produit ⊗3 de deux variables de type

in-tervalle. . . 131

6.1.5.2 Moyenne, variance, covariance et corrélation de

va-riable de type intervalle. . . 133

6.1.5.3 Dénition d'une nouvelle corrélation entre deux

(11)

Table des matières ix

6.1.5.4 Exemple de calcul de corrélation de deux variables

de type intervalle. . . 136

6.1.6 Outils numériques et graphiques de la méthode des min et max.136

6.1.6.1 Visualisation des individus. . . 136

6.1.6.2 Visualisation des variables. . . 136

6.1.7 Présentation de la procédure informatique HPCA5 . . . 137

6.2 Application de l'ACP d'histogrammes à partir des min et des max

d'intervalles.. . . 138

6.2.1 Application de la méthode V aux données Cancer. . . 138

6.2.2 Comparaison des variantes de l'ACP d'histogrammes à partir

des min et des max d'intervalles. . . 139

6.2.2.1 Application de la méthode V avec une

transforma-tion logarithmique.. . . 139

6.2.2.2 Application de la méthode V avec la transformation

angulaire . . . 140

6.2.2.3 Application de la méthode V avec la transformation

racine carrée. . . 141

6.3 Apport de l'ACP d'histogrammes à partir des min et des max

d'in-tervalles. . . 142

7 Comparaison des méthodes proposées. 145

7.1 Application de l'ACP des variables de type histogramme associées au

rang des modalités. . . 146

7.2 Application de l'ACP de variable de type histogramme basée sur le

produit scalaire.. . . 150

7.3 Application de l'ACP d'histogrammes à partir de transformations

normalisatrices. . . 152

7.4 Application de la méthode basée sur l'ACP des moyennes des variables.154

7.4.1 Utilisation des hypercubes d'intervalles pour la représentation

de la dispersion. . . 154

7.4.2 Utilisation des longueurs d'intervalles pour la représentation

de la dispersion. . . 159

7.4.3 Utilisation des quantiles pour la représentation de la dispersion.161

7.5 Application de l'ACP d'histogrammes à partir des min et des max

d'intervalles.. . . 163

7.6 Synthèse. . . 166

8 Comparaison des méthodes proposées avec les méthodes STATIS,

AFM, ACOM, m-quantiles, . . . . 167

8.1 Comparaison théorique des méthodes. . . 169

8.1.1 Choix d'un système d'axes de référence par l'ACP des va-riables de type histogramme associées au rang des modalités et comparaison avec les méthodes de Bouroche, STATIS, l'AFM,

(12)

8.1.1.1 Choix d'un système d'axes optimal parmi les m sys-tèmes d'axes principaux de la méthode de

Nagabhu-shan et Kumar (2007). . . 169

8.1.1.2 Approches de Bouroche (1975) et Dazy et Le Barzic

(1996). . . 170

8.1.1.3 Cas de l'AFM, STATIS et l'ACCPS. . . 170

8.1.1.4 Système d'axes proposé dans l'ACP des variables de

type histogramme associées au rang des modalités. . 172

8.1.2 Visualisation des individus et des variables par l'ACP d'histo-grammes basée sur le produit scalaire et les méthodes STATIS,

AFM, ACOM. . . 173

8.1.2.1 Visualisation des individus proposé par l'ACP

d'his-togrammes basée sur le produit scalaire. . . 173

8.1.2.2 Visualisation des individus par STATIS et l'AFM. . 173

8.1.2.3 Visualisation des variables par la méthode STATIS. 174

8.1.2.4 Comparaison des visualisations de l'ACP

d'histo-grammes basée sur le produit scalaire et de l'ACOM. 175

8.1.3 Comparaison de l'ACP d'histogrammes à partir de

transfor-mations normalisatrices avec quelques méthodes classiques. . 177

8.1.4 Comparaison de la méthode IV avec les méthodes des

m-quantiles, de Rodriguez et al. (2001), STATIS, ACOM, AFM. 178

8.1.4.1 Utilisation des hypercubes pour la visualisation des individus et comparaison avec les méthodes STATIS,

ACOM, AFM. . . 178

8.1.4.2 Utilisation des longueurs d'intervalles pour la visua-lisation des individus et comparaison avec les

mé-thodes STATIS, ACOM, AFM. . . 178

8.1.4.3 Utilisation des quantiles pour la visualisation des

in-dividus dans la méthode IV. . . 179

8.1.5 Comparaison de l'ACP d'histogrammes à partir des min et

des max d'intervalles avec les méthodes STATIS, ACOM, AFM.182

8.2 Comparaison à partir des données de la Banque Mondiale . . . 183

8.2.1 Application de STATIS aux données de la Banque Mondiale . 183

8.2.2 Application de l'AFM aux données de la Banque Mondiale. . 189

8.2.3 Application de l'ACOM aux données de la Banque Mondiale 192

8.2.4 Application de la méthode des m-quantiles aux données de la

Banque Mondiale . . . 193

8.2.5 Application de la méthode de Rodriguez et al. (2001) aux

données de la Banque Mondiale . . . 195

8.3 Constat . . . 199

(13)

Table des matières xi

9 Annexe 1 213

9.1 Glossaire de notations . . . 213

9.2 Environnement de travail et exemples d'exécution des programmes. . 216

9.2.1 Importation des chiers et chargement des procédures. . . . 216

9.2.2 Exemple d'éxecution des programmes. . . 218

9.2.3 Premier type de syntaxe . . . 218

9.2.3.1 Procédures HPCA1 et HPCA2 . . . 218

9.2.3.2 Procédure HPCA3. . . 219

9.2.3.3 Procédure HPCA5. . . 220

9.2.4 Deuxième type de syntaxe : HPCA4 . . . 220

9.2.4.1 Utilisation des hypercubes . . . 220

9.2.4.2 Utilisation des longueurs des intervalles. . . 221

9.2.4.3 Utilisation des quantiles. . . 221

9.3 Tables contenant les données de la Banque Mondiale et quelques sor-ties numériques.. . . 222

10 Annexe 2 231 10.1 Utilisation des IRIS de Fisher pour la comparaison. . . 231

10.1.1 Comparaison de l'ACP des variables de type histogramme associées au rang des modalités avec les méthodes STATIS, l'AFM, l'ACOM, la méthode des m-quantiles. . . 231

10.1.1.1 Application de la méthode STATIS aux IRIS de Fisher.231 10.1.1.2 Application de l'Analyse Factorielle Multiple. . . 234

10.1.1.3 Application de l'analyse des co-inerties multiples (ACOM). . . 236

10.1.1.4 ACP de variables symboliques de type histogramme de Rodriguez et al. (2001) . . . 238

10.1.1.5 ACP des m-quantiles de Ichino (2008).. . . 241

10.1.1.6 Application de l'ACP des variables de type histo-gramme associées au rang des modalités aux Iris de Fisher. . . 243

10.1.2 Comparaison de la méthode II basée sur le produit scalaire avec les méthodes m-quantiles, STATIS, l'AFM, l'ACOM. . . 248

10.1.3 Comparaison de la méthode IV avec les méthodes STATIS, AFM, ACOM et des m-quantiles. . . 250

10.1.3.1 Utilisation des hypercubes. . . 250

10.1.3.2 Utilisation des longueurs d'intervalles et comparai-son avec la méthode STATIS. . . 255

10.1.3.3 Utilisation des quantiles et comparaison avec les mé-thodes de Ichino (2008), STATIS et l'ACOM. . . 256

10.1.4 Comparaison de l'ACP d'histogrammes à partir des min et des maxd'intervalles avec les méthodes des m-quantiles, STATIS, l'AFM. . . 260

(14)
(15)

Introduction

Dans cette thèse nous étendons l'Analyse en Composantes Principales à des variables symboliques de type histogramme. Les histogrammes mettent approxima-tivement en évidence la distribution des données. En pratique on dispose de plus en plus de données gigantesques observées sur des entités munies de variation interne décrites par des variables de type histogramme. La nécessité de mettre en oeuvre des méthodes d'analyse en axes principaux à ce type de données s'impose. Un des dés de ces méthodes en axes principaux est la recherche d'un bon compromis entre la réduction de la taille des données et le gain en interprétation. En mettant en oeuvre une ACP sur des histogrammes, le bénéce majeur qui peut en découler est la possibilité de bien ressortir les principales tendances exprimées par les données avec un nombre restreint de variables. L'originalité du travail eectué réside dans le fait de pouvoir traiter la problématique de l'extension de l'ACP des variables de type histogramme en prenant en compte la contrainte unité sur les fréquences relatives selon laquelle la somme des fréquences relatives est égale à un. En outre, dans les deux dernières méthodes proposées, aucune hypo-thèse sur le nombre des modalités des variables de type histogramme n'est eectuée. Cette thèse compte huit chapitres. Le premier chapitre est un état de l'art du sujet.

Le second chapitre présente la méthode I. Il s'agit de l'ACP des variables de type histogramme associées au rang des modalités. Elle enrichit l'approche de Nagabhushan et Kumar (2007) en apportant des outils graphiques et numériques. La méthode présentée par Nagabhushan et Kumar (2007) porte sur des données cubiques car elle nécessite que le nombre de modalités (nombre de classes d'un histogramme) des variables de type histogramme soit le même. Elle étale d'abord le cube induit par les données. Cela permet d'ériger une séquence de tableaux

H(k), k=1,...,m de taille n × p (n est le nombre d'individus, p celui des variables).

L'approche de Nagabhushan et Kumar (2007) eectue m ACP des tableaux

H(k), k=1,...,m. Les α premières composantes principales s'obtiennent en faisant

une juxtaposition des m α premières composantes principales ordinaires des m ACP. Les outils numériques proposés dans le cadre de la méthode I sont la somme pondérée des coecients des corrélations, la somme pondérée des carrés des coecients de corrélation et le RV de Escouer (1973). Si on se donne par exemple deux matrices ayant le même nombre de lignes Y1 et Y2, le RV de Escouer entre

Y1 et Y2 est RV (Y1, Y2) =

T race(WY1WY2)

T race(WY1WY1)√T race(WY2WY2) où WY1 et WY2 sont

des matrices symétriques censées caractériser les matrices Y1 et Y2. Au niveau des

outils graphiques, le but recherché est la visualisation conjointe des m tableaux

H(k), k=1,...,m. On propose à cet eet deux visualisations possibles. La première

(16)

des tableaux. Le système d'axes de référence que l'on retient est le système d'axes principaux que l'on obtient quand on eectue l'ACP d'un tableau moyen. La seconde possibilité est l'analyse procustéenne.

Dans le chapitre 3 nous présentons la méthode II. Il s'agit de l'ACP de va-riables de type histogramme basée sur le produit scalaire. Un des inconvénients de l'ACP des variables de type histogramme associées au rang des modalités est la recherche d'un système d'axes de référence qui permettent d'analyser conjointement les tableaux H(k),

k=1,...,m. Pour ce faire, nous utilisons le produit scalaire dans

Rm. Le système d'axes de référence est alors le système d'axes que l'on obtient en diagonalisant la matrice de covariance induite par le produit scalaire. Les composantes principales extraites dans cette méthode s'obtiennent à travers le produit matriciel entre une matrice d'histogrammes de taille n × p et un vecteur de Rp. L'ACP d'histogrammes basée sur le produit scalaire permet d'obtenir

directement un système d'axes de référence. Les outils numériques et graphiques pour l'interprétation des sorties sont presque identiques de ceux développés dans la méthode I. Par contre, au niveau graphique, quelques dicultés liées à la lisibilité et l'interprétation des graphiques persistent. Enn, l'ACP d'histogrammes basée sur le produit scalaire comme l'ACP des variables de type histogramme associées au rang des modalités ne prennent pas en compte la contrainte unitaire des fréquences relatives (somme des fréquences égale à un).

Dans le quatrième chapitre nous présentons la méthode III. Il s'agit de l'ACP d'histogrammes à partir de transformations normalisatrices. L'objet de la méthode III est de venir à bout des dicultés que posent la contrainte unitaire. L'ACP d'histogrammes à partir de transformations normalisatrices suppose également que le nombre de modalités des variables est le même. Les fréquences relatives sont des données compositionnelles. Or Aitchison (1986) a décrit les dicultés que l'on rencontre souvent avec ces données. Il s'agit principalement de la corrélation fallacieuse, du biais négatif. A cela s'ajoute de possibles manque de normalité et de linéarité ainsi que l'instabilité de la variance. Le produit entre deux vecteurs x = (x(1), . . . , x(m)) et y = (y(1), . . . , y(m)) est x ⊗

2 y = Pmk2=1

Pm

k1=1x

(k1)y(k2).

L'usage de cet opérateur nécessite le recours préalable à des transformations normalisatrices. La détermination des axes principaux se fait à partir de la diagonalisation de la matrice de covariance induite par l'opérateur ⊗2. Les outils

graphiques et numériques sont les mêmes que ceux évoqués dans la méthode II. Bien que la méthode III permette de mettre en évidence la spécicité de la contrainte unité, les dicultés résident au niveau de l'interprétation graphique des sorties. L'ACP d'histogrammes à partir de transformations normalisatrices a également l'inconvénient de fournir des coecients d'interprétation des compo-santes principales positifs compris entre 0 et 1 (somme pondérées des carrés de corrélation, RV de Escouer (1973)). Pour venir à bout de cet inconvénient, une alternative consisterait à développer une approche basée sur l'ACP du tableau moyen obtenu à partir des moyennes géométriques et à projeter en

(17)

supplé-Table des matières 3 mentaire la matrice d'histogrammes sur les axes principaux de l'ACP classique du tableau des moyennes géométriques. Si cela permet de résoudre le problème de la signication des axes factoriels, nous montrons les limites d'une telle approche. Le chapitre 5 présente la méthode IV. Il s'agit de la méthode basée sur l'ACP des moyennes des variables. Dans cette méthode on s'aranchit des hypothèses sur le nombre de modalités des variables de type histogramme. La méthode IV compte deux variantes. La première étape de la première variante de la méthode IV est le codage des modalités des histogrammes. Ce codage consiste à attribuer aux modalités des valeurs numériques appelées scores. Pour ce faire, on propose un codage paramétrique et un codage non paramétrique basé sur les rangs. Ensuite on détermine une table n × p constituée par les moyennes des variables. Puis on eectue une ACP du tableau des moyennes. Pour représenter la variabilité des individus eu égard à leur nature symbolique, trois approches sont envisagées. Dans la première, on transforme les histogrammes en intervalles à partir de l'inégalité de Tchebychev. Puis on construit, comme dans Cazes et al.(1997), les hypercubes induits par les intervalles pour modéliser les individus. On projette ces hypercubes sur les axes principaux obtenus à travers l'ACP du tableau moyen. Ensuite sur chaque axe, on représente le segment joignant le minimum et le maximum des 2p

points projetés des hypercubes. Cela permet de représenter les individus sous la forme de rectangle.

Dans la seconde approche, on propose également la transformation des données en intervalles à partir de la règle de Tchebychev. Puis, on adopte une démarche analogue à celle eectuée par Cazes (2002) et Palumbo et Lauro (2003) qui consiste à déterminer les longueurs des intervalles. Ensuite on projette en supplémentaire les longueurs des intervalles obtenus à partir de l'inégalité de Tchebytchev. Les composantes principales de l'ACP des moyennes et les projections des longueurs d'intervalles sur les axes principaux de l'ACP des moyennes permettent de repré-senter les individus par des rectangles. Pour améliorer la qualité de la visualisation des individus sur les axes factoriels de l'ACP des moyennes, on propose une rotation des projections des longueurs d'intervalles sur les axes principaux des moyennes. Pour ce faire, on utilise l'analyse procustéenne.

Enn, dans la troisième approche, pour représenter la variabilité des données, on spécie, comme dans Ichino (2008), un nombre m de percentiles communs à toutes les variables de type histogramme en jeu. Puis on projette, en supplémentaire, la matrice {n × m} × p induite par les percentiles sur les axes factoriels. C'est ainsi qu'on représente sur les axes factoriels l'évolution de ces percentiles.

Dans la seconde variante de la méthode IV, en plus des considérations précédentes, on propose également le recours à la transformation angulaire sur les fréquences relatives en guise de prétraitement des données. Cela en vue de corriger l'instabilité de la variance due à la contrainte unité et donc de normaliser les données.

(18)

Le chapitre 6 présente la méthode V. Il s'agit de l'ACP d'histogrammes à partir des min et des max d'intervalles. L'ACP d'histogrammes à partir des min et des max d'intervalles eectue premièrement une transformation normalisatrice des données. Ici, nous faisons également abstraction des hypothèses sur le nombre de modalités des histogrammes. Ensuite, on utilise l'opérateur produit ⊗2, qui

à chaque vecteur x = (x(1), . . . , x(m1)) et y = (y(1), . . . , y(m2)), associe la valeur

x ⊗2y =Pmk21=1Pkm12=1x(k1)y(k2) comme opérateur produit. On détermine les axes

principaux de la matrice de covariance induite par le produit ⊗2. Pour représenter

la variabilité des individus, on transforme également les données en intervalle à partir de la règle de Tchebychev. Nous érigeons également un formalisme qui permet de projeter, en supplémentaire, la matrice 2n × p induite par les min puis les max des intervalles. Pour l'interprétation des axes, on propose également une mesure de la corrélation entre variables de type intervalle. Avec la méthode V, on parvient à mettre en oeuvre une méthode moins fastidieuse en terme de coût algorithmique que la méthode IV mais tout aussi intéressante.

Le chapitre 7 compare les cinq méthodes développées dans cette thèse. Nous utilisons pour ce faire les données de la Banque Mondiale publiées dans le site World Perspective.

Enn dans le chapitre 8, on eectue des comparaisons entre d'une part les méthodes I, II, III, IV et V proposées dans cette thèse et, de l'autre, quelques méthodes existantes telles que la Structuration des Tableaux À Trois Indices de la Statistique (STATIS cf. L'Hermier des plantes (1976), Lavit (1988)), l'Analyse de Co-inertie Multiple ACOM de Chessel et Hana (1996), l'Analyse en Composantes Communes et Poids Spéciques ACCPS de Hana et Qannari (2008), l'Analyse Factorielle Multiple AFM de Escoer et Pagès (1998), l'ACP d'histogrammes de Rodriguez et al. (2001) et la méthode des m-quantiles de Ichino (2008). Les comparaisons se font à partir d'un jeu de données de la Banque Mondiale.

(19)

Chapitre 1

Etat de l'art.

Sommaire

1.1 De l'ACP classique à l'ACP de données complexes. . . 6

1.2 Présentation de l'ACP . . . 11

1.2.1 Formulation mathématique . . . 11

1.2.2 Forme des composantes principales . . . 11

1.2.2.1 Formalisme classique algébrique de L'ACP . . . 12

1.2.2.2 Formalisme classique géométrique de L'ACP . . . . 14

1.2.2.3 ACP et Théorème de Eckart et Young. . . 15

1.2.3 Histoire de l'Analyse en Composantes Principales . . . 16

1.3 Type de données traitées et dicultés inhérentes au pro-blème posé. . . 17

1.4 Motivations de la généralisation de l'ACP à des données complexes . . . 18

1.4.1 Point de vue de l'analyse des données structurées. . . 19

1.4.1.1 Aperçu de quelques méthodes envisageables en ana-lyse des données structurées . . . 19

1.4.1.2 Cas particulier des données cubiques . . . 20

1.4.2 Point de vue de l'Analyse des Données Symboliques. . . 23

1.4.2.1 ACP symbolique des données de type intervalle. . . 23

1.4.2.2 ACP de variables symboliques de type histogramme. 27 1.4.3 Synthèse des extensions de l'ACP. . . 29

(20)

1.1 De l'ACP classique à l'ACP de données complexes.

Les progrès informatiques ont complètement révolutionné la collection des don-nées. Dans tous les grands domaines de l'activité humaine, on recueille maintenant des données en quantité souvent gigantesque et de toutes sortes (numériques, tex-tuelles, graphiques,. . . ). Les tableaux de données de très grandes dimensions sont de plus en plus courants et de plus en plus complexes, souvent dans des bases relation-nelles multi réparties, compte tenu de leur richesse et de la quantité considérable d'informations qu'elles contiennent. La complexité des données vient du fait qu'elles peuvent être incomplètes, imprécises, oues, structurées, séquentielles, textuelles, avoir une nature spatio-temporelle, se présenter sous la forme de trajectoires sym-boliques ou d'images. L'analyse des données symsym-boliques appréhende ecacement ces données car elle utilise des objets ayant un niveau de généralité plus élevé que ceux fréquemment utilisés en analyse des données classiques. Dans la pratique, pour extraire des connaissances à partir de ces données, on est souvent amené à réduire l'information en la résumant, pour au moins trois raisons :

 suite à une typologie pour la réduire directement

 pour utiliser des unités statistiques d'un niveau de généralité supérieur (passer des habitants aux villes ou des villes aux régions, etc. ), car c'est l'objectif de l'utilisateur (par exemple, de comparer les régions plutôt que les habitants. )  Pour concaténer des tables diérentes en individus et variables mais munies d'une variable commune (par exemple la région devient la nouvelle unité statistique pour concaténer un tableau décrivant les écoles et un autre tableau décrivant des hôpitaux).

Ces résumés conduisent à la nécessité de trouver un équilibre entre la perte d'infor-mations et le gain en interprétation. L'Analyse des données symboliques réduit cette perte d'information car, en prenant en compte la variation, elle évite l'utilisation ha-bituelle des simples moyennes. On peut par exemple, être intéressé par l'étude des joueurs de football du mondial en les caractérisant par diérentes variables telles que l'âge, le poids, la taille,. . . , pour expliquer le nombre de buts que ces joueurs ont marqué. On peut aussi s'intéresser au nombre de buts que ces équipes marquent (il va de soi que les raisons qui expliquent le nombre de buts marqués ne soient pas nécessairement les mêmes pour les équipes que les pour les joueurs). Dans ce dernier cas, l'unité statistique sera " l'équipe " et de plus la description des variables caractérisant les équipes ne sera pas du même ordre que pour les joueurs. Ainsi, au lieu de décrire l'âge d'une équipe en utilisant la moyenne des âges des joueurs, on sera plus dèle aux données en prenant mieux en compte la variation de l'âge parmi les joueurs de l'équipe, par une loi de probabilité, un intervalle de conance, un histogramme, etc. Ce type de description est dit " symbolique " car non numérique (on n'utilise pas les mêmes opérateurs pour manipuler des lois ou des intervalles). L'Analyse des données symboliques est caractérisée par la possibilité de :

(21)

1.1. De l'ACP classique à l'ACP de données complexes. 7  de passer de la description des unités statistiques d'un niveau bas à la des-cription des unités d'un niveau plus général (par exemple des joueurs aux équipes).

 d'avoir en entrée des unités statistiques d'un niveau plus général

 de tenir compte de la variation interne de ces unités par une description à l'aide de données symboliques.

 d'étendre des outils d'analyse des données et du Data Mining à ce nouveau type de données.

Les données collectées à des ns statistiques sont généralement beaucoup trop nombreuses pour qu'un examen de visu permette de dégager les principales caractéristiques. Pour pallier à cette diculté on peut recourir à une Analyse en Composantes Principales ACP de données "symboliques". L'ACP ore via les représentations graphiques des individus et des variables une interprétation de la structure des individus parallèlement à celle des variables. L'objectif poursuivi dans cette thèse est celui d'étendre l'Analyse en Composantes Principales à des variables symboliques de type histogramme. Les approches proposées s'inscrivent dans le cadre de l'analyse des données symboliques. Au même titre que le Data Mining et toutes les disciplines qui relèvent de l'apprentissage statistique (statis-tique, intelligence articielle, bioinforma(statis-tique,...), le but de l'Analyse des données symboliques est celui d'extraire des connaissances à partir de bases de données qui peuvent être parfois massives. On parle de données symboliques quand, dans chaque case d'un tableau de taille n × p, on ne trouve pas nécessairement une seule valeur. Les individus symboliques sont en fait modélisés dans un espace de description dans lequel on exprime de façon détaillée leurs propriétés à l'aide des variables. Ces descriptions tiennent compte de la variation des individus. L'Analyse des données symboliques "étend la problématique de l'analyse des données classiques à des objets plus complexes, en s'interessant plus aux aspects exploratoires (histogrammes, analyse canonique d'objets symboliques, pyramides,... )"(cf. Diday (1995).). Les méthodes qu'elle développe ne sont pas alternatives à l'analyse des données classiques mais complémentaires. Les cellules d'un tableau de données symboliques peuvent contenir :

 des variables à valeurs multiples. Dans ce cas chaque objet prend plusieurs valeurs possibles. Par exemple, s'il s'agit d'une variable couleur, on peut avoir les valeurs suivantes couleur = {vert, jaune, rouge, (bleu et blanc)}.

 Des variables de type intervalle. C'est par exemple le cas de la variable note pour être déclaré admis=[10, 20] pour indiquer que la note requise pour être admis varie entre 10 et 20.

Dans l'exemple précédent sur la variable intervalle note (pour être déclaré admis=[10, 20]), pour ne pas perdre l'information exprimée dans ces descrip-tions, l'on ne transforme pas ces valeurs en moyenne.

(22)

Table 1.1  Exemple de variables de type histogramme.

PIB Taux de mortalité

Modalité−− > ≤ 1k$ ]1, 20] > 20 ≤ 0.1 > 0.1

Afrique 0.340 0.660 0.000 0.245 0.755

Alena 0.000 0.333 0.667 1.000 0.000

AsieOrientale 0.067 0.801 0.133 1.000 0.000

Europe 0.000 0.322 0.677 0.742 0.258

 Pour décrire un concept à l'aide d'une variable, on peut également avoir un histogramme (cf. la table1.1), une loi de probabilité, . . .

Les objets symboliques orent une adéquation plus grande avec la réalité multidi-mensionnelle que les objets couramment utilisés en analyse des données classiques. L'Analyse des données symboliques considère donc les concepts comme des in-dividus de niveau plus élevé pour lesquels on a une variation interne qui peut être exprimée sous forme d'une statistique. Quand cette variation interne n'est pas prise en compte, on se ramène au cas des données classiques. Si on utilise des centres de gravité par exemple, on se ramène à des données classiques et cela peut s'accompagner d'une perte d'information. La nécessité d'étendre l'ACP à ces données plus riches s'impose car elles conservent la variation (cf. Bock et Diday (2000), Billard et Diday (2006), Diday et NoirHomme (2008), Diday et al. (2008)). L'Analyse des données symboliques résume les masses considérables de don-nées collectées à l'aide de "concepts" sous-jacents (villes, ensemble de pays, continent, des produits industriels, . . . ), an de mieux les appréhender et d'en extraire de nouvelles connaissances. Contrairement aux individus ordinaires, les individus symboliques sont munis de descriptions qui prennent en compte leur variation. Pour obtenir une table de données symboliques, il faut donc transformer la table de données ordinaires en une table de concepts décrits par des variables qui expriment leur variation interne par des intervalles, des histogrammes, des lois, des courbes.

(23)

1.1. De l'ACP classique à l'ACP de données complexes. 9

<1k$ [1k$,20k$[ >20k$

Répartion du PIB en Afrique

0.0 0.2 0.4 0.6 0.8 1.0 <=0.1 >0.1k

Répartion du Taux de mortalité en Afrique

0.0 0.2 0.4 0.6 0.8 1.0 <1k$ [1k$,20k$[ >20k$

Répartion du PIB de l Alena

0.0 0.2 0.4 0.6 0.8 1.0 <=0.1 >0.1k

Répartion du Taux de mortalité de l Alena

0.0 0.2 0.4 0.6 0.8 1.0 <1k$ [1k$,20k$[ >20k$

Répartion du PIB en Asie Orientale

0.0 0.2 0.4 0.6 0.8 1.0 <=0.1 >0.1k

Répartion du Taux de mortalité en Asie Orientale

0.0 0.2 0.4 0.6 0.8 1.0 <1k$ [1k$,20k$[ >20k$

Répartition du PIB en Europe

0.0 0.2 0.4 0.6 0.8 1.0 <=0.1 >0.1k

Répartition du Taux de mortalité Europe

0.0 0.2 0.4 0.6 0.8 1.0

Figure 1.1  Représentation des histogrammes de la table1.1.

L'Analyse des données symboliques soulève ainsi la question d'étendre les mé-thodes classiques à des variables plus complexes à l'instar de celles présentées dans la table1.1. Dans la gure 1.1 par exemple, on représente les histogrammes associés

aux individus symboliques de la table 1.1. En somme, les principaux avantages de

l'Analyse des données symboliques sont :

 La possibilité d'utiliser des unités statistiques au niveau de généralité désiré par l'utilisateur en réduisant la perte d'information pour mieux la prendre en compte. Par exemple le passage de pays à continent.

 La réduction de la taille des données en nombre d'individus

 La réduction du nombre de variables. Une variable de type intervalle peut par exemple être obtenue à partir de deux variables quantitatives ordinaires.  Réduction de la condentialité des données

 Réduction des données manquantes.

En ce qui concerne les réponses à apporter à de telles questions, l'Analyse des don-nées symboliques considère qu'elles doivent s'exprimer en termes de dondon-nées

(24)

symbo-liques et doivent être utilisées comme entrée d'une analyse des données symbosymbo-liques de niveau supérieur. En d'autres termes, les résultats obtenus doivent eux-mêmes s'interpréter en termes d'objets plus riches que ceux utilisés dans le cas classiques tout en demeurant intelligibles par l'expert. Ce principe est appelé par les praticiens de l'analyse des données symbolique principe de la cohérence entre les objets néces-sités en entrée et ceux obtenus en sortie. En fait, quatre principes régissent l'analyse des données symboliques (cf. Diday (1989)). Ce sont :

1. Le principe de délité : Les données doivent être dèles à la réalité multidimen-sionnelle en ayant le moins possible d'artéfacts dus à des codages réducteurs. Par exemple dans le cas de variables à valeurs multiples, on préférera garder les valeurs comme telles au lieu de les réduire à une valeur moyenne.

2. Le principe de la prédominance de la connaissance : ce principe stipule que les algorithmes sont dirigés par les connaissances. Une connaissance est par exemple une question posée, une anité, une règle,.... En analyse des données classiques, il existe aussi des situations où les connaissances dirigent les algo-rithmes. C'est par exemple le cas de la classication des données par les k plus proches voisins.

3. Le principe de la cohérence : ce principe d'ores et dejà évoqué stipule que les données en sortie doivent avoir la même nature symbolique que les données en entrée. L'incohérence au sens de ce principe se produit quand on fournit en sortie des données numériques à partir des données symboliques.

4. Le principe d'explicabilité : Il préconise de fournir des résultats explicites, compréhensibles, et d'utilisation aisée.

On peut néanmoins dénir quatre types d'analyse des données :

 L'analyse des données classiques qui traite des données quantitatives ou qualitatives avec des méthodes numériques à partir des outils d'algèbre linéaire et de la statistique.

 L'analyse numérique des données symboliques qui appréhende les données symboliques en proposant des sorties numériques. Cette approche est souvent utilisée en analyse des données structurées en blocs et en analyse des données fonctionnelles.

 L'analyse symbolique des données classiques : elle traite des tableaux clas-siques en utilisant des données symboliques.

 L'analyse des données symboliques qui est mue par les quatre principes précédemment expliqués.

Dans cette thèse, nous nous focalisons sur l'extension de l'analyse en composantes principales classiques à des tableaux de données symboliques où chaque case contient un histogramme standard.

(25)

1.2. Présentation de l'ACP 11

1.2

Présentation de l'ACP

L'analyse en composantes principales ACP est l'une des plus anciennes et plus répandues techniques d'analyse des données. Elle a été introduite par Pearson (1901) et développée indépendamment par Hotelling (1933). L'ACP permet de représenter dans un espace de dimension réduite les individus d'une population ou d'un échan-tillon, de détecter les liaisons entre les variables ainsi que les variables séparant le mieux les individus. Elle fait appel à l'algèbre linéaire. A partir d'un simple coup d'oeil, elle permet souvent la localisation des grandes masses d'individus, détecte les individus atypiques et repère même d'éventuels groupes isolés. L'ACP est éga-lement un puissant outil de réduction de dimension car elle permet de diminuer le nombre de variables en jeu dans une étude avec une perte minimale d'information. Ces principaux objectifs sont donc la réduction de dimension et la création de nou-velles variables synthétiques de variance maximale et non corrélées dans la plupart des cas. Les nouvelles variables créées sont appelées composantes principales. Pour ce faire, l'ACP projette le nuage d'individus dans un espace de dimension inférieure en respectant le mieux les distances entre individus. La détermination de ce sous-espace se fait axe par axe. Elle équivaut à la recherche des valeurs propres et vecteurs propres d'une matrice symétrique semi dénie positive.

1.2.1 Formulation mathématique

Supposons qu'on ait x = (x1, . . . , xp) un vecteur de p variables et que

les covariances de ces variables ne soient pas négligeables. On souhaite créer de nouvelles variables et retenir q (q < p) variables avec une perte minimale d'information. Pour ce faire on peut procéder étape par étape. La première étape consiste à rechercher une fonction linéaire ut

1x des éléments de x ayant

une variance maximale où u1 est un vecteur de constantes u11, u12, . . . , u1p et

ut1x = u11x1+ u12x2+ . . . + u1pxp =Ppj=1u1jxj.

Ensuite on recherche ut

2x non corrélée avec ut1x ayant une variance maximale. On

procède de la sorte de manière récursive jusqu'à la k ième fonction linéaire ut

kx. On

construit de la sorte de nouvelles variables ut

1x, ut2x, . . . , utkx

. ut

kx est la k ième

composante principale. Comment donc obtenir de telles variables ?

Soit W la matrice de variance covariance de x. Le (i, j) ième élément de W est Wi,j = cov(i, j) et Wi,i = var(i). Si W est inconnue, on remplace W par la

covariance empirique. Pour k = 1, 2, . . . , p, la k ième composante principale zk est

zk= utkx où uk est le vecteur propre correspondant à la k ième plus grande valeur

propre λk. Par ailleurs si on choisit uk de sorte que utkuk = 1 alors var(zk) = λk

(var(zk) désigne la variance de zk).

1.2.2 Forme des composantes principales

Considérons la première composante principale z1 = ut1x. z1 est telle que le

(26)

nie il faudra imposer une contrainte à ce problème d'optimisation. C'est dans cette perspective qu'on peut choisir ut

1u1 = 1 c'est-à-dire que la somme des éléments au

carré de u1soit égale à 1. D'autres contraintes du type Max {|uij|} = 1peuvent être

envisagées. Mais l'usage des contraintes autres que ut

1u1 = Csteou bien ut1Mp×pu1=

Cste(où Mp×p est une matrice diagonale contenant les poids des variables) conduit

à des problèmes d'optimisation plus diciles et aboutit à des variables diérentes des composantes principales (pour lesquelles ut

1u1= 1).

1.2.2.1 Formalisme classique algébrique de L'ACP

La signication algébrique du problème soulevé par l'ACP est le suivant : P :



max ut1Wu1

ut1u1 = 1

Pour résoudre le problème P on peut utiliser la technique standard des multiplica-teurs de Lagrange. Ainsi résoudre P revient à maximiser

ut

1Wu1− λ(ut1u1− 1) où λ est un multiplicateur de Lagrange. Lorqu'on diérencie

par rapport à u1, on a :

Wu1− λu1 = 0

(W − λIp) u1 = 0

où Ip est la matrice identité d'ordre p × p.

Alors λ1 est une valeur propre de W et u1 est un vecteur propre de W.

Pour décider lequel des p vecteurs propres maximise la variance de ut

1x on procède

de la manière suivante : La quantité à maximiser est ut

1Wu1 = ut1λ1u1= λ1ut1u1 = λ1. Par conséquent λ1est

la plus grande valeur propre possible. Alors u1 est le vecteur propre correspondant

à la plus grande valeur propre possible de W et var(ut

1x) = ut1Wu = λ1 la plus

grande valeur propre possible.

En général, la k ième composante principale de x est zk = utkx et var(utkx) = λk

où λk est la k ième plus grande valeur propre possible. Nous faisons la preuve pour

k = 2. Preuve :

La seconde composante principale ut

2x maximise ut2Wu2 et est non corrélée avec

ut1x ce qui équivaut à :

cov(ut1x, ut2x) = 0 or cov(ut

1x, ut2x) = ut1Wu2 = ut2Wu1

= ut2λ1ut1= λ1ut2u1 = λ1ut1u2

on a alors les équations suivantes :        ut 1Wu2 = 0 ut2Wu1 = 0 ut1u2 = 0 ut 2u1 = 0

(27)

1.2. Présentation de l'ACP 13 Une des équations peut être utilisée pour spécier le calcul de la corrélation entre ut

1x

et ut

2x. Choisissons ut2u1 = 0 et la contrainte ut2u2 = 1. La quantité à maximiser est

donc ut

2Wu2− λ2 ut2u2− 1 − φut2u1. Cette fois λ2 et φ sont les multiplicateurs de

Lagrange. En diérenciant par rapport u2 on a :

Wu2− λ2u2− φu1 = 0

en multipliant à gauche par ut 1 on a :

ut1Wu2− ut1λ2u2− ut1φu1= 0

puisque les deux premiers termes valent zéro on a donc φ = 0. Par conséquent : Wu2− λ2u2 = 0 ⇐⇒ (W − λ2Ip) u2= 0

λ2 est encore la plus grande valeur possible, u2 le vecteur propre correspondant. Si

on suppose que les valeurs propres de λk sont simples, λ2 ne peut pas etre égal à

λ1. Si tel était le cas, on aurait u1 = u2 ce qui serait absurde dans la mesure où

par hypothèse on a ut

1u2 = 0. Il en résulte donc que λ2 est la seconde plus grande

valeur propre de W et u2 est son vecteur propre correspondant.

Par un raisonnement analogue, on montre que u3, u4, . . . , up sont les vecteurs

propres de W correspondant aux λ3, λ4, . . . , λp les 3 ème, 4 ème, . . . pème plus

grande valeurs propres respectives. Notons également que var(ut

kx) = λk pour

k = 1, . . . , p.

Flury (1988), Diamantaras et Kung (1996) ont donné d'autres approches pour la construction des composantes principales. Les uk sont appelées coecients ou

(28)

Isodensité de la Binormale 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04 0.045 −6 −4 −2 0 2 4 6 −5 0 5

Figure 1.2  Isodensité d'une loi binormale simulée. 1.2.2.2 Formalisme classique géométrique de L'ACP

Proposition 1.2.1 Considérons la famille d'ellipsoïde pour laquelle on a : xtW−1x = cste

Alors les composantes principales sont les axes principaux de ces ellipsoïdes. Preuve :

Les composantes principales sont dénies par la transformation linéaire z = Atx

A est une matrice orthogonale où la kème colonne est uk le kème vecteur propre

de la matrice de covariance W (ou de corrélation). Comme A est une matrice orthogonale, la transformation inverse est donc x = Az. En remplaçant cette égalité dans l'équation xtW−1x = cste on a :

(Az)tW−1(Az) = Cste = ztAtW−1Az

Or les vecteurs propres de W−1 sont les mêmes que ceux de W et dans ce cas les

valeurs propres de W−1sont inverses de celles de W. Supposons qu'elles soient toutes

strictement positives. Comme AtWA = Λ où Λ est la matrice diagonale constituée

par les valeurs propres λk, on a donc :

AtW−1A = Λ−1 et alors ztΛ−1 z = Cste soit p X k=1 zk2 λk

(29)

1.2. Présentation de l'ACP 15 Cette équation implique que les demi longueurs des axes principaux sont propor-tionnelles à λ12 1, λ 1 2 2, . . . , λ 1 2

p. Ce résultat est d'une grande importance statistique.

En eet, si on considère un vecteur de variables aléatoires x = (x1, . . . , xp) et si ce

vecteur suit une loi multinormale i.e x = (x1, . . . , xp)suit la loi Np(µ, W)de densité

f (x) = 1 (2π)p/2|W|1/2exp  −1 2(x − µ) tW−1 (x − µ)  ,

les courbes d'isodensité ont une forme elliptique. Le premier axe principal de cet ellipsoïde dénit la direction dans laquelle la variation statistique est la plus grande c'est-à-dire la première composante principale. Le second axe principal de cette famille d'ellipsoïde maximise la variation statistique orthogonalement au premier et correspond ainsi à la seconde composante principale, et ainsi de suite (cf. Hotelling (1933)). La gure 1.2 représente une isodensité simulée quand x = (x1, x2) suit la

loi binormale. La normalité est donc un gage de robustesse de l'ACP. 1.2.2.3 ACP et Théorème de Eckart et Young.

L'ACP s'appui sur une propriété mathématique fondamentale des tableaux rec-tangulaires : la décomposition en valeurs singulières (SVD) également appelée Théo-rème de Eckart et Young (1936) en analyse des données. Ce théoThéo-rème stipule qu'une matrice rectangulaire peut être écrite comme somme optimale de matrice de rang 1 (produit de matrice ligne par une matrice colonne). Dans cette écriture, la première matrice de rang 1 constitue la meilleure approximation de rang 1 de la matrice initiale au sens des moindres carrés, la somme des 2 premières est la meilleure ap-proximation de rang 2 et ainsi de suite. En d'autres termes, si X est une matrice n × p, alors il existe des vecteurs uα et vα tels que

X = p X α=1 p λαvαutα. (1.1)

Les uα, et λα, α = 1, . . . , p sont respectivement les vecteurs propres et valeurs

propres de XtX; les v

α représentent les αième vecteurs propres de norme 1 de

(30)

1.2.3 Histoire de l'Analyse en Composantes Principales

D'après Preisendorfer et Mobley (1988), Beltrami (1873) et Jordan (1874) ont chacun utilisé la décomposition en valeur singulière (SVD), une sorte d'analyse en composantes principales implicite (cf. Eckart et Young (1936).). Toutefois, pour une majorité, Pearson (1901) puis Hotelling (1933) sont à l'origine de l'ACP. Si Pearson formule l'ACP sous la forme d'un problème d'optimisation géométrique, Hotelling propose une formulation algébrique semblable à celle présentée dans la section 1.2. Hotelling part du fait qu'il existe un ensemble fondamental de variables indépendantes qui détermine les valeurs des p variables originales. Il introduit le terme composantes principales pour désigner ces variables. L'ACP peut être présentée de divers points de vue. La statistique classique la considère comme la recherche des axes principaux de l'ellipsoïde indiquant une distribution normale multidimensionnelle. Les factorialistes classiques la considèrent plutôt comme un cas particulier de l'analyse factorielle des psychométriciens (cf Horst (1965), Harman (1967), Lebart et al.(2006)). Les analystes des données la considèrent en revanche comme une technique de représentation des données ayant un critère optimal au sens géométrique ou algébrique que l'on utilise en faisant abstraction des hypothèses de nature statistique.

L'approche de Hotelling dière du formalisme algébrique de l'ACP présenté d'entrée pour deux raisons essentielles. La première raison est que Hotelling tra-vaille avec la matrice des corrélations et non la matrice de variance covariance. La seconde est que Hotelling considère les variables initiales comme des combinaisons linéaires des composantes et non l'inverse. Girshick (1936) a présenté une autre approche pour la détermination des composantes principales et introduit l'idée que les composantes principales étaient des estimations par le maximum de vraisem-blance des composantes principales d'une population. Bien que Girshick (1939) ait fourni des résultats sur les distributions asymptotiques des vecteurs propres uk et

des variances des composantes principales, peu de résultats concernant l'ACP ont été formulés vingt cinq années après les travaux de Hotelling. En eet il n'était pas facile d'eectuer une ACP à la main surtout quand p > 4. Mais depuis les années soixante et en dépit de son apparente simplicité, plusieurs applications et outils théoriques ont été érigés et l'ACP continue de faire l'objet de nombreux travaux.

(31)

1.3. Type de données traitées et dicultés inhérentes au problème

posé. 17

Table 1.2  Variable symbolique de type histogramme.

Cancer1 Cancer2 Niveau de risque [0,1/3[ [1/3,2/3[ [2/3,1[ [0,1/3[ [1/3,2/3[ [2/3,1[ Region 1 0.05 0.25 0.70 0.65 0.25 0.1 Region 2 0.20 0.30 0.50 0.50 0.40 0.1 Region 3 0.70 0.20 0.10 0.20 0.30 0.5 Region 4 0.50 0.40 0.10 0.10 0.30 0.6 Region 5 0.80 0.10 0.10 0.70 0.10 0.2 Region 6 0.30 0.55 0.15 0.05 0.45 0.5 Region 7 0.19 0.31 0.50 0.40 0.30 0.3

1.3

Type de données traitées et dicultés inhérentes au

problème posé.

La table1.2contient un exemple de variables de type histogramme. Les quelques

dicultés que l'on rencontre de prime abord lorsqu'on souhaite étendre l'ACP à de telles données sont les suivantes :

1. Les données à analyser sont structurées. Nous appelons données structurées des données multidimensionnelles qui sont généralement consignées dans diérents tableaux de données. Ce sont des données où chaque variable Yj peut être

assimilée à une matrice n × mj ayant au moins deux colonnes (i.e mj ≥ 2; n

étant le nombre d'individus). Quand le nombre de modalités des variables de type histogramme est le même on parle de données cubiques. Or il n'existe pas d'équivalent du théorème de Eckart et Young (1936) dans le cas des données cubiques (cf. Benzecri 1973). Il ne peut donc exister de méthode unique pour une décomposition optimale d'un tableau à trois entrées en tableaux de rang un. Les méthodes à envisager pour étendre l'ACP devraient donc tenir compte du contexte et du problème étudié.

2. Les problèmes de visualisation : même si les outils informatiques fournissent des visualisations assez ables, les représentations des données cubiques sont délicates à eectuer et interpréter. Les vues de perspectives font par exemple qu'une dimension soit négligée. De plus, notre démarche s'inscrit dans le cadre de l'analyse des données symboliques qui insiste sur la représentation de la variabilité des individus à cause de son principe de cohérence.

3. Les variables en jeu ont la particularité d'être assujetties à une contrainte unitaire selon laquelle la somme des fréquences relatives est égale à 1. Cette contrainte peut causer des dicultés analytiques.

4. Les variables que nous souhaitons analyser n'ont pas forcément le même nombre de modalités.

(32)

1.4

Motivations de la généralisation de l'ACP à des

don-nées complexes

L'ACP est l'une des techniques factorielles les plus utilisées. Dans la littérature française, ces techniques désignent souvent l'ensemble des techniques qui utilisent des axes principaux (cf. Jolie (2002), Lebart et al. (2006)). C'est le cas de l'ACP, l'Analyse Factorielle des Correspondances AFC, l'Analyse Factorielle des Correspondance Multiples AFCM, le Positionnement Multidimensionnel PM ou Multi Dimensional Scaling MDS,.... Dans la littérature anglophone, l'analyse factorielle est l'analyse en facteur communs et spéciques de Spearman (1904 a) et Thurstone (1947). Pour les disciples de Spearman et Thurstone, l'analyse factorielle consiste en la recherche d'un ensemble de dimensions cachées permettant d'expliquer parfaitement les corrélations observées entre les réponses d'un système aux diérents stimuli. Dans les sections suivantes, nous évoquerons premièrement les extensions de l'ACP d'une manière générale, puis nous rappelons quelques extensions eectuées dans le cadre des variables symboliques de type histogramme. La plupart de ces extensions découlent principalement de deux point de vue : le point de vue de l'analyse des données structurées en blocs et celui de l'analyse des données symboliques.

L'ACP dans sa formulation a été conçue pour traiter un tableau de variables quantitatives. Mais dans la pratique on est de plus en confronté à l'étude de tableaux plus complexes. Lorsqu'a priori on ne dispose pas assez d'informations, on peut se contenter de l'information extraite à partir des techniques exploratoires multidimensionnelles simples. Si en revanche l'information à priori sur les données est importante, c'est-à-dire si en plus d'un tableau n × p mesuré sur n individus et p variables on dispose d'une information complémentaire contenue dans d'autres tableaux et sur les mêmes individus, on parle de données structurées. Plusieurs au-teurs ont traité la problématique de l'extension de l'ACP à des données structurées notamment dans le cas cubique.

Supposons qu'on ait m tableaux ayant le même nombre de lignes (égal à n) X1, . . . , Xm. On entend par structure ou co-information sur les n-individus, le

fait que les variables d'un tableau Xk0 contiennent l'information principale sur les

individus et que ces variables ont une liaison avec l'information complémentaire contenue dans d'autres tableaux Xk6=k0, k = 1 . . . , m (cf. Sabatier 1987, Alevizos

1990). Il est donc préférable de recourir à des techniques qui font appel à des modèles qui prennent en compte cette information. Les techniques d'analyse de tableaux disposant d'une structure a priori sont des compléments évidents et pertinents des techniques d'analyse multidimensionnelle usuelle. C'est le cas de l'analyse des données structurées en blocs (avec des techniques telles que l'analyse locale et l'analyse de contigüité ) et de l'analyse des données symboliques. Les sections suivantes présente les points de vue de l'analyse des données structurées en blocs et celui de l'analyse des données symboliques.

(33)

1.4. Motivations de la généralisation de l'ACP à des données

complexes 19

1.4.1 Point de vue de l'analyse des données structurées.

Selon le type d'information que l'analyste des données souhaite extraire de ces données, deux possibilités sont envisageables :

1. Ne pas tenir compte a priori de la structure et se servir de la structure pour interpréter les résultats a posteriori. Cela revient à utiliser les méthodes facto-rielles classiques sur le tableau contenant l'information principale Xk0. Ensuite,

se servir des positionnements extraits à partir de l'analyse de Xk0 pour ériger

les positionnements en considérant les tableaux Xk6=k0, k = 1 . . . , m, comme

supplémentaires de masse négligeables (cf. Benzecri 1976).

2. Tenir compte de l'inuence de la structure et procéder à des analyses particu-lières en eectuant des analyses moyennes ou conditionnelles. Dans un tel cas, les méthodes factorielles utilisent la part structurelle induite par les groupes de variables extérieures au tableau principal des données.

1.4.1.1 Aperçu de quelques méthodes envisageables en analyse des don-nées structurées

Si on assimile chaque variable de type histogramme à une matrice n × mj (n

étant le nombre d'individus, mj celui des modalités) dont les cellules contiennent

les fréquences relatives, alors eectuer une ACP de p variables de type histogramme reviendrait à eectuer une ACP d'une séquence de p tableaux. L'analyse des données structurées en blocs devient applicable. Les extensions de l'ACP du point de vue de l'analyse des données structurées en blocs sont de nature classique. Elle représente souvent par des points les individus dans les plans factoriels. Parmi ces généralisa-tions gurent la méthode STATIS de l'Hermier des Plantes (1976), la double ACP de Bouroche (1975), l'Analyse des séries chronologiques multidimensionnelles de Tenenhaus et Prieuret(1974), l'Analyse Factorielle Multiple (AFM) de Escoer et Pagès (1998). L'on peut également citer l'ACP fonctionnelle de Besse et Ramsay (1986), Ramsay et Silverman (2005) ; l'analyse des co-inerties multiples ACOM de Chessel et Hana (1996), l'ACP généralisée (GPCA) de Casin (1996), l'analyse en composantes communes et poids spéciques ACCPS de Hana et Qannari (2008). . . D'autres extensions utilisent des modèles statistiques. C'est le cas de l'ana-lyse en facteurs communs et spéciques et l'ACP de Tipping et Bishop (1999) et de leurs extensions aux données cubiques que sont les modèles PARAFAC de Harshman (1970), les modèles de Tucker (1958) (cf. Kroonenberg 2007), les modèles de Caroll (INDSCAL, IDIOSCAL),. . . Le modèle INDSCAL de Carroll et Chang (1970) par exemple détermine des composantes communes sous jacentes à diérents tableaux de données. Ce modèle a cependant quelques inconvénients. Il peut conduire à des solutions dégénérées car les poids obtenus peuvent être non positifs. C'est dans cette optique que Ten Berge et al. (1993) ont proposé une autre variante du INDSCAL en imposant des contraintes de positivité aux poids. Le modèle INDSCAL peut aussi conduire à des composantes communes non

(34)

orthogonales ce qui peut s'avérer problématique dans l'interprétation des données. Pour venir à bout de cet inconvénient, Kiers (1989) a proposé des algorithmes pour imposer aux composantes INDSCAL d'être orthogonales. Enn le modèle INDSCAL est davantage ancrée dans un contexte de multidimensionnal scaling.

1.4.1.2 Cas particulier des données cubiques

Quand on dispose de données structurées en blocs où le nombre des moda-lités mj des variables est constant, on parle de données cubiques ou données

à trois dimensions. On peut dénir un tableau cubique ou tableau à trois en-trées comme une fonction à valeurs numériques dénie sur un produit d'ensembles I ×J ×K. On peut distinguer (cf. Dussaix 1975) dans les données à trois dimensions :  les données où le temps intervient et plus généralement les données où la troisième dimension donne un ordre sur les diérents tableaux de nature identique sur les mêmes variables et les mêmes individus.

 les données où aucune dimension n'est ordonnée. C'est le cas de variables multivaluées à modalités non ordonnées. Si on considère une variable telle que la couleur des yeux, les modalités peuvent être noir, vert, marron, bleu,....  les données où l'on dispose de plusieurs tableaux symétriques. C'est le cas par exemple lorsqu'on demande à n individus de donner un indice de distance (ou de proximité) en p objets x1, . . . , xp pris deux à deux.

Pour traiter de telles données, on peut étaler le parallélépipède induit par les données suivant la dimension la plus intéressante, dénir la moyenne suivant une dimension des tableaux à deux entrées puis analyser par une ACP classique le tableau moyen à 2 dimensions construit. Le problème dans ce type d'approche est que la scission des tableaux suscite la perte des interactions d'ordre trois et l'ACP du tableau moyen délaisse une part importante de l'information des données. Nous présentons d'autres approches eectuées.

ACP à variables instrumentales

Supposons qu'on ait deux tableaux X1 et X2 de dimension respective n × p et

n × q. Soient Ip et D des métriques associées aux individus et aux variables de

PX2X1 la projection de X1 dans le sous-espace engendré par X2. Une approche

envisageable pour analyser conjointement X1 et X2 consiste à eectuer une ACP à

variables instrumentales. Dans la littérature statistique on appelle ACP à variables instrumentales notée ACPVI, la méthode qui consiste à eectuer une ACP du triplet (PX2X1, Ip, D)où à la place du tableau X1 on analyse le tableau PX2X1 constitué

(35)

1.4. Motivations de la généralisation de l'ACP à des données

complexes 21

des projections orthogonales des variables de X1dans le sous-espace engendré par les

variables de X2. L'ACPVI est une ACP sous contraintes linéaires qui enrichit l'ACP

classique dans la mesure où elle tient compte de la structure portée par les variables de X2 sur les unités statistiques. Rao (1964), Robert et Escouer (1976) et Bonifas

et al. (1984) ont opté pour cette approche. Robert et Escouer (1976) raisonnent en termes de maximisation du RV de Escouer. Bonifas et al. (1984) utilisent des projecteurs dans l'espace des opérateurs et des applications linéaires. Un aspect fondamental de l'approche de Bonifas et al. (1984) est que l'ACP repose aussi bien sur les données que sur le choix de métriques. Bonifas et al.(1984) montrent que si on se donne un triplet (X1, Q, D)(où Q est une matrice p×p contenant le poids des

variables) et un tableau de données X2 observées sur les mêmes individus munis des

mêmes poids, il existe une métrique M telle que les études des triplets (X1, Q, D)et

(X2, M, D)aboutissent aux mêmes opérateurs, aux mêmes composantes principales

et donc aux mêmes représentations des individus. Ils démontrent en outre que la meilleure reconstitution de la représentation des individus fournie par (X1, Q, D)à

partir de X2 est fournie par l'étude de (PX2X1, Ip, D).

Tyler (1982) montre que l'analyse des redondances de van den Wollenberg (1977) est équivalente à l'ACPVI de Rao (1964).

ACP d'un tableau disjonctif

Supposons à présent qu'il existe au sein du tableau X de taille n × p une structure sur les individus donnés sous la forme d'une variables qualitative Vj à m

modalités. Cette variable qualitative crée de fait un tableau disjonctif à n lignes et m colonnes. Elle induit également une structure de partition sur X car les nuages des individus de X est partitionné en m nuages disjoints. Une ACP classique de X va vraisemblablement masquer les liaisons éventuelles entre les variables de X. En revanche, des ACP par rapport aux sous-espaces associés aux diérentes partitions peuvent appréhender de manière plus exhaustive ces données structurées (cf. Cailliez et al. (1976), Bouroche et al. (1983), Sabatier (1987)).

On peut également analyser le tableau X en utilisant la notion de contigüité. On peut la dénir comme le fait d'associer à chaque ligne de X un ensemble de lignes ("voisins" de i i.e toutes les lignes appartenant à la même classe que i). Si I désigne l'ensemble des lignes (ou individus), on regarde les éléments de I comme les sommets d'un graphe orienté reliés entre eux par des arêtes. C'est dans cette optique que Lebart (1969), Lebart et Tabard (1973) ont respectivement proposé l'analyse statistique de la contigüité et l'analyse factorielle locale.

ACP de variables chronologiques

On peut également disposer de données dont la structure est temporelle. Dans un tel cas les unités statistiques sont indicés par le temps et (ou) bien répétées. L'exemple type est celui des séries temporelles. On a alors un tableau cubique. On

Figure

Figure 1.2  Isodensité d'une loi binormale simulée. 1.2.2.2 Formalisme classique géométrique de L'ACP
Figure 2.3  Méthode I : Plan de projection l'analyse moyenne avec projection des tableaux H (k) en supplémentaire.
Figure 2.4  RV de Escouer entre Composantes principales et varables initiales.
Figure 3.1  Méthode II : Visualisation des coordonnées des projections des mo- mo-dalités des individus sur les axes.
+7

Références

Documents relatifs

Note : Dans le cas de l'acp de la matrice des corrélations, les coordonnées des variables sont égales aux corrélations entre les variables et les différents vecteurs propres

Si on dispose d’un programme informatique de mise en oeuvre de STATIS Dual, la réalisation de l’ACP de distributions gaussiennes multidimensionnelles ne nécessite que

De nombreux critères ont été proposés dans la littérature pour guider le choix de la dimension en Analyse en Composantes Principales (ACP).. Un développement de

cation de ces ressemblances par le calcul de distances euclidiennes entre les indi- vidus rendu possible par le choix d’une métrique Q sur RP.. L’ANALYSE EN

Les résultats rassemblés ici peuvent se résumer ainsi : la trace de la matrice à diagonaliser est une bonne mesure de l’importance d’un facteur dans les cas

Nous recherchons un codage des variables nominales (à chaque modalité de chaque variable nominale sera associé un nombre réel) tel que l’analyse en composantes

Dans ce dernier cas la méthode de Bhattacharya ne fournit qu’une seule composante, tandis que la méthode par déconvolutions successives s’applique mal, le nombre de

Dans la mesure où l'on peut définir sur un espace vectoriel sur (C une structure d'espace vectoriel sur fc ( cf. 121), ce qui amène à doubler sa dimension algébrique, on