ACP normée sur le fichier menstrack
On a centré-réduit le fichier menstrack et effectué une ACP. Avec statistica, aller à
statistiques/techniques exploratoires multivariées/ACP à la française (option correlation).
Choix du nombre d’axes à retenir :
Par le critère de Keiser, on est amené à sélectionner un seul axe (vp>1). Par le critère du coude on en sélectionne 3 (décroché + décroissance lente). Un bon compromis consiste à retenir dux axes : le premier plan factoriel retrace à lui seul 92% de l’information contenue dans le tableau, ce qui est très satisfaisant. Prendre un troisieme axe n’apporterait pas grand-chose de plus, et brouillerait la visualisation.
Interprétation des axes
Pour chaque axe, on regarde les contributions des points ainsi que le sens de cette contribution (par les coordonnées sur les axes ou en visualisant le graphique).
On identifie les variables et les individus dont la contribution est supérieure à la contribution moyenne (=1/6=0,16 pour les variables et 1/55=1,82% pour les individus). Ce sont eux qui vont permettre d’interpréter l’axe.
L’axe 1 est un axe de performance globale (c’est un facteur de taille). Il oppose les pays ayant une performance globale faible, comme les iles Cook’s et Samoa à ceux qui ont une bonne
performance globale.
L’axe 2 est un axe d’endurance. Il oppose les pays ayant de meilleures performances sur les courtes que sur les longues distances, comme les iles Cook’s à ceux qui ont un comportement opposé comme la république dominicaine ou maurice.
Tracé et interprétation des graphiques :
Pour le graphique des individus, on ne reporte que les points ayant une qualité de représentation
>0.7 sur le premier plan factoriel. On interprète les proximités des points variables proche du bord du cercle de corrélations (ici, elles sont toutes très bien représentées).
Les iles Samoa et Cooks se détachent nettement des autres pays sur le plan factoriel . Ils sont globalement mauvais et ont un comportement différencié suivant le type d’épreuve (ils sont meilleurs sur de courtes distances). On observe que la plupart des iles ont des performances globales inférieures à la moyenne, et que la plupart des pays ayant des performances globales supérieures à la moyenne sont assez proches et moins différenciés suivant le type d’épreuves.
Toutefois, les USA et l’Italie semblent globalement meilleurs que les autres. Ils sont un peu meilleurs sur des distances courtes.
Classification
Nous avons tout d’abord réalisé une classification hiérarchique sue les observations
(statistiques/techniques exploratoires multivariées/classification/classification hiérarchique) sur distances euclidiennes avec différentes stratégies d’agrégations, afin de sélectionner la stratégie discriminant les mieux les groupes (coupure nette dans le dendogramme). Nous avons alors sélectionné le nombre de classes proposé par la meilleure stratégie et réalisé une
classification par les k-means(k-moyennes), que nous avons analysé.
Stratégie du saut minimum (single linkage) :
On observe un saut net de la distance d’agrégation lors du passage de 3 classes à deux classes. On sélectionnerait 3 classes par cette méthode, mais elle crée 2 groupes singletons et un énorme groupe par ailleurs, ce qui n’est pas intéressant.
Stratégie du diamètre (complete linkage) :
On observe ici aussi un saut net de la distance d’agrégation lors du passage de 3 classes à deux classes. On sélectionnerait 3 classes par cette méthode.
Stratégie de Ward :
Pas vraiment de saut net, sauf lors du passage de 2 à une classe.
On choisirait ici la stratégie du diamètre. On va faire une k-means sur 3 classes. Elle est effectuée sur le tableau centré réduit, afin de mieux comparer avec l’ACP et de différencier les groupes suivant les valeurs moyennes de chaque variable dans les groupes (la moyenne globale de chaque variable étant à 0).
Le tableau d’analyse de la variance ci-dessous permet de voir quelles sont les variables significativement discriminantes entre les groupes (celles qui ont des moyennes vraiment différentes sur au moins deux des trois groupes). Ici, elles sont toutes discriminantes (la p-value des tests de Ficher est <5%).
Les trois groupes constitués sont globalement les groupes repérés par l’ACP.
Le groupe 1 est constitué des pays ayant des performances globales supérieures à la moyenne.
Le groupe 2 est constitué des pays ayant des performances globales légèrement inférieurs à la moyenne.
Le groupe 3 est constitué des pays ayant des performances globales très inférieures à la moyenne, sauf sur de courtes distances (il s’agit du groupe constitué des iles cooks et samoa).
On peut voir que ce groupe est très différent des autres d’après le tableau ci-dessous