• Aucun résultat trouvé

Tracer les groupes obtenus dans les axes de l’ACP

N/A
N/A
Protected

Academic year: 2022

Partager "Tracer les groupes obtenus dans les axes de l’ACP"

Copied!
3
0
0

Texte intégral

(1)

A rendre pour le 3 janvier : réaliser l’un des deux sujets (au choix). Les données se trouvent sur mon site dans TD/Données.

Sujet 1 : Résultats du Décathlon masculin aux jeux olympiques de 1988

Les données reprennent le résultat du décathlon masculin des jeux olympiques de 1988 (fichier decathlon.txt). Chaque athlète est caractérisé par 10 variables correspondant à sa performance dans dix épreuves

Les variables :

100m : course de 100 mètres long : saut en longueur poids : lancer du poids haut : saut en hauteur

400m : course de 400 mètres 110m : course du 110 m haies disq : lancer du disque

perc : saut à la perche jave : lancer du javelot

1500m : course de 1500 mètres

Ces résultats sont utilisés pour calculer un score final en suivant le barème du

décathlon, l'individu ayant le score (variable SCORE) le plus grand gagne la compétition.

1) Représenter et analyser la répartition des variables, étudier leurs liens, après centrage et réduction par colonne. Pourquoi faut-il enlever le dernier individu et supprimer la dernière colonne ?

2) Réaliser et interpréter l’ACP sur le tableau ainsi créé et utiliser le score comme variable illustrative (supplémentaire).

3) Réaliser une classification ascendante hiérarchique avec la méthode de Ward sur ce tableau. Tracer les groupes obtenus dans les axes de l’ACP. Utiliser cette classification pour créer une variable en classes à partir du score. Caractériser les groupes.

Sujet 2 : Analyse de l’élection présidentielle de 1988

On dispose de deux tableaux de données.

Le premier tableau X donne pour les 94 départements de la France métropolitaine le résultat du premier tour de l’élection présidentielle de 1988 (fichier candidats.txt). Il y avait 9 candidats, respectivement F. Mitterand (gauche socialiste), J. Chirac (droite républicaine), R.

Barre (centre droit), J.M. Le Pen (extrême droite), A. Lajoinie (gauche communiste), M.

Waechter (écologiste), P. Juquin (communiste dissident), A. Laguillier (extrême gauche) et M. Boussel (non inscrit). Les données représentent le pourcentage de voix obtenues dans chaque département par chaque candidat.

(2)

Le second tableau Y croise ces mêmes 94 départements et 15 variables socioéconomiques (fichier depart.txt).

On cherche à établir le lien qui existe entre les deux tableaux X et Y.

Le code des départements : attention : Il n’y a que 94 lignes dans les tableaux, le département 20 n’étant pas présent (on pourra peut-être renommer les lignes en accord avec les codes des départements

01 AIN 34 HÉRAULT 66 PYRÉNÉES ORIENTALES

02 AISNE 35 ILLE ET VILAINE 67 BAS RHIN

03 ALLIER 36 INDRE 68 HAUT RHIN

04 ALPES HAUTE PROVENCE 37 INDRE ET LOIRE 69 RHÔNE

05 HAUTES ALPES 38 ISÈRE 70 HAUTE SAÔNE 06 ALPES MARITIMES 39 JURA 71 SAÔNE ET LOIRE

07 ARDÈCHE 40 LANDES 72 SARTHE

08 ARDENNES 41 LOIR ET CHER 73 SAVOIE

09 ARIÈGE 42 LOIRE 74 HAUTE SAVOIE

10 AUBE 43 HAUTE LOIRE 75 PARIS

11 AUDE 44 LOIRE ATLANTIQUE 76 SEINE MARITIME

12 AVEYRON 45 LOIRET 77 SEINE ET MARNE

13 BOUCHES DU RHÔNE 46 LOT 78 YVELINES 14 CALVADOS 47 LOT ET GARONNE 79 DEUX SEVRES

15 CANTAL 48 LOZÈRE 80 SOMME

16 CHARENTE 49 MAINE ET LOIRE 81 TARN

17 CHARENTE MARITIME 50 MANCHE 82 TARN ET GARONNE

18 CHER 51 MARNE 83 VAR

19 CORRÈZE 52 HAUTE MARNE 84 VAUCLUSE

21 COTE D'OR 53 MAYENNE 85 VENDÉE

22 COTES DU NORD 54 MEURTHE ET MOSELLE 86 VIENNE

23 CREUSE 55 MEUSE 87 HAUTE VIENNE

24 DORDOGNE 56 MORBIHAN 88 VOSGES

25 DOUBS 57 MOSELLE 89 YONNE

26 DROME 58 NIÈVRE 90 TERRITOIRE BELFORT

27 EURE 59 NORD 91 ESSONNE

28 EURE ET LOIRE 60 OISE 92 HAUTS DE SEINE

29 FINISTÈRE 61 ORNE 93 SEINE SAINT DENIS

30 GARD 62 PAS DE CALAIS 94 VAL DE MARNE 31 HAUTE GARONNE 63 PUY DE DÔME 95 VAL D'OISE 32 GERS 64 PYRÉNÉES ATLANTIQUES

33 GIRONDE 65 HAUTES PYRÉNÉES

Les variables du tableau Y :

TXCR : Taux de croissance de la population, mesuré sur la période intercensitaire 1982-1990.

ETRA : Part des étrangers dans la population totale du département.

URBR : Pourcentage de la population vivant dans des agglomérations de plus de 20000 habitants (un département est dit urbain lorsque plus de la moitié de sa population vit dans de telles agglomérations).

JEUN : Part des 0-19 ans dans la population totale du département.

AGE : Part des 65 ans et plus dans la population totale du département.

CHOM : Taux de chômage.

(3)

AGRI : Part des agriculteurs dans la population active occupée du département.

ARTI : Part des artisans dans la population active occupée du département.

CADR : Part des cadres supérieurs dans la population active occupée du département.

EMPL : Part des employés dans la population active occupée du département.

OUVR : Part des ouvriers dans la population active occupée du département.

PROF : Part des professions intermédiaires dans la population active occupée du Département.

FISC : Fiscalité directe locale (valeur en francs constants 1990 par habitant de la somme des taxes locales - professionnelle, habitation, foncière et sur le foncier non bâti).

CRIM : Taux de criminalité par habitant (nombre de délits total par habitant) FE90 : Taux de fécondité (nombre de naissances rapporté au nombre de femmes fécondes (de 15 à 49 ans) en moyenne triennale. Donné pour 1000 femmes fécondes ici.

1) Réaliser une ACP normée sur chacun des deux tableaux X et Y et interpréter ces analyses. On appellera par la suite X et Y les deux tableaux normalisés (moyennes nulles et variances unitaires par colonnes)

2) Afin de comparer deux tableaux de données, une des méthodes classiques est l’analyse des corrélations canonique. Cette méthode est très proche de l’ACP et son principe est donné ci-dessous (voir aussi éventuellement le fichier canon.doc dans Cours/autres supports). Effectuer l’analyse canonique des deux tableaux, interpréter les variables canoniques et conclure.

Principe de l’analyse canonique (AC) : On considère deux tableaux centrés X (p variables) et Y (q variables). On note s=min(p,q). Le principe de l’AC est de rechercher des couples de variables (Uk,Vk), k=1…s, où Uk est une combinaison linéaire des variablesde X (Uk=XAk) et Vk une combinaison linéaire des variables de Y (Vk=XBk), telles que Uk et Vk soient le mieux possible corrélées entre elles, et les différents couples soient non corrélés entre eux (la matrice de corrélations entre les nouvelles variables (U1,…,Us ) et (V1,…,Vs ) est diagonale). Le lien entre les deux tableaux sera d’autant plus fort que les corrélations entre Uk et Vk k=1…s (termes diagonaux de la matrice de corrélations) sont élevées. La variable Uk (resp. Vk) s’appelle la k° variable canonique du tableau X (resp. Y). La corrélation entre Uk et Vk

s’appelle k° corrélation canonique.

Pour donner un sens à la k° variables canoniques de X (resp. de Y), comme en ACP, on regarde la corrélation entre les variables de X et Uk (resp. entre Y et Vk) : ce sont les variables de X (rep. Y) les plus corrélées à Uk (resp. Vk ) qui permettent de l’interpréter.

On peut par ailleurs reporter les individus en projection sur les plans représentés par deux variables canoniques de X (ou de Y, ce qui est généralement assez proche compte tenu des fortes corrélations entre les variables canoniques de même rang de X et Y) afin d’identifier différents profils d’individus.

La fonction R permettant de faire l’analyse est la fonction cancor(). Les sorties de cancor sont : les coefficients Ak (xcoef) et Bk (ycoef), k=1,…,s ; les corrélations canoniques (cor) ; les moyennes des tableaux X et Y s’ils n’ont pas été centrés auparavant.

Références

Documents relatifs

Dans la tranche des agglomérations de 300 000 à 700 000 habitants, Rennes a fait un choix atypique d’une ligne de métro, alors que Bordeaux, Nantes, Nice, Strasbourg,

Pour les emprunts à taux variable, indiquer le niveau à la date de vote du budget. (15) Il s'agit des intérêts dus au titre du contrat initial et comptabilisés à l'article 66111

Bien que l’auteur s’en défende dans un entretien (El-Watan, 15-05-2005, article signé par Bouziane Benachou) « Je ne suis pas un écrivain de l’urgence », ces textes ont

(7) Chapitre destiné à retracer les opérations particulières telles que les opérations de stocks ou liées à la tenue d’un inventaire permanent simplifié... définitions du

COMMUNAUTE D'AGGLOMERATION PAYS BASQUE - BUDGET PRINCIPAL - BP - 2020..

A9 - Détail des opérations pour le compte de tiers Sans Objet.. B - Engagements

A9 - Détail des opérations pour le compte de tiers Sans Objet.. B - Engagements

A9 - Détail des opérations pour le compte de tiers Sans Objet.. B - Engagements