ESP GI-4 2015/2016 Sidi Mohamed Maouloud
Examen
Analyse de données
Tout au long de ce sujet les réponses données doivent l’être avec une précision de trois (03) décimales après la virgule.
Exercice 1. (6 points)
Les données cpus disponibles sous R dans la librairie MASS sont relatives à des caractéristiques d’un ensemble de micro-processeurs. name : fabricant et modèle ; syct : durée de cycle en ns ; mmin : minimum de la mémoire principale en kbs ; mmax : maximum de la mémoire principale en kbs ; cach : taille du cache kbs ; chmin : nombre minimum de canaux ; chmax : nombre minimum de canaux ; perf : performance publiée ; estperf : performance estimée par Ein-Dor & Feldmesser.
Charger la library et les données en tapant : library(MASS)
data(cpus)
1. Réaliser une ACP normée sur les données cpus en utilisant les variables : syct , mmin, mmax, cach, chmin, chmax . Donner le code permettant d’effectuer cette ACP
2. Tracer l’éboulis des valeurs propres. Combien d’axes proposez-vous retenir ? 3. Que vaut l’inertie associée au premier axe ?
4. Quel est le pourcentage d’inertie associé au premier axes, au 2ème axe , au 3ème axe ? 5. Quelle est la variable qui est la plus corrélée à l’axe 1 ? même question pour l’axe 2 ?
6. Quelles sont les variables dont les qualités de projection (cos2) sur le plan factoriel sont supérieures à 0.8 ?
Exercice 2. (6 points)
Le tableau de contingence X, qu’on peut avoir à l’aide du code qui suit, croise les réponses à deux questions "domicile" codé en 5 modalités (Toulouse (T), environs de Toulouse (E.T), Saint-Gaudens (S.G), environs de Saint-Gaudens (E.S.G) et autres (A) c'est à dire enquêtes de passage, non résidents de la zone considérée) et "mode de vente préféré Y" codé par q = 3 modalités (vente à la ferme (ferme), vente sur les marchés (marche) et vente à domicile (domicile)).
X=as.table(cbind(c(45,26,28,61,14), c(50,22,21,24,9), c(13,11,7,7,11))) dimnames(X)=list(domicile=c("T","E.T","S.G","E.S.G","A"),mode=c("ferme",
"marche", "domicile"))
On obtient le tableau
mode
domicile ferme marche domicile
T 45 50 13
E.T 26 22 11
S.G 28 21 7
E.S.G 61 24 7
A 14 9 11
1. Calculer le tableau des profils-lignes.ESP GI-4 2015/2016 Sidi Mohamed Maouloud 2. Réaliser un test d’indépendance du chi-deux. Donner le code permettant de réaliser ce test.
3. Quelle est la valeur de la statistique de ce test ? Y a-t-il un lien entre le mode de vente et le le domicile
4. Effectuer l’analyse factorielle des correspondances (AFC) sur ce tableau. Donner le code permettant de réaliser cette AFC
5. Quelle est le pourcentage d’inertie expliquée par les deux premiers axes ?
6. Produire de façon sommaire le premier plan factoriel avec les modalité-lignes et les modalité- colonnes et commenter ce graphique
Exercice 3. (5 points)
Charger la librairie FactoMineR et charger le jeu de données decathlon à l’aide du code suivant :
library(FactoMineR) ; data(decathlon)
Ce jeu de données correspond aux score obtenu par différents athlètes dans les différentes disciplines du décathlon ainsi qu’une variable qualitative Competition qui désigne la compétition ayant les modalités Decastar et OlympicG
1. Réaliser une analyse discriminante linéaire de la variable Competition en fonction des autres variables. Donner le code permettant de réaliser cette analyse discriminante
2. Combien y a-t-il d’axes discriminants ? justifier
3. Donner les coordonnées des individus numéros 1 et 23 sur le ou les facteurs discriminants.
Donner le code permettant de calculer ces coordonnées
4. Donner les classes attribuées à ces individus. Donner le code permettant de répondre à cette question
5. Donner la matrice de confusion et commenter la.
Exercice 4. (3 points) (à effectuer à la main)
On dispose de 5 objets a,b,c,d,e dont les distances sont données comme suit a b c d
b 1.24 c 2.19 1.01 d 0.65 0.79 1.61 e 2.69 2.20 1.82 2.08
Réaliser l’algorithme de classification hiérarchique en utilisant le critère du saut minimum et tracer le dendrogramme