UNIVERSITE DE BRETAGNE OCCIDENTALE
Année 2019-2020EURIA 1ère année
Examen à distance du jeudi 28 mai 2020.
Durée : 1 heure
Vous devez rendre trois fichiers à la fin de l’examen :
1. une copie manuscrite scannée ou photographiée au format .pdf pour l’exercice 1, 2. un fichier .Rmd pour l’exercice 2,
3. le fichier .pdf associé au fichier .Rmd.
Exercice 1 Cet exercice est à faire sur la copie, mais on pourra utiliser R pour les applications numériques.
La matrice de covarianceV d’un jeu de données estV =
4 1 1 1 2 −1 1 −1 3
1. Quelle est la matrice de corrélation ?
2. Quelles sont les vecteurs principaux de l’ACP ? 3. Quel est le sous-espace principal de dimension 2 ?
4. Quel est le pourcentage d’inertie totale expliquée par le premier plan principal ?
Exercice 2 Cet exercice est à faire en utilisant R Markdown. On rendra le fichier .Rmd et le fichier .pdf associé à la fin de l’examen.
On considère dans cet exercice le jeu de donnéesswiss disponible dansR. On pourra créer un data.frame nomméz qui contient les données en tapant la commandez=swiss. La
commande?swiss permet d’obtenir un descriptif du jeu de données. Il contient, pour chaque canton suisse en 1888, les variables suivantes
— "Fertility" : taux de fertilité normalisé ;
— "Agriculture" : pourcentage de la population qui travaille dans le domaine agricole ;
— "Examination" : le pourcentage d’appelés au service militaire qui a obtenu une bonne note aux évaluations réalisées par l’armée ;
— "Education" : le pourcentage de la population qui a continué ses études après l’école primaire
— "Catholic" : le pourcentage de catholique dans la population
— "Infant.Mortality" : taux de décès chez les enfants de moins de 1 an.
Ce jeu de données intéresse les démographes pour analyser les raisons qui ont conduit à une réduction du taux de natalité dans les pays occidentaux avec le développement économique.
1. Réaliser une ACP sur le jeu de données. La question est volontairement libre : vous pouvez utiliser tous les outils vus dans le chapitre sur l’ACP. La notation portera sur la pertinence des outils utilisés et sur l’interprétation que vous ferez des résultats obtenus. Les
interprétations et les codes R utilisés devront apparaître dans le fichier .Rmd.
2. Réaliser une classification non-supervisée. La question est volontairement libre : vous pouvez utiliser tous les outils vus dans le chapitre sur la classification. La notation portera sur la pertinence des outils utilisés et sur l’interprétation que vous ferez des résultats obtenus. Les interprétations et les codes R utilisés devront apparaître dans le fichier .Rmd.
1