• Aucun résultat trouvé

2Traitementdesdonn´ees 1R´ecup´erationdesdonn´ees Tauxd’abstentionaux´electionsmunicipales

N/A
N/A
Protected

Academic year: 2022

Partager "2Traitementdesdonn´ees 1R´ecup´erationdesdonn´ees Tauxd’abstentionaux´electionsmunicipales"

Copied!
2
0
0

Texte intégral

(1)

Universit´e de Bordeaux

M2 Master MAS-MSS - UE : Projet Donn´ees Massives Ann´ee 2018-2019

Taux d’abstention aux ´ elections municipales

Le but de ce projet informatique est de traiter des donn´ees `a travers le paradigme de pro- grammation MapReduce, la structure de fichiers HDFS et `a l’aide du package rmr2 du logiciel R.

1 R´ ecup´ eration des donn´ ees

Les fichiers disponibles aux adresses suivantes :

https://www.data.gouv.fr/fr/datasets/elections-municipales-2008-resultats-572150/

https://www.insee.fr/fr/statistiques/2044683 https://www.insee.fr/fr/statistiques/2044748 https://www.insee.fr/fr/statistiques/2044618 https://www.insee.fr/fr/statistiques/2128672 https://www.insee.fr/fr/statistiques/2044713 https://www.insee.fr/fr/statistiques/2044707

contiennent d’une part des donn´ees sur les r´esultats des ´elections municipales en France en 2008, et d’autre part des indicateurs socio-´economiques et d´emographiques sur les communes fran¸caises.

Le but de ce projet informatique est de s’int´eresser au taux d’abstention aux ´elections municipales en France et de le relier ´eventuellement `a des donn´ees socio-´economiques et d´emographiques.

2 Traitement des donn´ ees

Ce projet informatique est tr`es libre, en particulier toutes les initiatives personnelles et les approches innovantes seront fortement appr´eci´ees. N´eanmoins, l’un des buts ´etant de vous familia- riser avec la probl´ematique de la programmationMapReduce, il vous sera demand´e d’impl´ementer chaque question en utilisant le mod`ele de programmation MapReduce `a travers le package rmr2.

Afin de v´erifier la coh´erence de vos r´esultats, vous pouvez ´eventuellement les comparer avec un traitement standard des donn´ees en R.

Attention : pour le traitement des donn´ees en MapReduce, on utilisera directement les donn´ees converties au format HDFS `a l’aide de la commandeto.dfs.

Il n’est pas autoris´e d’utiliser de pr´e-traitement des donn´ees en R avant de les convertir en HDFS!

Voici quelques questions qui pourront ˆetre trait´ees avecRHadoop :

1

(2)

- Sur l’ensemble de la France, calculer des statistiques descriptives de base du type moyenne du taux d’abstention, variance, minimum, maximum. Faire le mˆeme type d’analyse par d´epartement. Quel est le d´epartement o`u le taux d’abstention moyen est le plus fort / plus faible ?

- Quelle sont les variables socio-´economiques et d´emographiques les plus corr´el´ees avec le taux d’abstention ?

- Proposer un mod`ele de pr´evision du taux d’abstention en fonction de variables socio-

´economiques et d´emographiques.

Nous insistons sur le fait que les questions pr´ec´edentes ne sont que des suggestions et n’ont pas vocation `a ˆetre exhaustives. Toute prise d’initiative sera appr´eci´ee.

3 Travail ` a effectuer

Il est demand´e de nous envoyer un compte-rendu sous la forme d’un fichier Rmarkdown (et le .pdf associ´e) avec vos codes R correctement comment´es.

2

Références

Documents relatifs

Statistique descriptive mono-vari´ e Bases de R Donn´ ees bi-vari´ ees Tests statistiques.. Objectifs

[r]

Pour trouver les coordonn´ ees d’un point dans un rep` ere, on ´ ecrit l’´ equation (vectorielle) caract´ eristique on convertit cette ´ equation en syst` eme num´ erique on

Les deux nuages de points sont presque semblables ( voir figure 4.17 ). Sur l’axe 2 c’est le nuage de points de la lign ´ ee rfi- qui est plus bas que le deuxi` eme nuage de

Le seuil de satisfaction est le seuil au del` a duquel l’acteur est satisfait alors que la satisfaction est le niveau de satisfaction fi- nale de l’acteur ` a l’issue de la

La boucle tant que est utilis ´ee lorsque le nombre d’it ´erations n’est pas connu `a l’avance: elle ex ´ecute le bloc d’instructions tant que la condition reste vraie.

Perdre ses photos de vacances : ¸ca n’a pas de

Programme des enseignements – Syst` emes d’information et conception d’entrepˆ ots de donn´ ees – Les principes et la d´ emarche du Data Mining (fouille de donn´ ees)