• Aucun résultat trouvé

2Traitementdesdonn´ees 1R´ecup´erationdesdonn´ees Pr´enoms`alanaissanceenFrance

N/A
N/A
Protected

Academic year: 2022

Partager "2Traitementdesdonn´ees 1R´ecup´erationdesdonn´ees Pr´enoms`alanaissanceenFrance"

Copied!
2
0
0

Texte intégral

(1)

Universit´e de Bordeaux

M2 Master MAS-MSS - UE : Projet Donn´ees Massives Ann´ee 2018-2019

Pr´ enoms ` a la naissance en France

Le but de ce projet informatique est de traiter des donn´ees `a travers le paradigme de pro- grammation MapReduce, la structure de fichiers HDFS et `a l’aide du package rmr2 du logiciel R.

1 R´ ecup´ eration des donn´ ees

Les fichiers disponibles aux adresses suivantes :

- http://francois.guillem.free.fr/data/sourceprenoms.rda - http://francois.guillem.free.fr/data/prenoms.rda

contiennent des donn´ees sur les pr´enoms `a la naissance en France (par d´epartement) entre 1946 et 2006. Ces fichiers portent sur un peu plus de 10000 pr´enoms. Chaque observation est une ligne qui correspond `a un pr´enom, un nombre d’occurrences, un d´epartement, une ann´ee.

2 Traitement des donn´ ees

Ce projet informatique est tr`es libre, en particulier toutes les initiatives personnelles et les approches innovantes seront fortement appr´eci´ees. N´eanmoins, l’un des buts ´etant de vous familia- riser avec la probl´ematique de la programmationMapReduce, il vous sera demand´e d’impl´ementer chaque question en utilisant le mod`ele de programmation MapReduce `a travers le package rmr2.

Afin de v´erifier la coh´erence de vos r´esultats, vous pouvez ´eventuellement les comparer avec un traitement standard des donn´ees en R.

Attention : pour le traitement des donn´ees en MapReduce, on utilisera directement les donn´ees converties au format HDFS `a l’aide de la commande

prenoms_bigdata <- to.dfs(prenoms)

sourceprenoms_bigdata <- to.dfs(sourceprenoms)

Il n’est pas autoris´e d’utiliser de pr´e-traitement des donn´ees en R avant de les conver- tir en HDFS!

Voici quelques questions qui pourront ˆetre trait´ees avecRHadoop :

- Pour un pr´enom donn´e, calculer des statistiques de base sur l’ann´ee de naissance du type moyenne, m´ediane, variance pour la France enti`ere, puis par d´epartement...

- Pour une ann´ee donn´ee, d´eterminer le pr´enom donn´e le plus de fois, le moins de fois par d´epartement...

1

(2)

- Pour un pr´enom donn´e, d´eterminer s’il existe des corr´elations plus ou moins fortes entre les d´epartements `a partir de la forme de la r´epartition de ce pr´enom au cours des ann´ees.

- Est-il possible de regrouper de fa¸con coh´erente les histogrammes des pr´enoms entre les d´epartements en utilisant une m´ethode classification non-supervis´ee ?

Nous insistons sur le fait que les questions pr´ec´edentes ne sont que des suggestions et n’ont pas vocation `a ˆetre exhaustives. Toute prise d’initiative sera appr´eci´ee.

3 Travail ` a effectuer

Il est demand´e de nous envoyer un compte-rendu sous la forme d’un fichier Rmarkdown (et le .pdf associ´e) avec vos codes R correctement comment´es.

2

Références

Documents relatifs

Toute rature ou utilisation de tipex entraˆıne une note nulle.. Donnez toutes

Toute rature ou utilisation de tipex entraˆıne une note nulle... Les fractions doivent

Toute rature ou utilisation de tipex entraˆıne une note nulle... Les fractions doivent

D´ etermine une fonction (sous la forme la plus simple possible) satisfaisant les deux crit` eres..

d) Si la droite d est une asymptote au graphique de la fonction f , la fonction f s’approche de plus en plus de la droite d pour finir par la toucher lorsque x ou y tend vers ±∞.. e)

[r]

Donner un algorithme Brute-force pour la d´etection d’un motif inconnu dans n s´equences et sugg`erer une approche branch-and-bound pour am´eliorer sa

Donner la d´efinition de motif, de profile et de consensus, ainsi que un exemple de fonction de score pour l’evaluation de la distance entre