• Aucun résultat trouvé

2Traitementdesdonn´ees 1R´ecup´erationdesdonn´ees R´epartitiondelapopulationparˆageetparpays

N/A
N/A
Protected

Academic year: 2022

Partager "2Traitementdesdonn´ees 1R´ecup´erationdesdonn´ees R´epartitiondelapopulationparˆageetparpays"

Copied!
2
0
0

Texte intégral

(1)

Universit´e de Bordeaux

M2 Master MAS-MSS - UE : Projet Donn´ees Massives Ann´ee 2018-2019

R´ epartition de la population par ˆ age et par pays

Le but de ce projet informatique est de traiter des donn´ees `a travers le paradigme de pro- grammation MapReduce, la structure de fichiers HDFS et `a l’aide du package rmr2 du logiciel R.

1 R´ ecup´ eration des donn´ ees

Dans cet exemple, il est propos´e d’analyser les histogrammes de r´epartition de la population par ˆage dans plusieurs pays du monde. Ces donn´ees peuvent ˆetre import´ees depuis l’International Data Base (IDB), qui est produite par l’International Programs Center, US Census Bureau (IPC, 2000). Elles peuvent ˆetre t´el´echarg´ees a l’URL :

https://www2.census.gov/programs-surveys/international-programs/about/idb/idbzip.zip En particulier on pourra s’int´eresser au fichierIDBext194.txt

2 Traitement des donn´ ees

Ce projet informatique est tr`es libre, en particulier toutes les initiatives personnelles et les approches innovantes seront fortement appr´eci´ees. N´eanmoins, l’un des buts ´etant de vous familia- riser avec la probl´ematique de la programmationMapReduce, il vous sera demand´e d’impl´ementer chaque question en utilisant le mod`ele de programmation MapReduce `a travers le package rmr2.

Afin de v´erifier la coh´erence de vos r´esultats, vous pouvez ´eventuellement les comparer avec un traitement standard des donn´ees en R.

Attention : pour le traitement des donn´ees en MapReduce, on utilisera directement les donn´ees converties au format HDFS.Il n’est pas autoris´e d’utiliser de pr´e-traitement des donn´ees en R avant de les convertir en HDFS!

Voici quelques questions qui pourront ˆetre trait´ees avecRHadoop :

- Pour un pays donn´e, calculer des statistiques de base sur l’ˆage de la population du type moyenne, m´ediane, variance...

- Pour une classe d’ˆage donn´ee, calculer des statistiques de base sur l’ˆage de la population du type moyenne, m´ediane, variance...

- Proposer une typologie des pays `a 2 classes `a l’aide d’une m´ethode de classification non- supervis´ee.

- Utiliser le mod`ele de r´egression lin´eaire pour pr´edire l’histogramme de r´epartition de la population dans un pays en fonction des donn´ees des ann´ees pr´ec´edentes.

1

(2)

Nous insistons sur le fait que les questions pr´ec´edentes ne sont que des suggestions et n’ont pas vocation `a ˆetre exhaustives. Toute prise d’initiative sera appr´eci´ee.

3 Travail ` a effectuer

Il est demand´e de nous envoyer un compte-rendu sous la forme d’un fichier Rmarkdown (et le .pdf associ´e) avec vos codes R correctement comment´es.

2

Références

Documents relatifs

[r]

La boucle tant que est utilis ´ee lorsque le nombre d’it ´erations n’est pas connu `a l’avance: elle ex ´ecute le bloc d’instructions tant que la condition reste vraie.

Le but de ce projet informatique est de s’int´ eresser au taux d’abstention aux ´ elections municipales en France et de le relier ´ eventuellement ` a des donn´ ees

Perdre ses photos de vacances : ¸ca n’a pas de

Programme des enseignements – Syst` emes d’information et conception d’entrepˆ ots de donn´ ees – Les principes et la d´ emarche du Data Mining (fouille de donn´ ees)

Introduction.- En langage C, l’acc`es ` a un ´el´ement d’un tableau peut se faire classiquement par le nom du tableau accompagn´e d’un index, mais aussi par un pointeur

Une exp´ erience par coloration a montr´ e qu’une rivi` ere souterraine alimente une r´ esurgence dans la vall´ ee. La rivi` ere souterraine a un d´ ebit tr` es sensible aux

Le seuil de satisfaction est le seuil au del` a duquel l’acteur est satisfait alors que la satisfaction est le niveau de satisfaction fi- nale de l’acteur ` a l’issue de la