• Aucun résultat trouvé

EXPLORATION DE DONNEES ET METHODES STATISTIQUES

N/A
N/A
Protected

Academic year: 2022

Partager "EXPLORATION DE DONNEES ET METHODES STATISTIQUES"

Copied!
2
0
0

Texte intégral

(1)

NOTES DE LECTURE ET DE CONSULTATION

Statistique et Enseignement, 6(1), 79-80, http://www.statistique-et-enseignement.fr/

© Société Française de Statistique (SFdS), Avril/April 2015

Note de lecture rédigée par Jean-Jacques Droesbeke

1

EXPLORATION DE DONNEES ET METHODES STATISTIQUES

Data analysis et Data mining avec le logiciel R

Lise BELLANGER et Richard TOMASSONE

Livre (479 pages) Édition : Ellipses – 2014

Ce livre est né de l’expérience d’enseignant de statistique appliquée et de chercheur accumulée par les auteurs. Il est construit sur cinq axes.

La première partie traite des préalables à un traitement statistique. Après un chapitre introductif explicitant les caractéristiques d’une démarche scientifique, deux chapitres en constituent la structure. Les outils de représentation d’un ensemble de données sont tout d’abord présentés : structure d’un tableau de données, résumés unidimensionnels et multidimensionnels, décomposition d’une matrice de données. Viennent ensuite un certain nombre de pratiques utiles avant leur traitement : transformations de Box et Cox, ré- échantillonnage des données, données suspectes et manquantes.

La deuxième partie porte sur l’étude d’un échantillon. On y trouve les principes et interprétations de l’analyse en composantes principales, de l’analyse factorielle des correspondances et des correspondances multiples, le modèle factoriel et les méthodes de classification.

La troisième partie traite de l’étude de deux groupes de variables. Les auteurs décrivent tout d’abord les bases du modèle de régression et ses limites. La colinéarité fait l’objet d’un chapitre dans lequel la régression sur composantes principales, la régression PLS et la régression biaisée ou pénalisée sont décrites. Cette partie s’achève avec les relations entre deux groupes de variables : l’analyse des corrélations canoniques est au centre de ce chapitre mais d’autres méthodes sont aussi signalées.

La quatrième partie porte sur l’étude de plusieurs échantillons sur le thème

« discrimination et classement ». Enfin, les arbres binaires et quelques conclusions et perspectives générales complètent cet ouvrage qui s’achève par une annexe contenant quelques renseignements sur les bibliothèques de programmes R utilisés dans l’ouvrage ainsi que sur les fichiers de données traités.

Les auteurs s’adressent à des lecteurs ayant déjà une connaissance de base en inférence statistique (estimation et tests d’hypothèses). Ils sont aussi censés posséder une pratique de l’algèbre linéaire et être familiers avec le logiciel R. Chaque méthode présentée est

1 Université libre de Bruxelles, jjdroesb@ulb.ac.be

(2)

NOTES DE LECTURE ET DE CONSULTATION Note de lecture : « Exploration de données et méthodes statistiques » (L. Bellanger et R. Tomassone, 2014)

Statistique et Enseignement, 6(1), 79-80, http://www.statistique-et-enseignement.fr/

© Société Française de Statistique (SFdS), Avril/April 2015

80

accompagnée d’au moins un exemple dont les données sont accessibles, avec une description succincte, sur la page personnelle de l’un des auteurs.

L’ouvrage est très clairement écrit. Les exemples sont attractifs et utilement commentés.

Les auteurs ont introduit quelques illustrations et portraits de quelques personnages qui ont participé à la construction des outils statistiques utilisés. Si le lecteur possède les caractéristiques nécessaires pour aborder cet ouvrage, il y trouvera certainement une aide précieuse pour aborder ses propres données de recherche et la manière d’interpréter leurs analyses. Par ailleurs, les enseignants en quête d’exemples divers traités avec R puiseront aussi dans cet ouvrage de quoi alimenter judicieusement certaines parties de leurs cours.

Références

Documents relatifs

3 Pour calculer l’aire sous une courbe d’une fonction f, nous avons vu la méthode de Riemann qui consiste à encadrer l’aire par deux séries de rectangles (borne inférieure et

Les statistiques à deux variables doivent avoir été paramétrées comme indiqué ci-dessus Choisissez le menu STAT.. Choisissez CALC en appuyant sur F2 Choisissez REG en appuyant sur F3

Le graphique semble indiquer une association entre les variables poids et taille: une plus grande taille semble correspondre en moyenne ` a un plus grand poids2. Une fa¸con

Calculer de deux manière différentes, à l'aide des tableaux suivants, sa moyenne, sa variance et son écart-type. Puis retrouver ses résultats à l'aide de

Conception et analyse de la forme limite d’une famille de coefficients statistiques d’association entre variables relationnelles.. Toute utilisation commerciale ou

Si deux variables sont statistiquement indépendantes (aucun lien), la corrélation est nulle, mais l’inverse est faux : il peut exister un lien autre que linéaire entre elles...

Dans ces dernières années des constructions générales à'espaces d'interpolation ont été données par plusieurs auteurs (cf. Comme ces auteurs sont souvent partis de points de vue

alors le critère concorGM de type procruste (toutes les métriques Mi et Nj sont les métriques identité), et les modifications successives des tableaux Xi sont