• Aucun résultat trouvé

Analysefactorielledescorrespondances FeuilledeTravauxDirig´esn 22 o

N/A
N/A
Protected

Academic year: 2022

Partager "Analysefactorielledescorrespondances FeuilledeTravauxDirig´esn 22 o"

Copied!
11
0
0

Texte intégral

(1)

Feuille de Travaux Dirig´ es n 22 Analyse factorielle des correspondances

Exercice XXII.1. Pr´esidentielles

1. ecup´erer les donn´ees dans R en ex´ecutant les instructions suivantes. Penser

`

a remplacer"C :\\..." par le r´epertoire dans lequel vous avez enregistr´e le fichier que vous souhaitez ouvrir.

> Chemin <- "C:\\..."

> presid <- read.csv(paste(Chemin, "Presidentielle.CSV", + sep = ""), row.names = 1)

2. Quelles sont les diff´erentes variables reproduites dans le tableau au verso ? Quelle est leur nature ? Quelles sont le modalit´es sur lesquelles on va faire porter l’analyse factorielle des correspondances ? Obtenir les statistiques des- criptives, en utilisant la fonction summary, et les repr´esentations graphiques suivantes du jeu de donn´ees.

Sarkozy Bayrou Royal Le.Pen

1 Min. : 56819 Min. : 18979 Min. : 33493 Min. : 23432 2 1st Qu. : 289229 1st Qu. : 165316 1st Qu. : 217393 1st Qu. : 91391 3 Median : 362391 Median : 214259 Median : 322212 Median :143926 4 Mean : 492330 Mean : 293479 Mean : 408817 Mean :166272 5 3rd Qu. : 544817 3rd Qu. : 379599 3rd Qu. : 554790 3rd Qu. :182804 6 Max. :1931429 Max. :1143081 Max. :1593033 Max. :430553

Besanc. Villiers Voynet Laguiller

1 Min. : 5941 Min. : 1908 Min. : 2119 Min. : 1346 2 1st Qu. : 37473 1st Qu. : 21474 1st Qu. :13284 1st Qu. :13690 3 Median : 58312 Median : 28166 Median :20382 Median :18623 4 Mean : 64976 Mean : 35469 Mean :24793 Mean :21152 5 3rd Qu. : 83281 3rd Qu. : 40957 3rd Qu. :29837 3rd Qu. :25618 6 Max. :181247 Max. :107895 Max. :89885 Max. :52965

> library(graphics)

> install.packages("vcd")

> library(vcd)

> presidtable <- as.table(as.matrix(presid[, -c(13, 14)]))

> assoc(presidtable, shade = T, las = 2, rot_labels = 90,

+ labeling_args = list(abbreviate = c(A = TRUE), varnames = F, + main = "Associations et r´esidus du test du chi2"))

(2)

Bove Buffet Nihous Schivardi 1 Min. : 1659 Min. : 5163 Min. : 2260 Min. : 450 2 1st Qu. :12430 1st Qu. : 14878 1st Qu. : 9697 1st Qu. : 2806 3 Median :14904 Median : 22334 Median :20439 Median : 4207 4 Mean :20832 Mean : 30673 Mean :18265 Mean : 5361 5 3rd Qu. :27677 3rd Qu. : 36333 3rd Qu. :23426 3rd Qu. : 7026 6 Max. :57453 Max. :110967 Max. :43595 Max. :12386

Sarkozy 2 Royal 2 1 Min. : 93771 Min. : 62209 2 1st Qu. : 470508 1st Qu. : 408900 3 Median : 641324 Median : 583406 4 Mean : 817371 Mean : 723216 5 3rd Qu. : 915508 3rd Qu. : 987746 6 Max. :2885762 Max. :2612107

> mosaicplot(presidtable, type = "pearson", shade = T,

+ las = 2, main = "Associations et r´esidus du test du chi2")

> install.packages("ade4")

> library(ade4)

> table.value(presidtable, grid = T, col.labels = names(presid))

(3)

−219 −4

302

Pearson residuals: p−value = < 2.22e−16

Sc N Bf Bv LgVy Vl B.

L.

R By Sr Alsace

Aquitaine Auvergne Bourgogne Bretagne Centre Cham−Ard Corse Fr−Comte

Ile de Fr Lang−Rous Limousin Lorraine Midi−Pyr Nord−PdC

Basse−Nor Haute−Nor Pays−Loire Picardie Poit.−Cha PACA

Rhone−Alp Outremer

Standardized Residuals:

<−4

−4:−2

−2:0 2:4 0:2

>4

Associations et résidus du test du chi2 Alsace

Aquitaine Auvergne Bourgogne Bretagne Centre Cham−Ard Corse Fr−Comte Ile de Fr Lang−Rous Limousin Lorraine Midi−Pyr Nord−PdC Basse−Nor Haute−Nor Pays−Loire Picardie Poit.−Cha PACA Rhone−Alp Outremer

Sarkozy Bayrou Royal Le.Pen Besanc. Villiers Voynet Laguiller Bove Buffet Nihous Schivardi

(4)

Alsace Aquitaine Auvergne Bourgogne Bretagne Centre Cham−Ard Corse Fr−Comte Ile de Fr Lang−Rous Limousin Lorraine Midi−Pyr Nord−PdC Basse−Nor Haute−Nor Pays−Loire Picardie Poit.−Cha PACA Rhone−Alp Outremer

Sarkozy Bayrou Royal Le.Pen Besanc. Villiers Voynet Laguiller Bove Buffet Nihous Schivardi

250000 750000 1250000 1750000

3. Faire l’analyse factorielle des correspondances du tableau de donn´ees en trai- tant les r´esultats du second tour, colonnesSarkozy_2etRoyal_2, comme des colonnes suppl´ementaires, puis construire les diagrammes des valeurs propres suivants. Par combien d’axes l’information est-elle r´esum´ee de mani`ere satis- faisante ?

> library(FactoMineR)

> res.ca <- CA(presid, col.sup = c(13, 14), graph = FALSE)

> barplot(res.ca$eig$per, ylab = "Inertie expliqu´ee (%)", + xlab = "Composante")

> barplot(res.ca$eig$cum, ylab = "Inertie cumul´ee expliqu´ee (%)", + xlab = "Composante")

> abline(h = 80, lty = 2, lwd = 2)

(5)

Composante

Inertie expliquée (%) 010203040

Composante

Inertie cumulée expliquée (%) 020406080100

> res.ca$call$marge.row

res.ca.call.marge.row

Alsace 0.02751

Aquitaine 0.05360

Auvergne 0.02333

Bourgogne 0.02677

Bretagne 0.05507

Centre 0.04073

Cham-Ard 0.02070

Corse 0.00422

Fr-Comte 0.01886

Ile de Fr 0.15695

Lang-Rous 0.04237

Limousin 0.01284

Lorraine 0.03747

Midi-Pyr 0.04787

Nord-PdC 0.06293

Basse-Nor 0.02502

Haute-Nor 0.02899

Pays-Loire 0.05936

Picardie 0.03006

Poit.-Cha 0.02964

PACA 0.07500

Rhone-Alp 0.09433

Outremer 0.02637

> res.ca$call$marge.col

3. Repr´esenter le premier et le second plan factoriel.

(6)

res.ca.call.marge.col

Sarkozy 0.31113

Bayrou 0.18546

Royal 0.25835

Le.Pen 0.10507

Besanc. 0.04106

Villiers 0.02241

Voynet 0.01567

Laguiller 0.01337

Bove 0.01316

Buffet 0.01938

Nihous 0.01154

Schivardi 0.00339

> plot(res.ca, col.col.sup = "black", cex = 0.8)

> plot(res.ca, col.col.sup = "black", axes = c(3, 4), + cex = 0.8)

(7)

−0.4−0.20.00.2

−0.2

−0.1 0.0 0.1 0.2 0.3 0.4

CA factor map Dim 1 (44.17%)

Dim 2 (20.73%)

Alsace

AquitaineAuvergne Bourgogne

Bretagne Centre Cham−Ard Corse

Fr−Comte Ile de Fr

Lang−Rous

Limousin Lorraine

Midi−PyrNord−PdC Basse−Nor Haute−Nor

Pays−Loire Picardie

Poit.−Cha PACA

Rhone−Alp Outremer

Sarkozy

Bayrou Royal Le.Pen

Besanc.

Villiers Voynet

Laguiller Bove Buffet

Nihous Schivardi Sarkozy_2

Royal_2 −0.2−0.10.00.10.20.3

−0.1 0.0

0.1 0.2

0.3

CA factor map Dim 3 (19.52%)

Dim 4 (6.636%)

Alsace AquitaineAuvergne

Bourgogne Bretagne

CentreCham−Ard CorseFr−Comte Ile de Fr Lang−RousLimousin Lorraine Midi−PyrNord−PdC

Basse−Nor Haute−Nor

Pays−Loire Picardie

Poit.−Cha PACA Rhone−Alp

Outremer Sarkozy Bayrou

Royal

Le.Pen Besanc.

Villiers Voynet

Laguiller Bove Buffet

Nihous Schivardi

Sarkozy_2 Royal_2

(8)

Commenter la qualit´e de la repr´esentation obtenue sur les quatre premiers axes factoriels en analysant le contenu des tableaux suivants :

res.ca$col$coord,res.ca$col$cos2,res.ca$col$contrib.

res.ca$row$coord,res.ca$row$cos2,res.ca$row$contrib.

4. La fonction dimdescpermet d’obtenir une description automatique des axes de l’AFC. Commenter ses r´esultats lorsqu’elle est appliqu´ee `ares.ca.

(9)

SarkozyBayrouRoyalLePenBesanc.VilliersVoynetLaguillerBoveBuffetNihousSchivardiSarkozy2Ro Alsace3623912142591712821357303331022492203821382113758610051422522641324 Aquitaine532127417546557300168664782303402828285220462794141791353007572909798 Auvergne23815216939522547778704415221873012090129361353221920124744207405352 Bourgogne297544175213241094119041422462497113690144401229618154120793608515827 Bretagne5575074519885641001439269420541212390262566228484318602120751699212181023094 Centre460425278175345352168912653474572022655222791739530003205675696795959 Cham-Ard2466801226421602801145273342420455107271356074141246590162270429708 Corse56819189793349323432594119082119134616595163226045093771 Fr-Comte212358114148165243942123067216361128791088010365920478142446371156 IledeFr19314291143081159303343055318124789498898855296557453110967198901238628857622612107 Lang-Rous4700172347393955092144686259728166207871717527412385902135611436809868 Limousin123870824451422373852524040107896144656666291569580292284207618 Lorraine403919250195315596196696709402918321562255741609419229103784211715247 Midi-Pyr458093341651542038154777691773085025267186233368734076252808778787351 Nord-PdC639390340679573071335855127881407023138852695245917402743595634811319041117952 Basse-Nor28091418425620930888569439972572214389146521318011211214493090476255 Haute-Nor309924184615257664126795583122569215707200481256326376137173604543404 Pays-Loire636934457560552280158844936851078953895228481258112673726674648110756851003684 Picardie331053161236251862168699577692673114219239821161922334204394189582715 Poit.-Cha30449319412632221288138456383873516333139491393415901215713882516282 PACA101023441916157903637783188331548513833926467369636196826538993516621311025774 Rhone-Alp11216156899848072203606461237767595963032381145144157654326241096918564301440224 Outremer337711103933398110367142215951391238310234149041406226981772464760 ....................................

(10)

Exercice XXII.2. Effet Guttman

L’effet Guttman traduit une association entre les deux variables qualitatives dont nous ´etudions la table de contingence. En ´ecologie, il est alors d’usage de parler d’or- dination indirecte. Le jeu de donn´ees utilis´e ci-dessous est un ensemble de Densit´es `a l’hectare de 11 esp`eces d’arbres par classe de valeurs de l’humidit´e du sol (moyenne sur plusieurs stations par classe).

> library(FactoMineR)

> data(santacatalina, package = "ade4")

> sant = santacatalina

> coasanta = CA(sant, ncp = 1, graph = F)

> table.value(sant, csize = 1.5)

> table.value(sant[order(coasanta$row$coord), order(coasanta$col$coord)], + csize = 1.5)

Pinus.ponderosa Quecus.hypoleucoides Pinus.cembroides Arctostaphylos.pringlei Quercus.arizonaca Quercus.rugosa Garrya.wrightii Pseudostuga.menziesii Quercus.emoryi Pinus.chihuahuana Arbutus.arizonaca

v1 v2 v3 v4 v5 v6 v7 v8 v9 v10

250 750 1250

Pseudostuga.menziesii Pinus.ponderosa Quercus.rugosa Arbutus.arizonaca Quecus.hypoleucoides Pinus.chihuahuana Quercus.arizonaca Arctostaphylos.pringlei Garrya.wrightii Pinus.cembroides Quercus.emoryi

v1 v2 v3 v4 v5 v6 v7 v9 v8 v10

250 750 1250

A gauche, les donn´` ees brutes et `a droite, le tableau trait´e : les sites et les esp`eces sont ordonn´es en fonction des sites, les colonnes, qui sont les classes du gradient.

> santa.coa <- CA(santacatalina, ncp = 4, graph = F)

> plot(santa.coa)

(11)

−2 −1 0 1 2

−1012

CA factor map

Dim 1 (43.5%)

Dim 2 (24.75%)

Pinus.ponderosa

Quecus.hypoleucoides

Pinus.cembroides Arctostaphylos.pringlei Quercus.arizonaca

Quercus.rugosa

Garrya.wrightii Pseudostuga.menziesii

Quercus.emoryi

Pinus.chihuahuana Arbutus.arizonaca

v1

v2 v3

v4 v5 v6

v7 v9v8

v10

Le package ade4 propose des repr´esentations compl´ementaires. Voir l’article de J.

Oksanen1 pour plus de d´etails.

> library(ade4)

> santa.coa <- dudi.coa(santacatalina, scan = F)

> scatter(santa.coa, met = 2)

> scatter(santa.coa, met = 3)

1. Ex´´ ecuter les lignes de commande ci-dessus.

2. Traiter l’exemple qui vous a ´et´e propos´e en cours.

1J. Oksanen. Problems of joint display of species and site scores in correspondence analysis.

Vegetatio, 72 : 51–57, 1987.

Références

Documents relatifs

On consid` ere deux droites dont les pentes d´ ependent du sexe du chat comme un ´ ecart par rapport ` a une valeur de la pente que l’on prendrait comme commune aux deux sexes et

a une temp´ erature de 31 ˚F, quelle ´ etait la probabilit´ e pr´ edite ` a l’aide du mod` ele de l’apparition d’au moins une d´ efaillance`. Bien que les valeurs avec

Le package dans R permettant d’obtenir la densit´ e, les quantiles ou de g´ en´ erer des r´ ealisations de lois normales multivari´ ees est le package mvtnorm?. Que font

Maintenant la valeur T obs de la r´ ealisation de la statistique observ´ ee pour les donn´ ees originales non m´ elang´ ees peut ˆ etre compar´ ee avec la distribution de T

Il pourrait donc ˆ etre int´ eres- sant de r´ ealiser des graphiques diff´ erents pour chacune des modalit´ es Iris se- tosa, Iris Versicolor et Iris Virginica ou de

Maintenant la valeur de la r´ ealisation de la statistique observ´ ee pour les donn´ ees originales non m´ elang´ ees peut ˆ etre compar´ ee avec la distribution de la statistique

Obtenir la classification des hˆ otels en trois groupes ` a l’aide de la m´ ethode des K−moyennes qui portera sur les coordonn´ ees des hˆ otels dans le premier plan

Repr´ esenter les individus dans le premier et le second plan factoriel en ´ etique- tant les donn´ ees de telle sorte que l’on puisse identifier ` a quel hˆ otel est associ´ e