• Aucun résultat trouvé

Del’analysemulti-variables `a l’analysemulti-tableaux

N/A
N/A
Protected

Academic year: 2021

Partager "Del’analysemulti-variables `a l’analysemulti-tableaux"

Copied!
31
0
0

Texte intégral

(1)

De l’analyse multi-variables `

a

l’analyse

multi-tableaux

A.B. Dufour & D. Chessel

Notes de cours cssb7

On pose la question des tableaux multiples `a partir de jeux de don-n´ees exemplaires. Les analyses ´el´ementaires des cubes de donn´ees introduisent la notion de compromis.

Table des mati`

eres

1 Introduction 2

2 La classe ktab 5

2.1 Rangement des objets . . . 5 2.2 Signification et objectifs . . . 6 2.3 Comment faire des ktab ? . . . 10

3 Les variables floues 12

4 Les analyses inter et intra-classes 13

4.1 Tableaux de mod`eles et d’erreurs . . . 13 4.2 Transformation de Bouroche . . . 16 4.3 Les AFC intra-classes . . . 17 5 Approches ´el´ementaires des cubes de donn´ees 17 5.1 Analyses triadiques partielles . . . 17 5.2 L’AFC de Foucart . . . 25

(2)

1

Introduction

Quand on introduit une partition dans l’ensemble des descripteurs ou dans celui des conditions d’acquisition, on passe de l’analyse des donn´ees des tableaux ou des couples de tableaux `a celle des K-tableaux. On trouvera dans la librairie ade4 nombre d’exemples de ce type au premier rang desquels celui de L. Friday [11] d´ecrit dans :

http://pbil.univ-lyon1.fr/R/pps/pps078.pdf et celui de J. Verneaux [22] d´ecrit dans :

http://pbil.univ-lyon1.fr/R/pps/pps047.pdf

Le premier exemple repr´esente la situation K-tableaux mˆemes individus et la question de la valeur typologique des groupes d’esp`eces. Le second repr´esente la situation K-tableaux mˆemes variables et la question de la reproduction d’une mˆeme structure dans diff´erentes conditions.

library(ade4) data(friday87)

wfri <- data.frame(scale(friday87$fau[, -(75:77)], scal = FALSE))

wfri <- ktab.data.frame(wfri, friday87$fau.blo[-8], tabnames = friday87$tab.names[-8]) kplot(sepan(wfri), clab.r = 2, clab.c = 1)

d = 1 Q P R J E C D K B A G M L F H N Hemiptera A1 A2 A3 A4 A5 A6 A7 A8 A9 Aa Ab Hemiptera Eigenvalues d = 1 Q P R J E C D K B A G M L F H N Odonata B1 B2 B3 B4 B5 B6 B7 Odonata Eigenvalues d = 2 Q P R J E C D K G B A M L F H N Trichoptera C1 C2 C3 C4 C5 C6 C7 C8 C9 Ca Cb Cc Cd Trichoptera Eigenvalues d = 1 Q P R J E C D K B A G M L F H N Ephemeroptera D1 D2 D3 D4 Ephemeroptera Eigenvalues d = 1 Q P R J E C D K B A G M L F H N Coleoptera E1 E2 E3 E4 E5 E6 E7 E8 E9 Ea Eb Ec Ed Coleoptera Eigenvalues d = 2 Q P R J E C D K B A G M L F H N Diptera F1 F3 F2 F4 F5 F6 F7 F8 F9 Fa Fb Fc Fd Fe Ff Fg Fh Fi Fj Fk Fl Fm Diptera Eigenvalues d = 0.5 Q P R J E C D K B A G M L F H N Hydracarina G1 G2 G3 G4 Hydracarina Eigenvalues d = 2 Q P R J E C D K B A G M L F H N Mollusca I1 I2 I3 I4 I5 I6 I7 I8 Mollusca Eigenvalues d = 2 Q P R J E C D K B A G M L F H N Oligochaeta J1 J2 J3 J4 J5 J6 Oligochaeta Eigenvalues

Ces donn´ees sont exemplaires parce qu’elles repr´esentent une multitude de si-tuations ´ecologiques, ce sont des exemples, et parce qu’elles sont parfaitement disponibles, ce sont des mod`eles. Les premi`eres repr´esentent la question K + 1-tableaux :

(3)

et la seconde la question 2K-tableaux.

On s’int´eressera donc pour commencer `a la question des K-tableaux. Ces situa-tions indiquent qu’on manipule simultan´ement plusieurs analyses, par exemple 9 ACP centr´ees (ci-dessus) ou 9 ACP norm´ees (ci-dessous).

data(jv73)

w <- split(jv73$morpho, jv73$fac.riv) w <- lapply(w, dudi.pca, scan = F) par(mfrow = c(3, 3))

for (k in c(1:2, 5:7, 9:12)) s.corcircle(w[[k]]$co, clab = 1.5, sub = names(w)[k], csub = 2)

x1 Alt Das Pen Smm Qmm Vme Allaine x1 Alt Das Pen Smm Qmm Vme Audeux x1 Alt Das Pen Smm Qmm Vme Cusancin x1 Alt Das Pen Smm Qmm Vme Dessoubre x1 Alt Das Pen Smm Qmm Vme Doubs x1 Alt Das Pen Smm Qmm Vme Drugeon Alt Das Pen Smm Qmm Vme Furieuse Alt Das Pen Smm Qmm Vme Lison Alt Das Pen Smm Qmm Vme Loue

(4)

On voit imm´ediatement que la configuration ”mˆemes variables et mˆemes indivi-dus” se pr´esente naturellement. Dans ce champ, les cubes de donn´ees jouent un rˆole central en exprimant la difficult´e imm´ediate de la multiplicit´e des points de vue.

Les donn´ees de J. Blondel et H. Farr´e [2] sont un troisi`eme cas d’´ecole, parce qu’elles ont ´et´e publi´ees en toute transparence. Il s’agit de mesurer la varia-bilit´e du cort`ege avifaunistique entre 4 r´egions (Pologne, Bourgogne, Provence et Corse), le long du gradient de fermeture de la v´eg´etation vu par six strates d’´echantillonnage (1- v´eg´etation buissonnante basse (hauteur < 1 m) `a 6- forˆets de plus de 20 m de hauteur). Les valeurs sont des effectifs de couples nicheurs pour 100 ha.

A d´efaut de m´ethodes appropri´ees, on peut toujours pr´esenter les donn´ees dans une analyse `a un tableau. La question qui vient imm´ediatement est lequel. Il y a, en effet, 6 mani`eres de faire d’un cube un tableau pour se ramener au cas pr´ec´edent et on a peu de chances de tomber sur la bonne au hasard :

On aborde donc des questions qui ne sont pas simples. La g´en´etique des popu-lations propose mˆeme une structure doublement K-tableaux :

L’´ecologie des communaut´es a pos´e des questions exp´erimentales pertinentes avant d’avoir des solutions techniques adapt´ees : c’est un m´erite qui lui a coˆut´e cher.

(5)

2

La classe ktab

2.1

Rangement des objets

Qu’il s’agisse de mˆemes individus ou de mˆemes variables ou des deux, il n’y a qu’une mani`ere de ranger les objets pour des raisons pratiques (figure 1 A). Ceci implique quelques pr´ecautions pour l’utilisateur. Au plan th´eorique, on voit donc que trois situations se pr´esentent. K tableaux peuvent avoir les mˆemes individus (figure 1 B) :

(X1, Q1, D) (X2, Q2, D) · · · (XK, QK, D)

ou les mˆemes variables (figure 1 C) :

(X1, Q, D1) (X2, Q, D2) · · · (XK, Q, DK)

ou les mˆemes marges :

(X1, Q, D) (X2, Q, D) · · · (XK, Q, D)

ou ˆetre des tables de contingences avec une marge en commun (figure 1 D) ce qui pose une question sp´ecifique que nous rencontrerons plus loin. On consid`ere les K-tableaux comme une forme de donn´ees unique qui peut avoir des significations diverses :

Figure 1 – K-Tableaux : un stockage commun pour des situations vari´ees. Un objet de la classe ktab est une liste de data frames ayant en commun les lignes (row.names) et les poids. Chaque rectangle repr´esente un data frame de la liste. Chacun de ces data frames est le tableau d’un sch´ema de dualit´e `a deux pond´erations qui s’´ecrit (Xk, Qk, D), le D ´etant commun. Les noms des lignes

des Xk sont les mˆemes. Les Qk sont rang´es dans un vecteur commun. Une liste

de la classe ktab comprend donc :

? blo le vecteur du nombre de colonnes des tableaux

(6)

? cw le vecteur des poids des colonnes

? TL un data frame `a deux composantes pour g´erer le rangement des para-m`etres associ´es aux lignes des tableaux

? TC un data frame `a deux composantes pour g´erer le rangement des para-m`etres associ´es aux colonnes des tableaux

? T4 un data frame `a deux composantes pour g´erer le rangement des para-m`etres `a 4 composantes associ´es `a un tableau

Les composantes TL, TC et T4 contiennent des variables qualitatives permettant de manipuler des informations associ´ees aux tableaux par le sch´ema.

? T est la variable qualitative dont chaque modalit´e repr´esente un tableau, ? L la variable qualitative dont chaque modalit´e repr´esente une ligne du

tableau concern´e.

? C la variable qualitative dont chaque modalit´e repr´esente une colonne du tableau concern´e.

Le croisement de T avec L ou C permet de g´erer les valeurs associ´ees `a chaque ligne ou chaque colonne du tableau. Le croisement de T avec 4 permet de g´erer 4 valeurs associ´ees `a chaque tableau.

2.2

Signification et objectifs

Un objet de la classe ktab est donc l’assemblage de K analyses s´epar´ees, qu’elles soient appari´ees par les lignes ou par les colonnes ou par les deux. Ceci signifie que les traitements pr´ealables des tableaux (e.g. centr´es par colonnes si les co-lonnes sont des variables, normalis´es par lignes si les lignes sont des variables, doublement centr´es si les tableaux sont des tables de contingence, . . . ) sont faits avant la constitution de la liste.

(7)

Dans ce cas, B1 et C2 sont strictement ´equivalents, de mˆeme que C1 et B2, de mˆeme que D1 et D2. Ceci est purement formel et ne pr´ejuge en rien de ce qu’on veut faire. On peut introduire la question en disant que globalement :

? un tableau peut ˆetre une variable en ce sens que plusieurs colonnes peuvent ˆetre n´ecessaires pour enregistrer l’information d’un type donn´e ;

? un tableau peut ˆetre un individu en ce sens que plusieurs lignes peuvent ˆetre n´ecessaires pour enregistrer l’information d’un type donn´e ;

? un tableau peut ˆetre une structure en ce sens qu’il d´efinit `a lui seul une typologie de variables et/ou d’individus.

Ainsi une distribution de granulom´etrie donn´ee par 20% argile, 70% limon et 10% sable prendra 3 colonnes mais ne contiendra qu’une variable. Au contraire, une mesure de p variables sur n individus appartenant `a la mˆeme population sera multivari´ee (chaque colonne est utile ind´ependamment des autres) mais ne repr´esentera qu’un individu (une population, un groupe, un ´echantillon). Au contraire, enfin, un tableau faunistique repr´esente un mode de dispersion des taxons entre les stations, mais rien n’empˆeche de reproduire la mesure `a une autre date et le tableau repr´esente alors une structure. Rien ne se ressemble moins sur le fond que deux K-tableaux de nature diff´erente, alors que formelle-ment ce sont des objets tr`es proches.

On devra donc abandonner d´efinitivement l’id´ee que la forme des donn´ees impose la forme du traitement. Bien au contraire, il est ici possible de faire exactement le contraire de ce dont on a besoin !

La principale difficult´e vient d’un argument th´eorique. Il y a plusieurs m´ethodes (ACP, AFC, ACM, . . . ) associ´ees `a un seul tableau qui r´esolvent plusieurs pro-bl`emes (inertie, codage, auto-mod´elisation) `a l’aide d’un seul algorithme qui rel`eve d’un seul mod`ele (duality diagram). Cette unicit´e est perdue dans un couple de tableaux, plus encore avec K tableaux.

LA m´ethode n’existe pas et n’existera jamais. La question centrale est celle des objectifs. Quand on aborde l’analyse des donn´ees multi-tableaux, la principale difficult´e est la maˆıtrise des objectifs poursuivis. La richesse implicite de la

(8)

structure des donn´ees interdit un comportement bas´e sur la pr´esentation formelle des donn´ees. Deux exemples qui ne demandent aucune introduction technique montrent cet aspect fondamental. Prenons le petit exemple num´erique qui figure en fin de l’ouvrage de C. Lavit [15] pour l’illustration du programme STATIS.

0 0.8 agr 0.7 0.2 ouv 0.90.1 ter ● ● ● ● ● ● ● ● ● ● ● ● Gig68 Gig75 Gig82 Lun68 Lun75 Lun82 Gan68 Gan75 Gan82 Mat68 Mat75 Mat82

On a pour 4 communes (Gignac, Ganges, Matellas, Lunel) la mesure de 3 va-riables communes (taux des emplois agricoles, ouvriers et tertiaires) lors de trois recensements (1968, 1975 et 1982). exo1 <- matrix(c(51.88, 32.55, 15.57, 44.94, 34.59, 20.47, 25.95, 39.15, 34.9, 37.87, 43.19, 18.94, 34.2, 43.32, 22.48, 16.13, 42.18, 41.69, 7.76, 70.93, 21.31, 6.22, 65.96, 27.82, 6.44, 57.06, 36.5, 37.24, 32.45, 30.31, 16.09, 31.22, 52.69, 6.54, 24.68, 68.78), ncol = 3, byr = T) exo1 <- as.data.frame(exo1)

names(exo1) <- c("agr", "ouv", "ter")

com <- as.factor(rep(c("Gig", "Lun", "Gan", "Mat"), c(3, 3, 3, 3))) rec <- as.factor(rep(c("68", "75", "82"), 4))

row.names(exo1) = paste(com, rec, sep = "")

triangle.plot(exo1, lab = row.names(exo1), clab = 1, labeltriangle = T)

Or cette figure, interpr´et´ee, en donne deux autres.

par(mfrow = c(1, 2)) par(mar = rep(0, 4)) w <- triangle.plot(exo1)

l1 <- split(as.data.frame(w), com)

lapply(1:4, function(k) lines(l1[[k]], lwd = 2)) w <- triangle.plot(exo1)

l2 <- split(as.data.frame(w), rec)

lapply(1:3, function(k) polygon(l2[[k]], col = palette(rainbow(3))[k])) palette("default")

(9)

0 0.8

agr

0.7 0.2

ouv

0.9 0.1

ter

● ● ● ● ● ● ● ● ● ● ● ● 0 0.8

agr

0.7 0.2

ouv

0.9 0.1

ter

● ● ● ● ● ● ● ● ● ● ● ●

A gauche, on a dessin´e les ´evolutions par commune, ce qui conduit `a une question sur la typologie des ´evolutions. A droite on a dessin´e les typologies de communes par dates, ce qui conduit `a une question sur l’´evolution des typologies. Ici les donn´ees sont en dimension deux. On voit tout du mˆeme endroit. Quand il y a de nombreuses variables, les deux repr´esentations associ´ees aux deux objectifs peuvent ˆetre totalement diff´erentes. Un autre exemple est disponible dans la liste euro123 :

data(euro123) par(mfrow = c(2, 2))

triangle.plot(euro123[[1]], min3 = c(0, 0.2, 0.3), max3 = c(0.5, 0.7, 0.8), clab = 1, label = row.names(euro123[[1]]), addax = T) triangle.plot(euro123[[2]], min3 = c(0, 0.2, 0.3), max3 = c(0.5,

0.7, 0.8), clab = 1, label = row.names(euro123[[1]]), addax = T) triangle.plot(euro123[[3]], min3 = c(0, 0.2, 0.3), max3 = c(0.5,

0.7, 0.8), clab = 1, label = row.names(euro123[[1]]), addax = T) moy <- t(data.frame(lapply(euro123[1:3], function(x) apply(x, 2,

mean)))) moy

pri sec ter

in78 0.1340000 0.3600000 0.5060000 in86 0.1046667 0.3130000 0.5823333 in97 0.0672500 0.2764167 0.6563333

triangle.plot(moy, min3 = c(0, 0.2, 0.3), max3 = c(0.5, 0.7, 0.8), label = c("78", "86", "97"), clab = 2)

(10)

0 0.8

pri

0.5 0.2

sec

0.7 0.3

ter

● ● ● ● ● ● ● ● ● ● ● ● Belgium Denmark Spain France Greece Ireland Italy Luxembourg Netherlands Portugal Germany United_Kingdom ● 0 0.8

pri

0.5 0.2

sec

0.7 0.3

ter

● ● ● ● ● ● ● ● ● ● ● ● Belgium Denmark Spain France Greece Ireland Italy Luxembourg Netherlands Portugal Germany United_Kingdom ● 0 0.8

pri

0.5 0.2

sec

0.7 0.3

ter

● ● ● ● ● ● ● ● ● ● ● ● Belgium Denmark Spain France Greece Ireland Italy Luxembourg Netherlands Portugal Germany United_Kingdom ● 0 0.8 0.5 0.2 0.7 0.3 ● ● ●

78

86

97

La figure pose clairement la question de l’axe de l’´evolution ou de l’´evolution de l’axe. L’´evolution de la moyenne est une question. La d´eformation de la structure en est une autre. La difficult´e de la probl´ematique n’implique pas n´ecessairement celle de la mise en œuvre technique puisque ici on voit en permanence toute l’information. La statistique K-tableaux introduit la notion de moyenne et de variabilit´e non plus d’une valeur mais d’une typologie. Est en cause la variabilit´e de la variabilit´e. C’est une question nouvelle. Ces questions ont ´et´e pos´ees `a propos de l’´evolution du tapis v´eg´etal [19]. De la morphom´etrie `a l’´ecosyst´emie, la biologie ´evolutive est un domaine privil´egi´e de r´eflexion sur la variabilit´e.

2.3

Comment faire des ktab ?

Il y a quatre strat´egies de constitution de K-tableaux : 1. avec une liste de sch´emas de dualit´e : ktab.list.dudi 2. avec une liste de data frames : ktab.list.df

3. avec un data frame : ktab.data.frame

(11)

La plus transparente est de faire K sch´emas de dualit´e s´epar´es et de les assembler par ktab.list.dudi. La fonction v´erifie que l’assemblage est possible, et en particulier, que les pond´erations sont compatibles.

data(euro123)

pca1 <- dudi.pca(euro123$in78, scale = F, scann = F) pca2 <- dudi.pca(euro123$in86, scale = F, scann = F) pca3 <- dudi.pca(euro123$in97, scale = F, scann = F)

kta1 <- ktab.list.dudi(list(pca1, pca2, pca3), tabnames = c("1978", "1986", "1997"))

kta1

Identifier les ´el´ements. Pour voir l’int´egralit´e du contenu :

unclass(kta1)

Pour refaire les analyses s´epar´ees :

kplot(sepan(kta1), mfr = c(2, 2), clab.c = 1.5) d = 0.1 Belgium Denmark Spain France Greece Ireland Italy Luxembourg Netherlands Portugal Germany United_Kingdom 1978 pri sec ter 1978 Eigenvalues d = 0.1 Belgium Denmark Spain France Greece Ireland Italy Luxembourg Netherlands Portugal Germany United_Kingdom 1986 pri sec ter 1986 Eigenvalues d = 0.05 Belgium Denmark Spain France Greece Ireland Italy Luxembourg Netherlands Portugal Germany United_Kingdom 1997 pri sec ter 1997 Eigenvalues

La seconde mani`ere est de partir d’une liste de data frames et de d´efinir au moment de l’assemblage les poids des lignes et des colonnes :

names(euro123)

T78 <- data.frame(scalewt(euro123$in78, scale = F)) T86 <- data.frame(scalewt(euro123$in86, scale = F)) T97 <- data.frame(scalewt(euro123$in97, scale = F))

kta2 <- ktab.list.df(list(T78, T86, T97), tabnames = c("1978", "1986", "1997"))

kta2

Observer qu’on obtient, avec les valeurs par d´efaut, une pond´eration unitaire des lignes, ce qui n’est pas le cas du pr´ec´edent. Cette option est surtout faite pour associer des tableaux dont les lignes sont des variables (data frames transpos´es). La troisi`eme mani`ere est la plus simple : elle part d’un tableau et d’un vecteur de nombre de colonnes par blocs :

w <- cbind.data.frame(euro123$in78, euro123$in86, euro123$in97) w <- scalewt(w, scale = F)

w <- data.frame(w)

kta3 <- ktab.data.frame(w, rep(3, 3), tabnames = c("1978", "1986", "1997"))

(12)

La derni`ere strat´egie pour constituer un K-tableaux part d’une analyse intra-classe avec le sch´ema de principe :

w <- rbind.data.frame(euro123$in78, euro123$in86, euro123$in97) pca1 <- dudi.pca(w, scal = F, scan = F)

wit1 <- within(pca1, factor(rep(c("1978", "1986", "1997"), rep(12, 3))), scan = F)

ktaprovi <- ktab.within(wit1, colnames = rep(row.names(euro123$in78), 3))

kta4 <- t(ktaprovi)

Noter l’obligation de transposer le K-tableaux pour se ramener au cas pr´ec´edent. Les op´erations possibles sur les K-tableaux sont sch´ematis´ees par :

3

Les variables floues

Un arch´etype des tableaux ayant valeur exp´erimentale de variables est celui des variables floues. Quand on veut noter le lien entre une esp`ece et l’altitude, on peut dire 670 m pour signifier que l’esp`ece se trouve en moyenne `a 670 m. On peut dire 1|3|2|0|0 sur le code [0,400], [400,800], [800,1200], [1200,1600] et [1600,2000] pour dire qu’une fois sur 6 on trouve l’esp`ece dans la premi`ere classe, 1 fois sur 2 dans la seconde et 1 fois sur 3 dans la troisi`eme. Le profil ´ecologique est une variable floue.

La litt´erature naturaliste du si`ecle pass´e est devenu un nouvel espace exp´ eri-mental en permettant l’extraction (data mining) de l’information sur des grands ensembles de taxa. Sur plusieurs variables et plusieurs esp`eces, on obtient des tableaux de variables floues :

L’exemple de B. Statzner et ses coll`egues [18] est document´e dans : http://pbil.univ-lyon1.fr/R/pps/pps029.pdf

(13)

data(bsetal97)

w = bsetal97$biol.blo[1:3]

biol.fuzzy = prep.fuzzy.var(bsetal97$biol, bsetal97$biol.blo) w1 = biol.fuzzy[, 1:19]

ww1 = 1:sum(w)

ww0 = seq(from = 0, by = 4, len = length(w)) ww0 = rep(ww0, w) + ww1

phy = taxo2phylog(as.taxo(bsetal97$taxo)) row.names(w1) = names(phy$leaves)

table.phylog(w1, phy, x = ww0, clabel.r = 0.5, clabel.col = 0.75, csi = 0.5, clabel.n = 0)

Il y a identit´e formelle entre les trois classes de donn´ees :

? Traits biologiques en variables floues : esp`eces en lignes, modalit´es en co-lonnes, chaque paquet de modalit´es d´efinit un trait biologique ou ´ ecolo-gique (figure 2).

? Fr´equences all´eliques : populations en lignes, all`eles en colonnes, chaque paquet d’all`eles est attach´e `a un locus donn´e.

? Usage du code g´en´etique : s´equences en lignes, codons en colonnes, chaque paquet de codons regroupe les synonymes codant pour un mˆeme acide amin´e.

Ces quelques exemples invitent `a se poser des questions : peut-on comparer des typologies ? Existe-t’il une moyenne de typologies ? Mesure-t’on la variabilit´e entre typologies ? Les traits biologiques sont-il li´es entre eux ? Qu’est ce que la corr´elation entre tableaux ? Peut-on rep´erer des tableaux qui ne servent `a rien, des locus non structurant, des groupes faunistiques non indicateurs ? L’acc`es le plus facile se fait par les analyses inter et intra-classes.

4

Les analyses inter et intra-classes

4.1

Tableaux de mod`

eles et d’erreurs

D`es qu’on introduit un facteur en face d’une variable, on d´ecompose la variance de cette variable en deux composantes inter (la variabilit´e des moyennes par classes) et intra (la variabilit´e moyenne dans une classe). Tout ceci s’´etend `a une matrice de variances covariances sans difficult´e. X est un tableau, X est le tableau centr´e associ´e, C = wYTY sa matrice de covariances (w est 1/n ou

1/(n − 1) suivant les sensibilit´es et cela n’a aucune importance). La r´egression sur le facteur est une projection qui remplace les donn´ees par les moyennes par classe. Les donn´ees se d´ecomposent en un mod`ele et une erreur :

Y = bY + (Y − bY) = M + E ´

equation qui ne devrait pas poser de probl`eme mais n’est pas compl`etement stupide si on rajoute que :

C = w(M + E)T(M + E) = wMTM + wETE

La variance (la matrice de covariance) des donn´ees ´egale celle des mod`eles plus celle des erreurs parce que la covariance (la matrice de covariances) entre les donn´ees et les erreurs est nulle. C’est la chose essentielle `a savoir !

(14)

Acilius sulcatus Agabus erichsoni Agabus undulatus Colymbetes fuscus Cybister lateralimarginalis Dytiscus marginalis Dytiscus semisulcatus Elmis aenea Stenelmis sexlineata Gyrinus substriatus Orectochilus villosus Enochrus quadripunctatus Hydrobius fuscipes Hydrochara caraboides Hydrophilus piceus Hydrophilus triangularis Psephenus falli Psephenus herricki Chironomus plumosus Culex pipiens Boophthora erythrocephala Eusimuliu aureum Odagmia ornata Simulium morsitans Simulium noelleri Simulium vittatum Wilhelmia equina Wilhelmia lineata Lipsothrix nigrilinea Tipula sacra Baetis fuscatus Baetis rhodani Callibaetis floridanus Caenis horaria Caenis luctuosa Ephemerella dorothea Ephemerella ignita Ephemerella needhami Ephemerella rotunda Ephemera danica Ephemera simulans Ephemera varia Ephemera vulgata Epheron album Ecdyonurus forcipula Epeorus humeralis Epeorus pleuralis Heptagenia hebe Rhithrogena semicolorata Stenonema fuscum Leptophlebia cupida Leptophlebia vespertina Siphlonurus quebecensis Orohermes crepusculus Sialis fuliginosa Sialis lutaria Sialis rotunda Aeshna isosceles Anax imperator Calopteryx maculata Phaon iridipennis Pyrrhosoma nymphula Epiophlebia superstes Archilestes grandis Lestes congener Lestes eurinus Lestes viridis Zygonyx natalensis Platycnemis pennipes Osmylus fulvicephalus Sisyra fuscata Allocapnia pygmaea Capnia bifrons Alloperla onkos Chloroperla torrentium Eustheniopsis venosa Dinotoperla brevipennis Leuctra hippopus Nemoura avicularis Nemoura cinerea Nemoura trispinosa Nemurella pictetii Dinocras cephalotes Neoperla clymene Paragnetina media Perla burmeisteriana Perla bipunctata Diura bicaudata Hydroperla crosbyi Isoperla clio Isoperla transmarina Perlodes mortoni Pteronarcys proteus Taeniopteryx nebulosa Beraeodes minutus Brachycentrus nigrisoma Brachycentrus subnubilis Oligoplectrum maculatum Agapetus bifidus Agapetus fuscipes Cheumatopsyche campyla Cheumatopsyche lasia Cheumatopsyche speciosa Hydropsyche angustipennis Hydropsyche instabilis Hydropsyche phalerata Hydropsyche simulans Athripsodes aterrimuss Athripsodes cinereus Ceraclea senilis Mystacides longicornis Oecetis lacustris Triaenodes bicolor Apatania fimbriata Apatania muliebris Apatania zonella Clistoronia magnifica Drusus annulatus Limnephilus flavicornis Limnephilus lunatus Onocosmoecus unicolor Potamophylax latipennis Pseudostenophylax edwardsi Philopotamus montanus Oligotricha striata Phryganea grandis Neureclipsis bimaculata Plectrocnemia conspersa Rhyacophila nubila Notidobia ciliaris Sericostoma personatum siz e .1 siz e .2 siz e .3 siz e .4 siz e .5 siz e .6 siz e .7

egglen.1 egglen.2 egglen.3 egglen.4 egglen.5 egglen.6 eggn

um.1 eggn um.2 eggn um.3 eggn um.4 eggn um.5 eggn um.6 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.1 0.3 0.5 0.7 0.9

Figure 2 – Traits biologiques, taxonomie et phylog´enie en m´elange : une grande classe de donn´ees qui rel`eve de la statistique K-tableaux.

(15)

data(jv73)

Y = as.data.frame(scale(jv73$morpho))

M <- as.data.frame(lapply(Y, function(x) predict(lm(x ~ jv73$fac.riv)))) E <- as.data.frame(lapply(Y, function(x) residuals(lm(x ~ jv73$fac.riv)))) cbind(round(cov(Y, Y), 2), round(cov(E, M), 2))

Alt Das Pen Smm Qmm Vme Alt Das Pen Smm Qmm Vme

Alt 1.00 -0.14 0.21 -0.14 -0.09 0.03 0 0 0 0 0 0 Das -0.14 1.00 -0.79 0.66 0.71 0.45 0 0 0 0 0 0 Pen 0.21 -0.79 1.00 -0.59 -0.58 -0.23 0 0 0 0 0 0 Smm -0.14 0.66 -0.59 1.00 0.86 0.27 0 0 0 0 0 0 Qmm -0.09 0.71 -0.58 0.86 1.00 0.63 0 0 0 0 0 0 Vme 0.03 0.45 -0.23 0.27 0.63 1.00 0 0 0 0 0 0

cbind(round(cov(M, M), 2), round(cov(E, E), 2))

Alt Das Pen Smm Qmm Vme Alt Das Pen Smm Qmm Vme

Alt 0.69 0.19 -0.06 0.03 0.11 0.17 0.31 -0.34 0.27 -0.17 -0.20 -0.14 Das 0.19 0.33 -0.29 0.32 0.40 0.29 -0.34 0.67 -0.50 0.34 0.31 0.17 Pen -0.06 -0.29 0.34 -0.30 -0.34 -0.19 0.27 -0.50 0.66 -0.29 -0.24 -0.04 Smm 0.03 0.32 -0.30 0.65 0.61 0.20 -0.17 0.34 -0.29 0.35 0.24 0.07 Qmm 0.11 0.40 -0.34 0.61 0.71 0.41 -0.20 0.31 -0.24 0.24 0.29 0.22 Vme 0.17 0.29 -0.19 0.20 0.41 0.50 -0.14 0.17 -0.04 0.07 0.22 0.50

Nous avons ici une illustration de la lin´earit´e tr`es forte. Le tableau des donn´ees Y est la somme du mod`ele et de l’erreur. Dans M chaque colonne est le r´esultat d’une application lin´eaire (projection) portant sur la colonne correspondante de Y. Mais chaque ligne de M est d´eduite de la ligne correspondante de Y (d´eplacement vers le centre de gravit´e de la classe) qui ne l’est pas. Faire l’analyse de Y, c’est faire l’analyse globale. Faire celle de M, c’est faire l’analyse inter-classe ; faire celle de E, c’est faire l’analyse intra-inter-classe.

glob1 <- dudi.pca(jv73$morpho, scale = T, scan = F) bet1 <- between(glob1, jv73$fac.riv, scan = F) wit1 <- within(glob1, jv73$fac.riv, scan = F)

Observer que l’inertie de la premi`ere est de 5 (le nombre de variable) dont 54% est de nature inter-classe et 46% de nature intra-classe. En gros la moiti´e de la variabilit´e totale est pr´edictible par le nom de la rivi`ere. Mais observer que la r´eduction de dimension dans les trois cas est quasiment la mˆeme :

round(glob1$eig/sum(glob1$eig), 2) [1] 0.57 0.18 0.13 0.09 0.03 0.01 round(bet1$eig/sum(bet1$eig), 2) [1] 0.61 0.22 0.10 0.06 0.00 0.00 round(wit1$eig/sum(wit1$eig), 2) [1] 0.64 0.19 0.07 0.05 0.04 0.01

Observer que les coordonn´ees sont tr`es voisines :

a = glob1$li[, 1] b = bet1$ls[, 1] c = wit1$ls[, 1] round(cor(data.frame(a, b, c)), 2) a b c a 1.00 0.98 0.98 b 0.98 1.00 0.93 c 0.98 0.93 1.00

Le lien entre les variables est de mˆeme nature entre les stations d’une rivi`ere et entre les moyennes par rivi`eres. Il s’agit d’un ´el´ement m´ecanique : une rivi`ere d’altitude a un d´ebit plus faible et une pente plus forte qu’une rivi`ere moins ´ ele-v´ee. Retrouver que l’altitude varie beaucoup entre rivi`eres. Mais l’amont d’une rivi`ere a un d´ebit plus faible et une pente plus forte que l’aval, quelle que soit l’altitude. On retrouve ¸ca sur la figure plus technique qui suit :

(16)

par(mfrow = c(1, 3)) s.corcircle(glob1$co) s.corcircle(bet1$as) s.corcircle(wit1$as) Alt Das Pen Smm Qmm Vme Axis1 Axis2 Axis1 Axis2

Dans R92, les variables (normalis´ees, de longueur 1) sont projet´ees sur le plan des composantes. Dans R5, les axes d’inertie (norm´es) de l’analyse inter (les axes d’inertie du nuage des centres de gravit´e) sont projet´es sur les axes d’inertie globaux. Enfin, les axes d’inertie de l’analyse intra (celle du nuage form´e des sous-nuages recentr´es) sont projet´es sur les axes d’inertie globaux.

Cette introduction n’a qu’un seul objectif : souligner qu’un paquet de tableaux superpos´es est une structure de donn´ees qui conduit `a l’emploi de m´ethodes profond´ement diff´erentes dans leurs objectifs. Si les colonnes communes sont des variables, on peut s´eparer les populations par leur moyenne (inter-classes, discriminante).

On peut rechercher au contraire un compromis entre leur structure interne (intra-classes, STATIS, cf. infra). Inter-classes et intra-classes sont des jumelles au plan th´eorique (deux ACPVI projetant soit sur un espace soit sur son ortho-gonal). Elles sont oppos´ees au plan exp´erimental (ce qui s´epare contre ce qui rapproche).

Intra-classes et STATIS sont fort ´eloign´ees au plan th´eorique, elle sont voisines au plan exp´erimental. Plus qu’ailleurs, il est indispensable de savoir ce que l’on veut.

Ici, c’est l’analyse intra-classe qui nous int´eresse, pare qu’elle aborde chaque rivi`ere comme un syst`eme. Si on ne s’int´eresse qu’`a cet aspect, sans vouloir le coordonner `a une analyse globale ou inter-associ´ee, deux fonctions sont `a connaˆıtre.

4.2

Transformation de Bouroche

La premi`ere concerne les variables num´eriques. Ce qui pr´ec`ede utilise une norma-lisation des donn´ees (´elimination des questions d’unit´e en pla¸cant les moyennes `

a 0 et les variances `a 1) puis un recentrage par groupe (´elimination de l’effet moyen). Il s’en suit que la variance totale d’une variable est sa variance inter-classe. On peut amplifier la correction soit en repla¸cant la variance `a 1 dans chaque groupe (chaque variable joue dans chaque groupe un rˆole ´equivalent) soit en reportant la variance totale apr`es recentrage `a 1 (chaque variable joue

globalement le mˆeme rˆole en pouvant avoir des variances par groupes tr`es di-verse). On utilise dans ce but la fonction within.pca avec les option scaling = "partial" ou scaling = "global". Dans le premier cas, on fait des ACP norm´ee par blocs, dans le second on fait des ACP centr´ees par blocs apr`es une

(17)

normalisation sur variables recentr´ees (transformation de Bouroche [3]). En uti-lisant simplement dudi.pca et within on fait des ACP centr´ees par blocs avec ou sans normalisation pr´ealable. within s’applique `a tout type de variables. Cette discussion est un peu p´enible mais indique une difficult´e. C’est encore une question d’intention. Par exemple, la variabilit´e entre les stations d’une rivi`ere n’est pas constante dans le temps. Elle s’exprime plus ou moins en fonctions des ´

ev´enements hydrologiques. Si on pense que c’est un fait parasite, on remet les variances `a l’unit´e. Si on pense que c’est un fait important, on le laisse s’exprimer dans des variances in´egales. J. Verneaux, dans un recodage int´egral des donn´ees en classes (voir la fiche cit´ee) veut maˆıtriser la signification des valeurs. On le comprend. Toutes les m´ethodes sont tr`es sensibles aux transformations pr´ealables. Il faut en prendre le plus grand soin. Les crit`eres exp´erimentaux doivent ici prendre le pas sur les contraintes techniques.

4.3

Les AFC intra-classes

La seconde concerne la notion d’intra-classe en AFC [1]. C’est une question assez difficile sur le fond pour une raison tr`es simple. Dans un tableau `a n lignes et p colonnes d´ecompos´e en blocs de n1, n2, . . . , nK lignes, l’ACP du total

donne un poids unit´e `a chaque variable, les ACP de chacun des tableaux font de mˆeme et la coordination des diff´erentes analyses se fait simplement. Dans la mˆeme situation, en AFC, il en va tout autrement. L’AFC du tout utilise la pond´eration marginale du tableau complet, chaque AFC de chaque morceau utilise sa propre pond´eration marginale et devient difficilement comparable avec les autres.

On doit imposer une marge commune et recentrer les blocs en cons´equence. Les diff´erents morceaux sont alors des AFC sur mod`eles. Ceci concerne les tableaux faunistiques avec les mˆemes esp`eces ou les mˆemes sites ou (encore pire) les deux. Ceci concerne aussi les tableaux populations-all`eles par locus et de mani`ere g´en´erale les tables de contingence `a marges communes. La fonction utile est within.coa, le descriptif du calcul est p. 27-29 dans :

http://pbil.univ-lyon1.fr/R/fichestd/tdr62.pdf

Noter encore que le tableau d’AFC peut ˆetre doublement partitionn´e. On trouve cette situation avec des esp`eces par groupes et des relev´es par date [5] ou avec des s´equences par esp`eces et des codons par acides amin´es [17]. On trouvera la fonction associ´ee (witwit) une r´ef´erence utile avec [4], un exemple dans :

http://pbil.univ-lyon1.fr/R/querep/qrd.pdf et un descriptif `a :

http://pbil.univ-lyon1.fr/R/thematique/them6.pdf

5

Approches ´

el´

ementaires des cubes de donn´

ees

5.1

Analyses triadiques partielles

La plus simple des m´ethodes multi-tableaux pour les cubes est appel´ee `a tort analyse triadique dans [20] et `a raison analyse triadique partielle dans [14] ou

(18)

pr´e-STATIS (ou STATIS sur les X) dans [16] ou PCA-SUP (PCA of a derived two-way supermatrix) dans [12] et envisag´ee `a l’origine dans [21]. L’objectif est de d´efinir la structure commune `a K tableaux ayant les mˆemes lignes et les mˆemes colonnes. La fonction utile est pta.

data(meaudret) summary(meaudret$plan) dat sta autumn:5 S1:4 spring:5 S2:4 summer:5 S3:4 winter:5 S4:4 S5:4

On a mesur´e 9 variables, respectivement 1- Temp´erature (°C), 2- D´ebit (l/s), 3-pH, 4- Conductivit´e (µΩ/cm), 5- Oxyg`ene (% de saturation), 6- DBO5 (mg/l oxyg`ene), 7- Ammoniaque (mg/l), 8- Nitrates (mg/l) et 9- Orthophosphates (mg/l) dans 5 stations d’un r´eseau hydrographique `a 4 saisons (printemps, ´et´e, automne, hiver). Les 5 stations sont plac´ees d’amont en aval.

1 2 3 4 5 5 10 15 site T emp A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 100 200 300 400 500 site Flo w A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 7.6 7.8 8.0 8.2 8.4 8.6 site pH A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 280 320 360 400 site Cond A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 5 10 20 30 site Bdo5 A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 2 4 6 8 site Oxyd A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 0 2 4 6 8 10 12 Ammo A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 2 4 6 8 10 12 Nitr A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 0 1 2 3 4 5 6 Phos A A A A A P P P P P E E E E E H H H H H par(mfrow = c(3, 3)) par(mar = c(2.1, 4.1, 1.1, 1.1)) site <- as.numeric(meaudret$plan$sta) date <- meaudret$plan$dat

levels(date) <- c("A", "P", "E", "H") for (var in 1:9) {

z <- meaudret$mil[, var]

plot(site, z, type = "n", ylab = names(meaudret$mil)[var]) for (sai in 1:4) {

w <- levels(date)[sai]

points(meaudret$mil[date == w, var], pch = w, type = "b", col = palette()[sai], lwd = 2)

} }

Les donn´ees contiennent une structure temporelle et une structure spatiale. En normalisant les donn´ees par date, on impose un point de vue.

(19)

pca0 <- withinpca(meaudret$mil, meaudret$plan$dat, scal = "partial", scann = F) par(mfrow = c(3, 3)) par(mar = c(2.1, 4.1, 1.1, 1.1)) for (var in 1:9) { z <- pca0$tab[, var]

plot(site, z, type = "n", ylab = names(pca0$tab)[var]) for (sai in 1:4) {

w <- levels(date)[sai]

points(pca0$tab[date == w, var], pch = w, type = "b", col = palette()[sai], lwd = 2) } } 1 2 3 4 5 −2.0 −1.0 0.0 1.0 site T emp A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −2.0 −1.0 0.0 1.0 site Flo w A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −2.0 −1.0 0.0 1.0 site pH A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −1.5 −0.5 0.5 1.5 site Cond A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −1.0 0.0 1.0 2.0 site Bdo5 A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −1.0 0.0 1.0 2.0 site Oxyd A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −1.0 0.0 1.0 2.0 Ammo A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −2.0 −1.0 0.0 1.0 Nitr A A A A A P P P P P E E E E E H H H H H 1 2 3 4 5 −1.5 −0.5 0.5 1.5 Phos A A A A A P P P P P E E E E E H H H H H

Chaque date donne un tableau d’ACP norm´ee. Nous avons donc 4 ACP `a inter-pr´eter. La fonction sepan est la plus simple et l’une des plus utiles qui s’applique ` a un K-tableaux. kta0 <- ktab.within(pca0) plot(sepan(kta0)) 0 1 2 3 4 5 6 spring 0 1 2 3 4 5 6 summer 0 1 2 3 4 5 6 autumn 0 1 2 3 4 5 6 winter

On reconnaˆıt les 4 graphes de valeurs propres. Les K-tableaux ont des m´ethodes qui comportent des fonctions kplot :

(20)

kplot(sepan(kta0)) d = 0.5 Temp Flow pH Cond Bdo5 Oxyd Ammo Nitr Phos spring sp_1 sp_2 sp_3 sp_4 sp_5 spring Eigenvalues d = 0.5 Temp Flow pH Cond Bdo5 Oxyd Ammo Nitr Phos summer su_1 su_2 su_3 su_4 su_5 summer Eigenvalues d = 0.5 Temp Flow pH Cond Bdo5 Oxyd Ammo Nitr Phos autumn au_1 au_2 au_3 au_4 au_5 autumn Eigenvalues d = 0.5 Temp Flow pH Cond Bdo5 Oxyd Ammo Nitr Phos winter wi_1 wi_2 wi_3 wi_4 wi_5 winter Eigenvalues

Le seul int´erˆet est de souligner l’absence de coh´esion. On sait qu’un axe est lui-mˆeme ou son oppos´e avec exactement la mˆeme signification, comme `a pile ou face.

On a 4 analyses qui ont bien des points communs. L’analyse triadique partielle fait le bilan de ses points communs. Il s’agit d’abord de typologie moyenne ou compromis. Deux tableaux sont directement comparables, puisqu’ils portent sur les mˆemes individus (stations) et les mˆemes variables (descripteurs). Mais attention :

pta0 <- pta(kta0)

Observer le message d’erreur Error in pta(kta0) : non equal col.names among array. En effet :

row.names(kta0)

[1] "Temp" "Flow" "pH" "Cond" "Bdo5" "Oxyd" "Ammo" "Nitr" "Phos"

col.names(kta0)

[1] "sp_1" "sp_2" "sp_3" "sp_4" "sp_5" "su_1" "su_2" "su_3" "su_4" "su_5" "au_1" [12] "au_2" "au_3" "au_4" "au_5" "wi_1" "wi_2" "wi_3" "wi_4" "wi_5"

tab.names(kta0)

[1] "spring" "summer" "autumn" "winter"

Les tableaux ont les mˆemes lignes, mais pas les mˆemes noms de colonnes. La fonction v´erifie ce point.

col.names(kta0) <- rep(paste("sta", 1:5, sep = ""), 4) pta0 <- pta(kta0, scan = F)

Notons n le nombre de lignes et p le nombre de colonnes de chacune des analyses s´epar´ees, Dn et Dp les normes associ´ees. On peut calculer un produit scalaire

entre tableaux :

Covv(Xk, Xj) = T race XTkDnXjDp = T race XTjDnXkDp

 D’o`u le coefficient de corr´elation entre deux tableaux :

RV (Xk, Xj) =

Covv(Xk, Xj)

(21)

pta0$RV

spring summer autumn winter

spring 1.0000000 0.6934558 0.7886185 0.2834592 summer 0.6934558 1.0000000 0.7671756 0.5340456 autumn 0.7886185 0.7671756 1.0000000 0.4794976 winter 0.2834592 0.5340456 0.4794976 1.0000000

Les RV sont ´elev´es, mais la structure du tableau 4 est manifestement la plus ´

eloign´ee du groupe des 3 autres. La matrice des RV est diagonalis´ee. On obtient une image euclidienne des tableaux pour ce produit scalaire.

pta0$RV.eig [1] 2.8121449 0.7541476 0.2536781 0.1800294 s.corcircle(pta0$RV.coo) spring summer autumn winter

Dans le cas pr´esent, ce produit scalaire est simplement, entre les tableaux j et k, la somme des corr´elations des couples de variables identiques :

Covv(Xk, Xj) = T race XTkDnXjDp = Xp i=1corr X i k, X i j 

Le coefficient RV est donc simplement la moyenne des corr´elations des couples de variables identiques :

V av(Xk) = Covv(Xk, Xk) = T race XTkDnXkDp = P p i=1corr Xik, Xik = p ⇓ RV (Xk, Xk) =√ Covv(Xk,Xk) V av(Xk) √ V av(Xk) = Pp i=1corr(X i k,Xik) p

Le coefficient RV est la corr´elation entre tableaux comme moyenne des corr´ e-lations entre variables (pour les couples de variables identiques). Ce coefficient pourrait ˆetre n´egatif, ce qui indiquerait un lien nul voire invers´e entre deux tableaux et l’analyse devrait alors s’en tenir l`a.

La diagonalisation a pour fonction d’attribuer `a chaque tableau un poids :

pta0$tabw

[1] 0.5066788 0.5403976 0.5509640 0.3842991

Le poids attribu´e au tableau 4 est moindre que celui des trois autres. V´erifier que la somme des carr´es de ces poids est ´egale `a 1. Dans la mˆeme logique que les coefficients des variables (loadings) donnant les composantes principales d’une ACP norm´ee (combinaisons lin´eaires de variances maximales).

La combinaison des tableaux utilisant ces poids est un nouveau tableau de syn-th`ese combinant les tableaux initiaux `a proportion de leurs apports `a la des-cription de la structure commune dite compromis.

(22)

On consid`ere le tableau : Y =XK

k=1αkXk

On peut adjoindre `a ce tableau les pond´erations lignes et colonnes communes `a chaque terme du K-tableaux et calculer l’inertie du triplet obtenu :

T race YTDnYDp = T race  PK k=1αkXTk  Dn  PK j=1αjXj  Dp  =PK j=1 PK k=1αjαkT race X T kDnXjDp = aTRva

Il s’en suit que les poids retenus maximisent, sous la contrainte ”somme des carr´es de ces poids ´egale `a 1” l’inertie du tableau combin´e. Ce nouveau tableau, dont le contenu importe peu (ce sont des combinaisons des valeurs des tableaux initiaux avec des coefficients tous positifs), a pour fonction de d´efinir des axes et des composantes, donc des vecteurs de Rn

et de Rp, qui expriment la structure

compromis.

Le programme est donc consacr´e essentiellement `a une recherche d’un com-promis inter-tableaux et `a l’´etude de la structure de ce compromis. Le tableau compromis (tab) et les deux pond´erations (cw et lw) ont ´et´e conserv´es et les objets pta sont de la classe dudi. V´erifier l’existence de ces objets dans pta0. Ce tableau compromis peut faire l’objet de toutes les manipulations possibles sur une analyse ordinaire, comme une analyse d’inertie :

inertia.dudi(pta0, row = T)$row.rel

Axis1 Axis2 con.tra

Temp 115 -8494 581 Flow -256 -9514 1397 pH -8779 -957 640 Cond 9662 -80 1172 Bdo5 9827 -152 1342 Oxyd 9703 -1 1399 Ammo 9846 -138 1300 Nitr -2845 -6295 1165 Phos 7686 -2178 1004

On a gard´e deux axes et les cosinus carr´es (au sens du mˆeme produit scalaire) entre chacun des tableaux et le compromis r´eduit `a nf composantes est :

pta0$cos2

1 2 3 4

0.8496725 0.9062170 0.9239364 0.6444484

On obtient des coordonn´ees pour les lignes et les colonnes et les scores norm´es associ´es dans les composantes li et co, l1 et c1. Outre le calcul d’un tableau combinant tous les tableaux de d´epart et son analyse, on a la configuration tr`es particuli`ere (figure 3).

L’ensemble de ces projections est directement accessible dans le kplot de cette analyse :

kplot(pta0, clab = 1.5, csub = 3)

On observera que les colonnes sont trait´ees comme des variables et les lignes comme des individus alors que l’origine du K-tableaux donnait une disposition inverse. La transposition pure et simple de chaque tableau, qui ne change stric-tement rien sur le fond, r´etablit la situation naturelle et on pr´ef`erera la figure plus lisible donn´ee par :

(23)

Figure 3 – En gris le tableau compromis dont l’analyse permet la projection en individus suppl´ementaires de toutes les lignes et la projection en variables suppl´ementaires de toutes les colonnes. On peut mˆeme projeter sur un plan des axes principaux du compromis les axes principaux de chaque tableau et sur le plan des composantes principales du compromis les composantes principales de chacun des tableaux.

(24)

x1 1 2 3 4

spring

x1 1 2 3 4

summer

x1 1 2 3 4

autumn

1 2 3 4

winter

d = 2

spring

sta1.1 sta2.1 sta3.1 sta4.1 sta5.1 d = 2

summer

sta1.2 sta2.2 sta3.2 sta4.2 sta5.2 d = 2

autumn

sta1.3 sta2.3

sta3.3 sta4.3 sta5.3

d = 2

winter

sta1.4 sta2.4 sta3.4 sta4.4 sta5.4 d = 0.5

spring

spring

Temp.1 Flow.1 pH.1 Cond.1 Bdo5.1 Oxyd.1 Ammo.1 Nitr.1 Phos.1

spring

d = 0.5

summer

summer

Temp.2 Flow.2 pH.2 Cond.2 Bdo5.2 Oxyd.2 Ammo.2 Nitr.2 Phos.2

summer

d = 0.5

autumn

autumn

Temp.3 Flow.3 pH.3 Cond.3 Bdo5.3 Oxyd.3

Ammo.3 Nitr.3 Phos.3

autumn

d = 0.5

winter

winter

Temp.4 Flow.4 pH.4 Cond.4 Bdo5.4 Oxyd.4 Ammo.4 Nitr.4 Phos.4

winter

x1 1 2 3 4

spring

x1 1 2 3 4

summer

x1 1 2 3 4

autumn

1 2 3 4

winter

On voit ainsi K analyses simultan´ees exprim´ees dans le mˆeme cadre g´eom´etrique. L’analyse triadique partielle est donc tr`es simple dans ses fondements comme dans son usage. Ici l’essentiel tient dans la permanence de deux axes ´etablissant une boucle (station 1 non perturb´ee, pollution dans la station 2, restauration progressive sur 3-4-5 li´ee `a l’augmentation du d´ebit), l’affaiblissement de cette structure en hiver et une restauration plus rapide au printemps. Interpr´eter cette analyse sur la faune (Trichopt`eres) :

pca1 <- dudi.pca(meaudret$fau, scal = F, scan = F) wit1 <- within(pca1, meaudret$plan$dat, scan = F) kta1 <- ktab.within(wit1)

col.names(kta1) <- rep(paste("sta", 1:5, sep = ""), 4) kta1 <- t(kta1)

(25)

x1 1 2 3 4

spring

x1 1 2 3 4

summer

x1 1 2 3 4

autumn

1 2 3 4

winter

d = 5

spring

sta1.1 sta2.1 sta3.1 sta4.1

sta5.1 d = 5

summer

sta1.2 sta2.2 sta3.2 sta4.2 sta5.2 d = 5

autumn

sta1.3 sta2.3 sta3.3 sta4.3 sta5.3 d = 5

winter

sta1.4 sta2.4 sta3.4 sta4.4 sta5.4 d = 2

spring

spring

Eda.1 Bsp.1 Brh.1 Bni.1 Bpu.1 Cen.1 Ecd.1 Rhi.1 Hla.1 Hab.1 Par.1 Cae.1 Eig.1

spring

d = 2

summer

summer

Eda.2 Bsp.2 Brh.2 Bni.2 Bpu.2 Cen.2 Ecd.2 Rhi.2 Hla.2 Hab.2 Par.2 Cae.2 Eig.2

summer

d = 2

autumn

autumn

Eda.3 Bsp.3 Brh.3 Bni.3 Bpu.3 Cen.3 Ecd.3 Rhi.3 Hla.3 Hab.3 Par.3 Cae.3 Eig.3

autumn

d = 2

winter

winter

Eda.4 Bsp.4 Brh.4 Bni.4 Bpu.4 Cen.4 Ecd.4 Rhi.4 Hla.4 Hab.4 Par.4 Cae.4 Eig.4

winter

x1 1 2 3 4

spring

x1 1 2 3 4

summer

x1 1 2 3 4

autumn

1 2 3 4

winter

L’ACP 3-modes fait partie des m´ethodes qui ´etendent les propri´et´es de re-constitution de donn´ees. On sait approximer un tableau par :

xij = aibj+ rij

On peut donc chercher des mod`eles des cubes de donn´ees dont le plus simple est :

xijk= aibjck+ rijk

Une bibliographie consid´erable est associ´ee `a cette probl´ematique [13] [6] [10]. Le site de r´ef´erence de la Three-Mode Company est consacr´e `a ce domaine :

http://three-mode.leidenuniv.nl/index.html

5.2

L’AFC de Foucart

La version analyse des correspondances dite ”AFC de Foucart” [7] [8] [9] n’a pas un support aussi canonique (du fait de la non permanence des pond´ era-tions) mais conserve cette facilit´e d’interpr´etation pour un objectif cependant relativement complexe. Le jeu de donn´ees utilis´ees est propos´e par J. Blondel et

(26)

H. Farr´e [2]. Il illustre un des probl`emes fondamentaux de l’´ecologie factorielle. En confrontant un cort`ege faunistique `a un param`etre de structure de l’habi-tat, on d´efinit la notion de profil ´ecologique ou de niche ´ecologique. Quand on recommence la mˆeme op´eration `a une autre date ou dans une autre r´egion, la relation binaire faune-milieu devient une relation ternaire faune-milieu-r´egion. Les donn´ees sont dans bf88 :

data(bf88) names(bf88)

[1] "S1" "S2" "S3" "S4" "S5" "S6"

Elles forment une liste de 6 data frames de dimensions 79×4. Il s’agit de mesurer la variabilit´e du cort`ege avifaunistique entre 4 r´egions (Pologne, Bourgogne, Provence et Corse), le long du gradient de fermeture de la v´eg´etation vu par six strates d’´echantillonnage (1- v´eg´etation buissonnante basse (hauteur < 1 m) `a 6- forˆets de plus de 20 m de hauteur).

La relation entre cort`ege faunistique et architecture de la v´eg´etation d´efinit dans chaque r´egion une structure de tableau donc une analyse. Cette analyse est une analyse des correspondances, sans contestation (typologie d’esp`eces par leur courbe de r´eponse inter-strates, typologie de strates par leur profil sp´ecifique). Dans une r´egion, le tableau est de type esp`eces-strates. Il y a quatre tableaux de ce type, donc une structure moyenne et des divergences r´egionales autour de cette structure.

La relation entre cort`ege faunistique et zones biog´eographiques d´efinit pour chaque strate de v´eg´etation une structure de tableau donc une analyse. Cette analyse est une analyse des correspondances (typologie d’esp`eces par leur dis-tribution g´eographique, typologie de r´egions par leur contenu sp´ecifique). Dans une strate, le tableau est de type esp`eces-r´egions. Il y a six tableaux de ce type, donc une structure moyenne et des divergences, fonction de la v´eg´etation, autour de cette structure.

L’abondance d’une esp`ece dans chaque r´egion et chaque strate d´efinit un mod`ele de r´epartition, demandant l’analyse d’un tableau homog`ene par une analyse simplement centr´ee. Il y a 79 tableaux de ce type. Que signifierait la notion de mod`ele moyen ? Le plus simple est de se r´ef´erer `a l’esp`ece sans signification ´

ecologique, uniform´ement pr´esente dans chaque strate et chaque r´egion. On peut penser `a une typologie de mod`eles (courbes de r´eponse bivari´ees).

Ces indications sont incitatives `a une r´eflexion pr´eliminaire dans l’´etude des cubes de donn´ees. Il convient, en effet, de garder son calme, tant un cube de donn´ees peut supporter potentiellement d’approches statistiques. Comme nous allons le voir, l’intention peut conduire `a des r´esultats radicalement diff´erents, sans que la validit´e des op´erations soit mise en cause. La premi`ere chose `a faire est de distinguer ce qui rel`eve de l’observation de ce qui rel`eve de l’organisation de l’information. Ici, nous avons deux effets fixes, `a savoir la v´eg´etation et la r´egion. On aurait pu ´etudier un autre facteur ´ecologique, par exemple l’altitude, et un autre corpus biog´eographique, par exemple plusieurs massifs montagneux. Deux des arˆetes du cube de donn´ees sont l’expression de l’intention de l’obser-vation. La troisi`eme, au contraire n’est pas maˆıtris´ee. C’est la liste des esp`eces observables ou observ´ees. Son contenu est fourni par les ´ecosyst`emes ´etudi´es. Lorsque les trois marges sont des effets fixes, par exemple mesure d’un para-m`etre dans 4 types de v´eg´etation, dans 3 classes d’altitude et dans 5 r´egions, les donn´ees forment un cube vrai. On peut d´esirer mod´eliser la variable x en

(27)

fonction des 3 facteurs contrˆol´es, voire ´etudier les interactions ternaires : c’est le domaine des analyses `a trois modes et plus cit´ees au paragraphe pr´ec´edent. Lorsque deux marges sont des effets fixes, il y a deux grands types d’objectifs. Le premier est celui des variables explicatives : construire un mod`ele de l’ef-fet strate-r´egions pour chacune des esp`eces (effet simple A ou B, effet additif A+B, effet partiel A sachant B ou B sachant A, ...). Le second est celui de la comparaison de structures, c’est-`a-dire de l’effet d’un facteur sur la structure engendr´e par l’autre. On trouve des ´el´ements pour cette strat´egie dans la fiche sur l’ordination indirecte.

T. Foucart part de la constatation qu’on peut aussi bien concevoir une table de contingence comme un tableau d’ACP particuli`ere que comme une matrice de covariance particuli`ere. Mais dans un cas comme dans l’autre, la question des pond´erations interdit de g´en´eraliser STATIS (aussi bien sur les tableaux que sur les op´erateurs). Il propose une op´eration qui n’a pas l’esth´etique math´ematique de STATIS mais qui est efficace. Il note :

Dans cet article, nous avons propos´e des d´efinitions de tendance et de structure susceptibles d’ˆetre utilis´ees dans l’´etude des suites de tableaux de probabilit´es index´ees par le temps. Si la technique simple d’analyse des ´evolutions des tendances repose effectivement sur la d´efinition que nous en avons donn´ee, il n’en est malheureusement pas de mˆeme en ce qui concerne les techniques d’´etude des ´evolutions de la structure : nous ne sommes pas partis des ´equivalences entre structures pour mettre au point les m´ethodes qui ont ´et´e d´ecrites. Si ce manque de coh´erence nuit `a la qualit´e de notre expos´e, il ne diminue en rien l’int´erˆet de ces ´equivalences et l’efficacit´e de ces m´ethodes.

La difficult´e vient de la pr´esentation classique de STATIS : interstructure, com-promis, intrastructure. En termes d’un seul tableau, tout se passe comme si on disait matrice de corr´elation, moyenne, variance. L’interstructure d´efinit une typologie de structure, le compromis d´efinit une structure moyenne et l’intra-structure repr´esente la variabilit´e autour de la moyenne (centrage).

C’est comme si on voulait d´efinir l’analyse en composantes principales avant la moyenne. Nous avons soulign´e que STATIS d´efinit essentiellement la moyenne, et ce, de fa¸con ´elabor´ee. En effet, on calcule g´en´eralement une moyenne en d´efinissant au pr´ealable les poids utilis´es. Dans STATIS on d´efinit une moyenne en calculant les poids pour que cette moyenne soit la meilleur possible.

Cela conduit `a ´eliminer le rˆole des points douteux. Par exemple, la moyenne `a pond´eration uniforme des 5 valeurs ci-dessous vaut 3, mais si on consid`ere que la cinqui`eme valeur est bizarre, on dit que cette moyenne vaut 1.5.

On fait ´evidemment cette op´eration, dans STATIS, sur les structures et non sur les valeurs. On fait effectivement cette op´eration sur des valeurs en ACP

(28)

non centr´ee. Foucart propose simplement de faire le compromis en prenant une moyenne uniform´ement pond´er´ee des tableaux. Soient K tableaux d’AFC. Le tableau Xk a, comme les autres, I lignes et J colonnes. Son terme g´en´eral est

xk

ij et la somme de toutes les valeurs est xk... Le tableau de fr´equences associ´e

est Pk = " xkij xk .. # La moyenne est : P = 1 K XK k=1Pk

On fait l’analyse des correspondances de mathbf P , structure compromis uti-lisant une pond´eration uniforme et l’intrastructure consiste `a projeter en indi-vidus suppl´ementaires les lignes et les colonnes des K tableaux de d´epart. Les pond´erations de l’AFC du compromis servent de r´ef´erence g´en´erale. Si on n’a aucune raison de pond´erer in´egalement les tableaux, cette analyse ne pose aucun probl`eme de signification pour l’utilisateur.

fou1 <- foucart(bf88, scan = F, nf = 3)

Les sorties de cette fonctions sont de mˆeme logique que celles de pta.

kplot(fou1, clab.r = 1.5, clab.c = 2.5)

d = 0.5 S1 MOAL.1 LULU.1 LOFL.1 LACO.1 HIIC.1 EMCT.1 ANTR.1 OROR.1 COPA.1 SYBO.1 COCR.1 PHTR.1 PHSI.1 SYCO.1 TUPH.1 DRMA.1 MUAL.1 PHCO.1 LONA.1 STVU.1 COOE.1 PRMO.1 PYPR.1 PIME.1 PAMO.1 PICA.1 PIMI.1 PHPH.1 PAPA.1 SIEU.1 CACH.1

CEFA.1 PIMA.1 TUVI.1 CEBR.1 PACA.1 PACR.1 STTU.1 FRCO.1 PIVI.1 SYAT.1 ERRU.1 PAAT.1 AECA.1 TRTR.1 MUST.1 REIG.1 PAMA.1 TUME.1 SYHO.1 GAGL.1 PHBO.1 HIPO.1 SATO.1 CUCA.1 COCN.1 LUME.1 CACR.1 SECI.1 CACN.1 SECA.1 SARU.1 SYSA.1 EMCR.1 SYCA.1 MICA.1 ALAR.1 LASE.1 COCO.1 SYME.1 CLGL.1 LUAR.1 ALRU.1 SYUN.1 LAEX.1 EMHO.1 ANCA.1 SYCN.1 OEHI.1

Pol.1 Bur.1 Pro.1 Cor.1 d = 0.5 S2 MOAL.2 LULU.2 LOFL.2 LACO.2 HIIC.2 EMCT.2 ANTR.2 OROR.2 COPA.2 SYBO.2 COCR.2 PHTR.2 PHSI.2 SYCO.2 TUPH.2 DRMA.2 MUAL.2 PHCO.2 LONA.2 STVU.2 COOE.2 PRMO.2 PYPR.2 PIME.2 PAMO.2 PICA.2 PIMI.2 PHPH.2 PAPA.2 SIEU.2 CACH.2 CEFA.2 PIMA.2 TUVI.2 CEBR.2 PACA.2 PACR.2 STTU.2 FRCO.2 PIVI.2 SYAT.2 ERRU.2 PAAT.2 AECA.2 TRTR.2 MUST.2 REIG.2 PAMA.2 PHBO.2 HIPO.2 GAGL.2 TUME.2 SYHO.2 SATO.2 CUCA.2 COCN.2 LUME.2 CACR.2 SECI.2 CACN.2 SECA.2 SARU.2 SYSA.2 EMCR.2 SYCA.2 COCO.2 ALAR.2 LASE.2 MICA.2 SYME.2 CLGL.2 LUAR.2 ALRU.2 SYUN.2 LAEX.2 EMHO.2 ANCA.2 OEHI.2 SYCN.2 Pol.2 Bur.2 Pro.2 Cor.2 d = 0.5 S3 MOAL.3 LULU.3 LOFL.3 LACO.3 HIIC.3 EMCT.3 ANTR.3 OROR.3 COPA.3 SYBO.3 COCR.3 PHTR.3 PHSI.3 SYCO.3 TUPH.3 DRMA.3 MUAL.3 PHCO.3 LONA.3 STVU.3 COOE.3 PRMO.3 PYPR.3 PIME.3 PAMO.3 PICA.3 PIMI.3 PHPH.3 PAPA.3 SIEU.3 CACH.3 CEFA.3 PIMA.3 TUVI.3 CEBR.3 PACA.3 PACR.3 STTU.3 FRCO.3 PIVI.3 SYAT.3 ERRU.3 PAAT.3 AECA.3 TRTR.3 MUST.3 REIG.3

PAMA.3 PHBO.3 HIPO.3 GAGL.3 TUME.3 SYHO.3 SATO.3 CUCA.3 COCN.3 LUME.3 CACR.3 SECI.3 CACN.3 SECA.3 SARU.3 SYSA.3 EMCR.3 SYCA.3 MICA.3 ALAR.3 LASE.3 COCO.3 SYME.3 CLGL.3 LUAR.3 ALRU.3 SYUN.3 LAEX.3

EMHO.3 ANCA.3 SYCN.3 OEHI.3

Pol.3 Bur.3 Pro.3 Cor.3 d = 0.5 S4 MOAL.4 LULU.4 LOFL.4 LACO.4 HIIC.4 EMCT.4 ANTR.4 OROR.4 COPA.4 SYBO.4 COCR.4 PHTR.4 PHSI.4 SYCO.4 TUPH.4 DRMA.4 MUAL.4 PHCO.4 LONA.4 STVU.4 COOE.4 PRMO.4 PYPR.4 PIME.4 PAMO.4 PICA.4 PIMI.4 PHPH.4 PAPA.4 SIEU.4 CACH.4 CEFA.4 PIMA.4 TUVI.4 CEBR.4 PACA.4 PACR.4 STTU.4 FRCO.4 PIVI.4 SYAT.4 ERRU.4 PAAT.4 AECA.4 TRTR.4 MUST.4 REIG.4 PAMA.4 PHBO.4 HIPO.4 GAGL.4 TUME.4 SYHO.4 SATO.4 CUCA.4 COCN.4 LUME.4 CACR.4 SECI.4 CACN.4 SECA.4 SARU.4 SYSA.4 EMCR.4 SYCA.4 MICA.4 ALAR.4 LASE.4 COCO.4 SYME.4 ALRU.4 CLGL.4 LUAR.4

SYUN.4 LAEX.4 EMHO.4 ANCA.4 SYCN.4 OEHI.4

Pol.4 Bur.4 Pro.4 Cor.4 d = 0.5 S5 MOAL.5 LULU.5 LOFL.5 LACO.5 HIIC.5 EMCT.5 ANTR.5 OROR.5 COPA.5 SYBO.5 COCR.5 PHTR.5 PHSI.5 SYCO.5 TUPH.5 DRMA.5 MUAL.5 PHCO.5 LONA.5 STVU.5 COOE.5 PRMO.5 PYPR.5 PIME.5 PAMO.5 PICA.5 PIMI.5 PHPH.5 PAPA.5 SIEU.5 CACH.5 CEFA.5 PIMA.5 TUVI.5 CEBR.5 PACA.5 PACR.5 STTU.5 FRCO.5 PIVI.5 SYAT.5 ERRU.5 PAAT.5 AECA.5 TRTR.5 MUST.5 REIG.5 PAMA.5 PHBO.5 HIPO.5 GAGL.5 TUME.5 SYHO.5 SATO.5 CUCA.5 COCN.5 LUME.5 CACR.5 SECI.5 CACN.5 SECA.5 SARU.5 SYSA.5 EMCR.5 SYCA.5 COCO.5 MICA.5 ALAR.5 LASE.5 SYME.5 CLGL.5 LUAR.5 ALRU.5 SYUN.5

LAEX.5 EMHO.5 ANCA.5 SYCN.5 OEHI.5

Pol.5 Bur.5 Pro.5 Cor.5 d = 0.5 S6 MOAL.6 LULU.6 LOFL.6 LACO.6 HIIC.6 EMCT.6 ANTR.6 OROR.6 COPA.6 SYBO.6 COCR.6 PHTR.6 PHSI.6 SYCO.6 TUPH.6 DRMA.6 MUAL.6 PHCO.6 LONA.6 STVU.6 COOE.6 PRMO.6 PYPR.6 PIME.6 PAMO.6 PICA.6 PIMI.6 PHPH.6 PAPA.6 SIEU.6 CACH.6 CEFA.6 PIMA.6 TUVI.6 CEBR.6 PACA.6 PACR.6 STTU.6 FRCO.6 PIVI.6 SYAT.6 ERRU.6 PAAT.6 AECA.6 TRTR.6 MUST.6 REIG.6 PAMA.6 PHBO.6 HIPO.6 GAGL.6

TUME.6 SYHO.6 SATO.6 CUCA.6 COCN.6 LUME.6 CACR.6 SECI.6 CACN.6 SECA.6 SARU.6 SYSA.6 EMCR.6 SYCA.6 ALAR.6 LASE.6 MICA.6 COCO.6 SYME.6 CLGL.6 LUAR.6 ALRU.6 SYUN.6 LAEX.6 EMHO.6 ANCA.6 SYCN.6 OEHI.6

Pol.6 Bur.6 Pro.6 Cor.6

On remarquera qu’il faut conserver les 3 axes disponibles pour d´ecrire la struc-ture des tableaux `a 4 colonnes. L’essentiel est dans :

s.label(fou1$Tco)

polygon(fou1$Tco[fou1$TC[, 1] == 1, 1:2], col = grey(0.9)) polygon(fou1$Tco[fou1$TC[, 1] == 2, 1:2], col = grey(0.8)) polygon(fou1$Tco[fou1$TC[, 1] == 3, 1:2], col = grey(0.7)) polygon(fou1$Tco[fou1$TC[, 1] == 4, 1:2], col = grey(0.6)) polygon(fou1$Tco[fou1$TC[, 1] == 5, 1:2], col = grey(0.5)) polygon(fou1$Tco[fou1$TC[, 1] == 6, 1:2], col = grey(0.4)) s.label(fou1$Tco, add.p = T)

(29)

d = 0.5 Pol.1 Bur.1 Pro.1 Cor.1 Pol.2 Bur.2 Pro.2 Cor.2 Pol.3 Bur.3 Pro.3 Cor.3 Pol.4 Bur.4 Pro.4 Cor.4 Pol.5 Bur.5 Pro.5 Cor.5 Pol.6 Bur.6 Pro.6 Cor.6 Pol.1 Bur.1 Pro.1 Cor.1 Pol.2 Bur.2 Pro.2 Cor.2 Pol.3 Bur.3 Pro.3 Cor.3 Pol.4 Bur.4 Pro.4 Cor.4 Pol.5 Bur.5 Pro.5 Cor.5 Pol.6 Bur.6 Pro.6 Cor.6

Il y a deux niveaux (1-3, 4-6, comme dans tous les exemples articulant ouver-ture de la v´eg´etation et avifaune) et la variabilit´e inter-r´egionale est forte et constante dans le second, faible et constante dans le premier. Il y a convergence des avifaunes des milieux forestiers. Quand les tableaux sont appari´es par une seule dimension, lignes ou colonnes, la situation est moins favorable.

(30)

ef´

erences

[1] J.P. Benz´ecri. Analyse de l’inertie intra-classe par l’analyse d’un tableau de correspondances. Les Cahiers de l’Analyse des donn´ees, 8 :351–358, 1983. [2] J. Blondel and H. Farr´e. The convergent trajectories of bird communities

along ecological successions in european forests. Œcologia (Berlin), 75 :83– 93, 1988.

[3] J.M. Bouroche. Analyse des donn´ees ternaires : la double analyse en com-posantes principales. PhD thesis, 1975.

[4] M. B´ecue, J. Pag`es, and C.-E. Pardo. Contingency table with a double partition on rows and colums. visualization and comparison of the partial and global structures. In J. Janssen and P. Lenca, editors, Applied stochastic models and data analysis, pages 355–364. ENST Bretagne, Brest, 2005. [5] P. Cazes, D. Chessel, and S. Dol´edec. L’analyse des correspondances

in-ternes d’un tableau partitionn´e : son usage en hydrobiologie. Revue de Statistique Appliqu´ee, 36 :39–54, 1988.

[6] R. Coppi and S. Eds. Bolasco. Multiway Data Analysis. Elsevier Science Publishers B.V., North-Holland, 1989.

[7] T. Foucart. Sur les suites de tableaux de contingence index´es par le temps. Statistique et Analyse des donn´ees, 2 :67–84, 1978.

[8] T. Foucart. Une nouvelle approche de la m´ethode statis. Revue de Statis-tique Appliqu´ee, 31 :61–75, 1983.

[9] T. Foucart. Analyse factorielle de tableaux multiples. Masson, Paris, 1984. [10] A. Franc. Etude alg´ebrique des multitableaux : apports de l’alg`ebre

tenso-rielle. PhD thesis, 1992.

[11] L.E. Friday. The diversity of macro invertebrate and macrophyte commu-nities in ponds. Freshwater Biology, 18 :87–104, 1987.

[12] H.A.L. Kiers. Hierarchical relations among three-way methods. Psychome-trika, 56 :449–470, 1991.

[13] P.M. Kroonenberg. Three-mode principal component analysis. DSWO Press, Leiden, 1983.

[14] P.M. Kroonenberg. The analysis of multiple tables in factorial ecology. iii three-mode principal component analysis :”analyse triadique compl`ete”. Acta Œcologica, Œcologia Generalis, 10 :245–256, 1989.

[15] Ch. Lavit. Analyse conjointe de tableaux quantitatifs. Masson, Paris, 1988. [16] B. Leibovici. Facteurs `a mesures r´ep´et´ees et analyses factorielles :

applica-tion `a un suivi ´epid´emiologique. PhD thesis, 1993.

[17] J.R. Lobry and D. Chessel. Internal correpondence analysis of codon and amino acid usage in thermophilic bacteria. Journal of Applied Genetics, 44 :235–261, 2003.

(31)

[18] B. Statzner, K. Hoppenhaus, M.-F. Arens, and Ph. Richoux. Reproductive traits, habitat use and templet theory : a synthesis of world-wide data on aquatic insects. Freshwater Biology, 38 :109–135, 1997.

[19] M.D. Swaine and P. Greig-Smith. An application of principal components analysis to vegetation changes in permanent plot. Journal of Ecology, 68 :33–41, 1980.

[20] J. Thioulouse and D. Chessel. Les analyses multi-tableaux en ´ecologie factorielle. i de la typologie d’´etat `a la typologie de fonctionnement par l’analyse triadique. Acta Œcologica, Œcologia Generalis, 8 :463–480, 1987. [21] L.R. Tucker. Some mathemetical notes on three-mode factor analysis.

Psy-chometrika, 31 :279–311, 1966.

[22] J. Verneaux. Cours d’eau de franche-comt´e (massif du jura). recherches ´ecologiques sur le r´eseau hydrographique du doubs. essai de biotypologie. Th`ese d’´etat, besan¸con, 1973.

Figure

Table des mati` eres
Figure 1 – K-Tableaux : un stockage commun pour des situations vari´ ees. Un objet de la classe ktab est une liste de data frames ayant en commun les lignes (row.names) et les poids
Figure 2 – Traits biologiques, taxonomie et phylog´ enie en m´ elange : une grande classe de donn´ ees qui rel` eve de la statistique K-tableaux.
Figure 3 – En gris le tableau compromis dont l’analyse permet la projection en individus suppl´ ementaires de toutes les lignes et la projection en variables suppl´ ementaires de toutes les colonnes

Références

Documents relatifs

Tout polynôme non constant de C [X] de degré n admet n racines dans C , si chacune d’elles est comptée avec son ordre de multiplicité..

Une variable aléatoire X sur Ω est une fonction, qui à chaque issue de Ω, associe un nombre réel Exemples: Un joueur lance un dé a

En d´ eduire la factorisation de ce polynˆ ome dans C [X ] puis dans R [X] en produit de facteurs irr´ eductibles. Exercice 11 : D´ ecomposez en produits de polynˆ omes irr´

Pour des queions, demande de pr´ecisions ou explications, n’h´esitez pas `a m’envoyer un mail `a igor.kortchemski@ens.fr , ou bien `a venir me voir au bureau

Pour des queions, demande de pr´ecisions ou explications, n’h´esitez pas `a m’envoyer un mail `a igor.kortchemski@ens.fr , ou bien `a venir me voir au bureau

Cependant il peut être satisfaisant de constater qu'un facteur est étroitement corrélé à une variable qui ne figure pas explicitement dans le tableau d'où est issu ce facteur;

Calculer de deux manière différentes, à l'aide des tableaux suivants, sa moyenne, sa variance et son écart-type. Puis retrouver ses résultats à l'aide de

- L’ajout d’une variable orthogonale aux variables déjà connues augmente l’information unitairement.. Toutes les propriétés sont invariantes par homothétie, I(Ti) =