• Aucun résultat trouvé

Couplages de tableaux

N/A
N/A
Protected

Academic year: 2021

Partager "Couplages de tableaux"

Copied!
58
0
0

Texte intégral

(1)

Fiche de Biostatistique

Couplages de tableaux

D. Chessel, A.B. Dufour & J. Thioulouse

Résumé

La fiche introduit aux principales méthodes de couplage de deux tableaux.

Plan

1. INTRODUCTION... 2 1.1. Juxtaposition ... 2 1.2. Illustration... 3 1.3. Croisement... 5 2. ANALYSES CANONIQUES... 8

2.1. Analyse canonique des corrélations ... 8

2.2. Analyse canonique de deux sous-espaces... 14

2.3. Analyse discriminante ... 18

2.4. Analyse canonique des correspondances ... 27

3. STRATEGIE DES VARIABLES INSTRUMENTALES ... 32

3.1. Analyses inter-classes ... 34

3.2. Analyses intra-classes ... 35

3.3. Ordinations sous contraintes ... 36

3.4. Analyse des Correspondances Non Symétriques... 38

4. STRATEGIE DE LA CO-INERTIE ... 41

4.1. AFC des tableaux de profils écologiques... 41

4.2. Analyse interbatterie ... 43

4.3. AFC des tableaux de Burt croisés... 44

4.4. Analyse des niches écologiques... 45

(2)

______________________________________________________________________

1. Introduction

En toute généralité, une analyse à un tableau se décrit par un schéma de dualité. Pour deux tableaux on a deux schémas. Ils seront considérés comme cohérents s'ils partagent un espace euclidien sous-jacent. On supposera qu'ils sont appariés par les lignes (il suffit de transposer si ce n'est pas le cas). On a alors deux schémas appariés :

p t p p n n → ↑ ↓ ← Q X X D et m t m m n n → ↑ ↓ ← Q Y Y D

Il y a trois stratégies principales d'association de deux triplets. Elles recouvrent, à cause des nombreux jeux de paramètres, un vaste ensemble de pratiques. Il suffit de saisir ces trois principes pour faire un choix, voire pour construire des associations originales dont on peut avoir besoin.

Le couplage de deux tableaux de données est une opération fondamentale en écologie statistique. On dispose d’une énorme littérature sur le sujet. Parmi les bases historiques on doit rappeler quelques opérations fondamentales.

1.1. Juxtaposition

Deux tableaux ayant les mêmes lignes sont simplement accolés pour former un nouveau tableau qui appelle une analyse simple. La voie a été ouverte par P. Dagnélie 1.

X Y X|Y

Juxtaposition

On associe un tableau 30 lignes-stations et 11 colonnes-variables (tableau mésologique) et un tableau 30 lignes-stations et 27 colonnes-espèces (tableau faunistique) extraits de 2 (Carte Doubs dans ADE-4) :

(3)

[

]

* * * * * * * * 1 1 1 p m p m t t t t n n n p m p m p p m m n n n n n n n n n + + → + →   ↑ ↓ ↑ ↓  ↑ ↓   ← ← ← I I I X X X Y Y X Y Y I I I

6

*

X et Y* désignent les tableaux de variables normalisées. C'est le premier pas vers l'analyse factorielle multiple (AFM voir la fiche K-tableaux). Cette approche ne fonctionne que si les inerties des deux tableaux sont comparables. Si l'un des deux l'emporte largement, il imposera son point de vue. L'AFM propose des modifications pour pallier au défaut et s'applique alors à un nombre quelconque de tableaux.

1.2. Illustration

On pratique l'analyse d'un des deux tableaux et on introduit dans l'interprétation des éléments issus de l'autre. R. H. Whittaker, théoricien fondateur de l'analyse des données écologiques distingue ainsi l' ordination directe et l'ordination indirecte 3.

X x Y

Analyse Supplément

(4)

______________________________________________________________________ PCA: Correlation matrix PCA

ScatterDistri: Frequencies ScatterDistri: Stars

Ceci est une représentation d’informations supplémentaires.

Dans la seconde (Ordination indirecte4), on analyse le tableau relevés-espèces et on étudie la répartition des variables.

X y Y

Analyse Supplément

(5)

PCA: Covariance matrix PCA

Scatters: Values

Ceci est une représentation d’informations supplémentaires.

1.3. Croisement

Le tableau croisé utilise simplement un produit de matrices.

Analyse d’un tableau croisé

XtY

X Y

(6)

______________________________________________________________________

C’est la base des analyses de co-inertie que nous verrons plus loin. Il suffit que le produit de matrice ainsi défini ait un sens expérimental. Passer le tableau faunistique en pourcentage par espèce et transposer :

Bin->Bin: Frequencies

FilesUtil: Transpose

MatAlg: Matrix multiplication C = A*B

On obtient la position moyenne de chaque espèce sur chaque variable de milieu normalisée :

DaS Alt Pen Déb pH Dur Pho Nit Amm Oxy Dbo

Chabot -0.20 -0.23 -0.17 -0.06 0.80 0.33 -0.37 -0.28 -0.47 1.01 -0.57 Truite -0.70 0.61 0.51 -0.53 0.25 -0.49 -0.47 -0.67 -0.47 0.79 -0.56 Vairon -0.54 0.41 0.27 -0.43 0.14 -0.29 -0.41 -0.48 -0.41 0.64 -0.49 Loche -0.41 0.32 0.15 -0.37 0.12 -0.28 -0.36 -0.36 -0.36 0.47 -0.44 Ombre -0.11 -0.25 -0.18 0.14 0.64 0.51 -0.37 -0.36 -0.47 1.05 -0.52 Blageon 0.01 -0.37 -0.33 0.07 0.76 0.34 -0.31 -0.06 -0.41 0.77 -0.55 Hotu 0.87 -0.86 -0.66 0.78 -0.16 0.40 -0.05 0.48 -0.04 -0.22 -0.07 Toxostome 0.59 -0.72 -0.57 0.56 -0.14 0.35 -0.21 0.42 -0.15 0.12 -0.35 Vandoise 0.33 -0.34 -0.30 0.33 0.06 0.26 -0.09 0.18 -0.10 -0.05 -0.16 Chevaine 0.38 -0.34 -0.36 0.35 0.02 0.31 -0.01 0.20 -0.03 -0.20 -0.02 Barbeau 0.83 -0.81 -0.61 0.80 0.05 0.43 -0.12 0.44 -0.13 -0.07 -0.22 Spirlin 0.88 -0.83 -0.80 0.99 -0.12 0.55 -0.11 0.43 -0.11 -0.05 -0.26 Goujon 0.74 -0.66 -0.56 0.71 0.01 0.38 0.08 0.43 0.03 -0.24 -0.03 Brochet 0.63 -0.45 -0.43 0.68 -0.03 0.34 -0.01 0.27 -0.04 -0.29 -0.05 Perche 0.57 -0.44 -0.48 0.64 -0.08 0.36 -0.16 0.13 -0.17 -0.14 -0.20 Bouvière 1.13 -0.94 -0.78 1.18 -0.03 0.60 -0.03 0.53 -0.08 -0.28 -0.15 Perche_soleil 1.13 -0.94 -0.73 1.13 -0.07 0.62 0.00 0.56 -0.04 -0.38 -0.05 Rotengle 1.01 -0.76 -0.76 1.10 0.10 0.61 0.16 0.47 0.10 -0.46 0.04 Carpe 1.17 -0.94 -0.80 1.21 0.15 0.65 -0.05 0.51 -0.12 -0.31 -0.16 Tanche 0.70 -0.55 -0.52 0.66 0.06 0.30 -0.08 0.33 -0.11 -0.28 -0.11 Brème_comm. 1.28 -0.99 -0.76 1.32 0.02 0.65 -0.01 0.46 -0.13 -0.43 -0.07 Poisson_chat 1.51 -1.06 -0.91 1.71 0.13 0.91 0.03 0.45 -0.14 -0.51 -0.07 Grémille 1.23 -0.98 -0.78 1.19 -0.03 0.64 0.21 0.66 0.11 -0.61 0.16 Gardon 0.66 -0.56 -0.57 0.60 -0.06 0.38 0.07 0.41 0.06 -0.42 0.07 Brème_bord. 1.26 -0.99 -0.78 1.24 0.10 0.63 0.02 0.58 -0.04 -0.48 -0.01 Ablette 1.03 -0.91 -0.76 0.92 -0.12 0.54 0.39 0.76 0.36 -0.61 0.36 Anguille 1.23 -0.97 -0.84 1.30 0.05 0.68 0.01 0.57 -0.07 -0.38 -0.10 Faire l’ACP non centrée de ce tableau :

(7)

Fondamentalement, dans l'analyse du tableau croisé, les lignes sont les variables d'un tableau et les colonnes sont les variables de l'autre.

On a alors trois tableaux et on comprend que les relevés sont supplémentaires de deux manières dans l’analyse du tableau croisé :

Le cas le plus célèbre d'un croisement de tableau signifiant est celui des profils écologiques5. Les variables de milieu sont toutes qualitatives et les variables floristiques sont toutes binaires (0 absence, 1 présence). Le tableau X est formé des indicatrices des classes de chaque variable de milieu. Le tableau Y est formé des indicatrices de présence de chaque espèce. Le tableau croisé Y X a pour lignes les t

espèces et pour colonnes les modalités de milieu. Les cases contiennent le nombre de stations de chaque modalité de milieu contenant l'espèce. Sur une ligne on trouve une juxtaposition de profils écologiques bruts. P. Romane 6 a eu l'idée d'envoyer un tel tableau dans l'analyse des correspondances, idée retrouvée dans7. On obtient un cas particulier de l'analyse de co-inertie8. Parmi nombre de pratiques basées sur les tableaux croisés on trouve le croisement de partitions :

(8)

______________________________________________________________________

X Y

Classification Classification

Le tableau croisé joue un rôle central dans les méthodes de couplage. Il faut, par nécessité théorique, utiliser le produit scalaire commun :

p m t t t t p p m m p p n n n n m m → ↑ ↓ ↑ ↓ ↑ ↓ ← ← ← Q Q X X Y Y X DY Y DX D D ?

?

6

Le choix des métriques associées au croisement va définir les principales familles de méthodes.

2. Analyses canoniques

2.1. Analyse canonique des corrélations

L'analyse canonique des corrélations 9 est la plus ancienne et la plus connue des méthodes de couplage (revue pour l'écologie dans 10). Le fondement considère deux

ACP normées. On appellera simplement X et Y les deux tableaux normalisés

(moyennes nulles et variances unitaires par colonnes).

On suppose que les deux paquets de variables (colonnes de X et Y) sont sans

redondances (la régression d'une variables de Y sur X ou d'une variable de X sur Y est

définie sans problème) donc que les matrices de corrélations des deux paquets sont inversibles. L'analyse canonique est celle du schéma :

(

)

(

)

1 1 t p m t t t t t p p m m p p n n n n m m − − → → ↑ ↓ ↑ ↓ ↑ ↓ ← ← ← X DX Q Q X X Y Y X DY Y DX D D Y DY

6

Les matrices

(

X DXt

)

−1 et

(

Y DYt

)

−1 sont symétriques, positives et inversibles donc des

matrices de produits scalaires. La géométrie qu'elles définissent est très particulière.

> cor <- matrix(c(1,0.8,0.8,1),nrow=2) > cor [,1] [,2] [1,] 1.0 0.8 [2,] 0.8 1.0 > X <- mvrnorm(30,c(0,0),cor) > X <- scale(X)

(9)

> cor(X) [,1] [,2] [1,] 1.0000 0.7809 [2,] 0.7809 1.0000 f1 <- function () { par(mar=rep(4,4)) plot(X,xlim=c(-2.5,2.5),ylim=c(-2.5,2.5)) abline(h=0) abline(v=0) abline(0,1) abline(0,-1) text(X,as.character(1:30),pos=4) }

Avec le produit scalaire canonique, le carré de la distance entre les points 7 et 10 vaut

> sum((X[7,]-X[10,])^2) [1] 4.643 > sum((X[7,]-X[21,])^2) [1] 0.2102 > plot(-pr0$scores) > text(-pr0$scores,as.character(1:30),pos=4) > abline(h=0) > abline(v=0)

En se mettant dans la base des axes principaux sans changer de métrique, on conserve les distances :

> pr0 <- princomp(X) > Y <- -pr0$scores > sum((Y[7,]-Y[10,])^2) [1] 4.643

(10)

______________________________________________________________________ > sum((Y[7,]-Y[21,])^2) [1] 0.2102 > Z <- Y > Z[,1] <- Z[,1]/pr0$sdev[1] > Z[,2] <- Z[,2]/pr0$sdev[2] > plot(Z,xlim=c(-2.5,2.5),ylim=c(-2.5,2.5)) > text(Z,as.character(1:30),pos=4) > abline(h=0) > abline(v=0)

La variabilité sur chacun des axes principaux a été ramenée volontairement à 1 en divisant par la racine de la valeur propre (valeur singulière) qui est l'écart-type de la coordonnée :

Les distances sont changées profondément :

> sum((Z[7,]-Z[10,])^2) [1] 3.076

> sum((Z[7,]-Z[21,])^2) [1] 0.9924

On ne tient plus compte de la corrélation dans le calcul de la distance. L'opération consiste à prendre le produit scalaire de matrice Λ dans la base des axes principaux −1 donc AΛ−1A dans la base canonique. Or : t

(

)

1 1

t = tΛ ⇒ t= tΛ

X DX A A X DX A A

Les facteurs principaux du schéma :

(

)

(

)

1 1 t t t t p p m m − − → ↑ ↓ ← X DX X DY Y DX Y DY

sont

(

(

X DXt

)

−1

)

−1=

X DX

t normés donc vérifient

*

t t

*

=

*2 =1

D

a

X DX

a Xa . Ce sont

(11)

Les cofacteurs de ce schéma sont

(

(

Y DYt

)

−1

)

−1 =Yt

D

Y normés donc vérifient

* 1

*

t t

*

=

2 =

D

b Y

D

Yb Yb . Ce sont des coefficients de combinaisons linéaires de

variables de variance unité.

Les théorèmes généraux indiquent que le premier facteur et le premier cofacteur optimise la quantité :

(

)

1 ( )

(

)(

)

1 * * * * * * * * t t t t t t t t t − − = = = X DX D X DX X DYb a a X DX X DX X DYb a X DYb Xa Yb

On obtient donc une combinaison de variables du tableau X de variance 1 (le vecteurXa*) et une combinaison de variables du tableau Y de variance 1 (le vecteurYb*) de corrélation maximale (la quantité Xa Yb* * D). Xa* et Yb* sont appelées variables canoniques. L'optimum de la corrélation qu'on peut faire avec une combinaison linéaire de chaque tableau est la corrélation canonique (racine carrée de la première valeur propre). La première valeur propre prend donc le nom de carré de corrélation canonique entre les deux tableaux.

L'analyse canonique prend sa signification dans l'espace des variables. On peut la résumer par la figure :

[Y] Variable canonique [X] x* y* z Variables du tableau X Variables du tableau Y Variable canonique Score canonique

La variable canonique du tableau X est la combinaison des variables de X la mieux prédite par une régression multiple sur les variables de Y tout comme la variable canonique du tableau Y est la combinaison des variables de Y la mieux prédite par une régression multiple sur les variables de X. On appelle score canonique la bissectrice des deux variables canoniques (somme normalisée). Il est capital de voir dans l'analyse canonique toutes les contraintes associées à deux régressions multiples. Le nombre de prédicteurs doit être forcément limité par rapport au nombre de variables.

C'est pourquoi, sur les couplages de tableaux écologiques, elle a mauvaise presse. On ne peut l’utiliser que si le nombre de variables est faible par rapport au nombre d’individus.

(12)

______________________________________________________________________

Ce n’est pas la peine de continuer. Il existe une multitude de combinaisons linéaires des variables faunistiques parfaitement corrélées à des combinaisons linéaires de variables de milieu, mais cela ne peut rien nous apprendre. Par contre, on l’utilise avec un tableau et les coordonnées de l’analyse de l’autre ou avec deux ensembles de coordonnées 11 :

On garde ici deux variables canoniques pour deux variables (coordonnées) dans chaque tableau. Les scores canoniques sont dans .canll. Ce sont des variables de synthèse, de moyenne 0 et de variance 1 qui expriment la corrélation entre les deux tableaux :

1 2 -3.4 1.7 -2.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

On peut évidemment utiliser ces codes comme fond de carte pour toute expression directe des données. Pour obtenir les scores canoniques, on a fait une moyenne normalisée de variables canoniques, combinaisons de variables normalisées de chacun des tableaux. On peut représenter ces deux ensembles et leur corrélation par :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 -3 2 -3 2

Likelihood ratio tests of dimensionality

(13)

a review with applications in ecology. Springer-Verlag, Berlin. 1-351 ---

k= 0 Khi2 = 4.1260e+01 ddl = 4 proba = 8.5582e-08 k= 1 Khi2 = 1.5586e+01 ddl = 1 proba = 1.3171e-04 --- Canonical correlation coefficients

k= 1 rk = 7.9279e-01 rk2 = 6.2852e-01 k= 2 rk = 6.5775e-01 rk2 = 4.3263e-01

La géométrie des nuages de variables s’exprime sur des cercles de corrélation :

a b

c d e

a - carte factorielle de l'analyse 1. b - carte factorielle de l'analyse 2. d - Représentation des deux premiers scores canoniques. c - projection des variables (composantes principales servant de variables) du tableau 1 sur le plan des scores canoniques. e - projection des variables (composantes principales servant de variables) du tableau 2 sur le plan des scores canoniques. Cette figure mélange une projection d'un nuage de points dans R (a), une projection d'un nuage de points dans p R (b), deux projections q

dans R (c et e) et une figuration simple de deux scores normés non corrélés (d) non n

associés à une projection de nuages.

Il faut faire une rotation de 90° pour le milieu et une rotation de 45° suivie d’une symétrie autour de l’axe des x pour la faune pour recaler les deux nuages de points. C’est en bas à droite que l’ajustement sera le moins bon, ce qui est parfaitement exprimé dans le graphe double. En fait cette analyse marche bien parce qu’on a deux systèmes de covariances. Le premier concerne le gradient amont-aval avec covariances de signe opposé des espèces de tête de bassin et celles de plaine. Le second concerne la pollution qui élimine toutes les espèces en haut comme en bas. L’analyse canonique sur coordonnées factorielles est voisine de l’analyse de co-inertie.

(14)

______________________________________________________________________

Pour approfondir l’analyse canonique, la référence 10 s’impose. Retrouver les illustrations de cet ouvrage sur la carte Angles :

Galium Dactylis Phleum. east-west north-south y1*y2 1 2 3 1 2 3

2.2. Analyse canonique de deux sous-espaces

On comprend que la géométrie associée aux deux ensembles de variables centrées et réduites s'étend à deux ensembles quelconques vecteurs. L'opération se réduit à chercher des combinaisons de variables faisant des angles les plus petits possibles (sous contrainte d'orthogonalité successive dans chaque paquet).

La documentation de la fonction de R résume parfaitement cette approche :

cancor package:mva R Documentation

Canonical Correlations Description:

Compute the canonical correlations between two data matrices. Usage:

cancor(x, y, xcenter = TRUE, ycenter = TRUE) Arguments:

x: numeric matrix (n * p1), containing the x coordinates. y: numeric matrix (n * p2), containing the y coordinates. xcenter: logical or numeric vector of length p1, describing any

centering to be done on the x values before the analysis. If `TRUE' (default), subtract the column means. If `FALSE', do not adjust the columns. Otherwise, a vector of values to be subtracted from the columns.

ycenter: analogous to `xcenter', but for the y values. Details:

The canonical correlation analysis seeks linear combinations of the `y' variables which are well explained by linear combinations of the `x' variables. The relationship is symmetric as `well explained' is measured by correlations.

(15)

A list containing the following components: cor: correlations.

xcoef: estimated coefficients for the `x' variables. ycoef: estimated coefficients for the `y' variables. xcenter: the values used to adjust the `x' variables. ycenter: the values used to adjust the `x' variables. References:

Hotelling H. (1936). Relations between two sets of variables. Biometrika, 28, 321-327.

Seber, G. A. F. (1984). Multivariate Analysis. New York: Wiley, p. 506f.

Remarque : quand on cherche des références bibliographiques sur une méthode le plus sérieux est de prendre celles de la documentation de R. Elles sont toujours incontournables.

La procédure de R permet d'illustrer le fait que l'AFC est une analyse canonique.

> fauv V1 V2 V3 V4 1 2 2 1 0 2 2 2 1 0 3 3 2 2 0 4 2 2 1 0 5 2 2 2 0 6 2 3 3 3 7 1 3 2 3 > as.vector(unlist(fauv)) [1] 2 2 3 2 2 2 1 2 2 2 2 2 3 3 1 1 2 1 2 3 2 0 0 0 0 0 3 3 > fau.vec<-as.vector(unlist(fauv)) > as.vector(row(as.matrix(fauv))) [1] 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 1 2 3 4 5 6 7 > nlig.vec<-as.vector(row(as.matrix(fauv))) > as.vector(col(as.matrix(fauv))) [1] 1 1 1 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 4 4 4 4 4 4 4 > ncol.vec<-as.vector(col(as.matrix(fauv)))

X.fau<-matrix(0, nrow=48, ncol=7) Y.fau<-matrix(0, nrow=48, ncol=4) j<-0 for (i in 1:28) { if (fau.vec[i]>0) { for (k in 1:fau.vec[i]) { j<-j+1 X.fau[j,nlig.vec[i]]<-1 Y.fau[j,ncol.vec[i]]<-1 } } } > X.fau > Y.fau [,1] [,2] [,3] [,4] [,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 1 0 0 0 1 0 0 0 0 0 0 [2,] 1 0 0 0 1 0 0 0 0 0 0 [3,] 1 0 0 0 0 1 0 0 0 0 0 [4,] 1 0 0 0 0 1 0 0 0 0 0 [5,] 1 0 0 0 0 0 1 0 0 0 0 [6,] 1 0 0 0 0 0 1 0 0 0 0 [7,] 1 0 0 0 0 0 1 0 0 0 0 [8,] 1 0 0 0 0 0 0 1 0 0 0 [9,] 1 0 0 0 0 0 0 1 0 0 0 [10,] 1 0 0 0 0 0 0 0 1 0 0

(16)

______________________________________________________________________ [11,] 1 0 0 0 0 0 0 0 1 0 0 [12,] 1 0 0 0 0 0 0 0 0 1 0 [13,] 1 0 0 0 0 0 0 0 0 1 0 [14,] 1 0 0 0 0 0 0 0 0 0 1 [15,] 0 1 0 0 1 0 0 0 0 0 0 [16,] 0 1 0 0 1 0 0 0 0 0 0 ... [41,] 0 0 1 0 0 0 0 0 0 0 1 [42,] 0 0 1 0 0 0 0 0 0 0 1 [43,] 0 0 0 1 0 0 0 0 0 1 0 [44,] 0 0 0 1 0 0 0 0 0 1 0 [45,] 0 0 0 1 0 0 0 0 0 1 0 [46,] 0 0 0 1 0 0 0 0 0 0 1 [47,] 0 0 0 1 0 0 0 0 0 0 1 [48,] 0 0 0 1 0 0 0 0 0 0 1 > cano.fau<-cancor(X.fau,Y.fau,xcenter=F,ycenter=F) > cano.fau $cor: [1] 1.00000 0.48086 0.11367 0.05559 > cano.fau$cor^2 [1] 1.000000 0.231225 0.012921 0.003091 --- Total inertia: 0.247236 ---

Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum | 01 +2.3122E-01 +0.9352 +0.9352 |02 +1.2921E-02 +0.0523 +0.9875 | 03 +3.0906E-03 +0.0125 +1.0000 |04 +0.0000E+00 +0.0000 +1.0000 |

> sqrt(48)*cano.fau$xcoef

[,1] [,2] [,3] [,4] [,5] [,6] [,7] [1,] 1 0.8629 1.1259 0.03902 2.120e+000 9.646e-001 1.078e+000 [2,] 1 0.8629 1.1259 0.03902 3.157e-001 -1.741e+000 -1.859e+000 [3,] 1 0.8783 -1.1166 1.47126 -3.632e-001 1.017e+000 -7.133e-001 [4,] 1 0.8629 1.1259 0.03902 -2.072e+000 -2.408e-001 1.495e+000 [5,] 1 0.7214 -1.3666 -2.14752 -1.649e-015 -3.925e-016 -7.850e-017 [6,] 1 -0.9812 -0.6509 0.55022 3.632e-001 -1.017e+000 7.133e-001 [7,] 1 -1.4030 0.6985 -0.45015 -3.632e-001 1.017e+000 -7.133e-001

--- Binary input file: D:\…\fauv.fcl1 - 7 rows, 4 cols. 1 | 0.8629 -1.1259 0.0390 Inf 2 | 0.8629 -1.1259 0.0390 Inf 3 | 0.8783 1.1166 1.4713 Inf 4 | 0.8629 -1.1259 0.0390 Inf 5 | 0.7214 1.3666 -2.1475 Inf 6 | -0.9812 0.6509 0.5502 -Inf 7 | -1.4030 -0.6985 -0.4502 Inf > sqrt(48)*cano.fau$ycoef [,1] [,2] [,3] [,4] [1,] 1 0.874910 0.04364 1.2889 [2,] 1 0.159135 1.06232 -0.9199 [3,] 1 0.006676 -1.57200 -0.7272 [4,] 1 -2.479171 0.20931 0.8999 --- Binary input file: D:\…\fauv.fcc1 - 4 rows, 4 cols. 1 | 0.8749 -0.0436 1.2889 -Inf

2 | 0.1591 -1.0623 -0.9199 -Inf 3 | 0.0067 1.5720 -0.7272 -Inf 4 | -2.4792 -0.2093 0.8999 -Inf

Pour comprendre le lien, il suffit de voir que si X est le paquet des indicatrices des colonnes et si Y est le paquet des indicatrices des lignes les deux schémas suivants sont strictement identiques :

(17)

(

)

(

)

1 1 t t t t p p m m − − → ↑ ↓ ← X DX X DY Y DX Y DY 1 1 J t I J J I I − − → ↑ ↓ ← D P P D

Le vecteur 1n est dans chacun des sous-espaces engendrés, d'où la corrélation canonique de 1 dans celle de R et la valeur propre de 0 dans celle de ADE-4. On trouve dans 12 l'affirmation de l'importance fondamentale de l'AFC comme analyse canonique. L’opération est basée sur une vision du tableau de données très parlante au plan expérimental :

Jusqu’à présent, on a vu dans chaque espèce une variable qui prenait la valeur 0 pour une absence. On peut considérer que les absences n’ont aucune signification, soit que l’échantillonnage soit insuffisant pour détecter certaines des espèces, soit que des espèces pourrait se trouver dans certaines stations mais n’y sont pas pour des contingences historiques. Le raisonnement est dans 13. Ne considérons donc que les présences. Il y a dans ce tableau 375 cases non vides, c’est-à-dire 375 occurrences d’une espèce dans un relevé. Par exemple, on a une occurrence Vairon dans la station 6. Cette occurrence est caractérisée par le nom de l’espèce Vairon, le nom du relevé 6 et son poids 3 ou plutôt 3/1004 (1004 est la somme de toutes les abondances). Les occurrences sont les nouveaux individus statistiques. On peut définir deux paquets de variables. Le premier compte 30 variables qui prennent la valeur 1 si l’occurrence est dans le relevé et 0 sinon. Le second compte 27 variables qui prennent la valeur 1 si l’occurrence est de l’espèce et 0 sinon. On a deux tableaux à 375 lignes et respectivement 30 et 27 variables. Faire l’analyse canonique de ces deux tableaux, c’est faire l’analyse des

(18)

______________________________________________________________________

correspondances du tableau faunistique. Source historique dans 14. Voir

OccurData: Array_to_Occur.

COA: COrrespondence Analysis, COA: Reciprocal scaling et ScatterClass: Stars.

Utilisée dans cette optique, l’analyse des correspondances a des propriétés uniques de définition réciproque de la diversité des relevés (à gauche) et de l’amplitude d’habitat des espèces (à droite) 15.

2.3. Analyse discriminante

L’analyse discriminante étudie le lien entre un tableau et une partition des individus. C’est un problème de couplage de tableaux exactement comme précédemment.

Num éro Qu alit at ive Cla sse 1 Cla sse 2 Cla sse 3 Cla sse 4 Cla sse 5 1 1 1 0 0 0 0 2 3 0 0 1 0 0 3 2 0 1 0 0 0 4 2 0 1 0 0 0 5 2 0 1 0 0 0 6 3 0 0 1 0 0 7 3 0 0 1 0 0 8 3 0 0 1 0 0 9 1 1 0 0 0 0 10 1 1 0 0 0 0 11 4 0 0 0 1 0 12 4 0 0 0 1 0 13 4 0 0 0 1 0 14 5 0 0 0 0 1 15 5 0 0 0 0 1 16 1 1 0 0 0 0

Une variable qualitative est toujours un ensemble d’indicatrices de classe. Une variable qualitative à 5 modalités est un ensemble de 5 variables quantitatives binaires (en fait 4, car la cinquième est entièrement définie par les autres).

> num [1] 1 3 2 2 2 3 3 3 1 1 4 4 4 5 5 1 > tabnum X1 X2 X3 X4 X5 1 1 0 0 0 0 2 0 0 1 0 0 3 0 1 0 0 0 4 0 1 0 0 0 5 0 1 0 0 0

(19)

6 0 0 1 0 0 7 0 0 1 0 0 8 0 0 1 0 0 9 1 0 0 0 0 10 1 0 0 0 0 11 0 0 0 1 0 12 0 0 0 1 0 13 0 0 0 1 0 14 0 0 0 0 1 15 0 0 0 0 1 16 1 0 0 0 0

Le minimum nécessaire à la manipulation du lien entre une variable qualitative et une variable quantitative tient dans le rapport de corrélation.

> y

[1] 0.3504 0.9401 0.3695 0.5425 0.9813 1.4071 0.3313 0.6016 0.9463 [10] -0.2008 -0.2587 0.2105 0.1749 -0.8171 -2.1751 -0.2260

> m0 <- predict(lm(y~as.factor(num)))

Comment mesurer le lien entre la variable qualitative (num) et la variable quantitative

y ? num 1 2 3 4 5 -2 -1 0 1 m0 -1.5 -1.0 -0.5 0.0 0.5 -2 -1 0 1

A gauche, les valeurs de y en fonction du numéro de classe, à droite les valeurs de y en fonction de la moyenne de la classe correspondante. On rajoute les moyennes par classe : num 1 2 3 4 5 -2 -1 0 1 m0 -1.5 -1.0 -0.5 0.0 0.5 -2 -1 0 1 > tapply(y,num,mean) 1 2 3 4 5

0.2175 0.6311 0.82 0.04226 -1.496 Les moyennes par classe > tapply(y,num,var,un=F)

1 2 3 4 5

0.2301 0.0663 0.1614 0.0455 0.461 Les variances par classe > var(y,un=F)

[1] 0.6717 La variance totale > var(m0,un=F)

[1] 0.4953 La variance des moyennes par classe (variance Inter) > tapply(y,num,var,un=F)

1 2 3 4 5 0.2301 0.0663 0.1614 0.0455 0.461

> table(num) Le nombre d’individus par classe 1 2 3 4 5

(20)

______________________________________________________________________ > sum(tapply(y,num,var,un=F)*table(num))/16

[1] 0.1765 La moyenne des variances par classe (variance Intra) > sum(tapply(y,num,var,un=F)*table(num))/16+var(m0,un=F)

[1] 0.6717 > var(y,un=F)

[1] 0.6717 La variance totale = Inter + Intra > var(m0,un=F)/var(y,un=F)

[1] 0.7373 Le pourcentage de variance expliquée = rapport de

corrélation

> cor(m0,y)^2

[1] 0.7373 Le carré de corrélation avec la moyenne par classe

Le pourcentage de variance expliquée est un carré de corrélation. Donc chercher une combinaison de variables qui optimise le pourcentage de variance expliquée (rapport de corrélation), c’est chercher une combinaison de variables la plus corrélée avec une combinaison du paquet d’indicatrices de classe. C’est une analyse canonique. L’analyse des correspondances est ainsi une double analyse canonique et introduite comme telle dans 16.

Les schémas de l'analyse discriminante sont donc :

(

)

(

)

1 1 t p m t t t t t p p m m p p n n n n m m − − → → ↑ ↓ ↑ ↓ ↑ ↓ ← ← ← X DX Q I X X Y Y X DY Y DX D D Y DY

6

Mais Y est un paquet d'indicatrices (m classes). Pour faire les calculs on utilise le schéma de gauche, mais pour interpréter, on le modifie sans changer sa nature :

(

)

(

)

(

)

(

)

(

)

(

)

1 1 1 1 1 1 t t t t t t t t t t t t p p p p m m m m m m − − − − − − → → ↑ ↓ ↑ ↓ ← ↑ ↓ ← X DX X DX X DY Y DX X DY Y DY Y DY Y DX Y DY Y DY Y DY Y DY 6

Dans D, on trouve les poids des points. Y DYt est une matrice diagonale (deux

indicatrices n'ont aucune valeur non nulle à la même place) qui contient les poids des classes (somme des poids des points de la classe). Y DXt fait les sommes pondérées des

valeurs de X par classe et la multiplication par

(

Y DYt

)

−1 divise par le poids de la

classe. On trouve donc avec les facteurs des coefficients de combinaisons linéaires des variables de X qui maximisent la variance des moyennes par classe, donc la variance inter-classes. Quand on part d'une ACP normée, on obtient l'analyse discriminante linéaire (ADL) fondamentale en morphométrie où elle est née.

(21)

> library(MASS) > ?lda

> data(iris) > names(iris)

[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species" > dim(iris)

[1] 150 5 > iris[1:5,]

Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa > lda(iris[,1:4],iris$Species) Call: lda.data.frame(iris[, 1:4], iris$Species) Prior probabilities of groups:

setosa versicolor virginica 0.3333 0.3333 0.3333 Group means:

Sepal.Length Sepal.Width Petal.Length Petal.Width setosa 5.006 3.428 1.462 0.246 versicolor 5.936 2.770 4.260 1.326 virginica 6.588 2.974 5.552 2.026 Coefficients of linear discriminants:

LD1 LD2 Sepal.Length -0.8294 0.0241 Sepal.Width -1.5345 2.1645 Petal.Length 2.2012 -0.9319 Petal.Width 2.8105 2.8392 Proportion of trace: LD1 LD2 0.9912 0.0088

Les données sont reproduites dans la carte Iris.

--- Correlation matrix --- [ 1] 1000 [ 2] -118 1000 [ 3] 872 -428 1000 [ 4] 818 -366 963 1000 --- Total inertia: 4 ---

Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum | 01 +2.9185E+00 +0.7296 +0.7296 |02 +9.1403E-01 +0.2285 +0.9581 | 03 +1.4676E-01 +0.0367 +0.9948 |04 +2.0715E-02 +0.0052 +1.0000 |

(22)

______________________________________________________________________ File D:\Ade4\Dir_Try\Iris\iris.dima contains the parameters:

input file: D:\Ade4\Dir_Try\Iris\iris.cnta

categorical variable file: D:\Ade4\Dir_Try\Iris\esp n. of categorical variable used: 1

Discriminant analysis

Groups are defined by column 1 of file D:\Ade4\Dir_Try\Iris\esp Input statistical triplet: table D:\Ade4\Dir_Try\Iris\iris.cnta Number of rows: 150, columns: 4

total inertia (norm C- generalised inverse) = matrix rank: 4.000e+00 between-class inertia (norm C-): 1.192e+00 (ratio: 2.980e-01)

Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum | 01 +9.6987E-01 +0.8137 +0.8137 |02 +2.2203E-01 +0.1863 +1.0000 | 03 +0.0000E+00 +0.0000 +1.0000

File D:\Ade4\Dir_Try\Iris\iris.divp contains the eigenvalues and relative inertia for each axis

It has 3 rows and 2 columns

File D:\Ade4\Dir_Try\Iris\iris.difa contains the coefficient of the discriminant scores

It has 4 rows and 2 columns

File :D:\Ade4\Dir_Try\Iris\iris.difa |Col.| Mini | Maxi |

|----|---|---| | 1|-1.200e-01| 6.790e-01| | 2|-1.461e+00| 1.922e+00| |----|---|---|

File D:\Ade4\Dir_Try\Iris\iris.dili contains the canonical scores of row (unit norm)

It has 150 rows and 2 columns

File :D:\Ade4\Dir_Try\Iris\iris.dili |Col.| Mini | Maxi |

|----|---|---| | 1|-1.727e+00| 1.608e+00| | 2|-2.355e+00| 2.439e+00| |----|---|---|

File D:\Ade4\Dir_Try\Iris\iris.diax contains the principal axes It has 4 rows and 2 columns

File :D:\Ade4\Dir_Try\Iris\iris.diax |Col.| Mini | Maxi |

|----|---|---| | 1|-5.308e-01| 9.850e-01| | 2| 4.604e-02| 7.580e-01| |----|---|---|

File D:\Ade4\Dir_Try\Iris\iris.dicp contains the correlations between PCA scores

and DA scores. It has 4 rows and 2 columns File :D:\Ade4\Dir_Try\Iris\iris.dicp |Col.| Mini | Maxi |

|----|---|---| | 1|-1.501e-01| 9.815e-01| | 2|-8.347e-01| 2.991e-01| |----|---|---|

Les deux programmes sont assez différents. On ne retrouvera pas facilement les concordances. Si X est le tableau normalisé :

(23)

> cor(iris[,1:4])

Sepal.Length Sepal.Width Petal.Length Petal.Width Sepal.Length 1.0000 -0.1176 0.8718 0.8179 Sepal.Width -0.1176 1.0000 -0.4284 -0.3661 Petal.Length 0.8718 -0.4284 1.0000 0.9629 Petal.Width 0.8179 -0.3661 0.9629 1.0000

Jusque là tout va bien.

> ld <- lda(iris[,1:4],iris$Species) > names(ld)

[1] "prior" "counts" "means" "scaling" "lev" "svd" "N" [8] "call" > ld$scaling LD1 LD2 Sepal.Length -0.8294 0.0241 Sepal.Width -1.5345 2.1645 Petal.Length 2.2012 -0.9319 Petal.Width 2.8105 2.8392

On trouve des poids des variables qui permettent de calculer des combinaisons linéaires des variables de départ.

---

Binary input file: D:\ADE4\DIR_TRY\IRIS\iris.difa - 4 rows, 2 cols. 1 | -0.1200 0.0177

2 | -0.1169 0.8378 3 | 0.6790 -1.4609 4 | 0.3744 1.9218

La parenté est lointaine et ce ne sont pas les mêmes.

scaling: a matrix which transforms observations to discriminant

functions, normalized so that within groups covariance matrix is spherical.

Il y a une grosse difficulté théorique. Si X est le tableau normalisé, les variables (colonnes) sont des vecteurs de R . Les indicatrices des classes forment un sous-espace n

vectoriel sur lequel sont projetées les variables. Ce projecteur s'écrit

(

t

)

−1 t

=

P Y Y DY Y D, PX est le tableau projeté où les données sont remplacées par le

centre de gravité (moyenne) de la classe correspondante. La fonction lda donne ces valeurs brutes :

> ld$means

Sepal.Length Sepal.Width Petal.Length Petal.Width setosa 5.006 3.428 1.462 0.246 versicolor 5.936 2.770 4.260 1.326 virginica 6.588 2.974 5.552 2.026

Le tableau −X PX donne la différence, soit le tableau des écarts aux moyennes par

classe. On peut calculer sa matrice de covariances :

(

) (

t

)

t t t t t t

− − = − − +

X PX D X PX X DX X P DX X DPX X P DPX

Un projecteur a pour propriété fondamentale d'assurer que X P D X PXt t

(

)

=0 car les

variables projetées sont dans le sous-espace et les écarts aux variables projetées sont orthogonales à ce sous-espace. Donc

(

X PX D X PX

) (

t

)

=X DX X P DX , ou t t t

(24)

______________________________________________________________________

(

) (

t

)

t = t t +

X DX X P DPX X PX D X PX

La matrice de covariances de X se décompose en matrice de covariances du tableau des moyennes par classe (covariances inter-classes) et matrice de covariances du tableau des écarts aux moyennes par classe (covariances intra-classes). L'équation de l'analyse de variance (variance = variance inter + variance intra) s'étend à l'ensemble de la matrice de covariances :

= +

T W B

On peut donc réécrire le schéma de l'analyse discriminante en appelant T la matrice des covariances totales (T X DX= t ), G le tableau des moyennes par classe

(G=

(

Y DYt

)

−1Y DXt ) et m

D est la diagonale des poids des classes ( t m= D Y DY) : 1 t m p p m m − → ↑ ↓ ← T G G D

On y trouve les combinaisons linéaires de variance unité et de covariance totale nulle deux à deux qui maximise la variance inter-classe. La note "a matrix which transforms

observations to discriminant functions, normalized so that within groups covariance matrix is spherical" indique qu'on utilise le schéma :

1 t m p p m m − → ↑ ↓ ← W G G D

On y trouve les combinaisons linéaires de variance intra-classe unité et de covariance intra-classe nulle deux à deux qui maximise la variance inter-classe. C'est un problème

très voisin car t t t

m = =

G D G X P DPX B . Si λk est valeur propre du premier et µk est valeur propre du second on a :

(

)

(

)

1 1 1 1 1 1 k k k k k k k k k k k k k k k k k k k k k k k k k k k λ λ λ λ λ λ λ µ λ λ µ λ λ λ µ − − = ⇒ = = + ⇒ = + ⇒ − = ⇒ = ⇒ = ⇒ = − − + T Bu u Bu Tu W B u Bu Wu Bu Bu Wu W Bu u

La trace du premier Trace

(

T B s'appelle le critère de Pillai −1

)

17 et celle du second

(

1

)

Trace W B s'appelle le critère généralisé de Hotelling dû à Lawley 18. Ces quantités donnent des tests d'hypothèses dans le modèle gaussien (toute l'information est dans 19).

> ld <- lda(iris[,1:4],iris$Species) > plot(ld,dimen=1, type="both")

(25)

La fonction de R donne la combinaison de variables de variance intra-class unité (la variance par classe en moyenne vaut 1) qui maximise la variance inter-classe. La fonction d'ADE-4 donne la combinaison de variables de variance unité qui maximise la variance inter-classe.

On a donc la solution d'un même problème sous deux contraintes différentes. Il n'y a pas de contradictions mais pas d'identité des solutions. Le choix d'ADE-4 permet d'introduire dans une analyse discriminante un triplet de départ arbitraire, ce qui donne par exemple, une analyse discriminante des correspondances20.

On retrouve le lien entre l'analyse discriminante et l'analyse canonique par :

Num. Eigenval. R.Iner. R.Sum |Num. Eigenval. R.Iner. R.Sum | 01 +9.6987E-01 +0.8137 +0.8137 |02 +2.2203E-01 +0.1863 +1.0000 | 03 +0.0000E+00 +0.0000 +1.0000 > x <- iris[,1:4] > i1 <- as.numeric(iris$Species==levels(iris$Species)[1]) > i2 <- as.numeric(iris$Species==levels(iris$Species)[2]) > y <- cbind.data.frame(i1,i2) > can0 <- cancor(x,y) > can0 $cor [1] 0.9848 0.4712 $xcoef

(26)

______________________________________________________________________ [,1] [,2] [,3] [,4] [1,] 0.01187 -0.001753 -0.25105 0.07782 [2,] 0.02197 -0.157466 0.12503 -0.18250 [3,] -0.03151 0.067796 0.12746 -0.21329 [4,] -0.04023 -0.206546 -0.03786 0.37437 $ycoef [,1] [,2] [1,] 0.19465 0.04595 [2,] 0.05753 0.19155 $xcenter

Sepal.Length Sepal.Width Petal.Length Petal.Width 5.843 3.057 3.758 1.199 $ycenter i1 i2 0.3333 0.3333 > can0$cor^2 [1] 0.9699 0.2220 > w <- as.vector(scale(x,scale=F)%*%can0$xcoef[,1])*sqrt(150) > w [1] 1.41352 1.24991 1.31324 1.19460 1.42589 1.35043 1.26463 1.33348 1.15030 … [145] -1.20059 -0.98977 -0.90816 -0.87102 -1.03205 -0.82112 > ---

Binary input file: D:\ADE4\DIR_TRY\IRIS\iris.dili - 150 rows, 2 cols. 1 | -1.4135 0.2677 2 | -1.2499 -0.7009 3 | -1.3132 -0.2365 4 | -1.1946 -0.5975 5 | -1.4259 0.4584 145 | 1.2006 2.1642 146 | 0.9898 1.4948 147 | 0.9082 -0.3239 148 | 0.8710 0.7316 149 | 1.0321 2.0894 150 | 0.8211 0.2958

L'analyse discriminante est donc bien une analyse canonique. L'analyse des correspondances est donc une double analyse discriminante, comme on l'a vue, puisque chaque paquet d'indicatrices dans l'analyse canonique sert pour la discrimination de l'autre. Souvent on ne se sert que de l'une des deux 21, par exemple de la discrimination des espèces par les relevés.

(27)

1 3 1 2 2 1 1 1 3 7 4 1 5 1 4 0 1 6 6 1 7 1 9 5 8 1 8 9 1 0 2 9 2 1 2 5 2 3 2 2 2 7 2 6 2 8 2 0 3 4 2 -3 1 Ch abot Tr uite Va iron Lo che Om bre B lage on Hotu Toxo st om e Van dois e C h evai n e Ba r b ea u S pir l i n G ouj o n B roc h e t P erc h e Bo uviè r e Pe rche _ sol eil Ro teng l e Ca rpe Tan che B r è me_ c omm. P o i sso n _cha t Gré m ill e Gar d o n B rème _ bor d. A blet t e A ngui l l e

Une analyse canonique fort singulière a été baptisée LONGI car elle est utilisée pour l'étude de la croissance et les données longitudinales. Un tableau X de plusieurs

mesures anthropométriques est confronté à deux indicatrices, la première B portant sur

l'individu mesuré et la seconde A portant sur son âge (mesures longitudinales au cours

de la croissance). On peut définir le sous-espace A B∩ ⊥ 22 ensemble des variables constantes par classe d'âge et de moyenne nulle par individu pour faire l'analyse canonique avec l'espace des variables définies par le tableau X. Ces approches sont

développées dans 23.

2.4. Analyse canonique des correspondances

L’analyse canonique des correspondances (CCA) étend la stratégie de l'analyse des correspondances. En effet en réécrivant le tableau faunistique comme deux tableaux d’indicatrices, la mention 00010000000...000 qui indique auxquel des relevés doit être rattachée l’occurrence peut être remplacée par l’enregistrement des variables de milieu de ce relevé. On fait alors l’analyse canonique entre les indicatrices des espèces et les variables de milieu couplées par le biais des occurrences. On appelle cette méthode l’analyse canonique des correspondances qui se retrouve être l’analyse discriminante des occurrences (milieu) par la variable qualitative nom d’espèce. Elle donne des combinaisons linéaires de variables de milieu de variance unité qui maximise la variance des positions moyennes des espèces 24. Cette méthode, « dominante sur le marché », suppose qu’on ne voit dans le tableau floro-faunistique que des présences

(28)

______________________________________________________________________

c’est-à-dire dans les relevés des assemblages d’espèces qui sont chacune dans un milieu pour des raisons qui lui sont propres (théorie de la niche).

On peut comprendre l'opération sur un exemple. Soient 4 sites, 3 espèces et 2 variables de milieu. Le couple de tableaux appariés par les sites devient un couple de tableaux appariés par les occurrences. Cette dualité est une source de difficulté.

1 0 0 1.5 10.0 1 0 0 1.5 10.0 1 0 0 1.8 8.7 2 0 0 1.5 10.0 0 1 0 1.8 8.7 1 1 1 1.8 8.7 0 1 0 3.1 8.3 0 1 1 3.1 8.3 0 0 1 1.8 8.7 0 0 2 3.2 8.4 0 0 1 3.1 8.3 0 0 1 3.2 8.4 0 0 1 3.2 8.4                                                                               6    

Si les poids des occurrences dans le tableau sites-espèces ne sont pas entiers il faudrait réécrire une colonne de poids au lieu de décomposer les entiers :

1 0 0 1.5 10.0 2 1 0 0 1.8 8.7 1 2 0 0 1.5 10.0 2 0 1 0 1.8 8.7 1 1 1 1 1.8 8.7 3 0 0 1 1.8 8.7 1 0 1 1 3.1 8.3 2 0 1 0 3.1 8.3 1 0 0 2 3.2 8.4 2 0 0 1 3.1 8.3 1 0 0 1 3.2 8.4 2                                                                                 6                 

Mathématiquement, le premier tableau relève (entre autre) d'une analyse des correspondances qui donne un tableau de fréquences bivarié. Le second relève d'une analyse en composantes principales normée. Pour que le couplage fonctionne les poids doivent être cohérents. Ce sont nécessairement ceux de l'AFC. Centrer et normaliser le tableau de milieu avec les poids issus du tableau faunistique donne un résultat cohérent si on utilise les fi. sur le tableau sites-variables ou les f sur le tableau occurrences-ij

variables. La position moyenne de l'espèce 1 (profil 2 1 0 0) sur la première variable de milieu (valeurs 1.5 1.8 3.1 3.2) vaut

(

2 1.5 1 1.8 3× + ×

)

à gauche et évidemment la même chose à droite. On note I le nombre de sites, J le nombre d'espèces et p le nombre

de variables pour retrouver les schémas des analyses simples :

1 1 1 1 p J t t J I I J I I p p J J I I I I − − − − → → ↑ ↓ ↑ ↓ ← ← I D D P D D PD X X D D

(29)

En passant aux occurrences, on aura : p J t t O O p p J J O O O O → → ↑ ↓ ↑ ↓ ← ← I I L L Y Y D D

Y est le tableau occurrences-milieu après normalisation, X est le tableau sites milieu

après normalisation. Les deux matrices de corrélations sont les mêmes :

t t

O = I

Y D Y X D X

L est le tableau des indicatrices occurrences-espèces. Son schéma est entièrement

artificiel puisque t

O = J

L D L D . Le tableau espèces-variables des positions moyennes des

espèces sur les variables se calcule alors de deux manières en restant exactement lui-même : 1 t 1 t J J O − − = = M D P X D L D Y

Si on fait l'analyse canonique du couple vu par les occurrences, on a le schéma :

(

)

1

(

)

1 1 1 1 t t O O t t t t O O O J J O J J p p p p J J J J − − − − − → → ↑ ↓ ⇔ ↑ ↓ ← ← Y D Y Y D Y Y D L L D Y Y D LD D L D Y D D

Si on fait l'analyse canonique du couple vu par les sites, on a le schéma :

(

)

1 1 1 1 1 t O t t I I J J I I J p p J J − − − − − → ↑ ↓ ← X D X X D D PD D P D D X D

C'est-à-dire exactement la même chose qui s'écrit :

(

t

)

1 O t J p p J J − → ↑ ↓ ← X D X M M D

On obtient, comme cas particulier du modèle général, que les facteurs de cette analyse donnent des combinaisons de variables de milieu qui maximisent la variance des

(30)

______________________________________________________________________

positions moyennes des espèces. Mais, très curieusement, pour obtenir ce schéma unique, on a pris un couplage d'analyse canonique en associant les tableaux par les occurrences et un couplage avec une seule inversion de métrique (donc une ACPVI, chapitre suivant) en associant les tableaux par les sites. Quand il existe plusieurs justificatifs théoriques distincts pour une même procédure, en général la procédure a du succès (bibliographie dans 25) et on retiendra des justificatifs le plus adéquats à défendre un point de vue. Plusieurs autres modèles se cachent dans ce schéma complexe et on trouvera des synthèses dans 26 et 27.

L'important à retenir : l'ACC se pratique après une AFC du tableau faune et une ACP normée du tableau de milieu utilisant la pondération des relevés issue de l’AFC du tableau faune. De ce point de vue encore, le milieu enregistré dans un relevé est d’autant plus important qu’il y a plus de taxons présents (un relevé vide ne compte pas). C’est le milieu de l’occurrence qui est ainsi pris en compte. Les facteurs limitant sont minimisés, les facteurs de séparation de niches écologiques sont maximisés. C’est une contrainte forte. |--- | files cca.ivta | cca.ivpc | cca.ivpl | cca.ivpa | cca.ivvp | cca.ivco | cca.ivli

| are those of the complete analysis

| of the projected table (DDUtil can been used)

(31)

|--- | files cca.ivfa

| cca.ivl1 | cca.ivco

| allow a convenient interpretation

|---

ivfa contient les coefficients des variables de milieu (les loadings d’une ACP). Ces coefficients définissent des variables de variance unité (ivl1) :

²

qui maximisent la variance des positions des espèces (ci-dessus). Les coefficients sont bizarres. On calcule les corrélations entre scores et variables :

(32)

______________________________________________________________________

Les très fortes incohérences entre les coefficients qui fabriquent les scores à partir des variables et les corrélations entre ces mêmes scores et ces mêmes variables indiquent que les conditions d’emploi ne sont pas bonnes. C’est un problème très général en régression multiple et toutes les méthodes dérivées 28. A utiliser avec la plus grande prudence. L’ACC fait souvent guère plus que l’AFC sans qu’on s’en rende compte. A retenir : on maximise une corrélation entre combinaisons de variables quantitatives en

analyse canonique des corrélations. On maximise la corrélation entre scores des lignes et des colonnes dans une analyse des correspondances. On maximise un pourcentage de variance expliquée par une partition en analyse discriminante. On maximise la variance des moyennes par espèces avec des combinaisons de variables de milieu normalisées en

analyse canonique des correspondances. Ces méthodes relèvent de la stratégie des analyses canoniques.

3. Stratégie des variables instrumentales

Ce sont des méthodes dissymétriques. Un tableau est formé d’explicatives (variables instrumentales) et un tableau est formé de variables à étudier. Dans ces méthodes on étudie le second en utilisant le premier. On parle en général d’Analyses en Composantes Principales sur Variables Instrumentales ou ACPVI. Fondations dans 29. Le principe de base se trouve dans le schéma :

Y X Prédiction Yest Projection Analyse Lignes supplémentaires

(33)

X est le tableau des variables instrumentales. Y est le tableau à analyser. Chacune des variables de Y est prédite par une régression multiple sur les variables de X. Les modèles sont rangés dans le tableau Yest. Les variables de Yest sont obtenues par

projection des variables de Y sur le sous-espace engendré par les variables de X. Cette opération est linéaire. On considère alors que Yest est un ensemble de lignes. Quand on

passe de la ligne i du tableau Y à la ligne i du tableau Yest l’opération n’est plus linéaire.

On analyse Yest et on projette en lignes supplémentaires celle de Y. On fait une analyse

de Y sous contrainte de X. Suivant X et Y on a un ensemble de méthodes dites d’ordination sous contraintes ou d’analyses sur variables instrumentales. Les schémas utiles sont :

(

t

)

1 p m t t t t q p p m m p p n n n n m m − → → ↑ ↓ ↑ ↓ ↑ ↓ ← ← ← X DX Q Q X X Y Y X DY Y DX D D Q

6

Le schéma de droite est celui d'une ACPVI. On le réécrit sous la forme :

(

)

(

)

(

)

1 1 1 t t t t t t t m n n n n m m − − − → ↑ ↓ → ↑ ↓ ← D X X DX X D DX X DX X DX X DX X D Y Y Q ou encore : m t t t t m n n m m n n n n m m n n ↑ ↓ ⇔ ↑ ↓ X X X X D Q P P Y Y Y Y P P Q D

qui montre Yest =P YX . Le tableau X peut être remplacé par une base orthonormée d'un sous-espace de projection (module Projectors d'ADE-4) ce qui permet de distinguer les ACPVI directes et les ACPVI orthogonales qui décomposent une analyse simple avec deux projecteurs complémentaires :

m m t t t t n n m m m m n n n n n n n n → → ↑ ↓ ↑ ↓ ↑ ↓ − ↑ ↓ − ← ← X X X X Q Q Y Y Y Y P P I P I P D D

(34)

______________________________________________________________________

3.1. Analyses inter-classes

Le cas le plus simple est formé d’un tableau Y quelconque et d’un tableau X des indicatrices d’une variable qualitative. Prédire Y par X, c’est simplement remplacer une valeur par la moyenne des individus de la même classe pour la même variable. La transformation opérée par les variables instrumentales est figurée par le graphe en étoiles. Utiliser la carte JV73_poi. Faire une typologie de rivière à partir d’une typologie de stations.

Between-class inertia 8.733e+00 (ratio: 3.135e-01) 31% de variabilité entre rivières

Within-class inertia 1.912e+01 (ratio: 6.865e-01) 69 % de variabilité interne aux rivières

(35)

3.2. Analyses intra-classes

Si on utilise, en lieu de l’analyse du tableau estimée par les variables instrumentales, l’analyse du tableau des résidus des prédictions, on fait une ACPVI orthogonale. Pour le cas des indicatrices des classes, il s’agit de mettre les centres de gravité des sous-nuages à l’origine. Les deux analyses sont strictement complémentaires.

5 Doubs 5 Drugeon 5 Dessoubre 5 Allaine 5 Audeux 5 Cusancin 5 Loue 5 Lison 5 Furieuse 5 Cuisance 5 Doulonnes 5 Clauge -4 4.1 -6.7 6 Amont Aval Chb Tru Vai Loc Omb Bla Hot Tox Van Che Bar Spi Gou Per Gar Lam -2 1 -2 1 Chb Tru Vai Loc Omb Bla Hot Tox Van Che Bar Lot Spi Gou Bro Per Tan Gar Lam -1 1 -1.5 0.5

A gauche, structure intraclasse, à droite structure interclasse.

Les contraintes qu’on peut imposer sont donc très fortes. Il faut identifier les objectifs. Discriminante et inter-classes ont les mêmes objectifs mais pas les mêmes contraintes. L’analyse des correspondances classes est le cas particulier de l'analyse inter-classe après une AFC. On peut aussi la pratiquer en faisant l’AFC du tableau des sommes par classes avec projection en individus supplémentaires des lignes du tableau de départ. On parle alors de discrimination barycentrique 30 . Retenir les schémas de principe :

(36)

______________________________________________________________________

Score des colonnes

Score des lignes par moyennes conditionelles Variance = 1 Score des classes par moyennes variance maximale

Schéma de principe de l’analyse discriminante des correspondances 31.

Score des colonnes Variance = 1

Score des lignes par moyennes conditionelles Score des classes par moyennes variance maximale

Schéma de principe de l’analyse des correspondances inter-classes.

L'intra-classes en AFC peut s’étendre aux blocs de colonnes et aux doubles contraintes (COA: Internal COA) 32.

3.3. Ordinations sous contraintes

Les contraintes en inter et intra-classes sont simples. On peut les rendre assez complexes en introduisant des sous-espaces de projection (module Projectors). Utiliser la carte Proven 33 pour faire une analyse sous contrainte A+B :

P1 P2 P3 P4 P5 P6 C1 C2 C3 C4 C5 C6 -2.2 1.2 -1.9 1.3 Effet B Effet A

(37)

Lire le plan d’expérience (CategVar: Read Categ File), faire l’AFC du tableau faunistique (COA: COrrespondence Analysis), définir les espaces de projections (Projectors: Two Categ Var->Orthonormal Bases) en introduisant la pondération des lignes de l’analyse précédente et faire l’ACPVI sur le sous-espace A+B (Projectors: PCA on Instrumental Variables) :

ScatterClass: Stars sur le fichier ivls donne avec le plan d’expériences :

Il faut aussi croiser les deux variables (TextToBin: LabelToCateg).

L’ensemble est obtenu après superposition du fichier ivli. On peut aussi faire la figure superposant ivls et ivli :

(38)

______________________________________________________________________

Superposer ivli et ivls signifie qu’on veut une analyse dont les coordonnées des lignes soient de la meilleure manière (aux moindres carrés pondérés) du type A+B. On peut imposer des contraintes emboîtées du type B sachant A ou A B34 et décomposer l’inertie dans des plans complexes 35. Ces méthodes ne sont pas d’un emploi ordinaire.

3.4. Analyse des Correspondances Non Symétriques

Pour avoir une vision coordonnée, on peut enregistrer que si l’AFC est l’analyse canonique entre les deux paquets d’indicatrices de classes, il existe deux ACPVI, une dans chaque sens, entre ces deux paquets d’indicatrices et qu’on obtient ainsi deux analyses non symétriques des correspondances. Origine dans 36, introduction en écologie dans 37 et en sciences sociales dans 38 (article vivement recommandé aux amateurs).

Les ACPVI ont plusieurs modes d’interprétation qui peuvent être plus ou moins adaptées à certains types de couplage. Le premier est basé sur :

Y X Axe d'inertie Coordonnées par projection du nuage de points Prédiction des coordonnées par régression multiple

Par exemple, position des espèces avec des scores de variance unité, position des relevés à la moyenne et prédiction de ces positions par régression sur les variables de

(39)

milieu. Faire l’AFC du tableau faunistique, puis l’ACP normée du tableau de milieu en utilisant les poids de la précédente, puis utiliser CCA :

| files AA.ivc1 | AA.ivls | AA.ivli

| allow a convenient interpretation

Chb Tru Vai Loc Omb Bla Hot Tox Van Che Bar Lot Spi Gou Bro Per Tan Gar Lam -2.2 2.2 -2.2 2.2 Loue

Double représentation des relevés en ACC. Carrés noirs: position des espèces avec des codes normalisés. Carrés blancs: position des relevés par averaging. L'extrémité du trait indique la prévision de la position précédente faite par régression multiple sur les

variables de milieu.

(40)

______________________________________________________________________ | files AA.ivfa

| AA.ivl1 | AA.ivco

| allow a convenient interpretation

|---

Représentation simultanée des objets en ACC. Flèches : coefficients des combinaisons linéaires (loadings). Carrés blancs: position des relevés avec des variances unité.

Carrés noirs: position des espèces par averaging.

Il est important de reconnaître dans tous les cas que ces figures optimisent un critère donné sous des contraintes connues et que chaque figure est optimum de son point de vue. Il peut y avoir plusieurs points de vue.

(41)

4. Stratégie de la co-inertie

La troisième stratégie est la seule à tolérer des dimensions quelconques des deux côtés et est pratiquement la seule utilisable si les variables de milieu sont qualitatives (ce sont alors l’effectif des modalités qui définit la dimension du tableau X). C’est la plus simple puisqu’en gros elle fait une double analyse d’inertie des tableaux et garantit que les deux systèmes de coordonnées sont les plus cohérents possibles. Le schéma général est :

p m t t t t m p p p m m p p n n n n m m → ↑ ↓ ↑ ↓ ↑ ↓ ← ← ← Q Q X X Y Y X DY Y DX D D Q

Q

6

On peut étudier quatre exemples.

4.1. AFC des tableaux de profils écologiques

Une des plus anciennes pratiques issues de la théorie des profils écologiques consiste à faire l’AFC d’un tableau croisé. Les variables de milieu doivent être qualitatives. Prendre l’exemple des cartes mafragh 39. Le tableau floristique est passé en présence-absence :

Le tableau de milieu qualitatif est lu puis passé en disjonctif complet :

Variable number 1 has 4 categories

--- [ 1]Category: 1 Num: 21 Freq.: 0.216 [ 2]Category: 2 Num: 18 Freq.: 0.186 [ 3]Category: 3 Num: 22 Freq.: 0.227 [ 4]Category: 4 Num: 36 Freq.: 0.371 ...

Références

Documents relatifs

[r]

In the case (b) of a voxel farther from the system center, approximation errors are lower at all angles with the proposed spline driven projector. Compared to blob-based projectors,

Tableau 2 : Evolution de la collecte du lait cru et le taux d’intégration Tableau 3 : Composition générale du lait cru de vache (JORA, 1998) Tableau 4 : Aliments humains susceptibles

Parmi les films étrangers, sont disponibles : 67 films policiers,78 comédies et un grand choix de films

De la même manière, les deux distributions aléatoires peuvent être uniformes (ce qui est la plupart du temps le cas) ou non. De plus, les nœuds peuvent marquer un temps d’arrêt

The hardness results follow directly from the hardness results for DFAs (see, e.g., the summary in [18]), since any DFA can be effectively converted to an equivalent kC-OCA [13]

As a large majority (70%) of these learners were educated in France, where transmissive teaching is favoured, we consider that in spite of possible influences from inputs

Dire is one of only three verbs where this is the case (The others are être: vous êtes, and faire: vous faites).. The verb conduire (to drive) is conjugated like dire (je conduis ,