R EVUE DE STATISTIQUE APPLIQUÉE
W. I MAM
S. A BDELKBIR
Y. E SCOUFIER
Quantification des effets spatiaux linéaires et non linéaires dans l’explication d’un tableau de données concernant la qualité des eaux souterraines
Revue de statistique appliquée, tome 46, n
o3 (1998), p. 37-52
<http://www.numdam.org/item?id=RSA_1998__46_3_37_0>
© Société française de statistique, 1998, tous droits réservés.
L’accès aux archives de la revue « Revue de statistique appliquée » (http://www.sfds.asso.fr/publicat/rsa.htm) implique l’accord avec les condi- tions générales d’utilisation (http://www.numdam.org/conditions). Toute uti- lisation commerciale ou impression systématique est constitutive d’une in- fraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
QUANTIFICATION DES EFFETS SPATIAUX LINÉAIRES
ET NON LINÉAIRES DANS L’EXPLICATION D’UN TABLEAU DE DONNÉES CONCERNANT
LA QUALITÉ DES EAUX SOUTERRAINES
W.
Imam,
S.Abdelkbir,
Y. EscoufierUnité de Biométrie
(INRA-ENSAM-UMII)
2, Pl. Pierre Viala, 34060Montpellier.
RÉSUMÉ
On considère une situation
expérimentale
conduisant pourchaque
unitéstatistique
àun ensemble de variables
quantitatives
actives et à un ensemble de variablesquantitatives
concomittantes.
La démarche
exploratoire
laplus
immédiate consiste à fairel’analyse
en composantesprincipales
des variables actives et à utiliser les variables concomittantes comme variablessupplémentaires.
L’article montre comment les variables concomittantes peuvent être utilisées de manièreplus
effective dansl’analyse;
on obtient desquantifications
de leurs effets linéaires et non linéaires dans ladécomposition
de la variabilité totale des variables actives et dans celle de la variance de chacune d’entre elles. Dansl’exemple
traité, les données concomittantes sont des coordonnéesgéographiques
cequi
permet dequantifier
des effetsspatiaux.
Mots-clés : ACPVI, ACPVI
Spline
Additive,opérateur
deprojection, décomposition
de la variabilité, test depermutation.
ABSTRACT
We consider an
experimental
situation that for every statistical unit, there exists two sets of variables; onecontaining
theexplicative
variables and the othercontaining
the responses.Our
study explores
the data inapplying,
at the first time, theprincipal
componentsanalysis
method (PCA) on the responses where theexplicative
variables aresupplementary.
We
point
out that theexplicative
variablesplay
part in the statisticalanalysis.
Theapplication
of the
principal
componentsanalysis
with instrumental variables method (PCAIV) leads for thequantification
of their linear and nonlinear effects in thedecomposition
of the totalvariability
of
explicative
variables and in thevariability
of their variance. In ourexample,
theexplicative
variables are the
geographical
coordinates thatpermit
thequantification
ofspatial
effects.Keywords :
PCAIV, PCAIV AdditiveSpline,
matrixofprojection, variability’s decomposition,
test
of permutation.
38 W. IMAM, S. ABDELKBIR, Y. ESCOUFIER
1. Introduction
L’étude
qui
est àl’origine
du travailprésenté porte
sur laqualité
des eaux depuits
d’unerégion
marocaine. Dans le cadre de cetarticle,
pour chacun des 176puits
sont retenues 10 variables
physico-chimiques
indicatrices de laqualité
des eaux et,les coordonnées
géographiques
despuits.
Le but de l’étude est d’identifier lapart
de laqualité
des eauxqui peut
êtreexpliquée
par la localisation despuits.
L’analyse
encomposantes principales
des donnéesphysico-chimiques
accom-pagnée
d’uneprojection
en variablessupplémentaires
des coordonnéesgéographiques
est une
méthodologie possible
pour aborder leproblème.
Cettepratique
est insuffi-sante car elle ne fournit pas un critère chiffré mais de
simples
indications visuelles.De
plus
deuxcritiques épistémologiques peuvent
lui être faites. Pour Chessel et Mer- cier(1993)
«lacritique majeure
de cetteapproche
estl’hypothèse implicite
que les facteurs de milieu étudiés(ici
les coordonnéesgéographiques)
rendentcompte
d’uneimportante
fraction de lavariabilité,
or iln’y
a aucunegarantie
que ce soit le cas». Onpeut légitimement s’interroger
par ailleurs sur leparadoxe
inhérent à la démarche :on affiche
qu’on
veutcomprendre
le rôle des coordonnéesgéographiques
dans lavariabilité des variables
physico-chimiques
et dans la recherche d’une visualisation de cettevariabilité,
on ne tient aucuncompte
de l’informationgéographique.
Pour ces raisons nous nous tournons donc vers des
approches qui prennent
encompte
les localisationsgéographiques
dés le début del’analyse.
On trouve dans(Thioulouse, 1996)
une bonne revuebibliographique
des différentesapproches.
Lesunes sont fondées sur les relations de
voisinages
entre lespoints
d’observations. Les autres utilisent directement les coordonnéesgéographiques
de cespoints
dans despolynômes
dedegré
fixé àpriori
pourajuster
les données étudiées(ici
les variablesphysico-chimiques).
Notreapproche
relève de cette secondecatégorie.
Dans un butpédagogique,
nousl’exposons
d’abord dans sa formelinéaire,
c’est-à-dire laplus simple, puis
dans sa forme non-linéaire. Ceplan
facilitel’exposition
de laméthode;
il est
légitimement adapté
à unecompréhension progressive
des données.Dans un
premier temps donc,
l’étude estengagée
par uneanalyse
en compo- santesprincipales
parrapport
à des variables instrumentales(ACPVI)
danslaquelle
les variables
physico-chimiques
sont les variables àexpliquer
et les coordonnéesgéographiques
les variablespotentiellement explicatives.
Cette méthode fournit unedécomposition
de l’inertie totale du nuage des variablesphysico-chimiques
en unepart expliquée
par les coordonnées et unepart
nonexpliquée.
Cettedécomposition globale
inclut unedécomposition
des variances de chacune des variablesphysico- chimiques
et donc une étude fine de la localisationgéographique
dans lephénomène
étudié. Un test de
permutation permet
dequantifier l’importance
de la relation mise enévidence.
Reposant
sur latechnique
desprojections orthogonales
dans le sous-espaceengendré
par les coordonnéesgéographiques,
l’ACPVI ne met donc en évidenceque les relations linéaires entre les variables
physico-chimiques
et les coordonnéesgéographiques.
Pour
échapper
à cettelimitation,
on recourt à l’ACPVISpline
Additive(Durand, 1993)
et(Imam
etDurand, 1997).
On obtiendra commeprécédement
des décom-positions
de l’inertie totale du nuage et de la variance de chacune des variablesphysico-chimiques.
Maisici,
cesdécompositions
nes’interpréteront
pas en terme des coordonnéesgéographiques,
mais en terme de transformations non-linéaires de cescoordonnées. Ces transformations sont recherchées par la méthode. Elles
peuvent
être utilisées pour visualiser les distorsions de la réalitégéographique adaptées
auxdonnées
physico-chimiques.
Comme dans l’ACPVIlinéaire,
un test depermutation peut
être mis en oeuvre pourquantifier l’importance
de la relation trouvée.2. Les données et leur
analyse
encomposantes principales (ACP)
Les données
qui
sont utilisées pour illustrer l’article ont été mises àdisposition
par le Laboratoire de l’Eau et de l’Environnement de la faculté des Sciences d’El Jadida. Elles concernaient la
qualité
de l’eau pour un ensemble de 176puits.
Les 10 variables sont les suivantes :
(T) :
latempérature, (TDS) :
total des selsdissous, (Ph.) :
la mesure duPh,
(Na+) :
sodium à l’extraitsaturé, (Cl) :
leschlorures, (Ca++) :
lecalcium, (Mg++) :
le
magnésium, (Hco3) :
lescarbonates, (So4) :
lessulfates, (No3) :
les nitrates.On
dispose
enplus
des coordonnées(X1, X2) géographiques
despuits qui
constituent les variables
supplémentaires.
2.1. Résultats de l’ACP normée
Les données
ayant
été centrées etréduites,
on réalise l’ACP des 10 variables actives et onprojette
les coordonnéesgéographiques
despuits
en variablessupplémen-
taires.
On se contente de discuter les résultats fournis par le
premier plan
factorielqui explique
d’ailleurs presque les 3/4 de l’inertieglobale.
Lafigure
1 donne lepremier
cercle decorrelation;
Lepremier
axe oppose les variables(Ph
etT)
auxautres
variables,
avec une contribution moyenne des variables(Mg++, Ca++, Cl, TDS, Na+, Hco3, So4, No3).
Le deuxième axe oppose les variables(Hco3, So4, N03)
aux variables(Mg++, Ca++, CI, TDS, Na+)
avec une contributionimportante
de la variable
N03.
Pour cequi
est des variablessupplémentaires,
les coordonnéesgéographiques
semblent fortement liées à la variableHco3
ets’opposent
aux variablesT et Ph.
Dans la
figure 2, chaque puit
estrepéré
par ses coordonnéesgéographiques (X1, X2).
Lepuits
estreprésenté
par une indication de la valeur de lapremière composante principale.
On acoupé
l’étendue de lapremière composante principale
suivant les
quatre quartiles :
1représente
lepremier,
2 le second et ainsi de suite. Lafigure
3 est obtenue àpartir
de la secondecomposante principale.
Les valeurs descomposantes principales
montrent une certaineorganisation
en fonction deXi
et deX2.
Lephénomène
estplus
net pour lapremière composante principale
que pour la seconde.3. L’ACPVI linéaire 3.1.
Rappel
sur la méthodeSoit
( Y, Q, D)
une étudestatistique portant
sur q variablesréponses
mesuréessur n
individus,
Y est la matrice n x q desobservations, Q
est unematrice q
x q40 W IMAM, S. ABDELKBIR, Y. ESCOUFIER
FIGURE 1
Premier cercle de correlation pour une ACP centrée
réduite,
les variablessupplémentaires Xl
etX2
sont
pratiquement confondues
enprojection
sur ceplan
FIGURE 2
Représentation cartographique
de lapremière
composanteprincipale symétrique
définiepositive qui
définit unemétrique
surl’espace
des individus. La matrice n x n,diagonale
D dont les éléments sontpositifs
et de somme1,
est lamatrice des
poids
associés aux individus. Elle définit unemétrique
surl’espace
desvariables.
FIGURE 3
Représentation cartographique
de la seconde composanteprincipale
Soit X la matrice n x p des observations sur les p variables instrumentales
ou
explicatives.
On supposera que les n individus sont munis des mêmespoids
queprécédemment,
à savoir lespoids
définis par ladiagonale
de D.On utilisera par la suite le
D-produit
scalaire surRn
,(xl y) D = x’Dy.
La matrice
YQYD
dont les vecteurs propres sont lescomposantes principales
du
triplet (Y, Q, D) s’appelle l’opérateur caractéristique
de lareprésentation
desindividus. Cette matrice est
D-symétrique (A
estD-symétrique
si DA =A’D).
Robert et Escoufier
(1976)
ont montré quetr(AB)
définit unproduit
scalaire surl’espace
vectoriel des matricesD-symétriques.
On notera la norme associée par~A~
=(tr{A2})1 2.
Définition :
L’ACPVI du
triplet ( Y, Q, D)
parrapport
à X consiste tout d’abord à détermi-ner une
métrique
Rqui
minimise l’écart entre lesopérateurs YQYD
etXRX’D
Rappels :
2022 On trouve dans Bonifas et al.
(1984) l’expression algébrique
de la matrice R.42 W. IMAM, S. ABDELKBIR, Y. ESCO UFIER
où
En
remplaçant
R dans la dernièreéquation
par sonexpression,
on trouve. Soit
Px
=X(X’DX)-1X’D
la matrice deprojection D-orthogonale
sur lesous espace
engendré
par les colonnes de X.XRX JD, opérateur
associé autriplet (X, R, D)
est aussil’opérateur
associé autriplet (Px Y, Q, D).
Cecisignifie
que l’ACP dutriplet (X, R, D)
et l’ACP dutriplet (PX Y, Q, D)
conduisent à la mêmeréprésentation
desindividus,
c’est-à-dire auxmêmes
composantes principales
associées aux mêmes inerties. De l’écriture suivante Y =Px y + (I - Px) Y,
où Idésigne
la matriceidentité,
ladécomposition
permet
de conclureCette
équation
montre que l’inertie totale dutriplet (Y, Q, D) peut
êtredécomposée
en unepart qui correspond
auxprojections
des variables Y dans le sous-espaceengendré
par X et unepart
résiduellequi correspond
auxprojections
desvariables Y dans le sous-espace
orthogonal.
Le
ième
élémentdiagonal
de la matriceY DY est
la variance de la variableYi.
Lorsque Q
estdiagonale,
la formuleprécédente
conduit à unedécomposition
de lavariance de chacune des variables en une
part expliquée
par X et unepart
résiduelle.3.2. Test de
permutation
Pour
juger
de lasignification
de l’influence des variables d’environnementconsidérées,
on aappliqué
un test depermutation.
C’est uneprocédure statistique
danslaquelle
les données sont aléatoirement réaffectées aux différentes unitésstatistiques.
La
statistique
àlaquelle
on s’intéresse est calculée pour chacune despermutations;
La
proportion
des valeurssupérieures
ouégales
à la valeur de lastatistique
d’avantpermutation
détermine la valeur P designification
des résultats. Si P estpetit,
on endéduit que la valeur obtenue avant
permutation
a peu de chances d’être obtenue par des affectations faites auhasard;
dans ce casl’hypothèse
nulle de non relation entreles tableaux Y et X est
rejetée.
Si,
au contraire P estgrand,
la valeur obtenue avantpermutation
ne sedifférencie des valeurs obtenues par des affectations au
hasard;
dans ce casl’hypothèse
nulle de non relation entre les tableaux Y et X ne
peut
pas êtrerejetée.
Les calculsfaits ont utilisé pour seuil la valeur 5
%, (voir Edgington, 1987).
L’importance
de la relation entre les deux tableaux X et Y est mesurée par l’indice de Stewart et LoveSa distribution est donnée dans Kazi-Aoual F.
(1993).
Onpourrait également
utiliser le coefficient Rv
présenté
dans leparagraphe précédent.
3.3.
L’application
de l’ACPVI aux données considéréesL’utilisation de l’ ACPVI
classique
sur nos données tientcompte
de la variation des donnéesanalysées
et de la corrélation entre les coordonnéesgéographiques
et lesvariables
physico-chimiques.
Le tableau 1 résume la
décomposition
de la variance des variables initiales.La colonne 3
correspond
au sous-espaceengendré
par les variables instrumentalesconsidérées,
alors que la colonne 4correspond
à sonorthogonal.
La dernièreligne représente
lapart
d’inertieexpliquée
par cetteprojection.
Cettepart
est de l’ordre de25,7
%. Les variablesTDS, Ph, cl, Na+
etHco3
ont unepart
de varianceexpliquée supérieure
ouégale
à25,7 % ;
on pourra dire que ces variables sont liées à larépartition géographique
despuits.
TABLEAU 1
Décomposition
de l’inertie parprojection
sur le sous-espace
engendré
par les coordonnées cartésiennes despuits
44 W. IMAM, S. ABDELKBIR, Y. ESCOUFIER
La
figure
4 montre que lepremier
axeprincipal
oppose lesprojections
desvariables Ph et T aux autres
projections
de variables.FIGURE 4
Premier cercle de corrélation pour une ACPVI centrée réduite
Le deuxième axe oppose les
projections
des variablesMg++
etN03
à laprojection
de la variableHco3.
On remarque que lesprojections
des variablesCa++, So4, TDS,
CI etNa+
sontproches.
La corrélation est très forte entre laprojection
deTDS et la
projection
de Cl et entre lesprojections
deCa++
etSo4.
Les
figures
5 et 6 montrent uneorganisation
descomposantes principales
sur lescoordonnées
géographiques.
Lapremière composante
montre une forte associationavec
Xl
+X2
tandis que la seconde ne semble liéequ’à X2 .
Pourchaque projection,
100
permutations
au niveau des unitésstatistiques
ont été effectuées afin de tester lasignification
de ladécomposition
de l’inertie. Lapart
d’inertieexpliquée n’ a j amais
étédépassée
pour les différentespermutations,
cequi indique
une trésgrande signification
de la
décomposition
obtenue.La
figure
7représente
lesparts
d’inertieexpliquée
pour les différentes permu- tations concernant les coordonnées cartésiennes despuits.
4.
L’approche ACPVI-Spline
AdditiveDans la section
précédente,
l’introduction descomposantes spatiales
a été faitesous forme linéaire par un processus de
projection
sur le sous-espace vectorielqu’elles engendrent.
Il est tout à fait naturel de se demanderquelle
serait lapart
d’inertieexpliquée
sil’approche
utilisée était non linéaire. On a utilisé pour cela l’ACPVI-Spline
Additive(ACPVISA) (voir
parexemple
Durand etImam, 1996).
Cette méthodeFIGURE 5
Représentation cartographique
de lapremière
composanteprincipale.
(ACPVI linéaire)
FIGURE 6
Représentation cartographique
de la seconde composanteprincipale.
(ACPVI linéaire)
combine les
caractéristiques
de larégression Spline
et celles de l’ACP. Elle consiste à rechercher unemétrique
et une transformation des variables instrumentales par desB-Splines (Schumaker, 1981)
de telle sorte que son ACP soit laplus proche possible
de celle du tableau initial
(Durand, 1993).
L’ACPVI linéaire que l’on a utilisée dans leparagraphe précédent
en est un casparticulier.
46 W. IMAM, S. ABDELKBIR, Y. ESCOUFIER
FIGURE 7
Part d’inertie
expliquée
parprojection
sur le sous-espaceengendré
par les variables coordonnées dupuits.
La
première
valeur est obtenue avantpermutation
Rappel
de la méthode :Les
splines
sont des fonctionspolynomiales
par morceaux d’ordre m(de degré
m -
1) qui
se raccordent ainsi que certaines de leurs dérivées en Kpoints appelés
noeuds intérieurs
(De Boor, 1978), (Schumaker, 1981). L’espace
des fonctionssplines
est de dimension r = m + K. Une fonction
spline s(z)
est une combinaison linéaire de fonctions de baseappelées B-splines {Bmj(2022)}rj=1
La
jème
colonne de X estremplacée
parXj (sj)
=nj sj
oùnj
est la matricen x r de
codage
deXi ,
etsj
le vecteur des coefficientssplines.
Dans cette
méthode,
on transforme seulement lesprédicteurs (à
savoir lescoordonnées
géographiques Xl
etX2 ici)
par des fonctionssplines,
lesréponses
restant
inchangées.
Définition :
L’objectif
de la méthode est de trouver une matriceX(s)
et unemétrique
Rqui
minimisent l’écart entre les
opérateurs YQY D
etX(s)RX’ (s)D
Pour s
fixé,
unemétrique optimale
estexplicitement
calculée en posantX(s)
= X dansl’équation
Les
équations
normales ne fournissent pas de solutionexplicite
pour s. Une méthode itérative de relaxation exacte alterne uneétape
de calcul de R pour s fixéen utilisant la formule
(1),
et uneétape
d’unalgorithme
de laplus
forte descente enla variable s, R étant fixé
jusqu’à
la convergence, voir(Durand, 1993)
et(Imam
etDurand, 1997).
L’ ACP du
triplet (X(s), R, D)
estéquivalente
à celle dutriplet (PX(S) Y, Q, D).
Ceci met en évidence le lien avec les lisseurs additifs
multiréponses
Chaque
variableexplicative
contribue additivement àl’approximation
de cha-que variable
réponse.
Avec M =
(X’ (s)DX(s))-1X(s)
DY. Onpeut
alors tracerBjs-j
en fonction deXi
cequi permet
de visualiser la transformation de la variableXj
trouvée par la méthode.On
pourrait également,
pourchaque
variableY2,
tracerBjsj Mji
en fonctionde
X?.
On aurait alors une visualisation de l’influence de chacune des variables transformées dansl’explication
de la variabilité deYi.
4.1.
L’application
de l’ACPVISA sur les donnéesL’utilisation des transformations
splines
des coordonnéesgéographiques
estconforme à l’idée
d’analyse
multivariée introduite enEcologie
par Gittins(1968)
eten
Géologie
par Lee(1969). L’analyse
se fait alors encouplant
le tableau de données initial avec le tableau des coefficients dupolynôme
en(x, y)
dont ledegré
a été fixéà
priori (Thioulouse, 1985).
On faitalors,
soitl’analyse canonique (Gittins, 1968), soit, l’analyse canonique
descorrespondances
oul’analyse
des redondances(Brocard
et
al., 1992).
Pour ce
qui
est des données que l’on atraitées,
les résultats obtenus parl’approche ACPVI-Spline
Additive sont dans le tableau 2. On remarque une nette amélioration au niveau de l’inertieexpliquée
parprojection
sur le sous-espace des coordonnées transformées : elle est de 44.2 % contre 25.7 % pour l’ACPVI-linéaire.Les variables
TDS, Na+,
Cl etHco3
ont unepart
de varianceexpliquée supérieure
à44.2
%;
à la différence du caslinéaire,
la variable Ph n’estplus parmi
les variables lesplus
liées aux variablesexplicatives.
Sapart
de varianceexpliquée
est, commeCa++, proche
de la moyenne des variancesexpliquées.
48 W. IMAM, S. ABDELKBIR, Y. ESCOUFIER
TABLEAU 2
Décomposition
de l’inertie parprojection
sur le sous-espaceengendré
par les coordonnées
transformées (utilisation
del’ACPVI-Spline Additive)
FIGURE 8
Premier cercle de corrélation pour une ACPVI
Spline
Additive.L’utilisation du test de
permutation
dans le cas non-linéaire a donné des résultatssignificatifs
semblables à ceux du caslinéaire;
Onprécise qu’après chaque
affectation aléatoire des données au niveau du tableau des variablesinstrumentales,
il y a eu d’abord recherche des meilleures transformations etmétrique
surX(s)
pour que l’ACP de(X(s), R, D)
soit laplus proche
de celle de(Y, Q, D).
La transformation des coordonnées
géographiques
par dessplines
favorise lacorrélation entre les variables
Hco3, Cl, Na+
et TDS. Enplus
on a une contribution très forte pour la variableN03
et uneopposition
parrapport
au deuxième axeprincipal
entre
N03
etMg++
cequi
n’est pas le cas dansl’analyse
linéaire.Remarque :
Les variances
expliquées
pourHco3
etN03
sontplus
faibles que dans le tableau 1. Eneffet, l’optimisation globale
du critère ne repose pas sur uneoptimisation
individuelle pour
chaque
variable instrumentale.4.2.
Déformation spatiale
L’ACPVI
Spline
Additive a fourni le tableauX(s)
des transformées des coordonnéesgéographiques.
Lafigure
9 montre les deux transformations. Sauf pour lesplus grandes
valeurs deX2,
la transformation de cette variable est monotone et lesplus grandes
valeurs ont des transforméesqui
se confondent avec celles des valeurs intermédiaires deX2.
Onpeut
dire que la transformation tasse les valeurssupérieures de X2.
FIGURE 9
Les deux
transformations
deXl
et deX2.
La transformation de
Xi
estplus complexe.
Elles’apparente
à unpolynôme
de
degré
3. Lesquartiles
de la transforméeregroupent
des valeurs issues dequartiles
différents de la variable initiale.
Puisque
lareprésentation
des individus(les puits)
sont les mêmes dans les études(X(s), R, D)
et(Px(s), Q, D),
onreprésente
lescomposantes principales
du secondtriplet
parrapport
aux coordonnéesgéographiques
transformées. On voit dans lafigure
10 que lapremière composante principales
de l’ACPVIspline
additiveindique
une association avec
f(X1)
+g(X2),
oùf(X1)
etg(X2)
sont les transformations deXi
et deX2
montrées dans lafigure
9.En ce
qui
concerne lafigure 11,
on remarque que la secondecomposante
principale
est liée àg(X2).
50 W. IMAM, S. ABDELKBIR, Y. ESCOUFIER
FIGURE 10
Représentation cartographique
de lapremière
composanteprincipale.
(ACPVI Spline Additive)
FIGURE 11
Représentation cartographique
de la seconde composanteprincipale.
(ACPVI Spline Additive)
Si on calcule les variances des
Bjs-jMji (fonctions coordonnées),
on voit alorsque la transformée de
X2
a uneplus grande
variance que celle deXl
et ceciquelque
soit la variable
Yi
àexpliquer.
On en déduit uneprépondérance
de la transformée deX2
dansl’explication
des variablesphysico-chimiques.
5. Conclusion
L’ACPVI linéaire
puis
l’ACPVISpline
Additive ontpermis
de mettre enévidence l’influence des coordonnées
géographiques
sur les variablesphysico- chimiques.
On obtient dans les deuxapproches
unedécomposition
des variances de chacune des variablesphysico-chimiques
en unepart expliquée
par les variablesgéographiques
et unepart
résiduelle.L’ACPVI-linéaire ne recherche que des
explications
linéaires des variablesphysico-chimiques.
Sonavantage
réside dans sasimplicité
de mise en oeuvre etde
compréhension.
L’ACPVISpline
Additive met enévidence,
si ellesexistent,
des liaisons
plus complexes.
Lapossibilité
de visualiser les transformations des coordonnéesgéographiques
donne un élémentimportant d’interprétation.
Dans les deux
approches,
les tests depermutation permettent
dejuger
de lasignification
de la variabilité totale. Ladisponibilité
de cette démarche confirmatoirejustifie,
si besoin est, la nécessité d’uneprise
encompte
de données concomittantes dans une démarcheexploratoire
pour toutplan expérimental.
Remarque :
La démarche
peut
sepoursuivre
par la rechercheconjointe
de transformations des coordonnéesgéographiques
et des variablesphysico-chimiques.
Ceci sera étudiédans la thèse de Imam Waël au Laboratoire de Biométrie à l’ENSAM de
Montpellier.
Remerciements
Nous
remercions,
trèssincèrement,
l’ensemble dupersonnel
du laboratoire de Biométrie de l’INRA deMontpellier
pour son accueil et la mise à notredisposition
de moyens
informatiques qui
ontpermis
le traitementstatistique
et la rédaction de cet article. Un remerciement toutparticulier
est adressé à J.F. Durandqui
accompagnedepuis
deux ans le travail de Imam Waël.Bibliographie
[1]
BONIFASL.,
ESCOUFIERY.,
GONZALEZP.L.,
SABATIERR., (1984),
«Choix de variables en
Analyse
enComposantes Principales»,
Revue deStatistique Appliquée
vol.XXXII,
n°2,
pp. 5-15.[2]
BROCARDD.,
LEGENDREP.,
DRAPEAUP., (1992), «Partialling
out thespatial component of ecological variation», Ecology 73(3)
pp. 1045-1055.[3]
CHESSELD.,
MERCIERP., (1993), «Couplages
detriplets statistiques
etliaisons
espèces-environnement»,
Biométrie etEnvironnement,
J.D. Lebreton, B.Asselain,
Ed. Masson.[4]
DEBOOR, C., ( 1978),
Apractical guide
tosplines,
New York :Springer.
[5]
DURANDJ.F., (1993),
«Generalizedprincipal component analysis
withrespect
to instrumental variables via univariate
spline transformations », Computational
Statistics and Data
Analysis,
n°16,
pp. 423-440.52 W. IMAM, S. ABDELKBIR, Y ESCOUFIER
[6]
DURANDJ.F.,
IMAMW., (1996),
«Une extension non linéaire del’Analyse
en
Composantes Principales
sur VariablesInstrumentales, Rapport Technique
N°
96-07,
Unité de Biométrie.[7]
EDGINGTONE.S., (1987),
«Randomization tests», Secondédition,
M. DekkerEditor.
[8]
ESCOUFIERY.,
HOLMESS., (1988), «Décomposition
de la variabilité dans lesAnalyses Exploratoires :
Unexemple d’Analyse
enComposantes Principales
en
présence
de VariablesQualitatives Concomittantes.», Rapport Technique
N°
88-04,
Unité de biométrie.[9]
FRAILEL.,
ESCOUFIERY.,
RAIBAUTA., (1993), «Analyse
desCorrespon-
dances de données
planifiées :
étude de la chémotaxie de la larve infestante d’unparasite.»Biometrics
49 pp. 1142-53.[10]
GITTINSR., (1968),
«Trend surfaceanalysis of ecological data»,
Journal ofEcology
56 pp. 845-869.[11]
IMAMW.,
DURANDJ.F., (1997),
« Une extensionspline
additive del’Analyse
en
Composantes Principales
sur VariablesInstrumentales,
XXIXe Journées deStatistique
ASU.468-471.[12] KAZI-AOUAL F., ( 1993), «Approximations to permutation
tests dataanalysis
»,Rapport Technique
N°93-06,
Unité de Biométrie».[13]
LEEP.J., (1969),
«Thetheory
andapplication
of canonical trendsurfaces»,
Journalof Geology
77 pp. 303-318.[14]
ROBERTP.,
ESCOUFIERY, (1976),
«Aunifying
tool for linear-multivariate statistical methods : theRv-coefficient», Applied Statistics,
n°25, pp. 257-265.
[15]
SABATIERR., (1994),
«Deux nuages de Rn dont un àexpliquer»,
Notes decours de
DEA-Biostatistique (INRA-ENSAM-UMII).
[16]
SABATIERR.,
CHESSELD., (1993), «Couplages
detriplets statistiques
etgraphes
devoisinage».
Biométrie etEnvironnement,
J.D.Lebreton,
B.Asselain,
Ed. Masson.[17]
SABATIERR.,
LEBRETONJ.D.,
ChesselD., (1989), «Principal Component Analysis
with Instrumental Variables as a tool formodelling composition Data»,
«in
Multiway
DataAnalysis,
R.Coppi
and S. Bolasco(Editors).
[18]
SCHUMAKERL.L., (1981), «Spline
Functions : BasicTheory», Wiley,
NewYork.
[19]
THIOULOUSEJ., (1985),
«Structuresspatio-temporelles
enbiologie
despopulations
d’insectes.Application
à l’étude de l’altise de Colza : résultatsméthodologiques
etbiologiques»,
Thèse de 3ecycle, Lyon
1.[20]
THIOULOUSEJ., (1996),
« Outilslogiciels,
méthodesstatistiques
etimplica-
tions