• Aucun résultat trouvé

Un point sur l’analyse des don nées en pourcentage

limons pavages de déflation

III.4.1 Un point sur l’analyse des don nées en pourcentage

Généralités

Dans les chapitres qui suivent, il sera question, hor- mis les épaisseurs, de données relatives exprimées en pourcentage de leur somme : c’est le cas des don- nées granulométriques et géochimiques. En statis- tique, ce type de données est qualifié sous le nom de données compositionnelles. Ce sont des données multivariées qui, au contraire des données multiva- riées classiques, sont soumises à une contrainte de clôture. En effet, une composition peut être figurée comme un vecteur X avec des composantes posi- tives qui représentent les proportions d’une même somme totale (Aitchison, 2003). Ce vecteur est soumis à la contrainte:

x

1

+...+ x

D

=1 (1)

où D est le nombre de composantes.

A cause de cette contrainte, l’analyse des données en proportions par le moyen des statistiques multi- variées classiques produit des résultats inappropriés ou peu pertinents, et par conséquence des infé- rences douteuses ou déformées (Aitchison, 1986). La première mention concernant ce problème est rapportée à Pearson (1896). Cet auteur montre que trois variables X, Y et Z sans corrélation entre elles (pour un nombre de mesures N), auront une cor- rélation lorsqu’elles sont exprimé en rapport (X/Z et Y/Z). Pearson baptise ce phénomène « spurious correlation » (corrélation fallacieuse). Par la suite, ce sera le géologue Chayes (1960) qui explicitera la relation entre les observations de Pearson et les données compositionnelles (Bacon-Shone, 2011). Chayes montre qu’à cause de la contrainte de la somme (eq. 1), certaines des corrélations calculées sur des données compositionnelles doivent être né- gatives.

Ce phénomène de corrélation fallacieuse a une conséquence majeure sur la cohérence subcompo- sitionnelle (Aitchison, 2003). La cohérence sub- compositionnelle peut être expliquée facilement par l’exemple suivant. Il s’agit de vingt échantillons pour lesquels la concentration en Si, Al, Fe, Mn et Ti est mesurée puis exprimée en pourcentage de leur somme (Tab. III.1, échantillons n°1 à 20).

N°Echantillon Si% Al% Fe % Mn % Ti%

1 97,548 1,789 0,577 0,011 0,076 2 96,271 2,015 1,498 0,003 0,213 3 95,773 2,002 2,006 0,005 0,214 4 95,693 2,362 1,647 0,028 0,270 5 96,700 2,032 1,066 0,005 0,197 6 97,234 1,395 1,208 0,004 0,160 7 96,659 2,190 0,939 0,004 0,207 8 97,237 1,369 1,226 0,004 0,164 9 96,311 2,383 1,097 0,008 0,201 10 87,802 8,301 3,443 0,057 0,396 11 75,573 15,375 7,423 0,166 1,463 12 79,857 14,214 4,840 0,157 0,932 13 81,952 12,445 4,421 0,219 0,962 14 83,048 12,539 3,500 0,172 0,740 15 84,376 11,255 3,572 0,135 0,663 16 97,363 2,484 0,110 0,003 0,040 17 96,432 3,028 0,383 0,005 0,152 18 97,938 1,903 0,077 0,002 0,080 19 96,965 2,840 0,147 0,003 0,045 20 98,400 1,486 0,078 0,003 0,033

Le Tableau III.2a montre la matrice des corréla- tions calculée pour tous les éléments (Si, Al, Fe, Mn, Ti). Par exemple, la corrélation entre Al et Fe pour la composition entière (Si, Al, Fe, Mn, Ti) est de 0,9187. Cette corrélation devrait rester identique dans le cas où on prend, par exemple, un sous- échantillon des éléments Al, Fe, Mn et Ti. Or nous obtenons 0.9974, ce qui veut dire que la corrélation observée n’est pas une corrélation réelle, mais un artefact mathématique : la cohérence subcompo- sitionnelle n’est respectée. Le tableau III.2a fourni un exemple des variations du coefficient de corré- lation des couples d’éléments selon la sous-compo- sition choisie. Pour certains couples, la différence est flagrante. Par exemple la corrélation entre Al et Fe passe d’un coefficient positif de 0,9187 dans la composition Si-Al-Fe-Mn-Ti à un coefficient néga- tif de -0,9997 dans la sous-composition Al-Fe-Mn.

D’autres distorsions systématiques sur les données compositionnelles existent mais nous renvoyons à l’ouvrage de Aitchison (1986) pour plus de détails. La solution théorique robuste aux problèmes d’ana- lyse multivariée des données compositionnelles est introduite suite à deux ouvrages majeurs de cet auteur (Aitchison 1982; Aitchison 1986). Notam- ment, il met en évidence que les données compo- sitionnelles fournissent une information relative, non pas absolue, des valeurs d’une composition et que la seule approche possible pour travailler sur les compositions est de considérer les rapports entre composantes. Cependant puisque les rapports, à des fins statistiques, sont mathématiquement peu faciles à traiter, la meilleure solution consiste à utiliser le logarithme des rapports entre compo- santes (Aitchison, 1986). En effet, le logarithme des rapports permet de transformer les données

Si

Al

Fe

Mn

Ti

Si

1

Al

-0,9926

1

Fe

-0,9596

0,9187

1

Mn

-0,9496

0,9587

0,8676

1

Ti

-0,971

0,9427

0,9743

0,9166

1

Si-Al

Al-Fe

Fe-Mn

Fe-Ti

Mn-Ti

Si-Al-Fe-Mn-Ti

-0,9926

0,9187

0,8676

0,9743

0,9166

Si-Al-Fe-Mn

-0,9938

0,9197

0,8684

Al-Fe-Mn-Ti

-0,9974

0,0171

0,7861

0,1399

Si-Al-Fe-Ti

-0,9925

0,9189

0,9744

Si-Al-Fe

-0,9936

0,9199

Fe-Mn-TI

-0,9936

-0,9582

0,9199

Al-Fe-Mn

-0,9997

0,02

Tab.2a

Tab.2

Tab. III.2 : Matrice de corrélation entre 5 éléments chimiques (Si, Al, Fe, Mn, Ti) sur un sous-jeu de données issu des données géochimiques (cf. texte). N = 20. A) Tableau récapitulatif des variations du coefficient de corrélation entre éléments (ligne supérieure du tableau) selon différents cas (colonne de gauche du tableau).

III.4 : Méthode

compositionnelles de manière à sortir de l’espace géométrique fermé qui les caractérise et de passer dans l’espace Euclidien des nombre réels (Aitchison 1986). L’espace géométrique des données composi- tionnelles représente en effet une portion de l’es- pace réel, appelée simplexe et définie comme suit :

où d correspond à la dimension de l’espace du sim- plexe, égale au nombre de composantes de la com- position.

Le passage du simplexe à l’Espace Euclidien est fon- damental, car de fait il autorise l’analyse des don- nées compositionnelles avec tout le panel des statis- tiques multivariées standard (Aitchison, 1986). Transformations des données composition- nelles

Aitchison (1986) introduit deux types de transfor- mations des données compositionnelles :

1) la transformation ALR ou Additive log-ratio tranformation, égale à : alr(x) = ln x1 xD , x2 xD ,..., xD−1 xD

où x est une composition à D composantes et le lo- garithme ln est appliqué à toutes les composantes. 2) La transformation CLR ou Centered log-ratio transformation, égale à : clr(x) = ln x1 gm(x), x 2 gm(x),..., x D gm(x) gm(x) = i=1 D xi 1D ,

Ces deux types de transformation ont des limites. Pour la première, au sein l’espace géométrique de la transformation, les distances mesurées entre les points varient selon le dénominateur choisi (Bacon- Shone, 2011). Pour la deuxième, le problème est que la matrice de covariance de la transformation est unique, ce qui rend difficile son utilisation dans certaines procédures statistiques standard (Bacon- Shone, 2011).

Egozcue et al. (2003) ont introduit une troisième transformation, connue sous le nom de transforma- tion IRL ou Isometric log-ratio transformation. Elle permet notamment d’éliminer les désavantages des transformations précédentes : dénominateur choi- si arbitraire (ALR) et singularité de la matrice de

distingue par la possibilité de représenter, en res- tant dans le simplexe, une composition par ses coordonnées selon un système d’axes orthogonaux. Cette transformation se fonde sur la reconnais- sance du simplexe en tant qu’espace naturel Eucli- dien. Les composantes des transformations ALR et CLR peuvent aussi être formulées en termes des coordonnées, mais leurs axes ne seront pas ortho- gonaux (Egozcue et al., 2003), ce qui implique une distorsion des objets (cf. exemple du carré dans Ma- teu-Figueras et al. (2011). Le seul « désavantage » lié à cette méthode est que pour obtenir les coor- données de la composition, il faut utiliser des bases orthonormées, sachant qu’il existe dans l’espace Euclidien un nombre infini de bases orthonormées (Egozcue et Pawlowsky-Glahn, 2011). Nous pré- sentons la définition de IRL et une des approches pour la sélection des bases orthonormées.

Soit une base orthonormée du simplexe (SD) un groupe de composantes. Pour une base fixée, les coordonnées d’une composition sont obtenues par la fonction suivante:

x*=irl(x) = ( x,e

1 a, x,e2 a, x,eD−1 a

ou X* est la composition transformée, ⋅,⋅ a est le

produit scalaire d’Aitchison (produit scalaire dans le simplexe) et D est le nombre de composantes. Les coordonnées d’une composition, selon Egozcue et Pawlowsky-Glahn (2005), peuvent être calculées en se basant sur une Partition Binaire Sequentielle (SBP, Sequential Binary Partition) pour les compo- santes de la composition. Chaque étape de la parti- tion, pour un total de D – 1 étapes, permet d’obte- nir une coordonnée isométrique. Nous présentons la technique dans le tableau III.3, ou l’on a repris l’explication de Egozcue et Pawlowsky-Glahn (2011) en utilisant un exemple tiré de notre travail : c’est le cas d’une composition granulométrique a 4 composantes : SG (sables grossiers), SF (sables fins), LG (limons grossiers), LF (limons fins). Dans une première étape, la SBP consiste à subdiviser la com- position en deux groupes de portions, indiqués par +1 et – 1 (cf. première ligne Tab. III.3). Par la suite, chaque groupe précédemment obtenu est à son tour subdivisé en deux groupes, et cela jusqu’à obtenir des groupes composés de deux seules parties : + 1 et -1. A chaque étape est donc associée une base or- thonormée et une coordonnée IRL, appelée, dans cette technique , « balancière » (balances) (Egozcue et Pawlowsky-Glahn, 2005). Pour la j-ème ligne de

la matrice SBP (Tab. III.3), soit X+ le groupe de r

portions noté par + 1 et X- le groupe de s portions.

Sd= (x

1,...xD): x1>0,..., xD>0;x1+...+ xD=1

La balancière est égale alors à :

bj= r + srs ln ggm(x+)

m(x−)

ou gm(.) est la moyenne géométrique des portions.

Les balancières correspondent donc aux loga- rithmes orthonormés (opérateur à gauche du loga- rithme dans l’équation) des rapports des moyennes géométriques des groupes de portions. La limite principale de la transformation IRL reste le fait que il n’y a pas de bases orthonormées simples ou standard, et du fait que le choix des bases doit être motivé par les questions statistiques (Bacon-Shone, 2011).

Pour conclure, toutes les transformations ont la propriété d’être réversibles. Chacune à ses limites, et le choix de l’une ou de l’autre dépend de l’analyse souhaitée (Mateu-Figueras et al., 2011). L’approche proposée si l’on travaille sur des données compo- sitionnelles est la suivante : 1) transformation des données compositionnelles selon une des transfor- mations (réversibles) ; 2) analyse des données selon l’approche statistique classique ; 3) interprétation des résultats soit selon les coordonnées, soit en les exprimant dans leur format originel (transforma- tion en sens inverse).

Traitement des zéros

La présence de valeurs égales à zéro est une contrainte supplémentaire lors de la transformation des données compositionnelles car le logarithme de zéro est indéfini (Aitchison, 1986). Différentes stra- tégies de substitution des zéros dans les matrices de données ont été élaborées. Il s’agit tout d’abord de savoir quel est le type de zéro auquel on fait face. Martín-Fernández et al. (2011) en distinguent trois principaux :

i. zéro arrondi, pour le cas des valeurs se situant en dessous du nombre de chiffres significatifs fixés. Il ne s’agit pas d’un vrai

zéro, mais plutôt d’une valeur observée en dessous d’un seuil maximum. C’est aussi le cas de valeurs réelles qui ne sont pas obser- vées suite à la faible concentration d’une substance ou d’un élément. La valeur no- tée est un zéro ou une annotation du type <εij ou >εij où εij est le seuil de détection d’un processus de mesure appliqué à une variable j dans une composition i ;

ii. zéro de décompte, lorsque le zéro est lié à des problèmes d’échantillonnage : les com- posantes ne sont pas observées à cause du nombre limité de l’échantillon. Il n’est pas possible de savoir s’il y a un vrai zéro (cf. def. 3) parce que dans un autre contexte d’échantillonnage une composante donnée pourrait avoir une valeur supérieure à zéro ; iii. zéro absolu, dans un contexte où il s’agit de

véritables zéro structuraux qui ne sont pas attribuables à l’un des cas précédents. Les stratégies adoptées pour les zéros de décompte et les zéros absolus ne seront pas traités ici car les don- nées utilisées dans ce travail ne rentrent pas dans ce cas de figure. Les zéros arrondis sont abordés par deux types de méthodes : non paramétriques et paramétriques. Notons ici que les premières ne requièrent pas une distribution normale de don- nées et c’est pour cette raison que dans ce travail nous nous sommes limités à celles-ci. Nous ren- voyons le lecteur à Martín-Fernández et al. (2011) qui présente une revue exhaustive des différentes méthodes non-paramétriques.

Nous avons retenu la méthode de Martín-Fernán- dez et al. (2003), qui à l’heure actuelle semblerait être, avec celle de Fry et al. (2000), la plus perti- nente parmi les non-paramétriques (Bacon-Shone, 2011). Elle se caractérise par une stratégie multipli- cative qui consiste à : 1) attribuer des petites valeurs à chaque zéro ; 2) modifier les petites valeurs de manière à respecter la contrainte de la somme im- posée par une composition.

SG SF LG LF

b1 1 -1 -1 -1

b2 1 -1 0 0

b3 0 0 1 -1

Tab. III.3 : Exemple de Partition Binaire Séquentielle (SBP) pour une composition à quatre composantes (sables grossiers, sables fins, limons grossiers, limons fins).

III.4 : Méthode

Ainsi, partant d’une composition xi à D compo-

santes xi = ((xi1,...,xiD), on obtient une nouvelle

composition xri = ((xri1,...,xriD) d’après la formule suivante :

où ci est la constante correspondant à la somme des

composantes observées. La valeur de δij est égale

à 65 % de la valeur seuil remplacée. Si on a, par exemple, une valeur notée du type seuil de détec- tion avec xij<0,01, δij sera égale à 6,5 x 10-3. Martín-Fernández et al. (2003) ont pu montrer que

si δij est estimée à 65 % de la valeur remplacée et si

la matrice des données analysée contient moins de 10 % de zéros arrondis, la distorsion de la structure de covariance est minimisée.

Logiciel

Dans ce travail, l’ensemble des données composi- tionnelles a été traité, lorsque cela était nécessaire, par le logiciel CoDaPack (Comas et Thió-Henes- trosa, 2011).

xr

ij

=

ij

si x

ij

=0

x

ij

1

ik k xik=0

c

i

si x

ij

>0

III.4.2 Granulométrie et épaisseurs :