• Aucun résultat trouvé

Les analyses multivariées: Analyse en components principales

(ACP)

Les méthodes MLR se prêtent mal au traitement de données spectrales en raison des fortes corrélations intra-facteurs. Pour cette raison, les méthodes multivariées leur sont préférées pour le traitement numérique des spectres MIR.

Les analyses multivariées (factorielles) ont tous les mêmes objectifs : représenter des données multidimensionnelles à travers un nombre réduit de dimensions (idéalement 2 à 3) en concédant une perte raisonnable d’information (i.e. en conservant les informations les plus significatives).

Ces dimensions réduites, appelées composantes principales ou variables latentes, sont définies par combinaison linéaires des variables originales. L'information d'une centaine des données ou d'un spectre peut ainsi être condensée dans un petit nombre de composantes principales (Gottieb et al.2004 ; Munck and Moller, 2004). Ces composants principales expliquent la majeure partie de la variance dans les données originales, et facilitent ainsi une interprétation efficace de propriétés des données par des analyses qualitatives telles que la discrimination ou la classification (Cordella et al.2002 ; Downey, 1998). De plus, pour éviter d'avoir la même «information» dans plusieurs composantes principales, elles sont construites de façon à être orthogonales.

2.1. Présentation général de l’ACP

Les conditions opératoire de maltage (X)

Le modèle

Les valeurs prédits pour les mesures H(X)

J(x)=(H(x)-H*)2 Le valeur

attendue de H

101

La théorie de l’ACP a été décrite par de nombreux auteurs (Lebart et al.1977 ; Joliffe, 1986 ; Saporta et al.1990).

L’analyse en composantes principales est une méthode descriptive qui s’applique à des tableaux de données quantitatives. Elle met en évidence des relations entre des variables et les observations pour lesquelles elles ont été mesurées. Les données enregistrées peuvent être présentées sous la forme d’un tableau ou d'une matrice dont les n lignes sont les différents échantillons/expériences et les p colonnes sont les variables ou conditions opératoires Figure 22.

Figure 22 : description schématique d'une matrice de donnée pour une ACP

Une représentation géométrique de ces données expérimentales est possible dans un espace de dimension p où p désigne le nombre de variables p (facteurs et/ou mesures). Projection

Cette représentation géométrique dans le repère original ne met cependant pas en évidence les propriétés (corrélation) dans la population ainsi décrite. Un changement de repère permet parfois de mieux décrire l'ensemble des points. La difficulté réside dans la définition des nouveaux axes de ce repère réorienté (vecteurs propres) et dans le calcul des nouvelles coordonnées des points initiaux dans ce nouveau repère.

Dans un premier temps, chaque observation peut être projetée dans les plans de l'espace initial. L’ensemble de l’observation projetée forme un nuage de points de dimension réduite Figure 23 avec p=3. Variables O b se rv a ti o n s Ligne i

102

Figure 23 Présentation d’un nuage de points dans un espace de trois dimensions

L'observation graphique d'un tel nuage de points n'est possible que dans un espace à 2 ou 3 dimensions. Dans le cas des espaces de dimension supérieure, les méthodes multivariées permettent 1) de définir un nouvel espace permettant de mieux comprendre/observer les relations entre les individus et 2) de conserver uniquement les directions les plus informative réduisant ainsi l'espace à quelques dimensions pertinentes en limitant les pertes d'information. D’un point de vue géométrique, l'ACP peut être considérée comme une méthode 1) de rotation des données suivi d'une méthode de 2) projection conduisant à une présentation plus efficace avec la dimension la plus petite possible (le minimum de composantes principales). Pour définir la meilleure rotation des axes, on utilise comme direction principale celle qui présente le maximum de variance. On construit ainsi la première composante principale (CP1). On définit ensuite un deuxième axe, orthogonal au premier, qui décrit le maximum de variance dans la variance résiduelle. Cette direction est ainsi appelé 2ème composante principale (CP2) (Figure 24). La procédure est répétée jusqu'à atteindre un niveau d'explication de la variance satisfaisant (80%, 90%; 95%, 99%). SI on utilise toutes les composantes principales, 100% de la variance est expliquée.

Cette rotation du nuage de points permet d'obtenir la représentation dans un nombre réduit de directions avec la plus grande fidélité possible.

Variable 1 Ligne i X1 X3 X2 Variable 3 Variable 2

103 Figure 24 Illustration de la rotation des axes pour la mise en place d'un nouveau repère

Les coordonnées de tous les points du nuage dans le nouveau repère sont obtenues en projetant orthogonalement les points initiaux sur les nouveaux axes. Elles sont appelées coordonnées factorielles et elles constituent les valeurs des composants principales. Dans chaque couple d’axe, les points sont décrits par leurs coordonnées factorielles. On appelle ces représentations en 2D : cartes factorielles. Ces cartes ont un intérêt essentiel dans les analyses par composants principales. Elles permettent de projeter les individus sur des plans tel que on peut éventuellement détecter des repartions structurées des objets, la formation de groupes ou la présence d'individus aberrants ce qui nous aide à la compréhension de la structure des données. Figure 25 illustre une ACP effectué dans cette étude sur des orges de printemps récolte 2010 dans quatre lieux différents en France : Clermont-Ferrand, Issoudun, Bretenieres, Merignies. L’ACP permet ainsi de distinguer les lieux et souligne, en même temps les points singuliers (deux points du lieu Merignies qui se trouvent avec les points du lieu Bretenieres). Variable 1 Variable 3 Variable 2 CP1 Variable 1 Variable 3 Variable 2 CP1 CP2

104

Figure 25 Carte factorielle d’un nuage de points

2.2. La mise en œuvre de l’ACP

La méthode ACP s'appuie sur le remplacement d’une matrice X de n lignes et m colonnes, par une nouvelle matrice T dérivée de X avec n lignes et un nombre de colonnes k très inférieur de m. On peut écrire cette relation en terme matricielle :

« = ¯ (27)

où W est la matrice des coefficients qui définissent les combinaisons linéaires, avec m lignes et k colonnes, en d'autres termes, la matrice des vecteurs propres de XTX (loadings).

Les colonnes de la matrice T ont plusieurs particularités :

1 Ils sont des combinaisons linéaires des variables d’origine. 2 Ils sont orthogonaux entre eux.

3 Ils constituent les valeurs propres de XTX.

L'ACP classe les valeurs propres (composantes principales) par ordre décroissant pour sortir les composantes les plus explicatives.

L'ACP permet donc de décrire l’essentiel de la variance sur les données X dans un nouvel espace de petite dimension (compression des données). De même temps l'ACP est un outil de classement de données (tri sélectif).

Dans l'ACP, on calcule la matrice carrée de covariance. La matrice initiale est toujours centrée et réduite, pour éviter les problèmes des unités et l’hétérogénéité des variances.

Les analyses ACP ont été appliqués d’abord sur tous les données expérimentales des orges récoltées de 2009, 2010, 2011. Ensuite les analyses en composantes principales sont

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 -0.3 -0.25 -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 1st Principal Component 2 n d P ri n ci p al C o m p o n en t

Spring barley 2010 lieu de culture

Clermont-Ferrand

Benténiers

Issoudun

105

menés sur les données spectrales collectées sur les orges de 2009, 2010, 2011. Toutes les analyses ACP ont été programmées sous Matlab.