• Aucun résultat trouvé

L'analyse en Composantes Principales (ACP) est une méthode de la famille de l'analyse des données et plus généralement de la statistique multivariée, qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables décorrélées les unes des autres. Ces nou-velles variables sont nommées "composantes principales", ou axes. Elle permet au praticien de réduire l'information en un nombre de composantes plus limité que le nombre initial de variables.

Il s'agit d'une approche à la fois géométrique (représentation des variables dans un nouvel espace géométrique selon des directions d'inertie maximale) et statistique (recherche d'axes indépendants expli-quant au mieux la variabilité - la variance - des données). Lorsqu'on veut alors compresser un ensemble de N variables aléatoires, les n premiers axes de l'ACP sont un meilleur choix, du point de vue de l'inertie ou la variance expliquée

Les champs d'application sont aujourd'hui multiples, allant de la biologie à la recherche économique et sociale, et plus récemment le traitement d'images. L'ACP est majoritairement utilisée pour :

 décrire et visualiser des données ;

 les décorréler ; la nouvelle base est constituée d'axes qui ne sont pas corrélés entre eux ;  les débruiter, en considérant que les axes que l'on décide d'oublier sont des axes bruités.

La puissance de l'ACP est qu'elle sait aussi prendre en compte des données de nature hétérogène : par exemple un tableau des diérents pays du monde avec le PNB par habitant, le taux d'alphabétisation, le taux d'équipement en téléphones portables, le prix moyen du hamburger, etc. Elle permet d'avoir une intuition rapide des eets conjoints entre ces variables.

11.2. L'analyse en composantes principales 126 Échantillon

On applique usuellement une ACP sur un ensemble de N variables aléatoiresX1, . . . ,−→

XN connues à partir d'un échantillon de K réalisations conjointes de ces variables. Cet échantillon de ces N variables aléatoires peut être structuré dans une matrice M à K lignes et N colonnes.

M =    X1,1 . . . X1,N ... ... ... XK,1 . . . XK,N    (11.1)

Chaque variable aléatoire −Xn = (X1,n, . . . , XK,n)a une moyenne ¯Xn et un écart type σXn. Transformation de l'échantillon

Le vecteur −g = X¯1,n, . . . , ¯XK,n



est le centre de gravité du nuage de points. La matrice M est généralement centrée sur le centre de gravité, chaque vecteur colonne de la matrice à ainsi une moyenne nulle. ¯ M =    X1,1− ¯X1 . . . X1,N − ¯XN ... . . . ... XK,1− ¯X1 . . . XK,N − ¯XN   = M − −g I. (11.2)

La matrice M peut être aussi réduite, chaque vecteur colonne de la matrice à ainsi une variance de 1. ˜ M =     X1,1− ¯X1 σ(X1) . . . X1,N− ¯XN σ(XN) ... . . . ... XK,1− ¯X1 σ(X1) . . . XK,N− ¯XN σ(XN)     . (11.3)

Le choix de réduire ou non le nuage de points (i.e. les K réalisations de la variable aléatoire −→

X1, . . . ,−→

XN est un choix de modèle :

 si on ne réduit pas le nuage : une variable à forte variance va  tirer  tout l'eet de l'ACP à elle ;

 si on réduit le nuage : une variable qui n'est qu'un bruit va se retrouver avec une variance apparente égale à une variable informative.

Calcul de covariances et de corrélations

Une fois la matrice M transformée en ¯M ou ˜M, il sut de la multiplier par sa transposée pour obtenir :

 la matrice de variance-covariance des X1, . . . ,−→

XN si M n'est pas réduite ;  la matrice de corrélation des X1, . . . ,−→

XN si M est réduite.

Ces deux matrices sont carrées (de taille N), symétriques, et réelles. Elles sont donc diagonalisables dans une base orthonormée et ont des valeurs propres réelles.

Principe de l'ACP

Le principe de l'ACP est de trouver un axe paramétré par un vecteur unitaire −u, issu d'une com-binaison linéaire des −Xn, tel que la variance (l'étalement) du nuage autour de cet axe soit maximale.

Pour bien comprendre, imaginons que la variance sur −u soit égale à la variance du nuage ; on aurait alors trouvé une combinaison des −Xn qui contient toute la diversité du nuage original (en tout cas toute la part de sa diversité captée par la variance).

Projections

Finalement, on cherche le vecteur unitaire −u tel que la projection du nuage sur −u ait une variance maximale. La projection de l'échantillon des −Xn centré (et éventuellement réduit ) sur −u s'écrit

− →

Π−→u  ˜M

= ˜M · −u .

Cette projection appliquée à une matrice dière dans sa dénition de celle appliquée aux vecteurs. Le résultat est ici un vecteur dont la ième composante correspond au produit scalaire du ième vecteur colonne de la matrice ˜M et du vecteur unitaire −u recherché.

La variance de la projection est le carré de la norme du vecteur de projection ||Π−→u  ˜M ||2 =hΠ−→u  ˜M |Π−→u  ˜M i = −uTM˜T · M−u = −→uT C−→u où C est la matrice de corrélation (ou variancecovariance si on utilise ¯M)

Comme il a été vu plus haut que C est diagonalisable dans une base orthonormée, notons Q la matrice orthogonale de changement de base associée et Λ = Diag (λ1, . . . , λN) la matrice diagonale formée de ses valeurs propres λi rangées par ordre décroissant (λ1 > λ2 >· · · > λN). On a alors

C = QT · ∆ · Q et donc ||Π−→u  ˜M ||2= −→uTQT · ∆ · Q−u = (Q−→u )T · ∆ · (Q−u ) .

Le vecteur −v = Q−→u est de même norme que −u puisque Q est orthogonale. L'objectif est alors de déterminer le vecteur unitaire −v qui maximise −vT · ∆ · −v. En posant −v = (v1, v2, . . . , vn)cela revient à résoudre min λ1 v2 1 + λ2 v2 2 +· · · + λn v2 n  avec v2 1 + v2 2 +· · · + v2 n = 1,

dont la solution est évidente v1 = 1 et vi>1 = 0. En conséquence −u est le vecteur propre de C associé à la valeur propre λ1. La valeur propre λ1 est la variance empirique sur le premier axe de l'ACP, elle exprime le pourcentage d'inertie d'écrit par cet axe.

On continue la recherche du deuxième axe de projection −w sur le même principe en imposant qu'il soit orthogonal à −u on trouve le second vecteur propre et ainsi de suite. Finalement, la question de l'ACP se ramène à un problème de diagonalisation de la matrice de corrélation. On obtient en outre que la variance expliquée par le k-ème vecteur propre vaut λk.

Application : La régression linéaire

La régression linéaire est un cas particulier de l'analyse en composantes principales à deux dimen-sions. On suppose une collection de mesures −x = (x1, x2, . . . , xn) et −y = (y1, y2, . . . , yn). Montrer que l'ACP permet de déterminer la droite de régression y = ax + b.

Troisième partie

Chapitre 12

Introduction aux problèmes numériques

Sommaire

12.1 Erreurs de calcul . . . 132 12.1.1 Sources d'erreur . . . 132 12.1.2 Mesures de l'erreur . . . 132 12.1.3 Arithmétique ottante . . . 133 12.1.4 Norme IEEE-754 . . . 134

12.1.5 Phénomènes d'absorption et de cancellation . . . 134

12.1.6 Propagation de l'erreur . . . 135