• Aucun résultat trouvé

III.5 Classication des particules dans la bibliothèque

III.5.4 Analyse en composantes principales

L'analyse en composantes principales (ACP dans la suite) est une méthode de l'ana- lyse multivariée qui permet de trouver les directions dans l'espace des mesures le long desquelles les données expriment au mieux leur variance. Les axes ainsi trouvés sont ordon-

(a) Taille (b) Forme

Figure III.9  Histogrammes et diagrammes de corrélation, à gauche pour les paramètres de taille, à droite pour ceux de forme.

nés par importance (contribution à la variance totale) et prennent le nom de composantes principales. On peut ensuite ne pas tenir compte des composantes moins importantes et eectuer ainsi une réduction du nombre des composantes.

Pour la suite, les détails de l'ACP vont être présentés. La première étape est la stan- dardisation des mesures, obtenue en appliquant la transformation x → (x − m)/s, où m est la moyenne et s l'écart type. On peut, après cette transformation, construire la matrice des données standardisées de dimensions n (nombre d'objets) x p (nombre de mesures). A partir de celle-ci, on calcule la matrice de covariance selon la dénition ΣX = E((X − E(X))(X − E(X))T ), où E() est l'espérance et X est le vecteur des

p mesures standardisées. L'étape fondamentale de l'ACP consiste à trouver le système orthogonal qui diagonalise la matrice de covariance ΣX. L'existence d'un tel système est

assurée par le fait que ΣX est symétrique. Les valeurs propres sont ensuite ordonnées selon

leur grandeur. Les vecteurs propres correspondants sont appelés composantes principales. La diagonalisation n'est autre qu'une rotation dans l'espace des mesures standardisées. Les nouveaux axes - les composantes principales - sont des combinaisons linéaires des mesures standardisées. La valeur propre est proportionnelle au pourcentage de la variance totale exprimée, ce qui permet d'ordonner les composantes par importance.

Pour résumer, l'ACP permet de trouver les composantes le long desquelles les don- nées expriment au mieux leur variance. Cette technique a été utilisée pour eectuer une réduction des dimensions de l'espace des paramètres de forme. Un certain nombre des composantes principales a été retenu, de façon à ce qu'elle couvrent au moins 90 % de la variance totale. Cette valeur est à la discrétion de l'utilisateur et peut varier en fonction du cas.

B1 B2 B3 r1

P1 (94,6%) -0,42 0,52 0,55 0,5

Tableau III.1  Résultats de l'ACP pour le paramètres de taille : coecients de corréla- tion entre les paramètres de taille et la première composante principale. Le pourcentage entre parenthèses représente la fraction de la variance totale exprimée.

(a) Projections des mesures (b) Distribution des objets

Figure III.10  Résultats de l'ACP pour le paramètres de taille. A gauche, projection des mesures sur le plan des deux premières composantes principales (P1, P2). A droite,

dispersion des objets mesurés sur le même plan (P1, P2).

(a) Projections des mesures (b) Projections des mesures

(c) Distribution des objets (d) Distribution des objets

Figure III.11  Résultats de l'ACP pour le paramètres de forme. En haut à gauche, projection des mesures sur le plan des deux premières composantes principales (P1, P2),

en haut à droite sur le plan (P3, P4). En bas à gauche, dispersion des objets mesurés sur

r2 Sph S/V λ1 λ2 β1 β2 Imb

P1 (51,2%) -0,59 -0,39 0,32 -0,18 -0,36 -0,17 0,09 0,45

P2 (23,9 %) 0,62 0,31 0,23 -0,37 -0,26 -0,21 0,16 0,44

P3 (15 %) -0,21 0,15 -0,07 -0,43 0,48 0,48 0,49 0,20

Tableau III.2  Résultats de l'ACP pour le paramètres de forme : coecients de corré- lation entre les paramètres de forme et les trois premières composantes principales. Les pourcentages entre parenthèses représentent la fraction de la variance totale exprimée. (illustrés en gure III.9) sur l'ensemble des particules qui ne font pas partie de la classe sphérique.

Résultats de l'analyse des tailles.

Les pourcentages de la variance totale exprimés pour chaque composante principale sont 94,6 % pour P1, 3,4 % pour P2, 1,8 % pour P3 et 0,2 % pour P4. Ce résultat met

en évidence le fait que la composante P1 est largement susante pour représenter la

variabilité de la totalité des données. Il était d'ailleurs souhaitable de retrouver ce résultat, car il est logique que la taille puisse être décrite par un seul paramètre. La GL décrit également, de manière plus aisée, la taille des particules par un seul paramètre. Elle reste toutefois une analyse 2D et ne décrit pas au mieux la réalité. De plus, elle ne donne aucune information sur la forme des objets observés.

Le tableau III.1 montre les coecients de corrélation entre les paramètres de taille et la première composante principale. La gure III.10 à gauche montre les projections des paramètres de taille sur le plan (P1, P2) des deux premières composantes principales. De

plus, sur cette gure, à droite, la dispersion des données est présentée sur le même plan (P1, P2). A chaque point correspond une particule de la bibliothèque. Les mêmes types

de représentation des données sont utilisés en gure III.11 pour les paramètres de forme. Résultats de l'analyse des formes.

Les pourcentages de la variance totale exprimés par chaque composante principale sont 51,2 % pour P1, 23,9 % pour P2, 15,0 % pour P3 et 4,9 % pour P4. Les autres composantes

principales expriment moins de 2,5 % chacune. A la diérence des paramètres de taille, il a fallu retenir ici plusieurs composantes principales an d'atteindre 90 % de la variance totale. Plus précisément, P1, P2 et P3sont susantes pour exprimer ensemble 90,1 % de la

variance totale. Ces résultats montrent donc que la description de forme, pour la poudre en considération, ne peut pas se faire dans un espace unidimensionnel, comme pour la taille, mais nécessite au moins trois paramètres indépendants.

La technique de l'ACP a permis de réduire remarquablement le nombre de paramètres à considérer, tout en minimisant la perte d'information. La classication de la biblio- thèque, qui est l'objet de la prochaine section, a utilisée les trois composantes principales, issues des paramètres de forme. Les diagrammes en gure III.11 en bas montrent que les données sont distribuées de façon assez homogène à l'intérieur d'une région de l'espace (P1, P2, P3). Ils ne présentent pas, par eux-mêmes, une structure en classes séparées.