Classification bas´ee sur les m´etriques d’histogrammes

2.2 Mesure et caract´erisation des retards

3.1.3 Classification bas´ee sur les m´etriques d’histogrammes

3.1.3.1 R´eduction de dimension

Après avoir extrait les différentes métriques d’histogrammes, la dimensionnalité des données se trouve considérablement augmentée. En effet, le nombre de variables, aussi appelées ”caractéristiques”5_{, se multiplie ce qui va}

introduire des difficultés à plusieurs niveaux : complexité, temps de calcul, plus grand risque d’avoir des données bruitées et ”le fléau de la dimension”6_{. Pour}

surmonter ces problèmes, il est nécessaire de trouver un moyen de réduire le nombre de caractéristiques considérées. Deux techniques sont souvent utilisées (tableau3.1) :

1. Extraction de caract´eristiques7 :

Les techhiques d’extraction de caractéristiques ont pour but de réduire la dimension de l’espace d’état de l’échantillon initial afin d’en simplifier l’analyse et d’en supprimer les redondances.

De nombreuses méthodes statistiques, essentiellement linéaires, ont été proposées. Les plus connues sont l’analyse en composantes principales (ACP), l’analyse discriminante linéaire (ADL) (Fisher, 1936), le positionnement multi-dimensionnel (MDS8_{) (}_{Messick and Abelson}_, ₁₉₅₆_{)... Dans cette}

section, nous nous intéresserons plus particulièrement à l’ACP dont le principe se retrouve dans la plupart des autres techniques. L’ACP fait partie de la famille des méthodes factorielles. Elle transforme les variables quantitatives corrélées en un nombre plus petit de variables quantitatives non corrélées, appelées composantes principales, par projection des données sur un sous-espace vectoriel de l’espace initial.

Soit X = (x1, . . . , xN) un ´echantillons de variables al´eatoires iid prenant leurs

valeurs dans Rn_{. Le premier axe propre de l’ACP est le sous-espace affine de}

dimension 1 de Rn _{pour lequel la variance des donn´ees projet´ees est}

maximale. On peut sans perte de généralité supposer l’échantillon centré, le problème se formule alors mathématiquement comme un programme

5. ”Features” en anglais.

6. ou ”the curse of dimensionality” (Bellman, 1957). Ce phénomène est observé lorsque des

variables sont ajoutées sans augmenter également le nombre d’échantillons d’apprentissage, ce qui conduit a un sur-apprentissage.

7. Plus connue sous le nom anglais ”feature extraction” dans la communaut´e du ”machine learning”

d’optimisation convexe : (

min_v∈RnPN

i=1hv, xii2

hv, vi = 1 (3.8)

En utilisant les multiplicateurs de Karish Kuhn Tucker, on obtient la forme lagrangienne : max λ∈R+_v∈Rminn N X i=1 hv, xii2+ λ(hv, vi − 1) (3.9)

qui admet pour solution :

( PN i=1xixti v = kv, k_{∈ R} kvk = 1 (3.10)

Le premier axe propre est donc une droite passant par moyenne empirique de l’´echantillon et de vecteur directeur un vecteur propre unitaire de la matrice :

˜ X = N X i=1 xixti

Le second axe propre s’obtient par le même procédé après avoir projeté orthogonalement sur le sous-espace supplémentaire du premier axe propre, et ainsi de suite par récurrence pour les axes propres suivants. On remarque que l’ACP peut s’obtenir en une seule opération en réalisant une décomposition en vecteurs propres de ˜X, qui sont automatiquement orthogonaux, et en remarquant que chaque valeur propre donne la variance en projection de l’échantillon.

En pratique, on ne garde dans l’ACP que les axes propres dont la variance en projection est la plus élevée, en arrêtant la décomposition lorsqu’une part suffisante de la variance initiale a été expliquée (typiquement 0.95 ou 0.99). Pour plus de détails, voir l’ouvrage deJolliffe(1986).

2. S´election de caract´eristiques9:

Il s’agit de sélectionner, parmi les caractéristiques existantes, un sous-ensemble constitué de celles qui sont les plus informatives selon un critère donné. Le processus de sélection supprime les caractéristiques non pertinentes ou redondantes. Contrairement aux méthodes d’extraction de caractéristiques, les techniques de sélection de caractéristiques ne transforment pas la représentation originale des données. L’un des objectifs de ces méthodes est d’éviter le sur-apprentissage10_{. Les méthodes de sélection de}

caract´eristiques se divisent en trois cat´egories :

(i) ”Filter” qui extrait des caract´eristiques des donn´ees sans aucun apprentissage (John et al.,1994).

(ii) ”Wrapper” qui utilise des techniques d’apprentissage pour ´evaluer les caract´eristiques utiles (Kohavi and John,1997).

9. Plus connue sous ”feature selection” en machine learning 10. ”overfitting” en anglais

(iii) Les méthodes intégrées ”embedded” combinent les avantages des deux précédentes méthodes. Elles incorporent la sélection de caractéristiques lors du processus d’apprentissage.

Dans la dernière classe, on trouve des algorithme basés sur des approches dites parcimonieuses qui réalisent des optimisations par rapport à des critères L1 _tels

LASSO (least absolute shrinkage and selection operator).

M´ethode Avantages Inconv´enients

Extraction de caract´eristiques

- Pouvoir discriminant supérieur - Contrôle le sur-apprentissage quand c’est non-supervisé

- Perte d’interpr´etabilit´e

- Transformation peut-être coûteuse - Difficile de relier les caractéristiques de l’espace d’origine aux nouvelles caractéristiques

S´election de caract´eristiques

- Préserve les caractéristiques : Facilite l’interprétation - Meilleures performances d’apprentissage

- Couche supplémentaire de complexité dans la modélisation

- Temps additionnel pour l’apprentissage - Risque plus ´elev´e de sur-apprentissage

Tableau 3.1 – Comparaison des méthodes d’extraction de caractéristiques et de sélection de caractéristiques

3.1.3.2 Les algorithmes de classification

La classification a pour objectif d’identifier les classes auxquelles appartiennent des objets à partir de traits descriptifs. Les algorithmes de classification sont utilisés de façon récurrente dans le domaine biomédicale. Parmi ces algorithmes on distingue deux grandes familles d’algorithmes de classification : la classification supervisée et la classification non-supervisée11_.

— La classification supervisée : elle consiste à construire une règle de classement à partir d’un ensemble de données étiquetées (telles que des images) pour prédire la population d’appartenance de nouvelles observations. On retrouve les algorithmes : Machine à vecteurs de support (SVM12_{), k plus}

proches voisins (KNN13_{), r´eseaux de neurones (ANN}14_{), deep learning...}

— La classification non-supervisée/Clustering : elle consiste à trouver une partition des données selon des critères de partitionnement (telles que les mesures de distances). On retrouve des algorithmes du type k-means, k-medoids, classification hiérarchique...

Certains de ces algorithmes seront d´ecrits plus loin dans le manuscrit.

Dans le document Distance entre distributions : application à l'imagerie médicale et à l'aéronautique (Page 68-70)