• Aucun résultat trouvé

Classification bas´ee sur les m´etriques d’histogrammes

2.2 Mesure et caract´erisation des retards

3.1.3 Classification bas´ee sur les m´etriques d’histogrammes

3.1.3.1 R´eduction de dimension

Apr`es avoir extrait les diff´erentes m´etriques d’histogrammes, la dimensionnalit´e des donn´ees se trouve consid´erablement augment´ee. En effet, le nombre de variables, aussi appel´ees ”caract´eristiques”5, se multiplie ce qui va

introduire des difficult´es `a plusieurs niveaux : complexit´e, temps de calcul, plus grand risque d’avoir des donn´ees bruit´ees et ”le fl´eau de la dimension”6. Pour

surmonter ces probl`emes, il est n´ecessaire de trouver un moyen de r´eduire le nombre de caract´eristiques consid´er´ees. Deux techniques sont souvent utilis´ees (tableau3.1) :

1. Extraction de caract´eristiques7 :

Les techhiques d’extraction de caract´eristiques ont pour but de r´eduire la dimension de l’espace d’´etat de l’´echantillon initial afin d’en simplifier l’analyse et d’en supprimer les redondances.

De nombreuses m´ethodes statistiques, essentiellement lin´eaires, ont ´et´e propos´ees. Les plus connues sont l’analyse en composantes principales (ACP), l’analyse discriminante lin´eaire (ADL) (Fisher, 1936), le positionnement multi-dimensionnel (MDS8) (Messick and Abelson, 1956)... Dans cette

section, nous nous int´eresserons plus particuli`erement `a l’ACP dont le principe se retrouve dans la plupart des autres techniques. L’ACP fait partie de la famille des m´ethodes factorielles. Elle transforme les variables quantitatives corr´el´ees en un nombre plus petit de variables quantitatives non corr´el´ees, appel´ees composantes principales, par projection des donn´ees sur un sous-espace vectoriel de l’espace initial.

Soit X = (x1, . . . , xN) un ´echantillons de variables al´eatoires iid prenant leurs

valeurs dans Rn. Le premier axe propre de l’ACP est le sous-espace affine de

dimension 1 de Rn pour lequel la variance des donn´ees projet´ees est

maximale. On peut sans perte de g´en´eralit´e supposer l’´echantillon centr´e, le probl`eme se formule alors math´ematiquement comme un programme

5. ”Features” en anglais.

6. ou ”the curse of dimensionality” (Bellman, 1957). Ce ph´enom`ene est observ´e lorsque des

variables sont ajout´ees sans augmenter ´egalement le nombre d’´echantillons d’apprentissage, ce qui conduit a un sur-apprentissage.

7. Plus connue sous le nom anglais ”feature extraction” dans la communaut´e du ”machine learning”

d’optimisation convexe : (

minv∈RnPN

i=1hv, xii2

hv, vi = 1 (3.8)

En utilisant les multiplicateurs de Karish Kuhn Tucker, on obtient la forme lagrangienne : max λ∈R+v∈Rminn N X i=1 hv, xii2+ λ(hv, vi − 1) (3.9)

qui admet pour solution :

(  PN i=1xixti  v = kv, k∈ R kvk = 1 (3.10)

Le premier axe propre est donc une droite passant par moyenne empirique de l’´echantillon et de vecteur directeur un vecteur propre unitaire de la matrice :

˜ X = N X i=1 xixti

Le second axe propre s’obtient par le mˆeme proc´ed´e apr`es avoir projet´e orthogonalement sur le sous-espace suppl´ementaire du premier axe propre, et ainsi de suite par r´ecurrence pour les axes propres suivants. On remarque que l’ACP peut s’obtenir en une seule op´eration en r´ealisant une d´ecomposition en vecteurs propres de ˜X, qui sont automatiquement orthogonaux, et en remarquant que chaque valeur propre donne la variance en projection de l’´echantillon.

En pratique, on ne garde dans l’ACP que les axes propres dont la variance en projection est la plus ´elev´ee, en arrˆetant la d´ecomposition lorsqu’une part suffisante de la variance initiale a ´et´e expliqu´ee (typiquement 0.95 ou 0.99). Pour plus de d´etails, voir l’ouvrage deJolliffe(1986).

2. S´election de caract´eristiques9:

Il s’agit de s´electionner, parmi les caract´eristiques existantes, un sous-ensemble constitu´e de celles qui sont les plus informatives selon un crit`ere donn´e. Le processus de s´election supprime les caract´eristiques non pertinentes ou redondantes. Contrairement aux m´ethodes d’extraction de caract´eristiques, les techniques de s´election de caract´eristiques ne transforment pas la repr´esentation originale des donn´ees. L’un des objectifs de ces m´ethodes est d’´eviter le sur-apprentissage10. Les m´ethodes de s´election de

caract´eristiques se divisent en trois cat´egories :

(i) ”Filter” qui extrait des caract´eristiques des donn´ees sans aucun apprentissage (John et al.,1994).

(ii) ”Wrapper” qui utilise des techniques d’apprentissage pour ´evaluer les caract´eristiques utiles (Kohavi and John,1997).

9. Plus connue sous ”feature selection” en machine learning 10. ”overfitting” en anglais

(iii) Les m´ethodes int´egr´ees ”embedded” combinent les avantages des deux pr´ec´edentes m´ethodes. Elles incorporent la s´election de caract´eristiques lors du processus d’apprentissage.

Dans la derni`ere classe, on trouve des algorithme bas´es sur des approches dites parcimonieuses qui r´ealisent des optimisations par rapport `a des crit`eres L1 tels

LASSO (least absolute shrinkage and selection operator).

M´ethode Avantages Inconv´enients

Extraction de caract´eristiques

- Pouvoir discriminant sup´erieur - Contrˆole le sur-apprentissage quand c’est non-supervis´e

- Perte d’interpr´etabilit´e

- Transformation peut-ˆetre coˆuteuse - Difficile de relier les caract´eristiques de l’espace d’origine aux nouvelles caract´eristiques

S´election de caract´eristiques

- Pr´eserve les caract´eristiques : Facilite l’interpr´etation - Meilleures performances d’apprentissage

- Couche suppl´ementaire de complexit´e dans la mod´elisation

- Temps additionnel pour l’apprentissage - Risque plus ´elev´e de sur-apprentissage

Tableau 3.1 – Comparaison des m´ethodes d’extraction de caract´eristiques et de s´election de caract´eristiques

3.1.3.2 Les algorithmes de classification

La classification a pour objectif d’identifier les classes auxquelles appartiennent des objets `a partir de traits descriptifs. Les algorithmes de classification sont utilis´es de fac¸on r´ecurrente dans le domaine biom´edicale. Parmi ces algorithmes on distingue deux grandes familles d’algorithmes de classification : la classification supervis´ee et la classification non-supervis´ee11.

— La classification supervis´ee : elle consiste `a construire une r`egle de classement `a partir d’un ensemble de donn´ees ´etiquet´ees (telles que des images) pour pr´edire la population d’appartenance de nouvelles observations. On retrouve les algorithmes : Machine `a vecteurs de support (SVM12), k plus

proches voisins (KNN13), r´eseaux de neurones (ANN14), deep learning...

— La classification non-supervis´ee/Clustering : elle consiste `a trouver une partition des donn´ees selon des crit`eres de partitionnement (telles que les mesures de distances). On retrouve des algorithmes du type k-means, k-medoids, classification hi´erarchique...

Certains de ces algorithmes seront d´ecrits plus loin dans le manuscrit.