• Aucun résultat trouvé

3.3 M´ethodes

3.3.2 Normalisation et s´election d’attributs

Figure3.2 – Moyennes et ´ecarts-types de l’exposant de H¨older normalis´e (c.f.3.3.2), calcul´e pour les pixels des tumeurs et tissus sains de la ZP.

3.3.2 Normalisation et s´election d’attributs

3.3.2.1 Normalisation `a variance unitaire

Les valeurs des attributs issus des descripteurs de texture d´ecrits ci-dessus pr´esentent des dynamiques h´et´erog`enes. Les attributs poss´edant des valeurs plus grandes risquent alors d’avoir une influence plus importante sur le comportement des diff´erents trai-tements `a suivre (s´election, transformation, classification), mˆeme si cela ne refl`ete pas forc´ement leur pertinence pour la tˆache envisag´ee.

Afin de contourner ce probl`eme bien connu, des techniques de normalisation permettent d’uniformiser les dynamiques des diff´erentes variables.

Cette normalisation est r´ealis´ee de fa¸con lin´eaire en exploitant les estimations empiriques (`a partir de l’ensemble d’apprentissage) des moyennes et variances (µ, σ) de chaque attribut [Aksoy and Haralick, 2001]. Une normalisation `a ”variance uni-taire”, d´efinie par l’´equation 3.2, a pour effet d’assurer que les attributs normalis´es poss`edent une moyenne nulle et une variance unitaire :

' atts i = att s i − µi σi (3.2) o`u atts

i est la mesure au pixel s du i`eme param`etre de texture, dont la moyenne est not´ee µi et la variance σi. 'atts

i est la normalisation `a variance unitaire de atts i.

3.3.2.2 S´election des attributs

Principe Bien qu’un attribut puisse ˆetre particuli`erement bien adapt´e `a une ap-plication sp´ecifique (e.g. les filtres de Fourier pouvant facilement distinguer entre des mod`eles de texture de basses et hautes fr´equences), aucun ne permet d’assurer une efficacit´e dans une vari´et´e de situations. Ainsi, plutˆot que de chercher l’attribut qui serait `a la fois l’attribut le plus sp´ecifique et le plus sensible pour la discrimi-nation des classes, une mani`ere plus ad´equate consiste `a s´electionner un ensemble d’attributs, lesquels am´elioreraient les performances de la classification.

L’int´erˆet d’un tel proc´ed´e est double ; premi`erement le fait de r´eduire le nombre d’attributs permet de diminuer le temps de traitement qui dans ce type d’appli-cations peut parfois ˆetre tr`es important, et deuxi`emement il permet d’am´eliorer la pr´ecision de la classification. En effet, si on repr´esente cette pr´ecision en fonction du nombre de param`etres utilis´es, on aurait une courbe en cloche. En ajoutant de nouveaux attributs, les performances de la classification augmenteraient jusqu’`a at-teindre une valeur maximale et ensuite diminueraient (ph´enom`ene d’”overfitting”, ou ”mal´ediction de la dimension”). De nombreuses m´ethodes pour la s´election des attributs ont ´et´e propos´ees. Elles peuvent ˆetre regroup´ees en deux cat´egories : les algorithmes bas´es sur des m´ethodes enveloppantes (”wrapper”) et les algorithmes bas´es sur des approches filtrantes (”filter”)( [Blum and Langley,1997] ; [Kohavi and John, 1997]).

Les m´ethodes enveloppantes, introduites par [John et al.,1994], ont pour principe de g´en´erer des sous-ensembles candidats et de les ´evaluer grˆace `a un algorithme de classification. De ce fait, elles cr´eent des sous-ensembles bien adapt´es `a l’algorithme utilis´e. Un autre avantage pour ces types de proc´ed´es est leur simplicit´e. Cependant, ce type de m´ethodes est sp´ecifique `a un algorithme de classification particulier. De plus, il n’y a pas de justification th´eorique `a la s´election et les calculs deviennent fastidieux, voire irr´ealisables lorsque le nombre d’attributs augmente.

Par ailleurs, l’approche filtrante repose sur l’id´ee d’attribuer un score `a chaque sous-ensemble. Le sous-ensemble avec le plus grand score serait celui avec le plus grand pouvoir discriminant. Une premi`ere approche consiste `a donner un score `a chaque attribut ind´ependamment des autres, et d’en faire la somme. Dans le cas d’un probl`eme de classification, on peut retenir le coefficient de corr´elation comme indice de performance d’un attribut `a repr´esenter une certaine classe. Cette approche nomm´ee ”feature ranking” pose des probl`emes dans le cas g´en´eral car elle n’´elimine pas les param`etres redondants. De plus, il est possible qu’un attribut peu corr´el´e avec la classe devienne utile lorsqu’on le consid`ere dans un contexte g´en´eral avec d’autres attributs. Une autre solution consiste `a ´evaluer le sous-ensemble dans sa globalit´e (”subset ranking”).

S´election par pouvoir discriminant Du fait qu’il n’existe pas une m´ethode de s´election meilleure qu’une autre ind´ependamment du contexte de son application, et parce que nous utilisons des algorithmes de classification supervis´ee et non su-pervis´ee, nous utilisons deux approches de s´election, une ”enveloppante” et ”une filtrante”. Une ´etape de mesure de corr´elation entre deux attributs a aussi ´et´e ra-jout´ee, afin d’´eliminer ceux qui apportent une information redondante.

La premi`ere approche, enveloppante, est celle propos´ee par [Guyon et al., 2002], et est utilis´ee dans la s´election d’attributs pour la classification supervis´ee par SVM. Cette m´ethode, qui consiste en une ´elimination r´ecursive des attributs, est sp´ecifique `a l’algorithme SVM, d’o`u la n´ecessit´e d’une s´election g´en´erique pour la classification non supervis´ee, et donc d’une m´ethode filtrante.

Pour ce faire, nous classons d’abord les attributs par ordre d´ecroissant de pouvoir discriminant, selon deux crit`eres :

1. La valeur absolue de la U -statistique [Lee, 1990], mesur´ee par le test non-param´etrique de Wilcoxon [Wilcoxon, 1945].

2. L’aire sous la courbe ROC (AUROC) : c.f. annexe B.

Un premier classement nous donne les 20 attributs les plus discriminants parmi les 26 d´ecrits ci-dessus, et ce pour chaque individu de la base de donn´ees.

On note atti, 1 ≤ i ≤ 26, le i`eme param`etre de texture, et r1

i, . . . , rni les rangs obtenus par atti pour les n individus de la base.

Nous d´efinissons alors le score de atti par

scorei =  1≤j≤n 20× δrji,1 +  1≤j≤n 19× δrij,2 +· · · +  1≤j≤n 1× δrij,20 (3.3) o`u δ rij, r =  1 si rji = r 0 sinon (3.4)

En d’autres termes, pour les n tests, `a chaque fois que atti est class´e premier, un ”bonus” de 20 points lui est attribu´e, 19 s’il est `a la deuxi`eme place, etc.

Cette m´ethode d’attribution de scores nous permet d’homog´en´eiser les r´esultats de classement obtenus pour les n individus utilis´es dans les tests, afin de d´eduire un seul et unique classement.

V´erification des corr´elations Une fois les attributs class´es par pouvoir discri-minant par une des deux m´ethodes cit´ees ci-dessus, nous ´eliminons les ´eventuelles redondances introduites par des attributs corr´el´es en utilisant une mesure de simi-larit´e bas´ee sur le coefficient de corr´elation :

ρ(atti, attj) =  ∀pixels p  attpi − atti   attpj − attj  σiσj (3.5) o`u atti et attj sont deux attributs, et σi σj leurs ´ecarts-types respectifs.