Gestion de la grande dimension

3.5 Combiner les régularisations spatiales et anatomiques

3.6.2 Gestion de la grande dimension

3.6.2.1 Régularisation quadratique

Le problème de classi�cation d’images cérébrales est un problème de classi�cation à grandes dimensions. Autrement dit, la dimension de l’espace des données est beaucoup plus grande

que le nombre de sujets (N � d). Pour traiter ce problème nous avons restreint l’espace

de recherche à un espace de dimension N (où N désigne le nombre de sujets) grâce aux

machines à vecteurs supports. Nous avons également ajouté des connaissances a priori a�n de guider l’algorithme d’apprentissage. Ces connaissances exploitant la structure de l’image et certaines informations anatomiques sont incorporées dans le SVM à l’aide des opérateurs de régularisation. La régularisation force le SVM à considérer comme similaires des voxels proches a priori.

L’idée sous-jacente de la régularisation est la suivante. Il est impossible d’inférer de l’information sur l’ensemble des voxels de l’image directement à partir des données (en utilisant par exemple des outils telles que la régression linéaire ou l’analyse linéaire discriminante) sans avoir de l’information sur ces voxels. En revanche si l’on sait que les voxels sont fortement

��

corrélés, alors le nombre de « degrés de liberté » de la séparatrice que l’on cherche est faible par rapport au nombre de sujets. En exploitant cette information, il est possible de faire de la classi�cation en régularisant fortement à l’aide de l’information a priori sur notre problème. D’une certaine manière, lorsque la régularisation est quadratique comme celle utilisée dans ce chapitre, on force les voxels que l’on considère comme fortement corrélés à être moyennés.

3.6.2.2 Parcimonie

Une autre approche pour les problèmes de grande dimension fréquemment utilisée depuis la méthode du LASSO de Tibshirani [1996] est d’utiliser la parcimonie : on cherche parmi l’ensemble des voxels un petit nombre de voxels explicatifs. Pour cela, si l’on réutilise la

notation, l’idée est d’utiliser comme pénalisation �w�0, c’est à dire le nombre de coe�cients

non nuls dew. Malheureusement une telle pénalisation n’est pas convexe. Cette contrainte est

relaxée en utilisant comme pénalisation : �w�1. Malgré la relaxation, une telle pénalisation

force le nombre de composantes non nulles dew à être faible.

Greenshtein & Ritov [2004] ont montré dans le cadre du modèle linéaire général que la

consistance de la régression linéaire avec une pénalisation �₁, autrement dit le LASSO

[Tibshi-rani, 1996], requiert que la norme �₁ de la solution réelle soit enO

�� N log d

�

. Autrement dit, une telle pénalisation n’est adaptée qu’au cas où la solution réelle est parcimonieuse. Or, dans le cadre de notre travail, les données sont des images. Il semble peu probable que les di�érences entre deux populations ne mettent en jeux qu’un petit nombre de voxels.

Nous avons tout de même testé la régression logistique avec une pénalisation �₁pour la

classi�cation de patients atteints de la maladie d’Alzheimer (cf. chapitre 2). Pour des raisons de temps de calcul nous l’avons uniquement testé avec les données d’épaisseur corticale de la méthode Thickness-Atlas. Il aurait été plus intéressant de tester sur les données brutes et non pas sur les données regroupées en régions, mais les temps de calcul étaient trop longs. Les

résultats obtenus étaient moins bons pour les trois comparaisons CN vs AD, CN vs MCIc et

MCIncvs MCIc.

En revanche une hypothèse qui semble réaliste est de supposer que l’hyperplan séparateur est constant par morceaux. En d’autres termes, cela revient à supposer que ∇w est

parcimo-nieux. Il serait donc possible d’utiliser comme pénalisation la variation totale, �w�TV, dé�nie

par :

�w�TV =

�

v∈V�∇w�2dµ(v)

La variation totale est principalement utilisée en débruitage d’images [Rudin et al., 1992]. Une telle pénalisation force l’hyperplan séparateur à être constant par morceaux. Une autre manière de voir la pénalisation par la variation totale en 2D est de la voir comme une pénalisation de la

longueur des courbes de niveau (ex. [Mallat, 2001]). On peut voir également cette régularisation

comme la variante �₁ de l’énergie de Dirichlet.

Malheureusement la principale di�culté avec toutes ces approches est le problème d’op-timisation. Un avantage de la régularisation quadratique est qu’elle satisfait le théorème du

représentant. Ce n’est plus le cas lorsque la pénalisation est de type �₁. Dans certain cas

particuliers comme le LASSO [Tibshirani, 1996], des approches par ensembles actifs permettent de gérer facilement les grandes dimensions. Ce genre d’approches ne fonctionne plus pour des

pénalisations de type « taux de variation ». La combinaison des régularisations �₁et

quadra-tique a été proposée avec par exemple l’elastic net de Zou & Hastie [2005]. Nous n’avons pas abordé ce point.

3.6.2.3 Apprentissage semi-supervisé

Une autre approche possible pour gérer les problèmes de grandes dimensions est de ne pas faire uniquement de l’inférence inductive mais de l’inférence transductive. Il s’agit en d’autres termes de faire de l’apprentissage semi-supervisé. Il s’agit donc de faire à la fois de la classi�cation sur les données d’apprentissage et du clustering sur les données tests.

Pour cela, on peut considérer letransductive SVM (TSVM) [Vapnik, 1995 ; Joachims, 1999].

Le problème de classi�cation associé est le suivant :

min y∗ 1,_···,y∗ Ntest,w,b,ξ1,_···,ξ_Ntrain,ξ∗ 1,_···,ξ∗ Ntest 1 2�w�²+C^N

∑

^train s=1 ξ_s+C∗^N

∑

^test s=1 ξ_s^∗ s.t. : ys[�w, xs� + b] ≥ 1 − ξs y∗ s[�w, x^∗s� + b] ≥ 1 − ξs^∗ ξ_s, ξ∗ s ≥ 0

en indiquant par des astérisques les sujets de l’ensemble de test. Notons qu’à la di�érence du SVM, le TSVM est un problème d’optimisation combinatoire ! Joachims [1999] propose une méthode pour le résoudre. Nous utiliserons son implémentation sans rentrer dans les détails. Nous l’avons testé sur les mêmes problèmes de comparaison qu’au chapitre 2 sur les cartes de concentration de substance grise recalées avec DARTEL. Les taux de classi�cation obtenus

sont de90% (sensibilité 90%, spéci�cité 90%) pour la comparaison CN vs AD, 81% (sensibilité

70%, spéci�cité 85%) pour la comparaison CN vs MCIc et 72% (sensibilité 62%, spéci�cité

78%) pour la comparaison MCIncvs MCIc. Ils sont similaires à ceux du SVM.

Notons que la régularisation proposée dans ce chapitre peut s’appliquer directement au TSVM. Le TSVM n’apportant pas d’amélioration importante, nous nous sommes restreints au SVM par souci de clarté.

��

Dans le document Contributions à l’apprentissage automatique pour l’analyse d’images cérébrales anatomiques (Page 138-141)