• Aucun résultat trouvé

Les approches par classification

Dans le document DEVANT L’UNIVERSIT´ E DE RENNES 1 (Page 40-46)

Les approches par classification raisonnent sur un nuage de points (ou de r´egions).

Ce nuage de points est aussi couramment appel´e : population, individus, donn´ees. Dans le cadre de la segmentation, l’individu est le pixel et son vecteur caract´eristique est com-pos´e d’attributs tels que le niveau de gris, la variance, le mouvement, ... L’objectif est

Les approches bas´ees r´egions 41

Fig. 1.5 – Illustration de la notion d’arbre de partition. Un d´ebit et une distorsion sont attribu´es `a chaque nœud. Figure extraite de [Salembier et al. 97]

d’agglom´erer en nuages de points la population, c’est-`a-dire de d´eterminer :

– les K repr´esentants (centro¨ıdes). On cherche doncK groupes1 (classes) d’individus, – et l’appartenance ou le degr´e d’appartenance de chaque individu `a un desK groupes.

Dans le cadre de la technique par ((clustering)), le probl`eme est mod´elis´e par la mini-misation de la somme des erreurs d’attribution de chaque individu `a un groupe. Dans le cadre de la technique par maximum de vraisemblance, le probl`eme est mod´elis´e par la maximisation des similarit´es entre chaque individu et chaque groupe. La r´esolution des deux probl`emes est tr`es similaire. Le sch´ema est souvent it´eratif avec le calcul des repr´esentants et le calcul des probabilit´es de chaque individu. La section suivante pr´esente les caract´erisations multiples d’un individu, le clustering et l’approche par maximum de vraisemblance.

Les caract´erisations multiples d’un individu

La caract´erisation multiple d’un pixel est utilis´ee dans de nombreuse approches. En effet, une caract´erisation possible d’un pixel peut ˆetre un vecteur multi-composantes. On utilise alors couramment au moins six dimensions : trois pour la couleur et trois pour la position. La position est souvent introduite pour tenter d’assurer une coh´erence spatiale.

D’autres dimensions peuvent s’ajouter telles que le mouvement translationnel ou bien la variance locale comme mesure de texture. On cherche alors `a regrouper les vecteurs similaires c’est-`a-dire `a trouver les meilleurs repr´esentants de chaque groupe. Le calcul des

1. groupe - ensemble : en anglais((cluster))

repr´esentants ainsi que de l’appartenance d’un pixel `a l’un des groupes peut ˆetre obtenu par exemple par m´elange de param`etres [Greenspan et al. 02], clustering [DeMenthon 02], ou calcul de valeurs propres [Shi et al. 98].

On peut penser que l’utilisation de plusieurs caract´eristiques pour d´efinir un individu apporte plus de robustesse aux r´esultats. Cependant, un probl`eme majeur est la d´efinition d’une distance entre des caract´eristiques qui ne sont pas a priori comparables. On utilise alors couramment la distance de Mahalanobis [Mahalanobis 30] :

d2i,k= (µk−xi1k−xi)t,

avecµkle repr´esentant de la classe,xiun individu, et Λ la matrice de covariance. Cette dis-tance permet ainsi d’avoir une ind´ependance d’´echelle et de comparer des caract´eristiques diff´erentes.

Cependant, dans certains cas, il est pr´ef´erable de favoriser certaines caract´eristiques plus discriminantes que d’autres. Il y a donc un syst`eme de pond´erations variables `a intro-duire pour moduler la distance. Mˆeme s’il est possible de trouver certaines pond´erations automatiquement par logique flou [Castagno et al. 98], il reste cependant difficile de justifier la comparaison de caract´eristiques de natures diff´erentes.

Technique de clustering

L’algorithme de clustering dur (((hard))) [Ball et al. 66] et [Ball et al. 67], appel´e aussi algorithme des k-moyens (((k-means))) ou c-moyens (((c-means))) consiste `a classer les individus de la population dans un desKgroupes. SoientX={x1, ...xN}la population deN vecteurs etM =1, ..., µK}lesK repr´esentants (centro¨ıdes). L’algorithme consiste alors `a calculer it´erativement l’appartenance Pi,k de chaque pixel `a un des K groupes et les repr´esentants µk des K groupes.

On d´efinit alors l’appartenancePi,k d’un individu xi `a un groupek:

∀i, Pi,k=

1 si k = argk0mink0[0,K]{di,k0} 0 sinon

avec :

di,k=k−xik.

k.kest une mesure de distance dans l’espace des caract´eristiques. LesK repr´esentants sont alors mis `a jour via la formule suivante :

µk= PN

i=1Pi,k×xi

PN

i=1Pi,k .

Le clustering flou (((fuzzy))) [Dunn 74] [Bezdek 81] est une extension qui permet d’avoir une classification en probabilit´e d’appartenance (pourcentage d’appartenance) `a un desK groupes. On d´efinit alors non plus une appartenance mais une probabilit´e d’ap-partenance Pi,k d’un individu xi `a un groupe k:

∀i,∀k, Pi,k[0,1],

Les approches bas´ees r´egions 43 avec :

∀i, XK k=1

Pi,k= 1.

Le probl`eme est alors mod´elis´e par la minimisation d’une fonctionnelle :

Pmini,kk

XK k=1

XN i=1

Pi,kmd2i,k, avec :

di,k=k−xik.

m correspond au coefficient flou et appartient `a l’intervalle [1,[. On obtient par annula-tion des d´eriv´ees partielles les formules suivantes :

Pi,k= 1 PK

s=1(ddi,k

i,s)m−12

si ∀k, di,k 6= 0, (1.4)

µk= PN

i=1Pi,km ×xi

PN

i=1Pi,km . (1.5)

L’algorithme consiste `a calculer successivement jusqu’`a stabilisation des probabilit´es : – les probabilit´esPi,k (´equation 1.4),

– puis les centro¨ıdes µk (´equation 1.5).

On peut constater que les approches par clustering ne prennent pas suffisamment en compte l’adjacence des pixels. La figure 1.6 illustre la dispersion des classes et donc le grand nombre de petites zones.

(a) Image s´equence((foreman)) (b) R´egions obtenus Fig. 1.6 – Illustration de l’approche par clustering

Cependant, l’utilisation de termes de r´egularisation dans la fonctionnelle permettent d’assurer une plus grande connexit´e spatiale dans les regroupements d’individus. Par

contre, le probl`eme majeur reste le choix du nombre de groupes. En fonction du probl`eme, on peut cependant injecter de nouvelles contraintes pour d´eterminer le nombre de groupes le plus adapt´e. Ces contraintes peuvent ˆetre introduites par l’utilisation d’un formalisme AIC (A-Information Criterion) [Akaike 74], d’un terme de compacit´e des nuages de points et de la distance entre eux [Nguyen et al. 93], du formalisme MDL (Maximum Descrip-tion Length) [Rissanen 78] [Leclerc 89] ou du formalisme d´ebit-distorsion [Pard`as et al. 96]... Par exemple, [Lorette 99] mod´elise le probl`eme par l’ajout d’un terme entro-pique PK

k=1PklogPk p´enalisant les centro¨ıdes non repr´esentatifs. La formule ´energ´etique est alors :

L’algorithme consiste `a calculer successivement les probabilit´esPi,k puis les centro¨ıdes µk. On diminue alors le nombre de classes `a chaque it´eration si la probabilit´e Pk d’une classekest inf´erieure `a un certain seuil. De plus, on stabilise le probl`eme en faisant tendre le terme α vers la valeur z´ero, `a chaque it´eration, via une d´ecroissance g´eom´etrique.

L’approche par clustering est donc tr`es flexible, facile `a mettre en œuvre et permet d’avoir une mesure de confiance sur l’affectation des pixels. De plus la stabilisation des param`etres est rapide. Par contre, l’initialisation des clusters reste probl´ematique.

Le Maximum de vraisemblance

L’approche par maximum de vraisemblance (((Maximum Likelihood))) cherche `a esti-mer un m´elange de param`etres pour repr´esenter une population de vecteurs. Le m´elange repr´esente de mani`ere similaire au clustering un ensemble de centro¨ıdes. On a ainsi pour un centro¨ıde Mk, un vecteur moyen µk, une matrice de covariance Λk et une densit´e de probabilit´e Pk. Le vecteur moyen et la matrice de covariance permettent de d´efinir une mesure de similarit´e entre un individuxiet le centro¨ıde Mk. On peut prendre par exemple une fonction de distribution de probabilit´e gaussienne :P((xi/k); Θ), de moyenneµket de covariance Λk:

Si,k= (2π)F2|Λk|12exp[−1

2(xi−µk)tΛk1(xi−µk)], (1.6) o`uFrepr´esente le nombre de caract´eristiques des vecteurs individus. Ainsi, il faut d´eterminer le m´elange Θ :

Θ = (P1, ..., Pk, µ1, ..., µk,Λ1, ...,Λk), de sorte que la fonction de vraisemblanceLΘ soit maximis´ee :

LΘ=

Les approches bas´ees r´egions 45 Cela peut ˆetre exprim´e pour des commodit´es de calcul par la maximisation du logarithme de LΘ:

argmax

Θ logLΘ =argmax

Θ LΘ.

On peut alors d´efinir et observer que l’on a `a l’optimum [Schroeter 96], la probabilit´e d’appartenance `a la classe kd’un individusxi:

Pi,k= Pk×Si,k

L’algorithme de maximum de vraisemblance est it´eratif et consiste `a calculer successi-vement jusqu’`a stabilisation des param`etres Θ :

– les param`etres Θ sachant les ´equations 1.8, 1.9, 1.10. C’est l’´etape de maximisation (((Maximisation-step))),

– les probabilit´es conditionnelles Pi,k = P((k/xi); Θ) d’appartenance `a la classe k pour un individu xi et un jeu de param`etres Θ avec l’´equation 1.7. C’est l’´etape de vraisemblance (((Expectation-step))). On peut remarquer que les probabilit´es condi-tionnelles Pi,k (formule 1.7) d´ecoulent de la loi de Bayes :

Pi,k=P((k/xi); Θ) = P((xi/k); Θ)×P(k) P(xi; Θ) .

L’approche par maximisation de vraisemblance reste assez complexe en calcul et peut ˆ

etre simplifi´ee en supposant les caract´eristiques ind´ependantes. On utilise alors un vecteur de variances σk `a la place de la matrice de covariance Λk. La mesure de similarit´e 1.6 devient alors :

Finalement, l’approche par maximum de vraisemblance est int´eressante dans sa for-mulation mais reste insuffisante pour mod´eliser correctement les distributions de donn´ees.

Comme pour le clustering, la notion de voisinage entre pixels n’est pas pr´esente et le nombre de classes K doit ˆetre connu.

Dans le document DEVANT L’UNIVERSIT´ E DE RENNES 1 (Page 40-46)