Les approches par classification - DEVANT L’UNIVERSIT´ E DE RENNES 1

Les approches par classification raisonnent sur un nuage de points (ou de r´egions).

Ce nuage de points est aussi couramment appelé : population, individus, données. Dans le cadre de la segmentation, l’individu est le pixel et son vecteur caractéristique est com-posé d’attributs tels que le niveau de gris, la variance, le mouvement, ... L’objectif est

Les approches bas´ees r´egions 41

Fig. 1.5 – Illustration de la notion d’arbre de partition. Un débit et une distorsion sont attribués à chaque nœud. Figure extraite de [Salembier et al. 97]

d’agglomérer en nuages de points la population, c’est-à-dire de déterminer :

– les K représentants (centro¨ıdes). On cherche doncK groupes¹ (classes) d’individus, – et l’appartenance ou le degré d’appartenance de chaque individu à un desK groupes.

Dans le cadre de la technique par ((clustering)), le problème est modélisé par la mini-misation de la somme des erreurs d’attribution de chaque individu à un groupe. Dans le cadre de la technique par maximum de vraisemblance, le problème est modélisé par la maximisation des similarités entre chaque individu et chaque groupe. La résolution des deux problèmes est très similaire. Le schéma est souvent itératif avec le calcul des représentants et le calcul des probabilités de chaque individu. La section suivante présente les caractérisations multiples d’un individu, le clustering et l’approche par maximum de vraisemblance.

Les caract´erisations multiples d’un individu

La caractérisation multiple d’un pixel est utilisée dans de nombreuse approches. En effet, une caractérisation possible d’un pixel peut être un vecteur multi-composantes. On utilise alors couramment au moins six dimensions : trois pour la couleur et trois pour la position. La position est souvent introduite pour tenter d’assurer une cohérence spatiale.

D’autres dimensions peuvent s’ajouter telles que le mouvement translationnel ou bien la variance locale comme mesure de texture. On cherche alors à regrouper les vecteurs similaires c’est-à-dire à trouver les meilleurs représentants de chaque groupe. Le calcul des

1. groupe - ensemble : en anglais((cluster))

représentants ainsi que de l’appartenance d’un pixel à l’un des groupes peut être obtenu par exemple par mélange de paramètres [Greenspan et al. 02], clustering [DeMenthon 02], ou calcul de valeurs propres [Shi et al. 98].

On peut penser que l’utilisation de plusieurs caractéristiques pour définir un individu apporte plus de robustesse aux résultats. Cependant, un problème majeur est la définition d’une distance entre des caractéristiques qui ne sont pas a priori comparables. On utilise alors couramment la distance de Mahalanobis [Mahalanobis 30] :

d²_i,k= (µ_k−x_i)Λ⁻¹(µ_k−x_i)^t,

avecµ_kle représentant de la classe,x_iun individu, et Λ la matrice de covariance. Cette dis-tance permet ainsi d’avoir une indépendance d’échelle et de comparer des caractéristiques différentes.

Cependant, dans certains cas, il est préférable de favoriser certaines caractéristiques plus discriminantes que d’autres. Il y a donc un système de pondérations variables à intro-duire pour moduler la distance. Même s’il est possible de trouver certaines pondérations automatiquement par logique flou [Castagno et al. 98], il reste cependant difficile de justifier la comparaison de caractéristiques de natures différentes.

Technique de clustering

L’algorithme de clustering dur (((hard))) [Ball et al. 66] et [Ball et al. 67], appelé aussi algorithme des k-moyens (((k-means))) ou c-moyens (((c-means))) consiste à classer les individus de la population dans un desKgroupes. SoientX={x₁, ...x_N}la population deN vecteurs etM ={µ₁, ..., µ_K}lesK représentants (centro¨ıdes). L’algorithme consiste alors à calculer itérativement l’appartenance P_i,k de chaque pixel à un des K groupes et les représentants µ_k des K groupes.

On d´efinit alors l’appartenanceP_i,k d’un individu x_i `a un groupek:

∀i, P_i,k=

1 si k = arg_k0min_k0∈[0,K]{d_i,k0} 0 sinon

avec :

d_i,k=kµ_k−x_ik.

k.kest une mesure de distance dans l’espace des caractéristiques. LesK représentants sont alors mis à jour via la formule suivante :

µ_k= P_N

i=1Pi,k×xi

P_N

i=1P_i,k .

Le clustering flou (((fuzzy))) [Dunn 74] [Bezdek 81] est une extension qui permet d’avoir une classification en probabilité d’appartenance (pourcentage d’appartenance) à un desK groupes. On définit alors non plus une appartenance mais une probabilité d’ap-partenance P_i,k d’un individu x_i à un groupe k:

∀i,∀k, P_i,k∈[0,1],

Les approches bas´ees r´egions 43 avec :

∀i, XK k=1

P_i,k= 1.

Le problème est alors modélisé par la minimisation d’une fonctionnelle :

Pmini,k,µk

XK k=1

XN i=1

P_i,k^md²_i,k, avec :

d_i,k=kµ_k−x_ik.

m correspond au coefficient flou et appartient à l’intervalle [1,∞[. On obtient par annula-tion des dérivées partielles les formules suivantes :

P_i,k= 1 P_K

s=1(^d_d^i,k

i,s)^m−1²

si ∀k, d_i,k 6= 0, (1.4)

µ_k= P_N

i=1P_i,k^m ×xi

P_N

i=1P_i,k^m . (1.5)

L’algorithme consiste à calculer successivement jusqu’à stabilisation des probabilités : – les probabilitésP_i,k (équation 1.4),

– puis les centro¨ıdes µ_k (´equation 1.5).

On peut constater que les approches par clustering ne prennent pas suffisamment en compte l’adjacence des pixels. La figure 1.6 illustre la dispersion des classes et donc le grand nombre de petites zones.

(a) Image s´equence((foreman)) (b) R´egions obtenus Fig. 1.6 – Illustration de l’approche par clustering

Cependant, l’utilisation de termes de r´egularisation dans la fonctionnelle permettent d’assurer une plus grande connexit´e spatiale dans les regroupements d’individus. Par

contre, le problème majeur reste le choix du nombre de groupes. En fonction du problème, on peut cependant injecter de nouvelles contraintes pour déterminer le nombre de groupes le plus adapté. Ces contraintes peuvent être introduites par l’utilisation d’un formalisme AIC (A-Information Criterion) [Akaike 74], d’un terme de compacité des nuages de points et de la distance entre eux [Nguyen et al. 93], du formalisme MDL (Maximum Descrip-tion Length) [Rissanen 78] [Leclerc 89] ou du formalisme débit-distorsion [Pardàs et al. 96]... Par exemple, [Lorette 99] modélise le problème par l’ajout d’un terme entro-pique P_K

k=1P_klogP_k pénalisant les centro¨ıdes non représentatifs. La formule énergétique est alors :

L’algorithme consiste à calculer successivement les probabilitésP_i,k puis les centro¨ıdes µk. On diminue alors le nombre de classes à chaque itération si la probabilité Pk d’une classekest inférieure à un certain seuil. De plus, on stabilise le problème en faisant tendre le terme α vers la valeur zéro, à chaque itération, via une décroissance géométrique.

L’approche par clustering est donc très flexible, facile à mettre en œuvre et permet d’avoir une mesure de confiance sur l’affectation des pixels. De plus la stabilisation des paramètres est rapide. Par contre, l’initialisation des clusters reste problématique.

Le Maximum de vraisemblance

L’approche par maximum de vraisemblance (((Maximum Likelihood))) cherche à esti-mer un mélange de paramètres pour représenter une population de vecteurs. Le mélange représente de manière similaire au clustering un ensemble de centro¨ıdes. On a ainsi pour un centro¨ıde M_k, un vecteur moyen µ_k, une matrice de covariance Λ_k et une densité de probabilité P_k. Le vecteur moyen et la matrice de covariance permettent de définir une mesure de similarité entre un individux_iet le centro¨ıde M_k. On peut prendre par exemple une fonction de distribution de probabilité gaussienne :P((xi/k); Θ), de moyenneµ_ket de covariance Λ_k:

S_i,k= (2π)⁻^F²|Λ_k|⁻¹²exp[−1

2(xi−µ_k)^tΛ⁻_k¹(xi−µ_k)], (1.6) oùFreprésente le nombre de caractéristiques des vecteurs individus. Ainsi, il faut déterminer le mélange Θ :

Θ = (P1, ..., P_k, µ1, ..., µ_k,Λ1, ...,Λ_k), de sorte que la fonction de vraisemblanceLΘ soit maximis´ee :

L_Θ=

Les approches basées régions 45 Cela peut être exprimé pour des commodités de calcul par la maximisation du logarithme de L_Θ:

argmax

Θ logLΘ =argmax

Θ LΘ.

On peut alors définir et observer que l’on a à l’optimum [Schroeter 96], la probabilité d’appartenance à la classe kd’un individusxi:

P_i,k= Pk×Si,k

L’algorithme de maximum de vraisemblance est itératif et consiste à calculer successi-vement jusqu’à stabilisation des paramètres Θ :

– les paramètres Θ sachant les équations 1.8, 1.9, 1.10. C’est l’étape de maximisation (((Maximisation-step))),

– les probabilités conditionnelles P_i,k = P((k/xi); Θ) d’appartenance à la classe k pour un individu x_i et un jeu de paramètres Θ avec l’équation 1.7. C’est l’étape de vraisemblance (((Expectation-step))). On peut remarquer que les probabilités condi-tionnelles P_i,k (formule 1.7) découlent de la loi de Bayes :

P_i,k=P((k/xi); Θ) = P((xi/k); Θ)×P(k) P(x_i; Θ) .

L’approche par maximisation de vraisemblance reste assez complexe en calcul et peut ˆ

etre simplifiée en supposant les caractéristiques indépendantes. On utilise alors un vecteur de variances σ_k à la place de la matrice de covariance Λ_k. La mesure de similarité 1.6 devient alors :

Finalement, l’approche par maximum de vraisemblance est intéressante dans sa for-mulation mais reste insuffisante pour modéliser correctement les distributions de données.

Comme pour le clustering, la notion de voisinage entre pixels n’est pas pr´esente et le nombre de classes K doit ˆetre connu.

Dans le document DEVANT L’UNIVERSIT´ E DE RENNES 1 (Page 40-46)