• Aucun résultat trouvé

4.3 Choix automatique du nombre de composantes

4.3.1 État de l’art

4.3.1.3 Choix dynamique

Les techniques présentées dans les sections précédentes sont basées sur la comparaison de mo-dèles comportant un nombre différent de composantes. Plusieurs momo-dèles sont ajustés, évalués puis comparés. L’algorithme d’estimation des paramètres est dans ce cas réinitialisé pour chaque nouveau modèle. Dans cette section, nous nous intéressons à une autre stratégie consistant à déterminer la meilleure valeur du paramètre K pendant le processus d’optimisation. Le vecteur de paramètres Θ du modèle de mélange tout entier et le nombre de composantes K sont estimés simultanément. Un mo-dèle à K0classes est tout d’abord estimé, puis des composantes sont par la suite ajoutées, supprimées ou fusionnées selon certains critères au fur et à mesure de l’algorithme. On parle d’approche de type

CHAPITRE 4. DÉTECTION DE TÊTES 3D 110

décomposition / fusion (split and merge). Ces techniques sont généralement plus efficaces que celles basées sur des recherches aléatoires, exhaustives ou génétiques ([149]). Cette manière de procéder nous amène à nous poser les questions suivantes :

– quels critères permettent de déclencher une fusion, une séparation, un ajout ou une suppression ? – comment fusionner deux classes ?

– quels paramètres donner à une classe venant d’être ajoutée ?

Les travaux mentionnés dans cette section portent uniquement sur le mélange gaussien. On dis-tingue globalement trois catégories d’approches qui se différencient par la manière dont le nombre de classes évolue. Il peut être amené à soit augmenter, soit diminuer soit les deux. Quelque soit la tech-nique adoptée, les paramètres sont réestimés entre chaque série de modifications. La plupart du temps, il ne s’agit que d’une optimisation partielle (Partial EM) sur un sous-ensemble des composantes. La méthode d’estimation (EM dans notre cas) est initialisée avec le dernier résultat obtenu altéré par la modification apportée au nombre de classes. L’estimation du modèle de mélange n’est donc pas re-prise de zéro et l’initialisation par K-means n’est effectuée que pour K = K0. Le principe général est résumé sur le schéma de la Figure 4.3.1.

FIGURE4.3.1 – Schéma résumant la sélection dynamique du paramètre K. Le nombre de composantes est modifié tant que le critère l’indique. Les paramètres du modèle sont réestimés à partir du résultat de l’estimation précédente (mêmes classes à la dernière modification apportée près).

La première catégorie de méthode est la plus générale puisqu’elle peut faire varier K par augmen-tation ou diminution. Le nombre de composantes du modèle est initialement fixé à K0. Des critères adaptés doivent être choisis pour déterminer le meilleur choix à un moment donné.

L’algorithme heuristique SMEM (Split and Merge EM) ([194]) a été mis en place pour améliorer les performances de l’algorithme EM. D’après les auteurs, le problème de fusion de deux compo-santes est un problème bien posé alors que celui de la séparation est mal posé. En effet, deux classes peuvent être séparées de plusieurs manières alors que la fusion est simplement la composante résul-tant de l’union des classes correspondantes. Dans ces travaux, des modèles candidats sont générés par

111 4.3. CHOIX AUTOMATIQUE DU NOMBRE DE COMPOSANTES

séparations et fusions. Le critère de fusion retenu utilise les vecteurs de probabilités d’appartenance aux différente classes. Si un nombre important de points ont des probabilités similaires vis à vis de deux composantes, celles ci peuvent être fusionnées. Le critère de test de fusion des classes i et j vaut

Pi  b ΘT Pj  b Θ Pi  b Θ Pj  b Θ (4.3.11)

où bΘ est le vecteur de paramètres optimisés et Pi b Θ

le vecteur contenant les probabilités d’appar-tenance des points aux composantes. La fusion est effectuée lorsque le critère est suffisamment élevé. Le critère de séparation de la composante k est basé sur la divergence de Kullback-Leibler locale

Z fk(x, Θ) log ! fk(x, Θ) pk x, θ k  " (4.3.12) où fk est la densité de la composante k et pk une estimation non paramétrique de fk. Ce critère quantifie la distance entre la distribution des points associés à la composante k et la densité de cette même composante dans le mélange. Une séparation peut être déclenchée lorsque ce critère est trop élevé. Après chaque modification du nombre de composantes, les nouveaux paramètres doivent être réestimés. Il a été proposé dans [212] deux méthodes de séparation basées sur une décomposition en valeurs singulières et une factorisation de Cholesky.

La méthode SSMEM (Stepwise Split and Merge EM) ([200]) commence par estimer un modèle à K0 composantes. Les classes sont ensuite séparées et fusionnées tant que cela est nécessaire. Une optimisation partielle des composantes altérées est effectuée après chaque série de modifications. Le critère de fusion de deux classes i et j est le coefficient de corrélation entre les vecteurs de probabi-lité d’appartenance Pi( bΘ) et Pj( bΘ) des observations à ces classes. Un coefficient de corrélation fort indique que les classes doivent être fusionnées. La distance de Kullback-Leibler similaire à (4.3.12) permet de déterminer si une séparation est nécessaire. La densité locale de chaque composante est estimée par une méthode d’estimation non paramétrique et comparée à la densité de cette même com-posante dans le modèle de mélange.

L’approche SAGEM (Self-Adapting Gaussian Expectation Maximization) ([92]) initialise le mo-dèle avec un nombre de classes faible. Les composantes dont la log-vraisemblance n’augmente plus sont dédoublées ou fusionnées. Les critères de choix sont basés sur le volume occupé par la com-posante (déterminant de la matrice de covariance) et sur le nombre d’itérations depuis lequel aucune amélioration de sa log-vraisemblance n’a été constatée. Des seuils adaptatifs sont mis à jour à chaque itération pour décider de la modification du paramètre K.

La deuxième catégorie de méthodes débute avec un nombre de composantes faible et des classes sont ensuite ajoutées au fur et à mesure tant qu’elles améliorent la modélisation. Dans le cas où le nombre initial de classes est fixé à 1, le problème d’initialisation de l’algorithme ne se pose plus. L’initialisation des paramètres est alors immédiate ce qui rend la méthode moins sensible aux choix initial des classes. Un critère de séparation ou d’ajout bien choisi détermine à quel moment une incré-mentation de K est nécessaire. Le choix de ce critère et des paramètres de la composante introduite sont de première importance.

Dans [197], une version incrémentale de EM est présentée. Il s’agit d’une approche de type algo-rithme glouton effectuant des choix locaux optimaux. Des composantes sont ajoutées une à une après

CHAPITRE 4. DÉTECTION DE TÊTES 3D 112

chaque itération de EM. Les paramètres de la nouvelle composante sont calculés par une recherche globale. Son centre µ est l’observation donnant la meilleure log-vraisemblance pour des matrices de covariance σ2Id prédéfinies. La fonction de vraisemblance est approchée par un développement de Taylor d’ordre 2. Une optimisation locale de la composante nouvellement introduite est effectuée par un algorithme EM partiel n’optimisant que les nouveaux paramètres. Une stratégie gloutonne similaire a été adoptée dans [195] où la nouvelle composante est cette fois ci sélectionnée parmi un ensemble de candidats générés dynamiquement. Chaque modèle successif correspond à une classification des données. m candidats sont alors générés pour chaque classe (par paires de deux via un algorithme k-means). Le candidat finalement sélectionné est celui maximisant la vraisemblance et son volume est inférieur à ceux des autres composantes.

La méthode FASTGMM (Fast Gaussian Mixture Modeling) ([93]) propose d’initialiser le para-mètre K à 1 et de l’incrémenter au fil des itérations. Comme dans [92], l’évolution des vraisemblances est analysée et les volumes des composantes calculés. Des opérations de séparation sont déclenchées à l’aide de seuils adaptatifs.

Enfin, la troisième et dernière catégorie de méthodes est basée sur une diminution successive du nombre de classes, en choisissant K0grand. L’ajustement par un modèle comportant trop de compo-santes implique une sur-segmentation des données. Les classes redondantes ou trop peu significatives (peu de points dans la classe) sont ensuite supprimées. Cette manière de procéder assure que toutes les zones de l’espace d’observation peuvent potentiellement être occupées par une classe puisque le nombre initial de classes est grand. L’approche présentée dans [83] est basée sur le critère MML in-tégré à l’algorithme EM. Bien que cette méthode soit parmi les plus efficaces, son coût calculatoire reste néanmoins élevé. Dans [102], la fonction de vraisemblance est modifiée de manière à pénaliser le logarithme des proportions πidu mélange. Il en découle de nouveaux estimateurs et les composantes ayant un poids trop proche de zéro sont supprimées au fur et à mesure de l’algorithme.

La manière dont des composantes gaussiennes peuvent être fusionnées ou séparées n’a pas été ici clairement précisée (choix des paramètres d’une nouvelle composante). Des techniques de fusion de composantes gaussiennes sont analysées dans [98]. Une mesure du recouvrement de deux com-posantes gaussiennes est proposée dans [184, 185]. Notons que dans nos travaux, les comcom-posantes du mélange ne sont pas gaussiennes et nous devrons trouver des procédures satisfaisantes pour notre modèle.

Nous concluons cet état de l’art en soulignant le fait que beaucoup d’approches intéressantes ont été proposées pour choisir le nombre de composantes d’un modèle de mélange. Toutefois, nous écartons les approches basées sur des tests d’hypothèses et sur des sélections de modèles à cause de leurs coût calculatoire trop élevé incompatible avec nos contraintes de quasi temps-réel. Nous décidons donc de nous inspirer des méthodes de choix dynamique de K. La distribution que nous souhaitons utiliser n’étant pas gaussienne, des critères de fusion / séparation adaptés devront être choisis.

113 4.3. CHOIX AUTOMATIQUE DU NOMBRE DE COMPOSANTES