État de l’art des méthodes d’accélération existantes

4.3 Choix automatique du nombre de composantes

4.4.1 Accélération de l’algorithme EM

4.4.1.1 État de l’art des méthodes d’accélération existantes

Les optimisations algorithmiques décrites dans cette partie concernent l’algorithme EM. L’algo-rithme a été beaucoup étudié et des améliorations visant à réduire son coût calculatoire ont été ap-portées. L’algorithme EM consiste en deux étapes itérées jusqu’à convergence. Les probabilités d’ap-partenance des points aux différentes classes sont estimées à l’étape E. Sa complexité est linéaire par rapport au nombre de points à traiter. Dans les applications comportant un grand nombre d’observa-tions ou dont le calcul des probabilités est coûteux, il peut être intéressant de chercher à accélérer cette étape. L’étape M est une étape de ré-estimation des paramètres à partir des probabilités d’ap-partenance calculées à l’étape E. Son optimisation a un impact important sur le coût total lorsque la méthode d’estimation est complexe.

Des travaux ont été menés pour combiner l’algorithme EM avec des méthodes d’optimisation classiques pour en accélérer la convergence. Les méthodes Parameterized EM ([150, 159, 131, 19, 206, 146]) intègrent EM dans une méthode de descente de gradient. L’algorithme d’estimation EM est alors traité comme une application M qui a un vecteur de paramètres θjassocie son amélioration via EM θ_EM^j+1 et pouvant s’écrire θ^j+1_EM = M (θ^j). Après chaque itération de EM, le vecteur de paramètres est mis à jour suivant le schéma

θ^j+1 = θ^(j)+ pj

θ^(j+1)_EM − θ^(j) (4.4.1) où θ_EM^(j+1)est la mise à jour du vecteur de paramètres θ(j)par l’algorithme EM. La direction de descente retenue est celle indiquée par EM. Selon le choix du pas p_j, la convergence peut être accélérée. Le pas de descente peut être fixe ou adaptatif. Dans le cas où p_j = 1, on retrouve l’algorithme EM standard.

Un procédé d’accélération d’Aitken a été proposé dans [123] pour améliorer la convergence de EM. Cette technique est applicable pour un nombre modéré de paramètres car elle nécessite des inver-sions matricielles. L’algorithme EM a été combiné avec une méthode de gradient conjugué dans [107] et de quasi-Newton dans [189]. La différence du vecteur de paramètres avant et après avoir appliqué EM est encore une fois exploitée pour accélérer la convergence.

Dans la suite de cette section, quelques méthodes d’accélération de l’étape E sont d’abord traitées avant de passer à celles se concentrant sur l’étape M.

CHAPITRE 4. DÉTECTION DE TÊTES 3D 116

Accélération de l’étape E. On distingue deux stratégies d’accélération de l’étape E. La première est basée sur l’oubli partiel d’un sous-ensemble des données et la seconde sur la compression des données traitées.

Une idée naturelle pour réduire la quantité de calcul de l’étape E est de ne pas recalculer l’in-tégralité des probabilités. En effet, les probabilités d’appartenance de certaines observations ne va-rient pas (ou très peu) d’une itération à l’autre et leur calcul n’est pas nécessaire. La méthode SpEM (Sparse EM) ([138]) cherche à réduire le coût calculatoire de l’étape E en sélectionnant les calculs à effectuer. Les probabilités d’appartenance trop faibles à une itération donnée ne sont pas recalculées durant un nombre prédéfini d’itérations. Cette technique suppose que si un objet a une probabilité d’appartenance à une classe faible, elle n’augmentera pas significativement en une seule itération. Les probabilités correspondantes sont donc fixées et non mises à jour pendant plusieurs itérations. Une étape E standard (complète) est effectuée régulièrement pour recalculer toutes les probabilités et dé-terminer celles qui sont trop faibles. Le schéma de la Figure 4.4.1 décrit le fonctionnement global de la méthode.

Dans le même esprit, la méthode LEM (Lazy EM) ([190]) cherche à réduire la quantité de calculs de l’étape E en se concentrant sur les objets importants. Un sous-ensemble de points est considéré important si ses probabilités d’appartenance évoluent suffisamment. Un objet dont les probabilités évoluent peu nécessite moins d’attention. L’algorithme a la même structure que SpEM à la règle défi-nissant si une mise à jour est nécessaire près. La convergence théorique de la méthode a été démontrée. Le schéma de la Figure 4.4.1 décrit le fonctionnement global de la méthode.

FIGURE 4.4.1 – Principe des variantes SpEM et LEM. Une étape E complète est effectuée une fois toutes les n_citérations tandis qu’une étape partielle moins coûteuse est appliquée le reste du temps.

117 4.4. ACCÉLÉRATION DE LA MÉTHODE D’ESTIMATION

L’approche IEM (Incremental EM) ([138]) divise l’ensemble des observations en B blocs disjoints notés B₁, . . . , B_B. Le nombre de blocs B est un paramètre de la méthode. Les blocs sont ensuite parcourus cycliquement et les probabilités correspondantes mises à jour. Une étape E est effectuée sur un seul bloc avant qu’une étape M ne soit appliquée. Une itération de IEM se résume donc à B étapes E et B étapes M intercalées. Tous les points sont visités à l’issue d’une itération. L’augmentation de la valeur du paramètre B augmente le temps de calcul. Le choix B = 1 revient à effectuer l’algorithme EM classique. Le principe de la méthode est illustré Figure 4.4.2. Dans [139], les auteurs se sont intéressés à la manière de choisir le nombre de blocs. La combinaison des méthodes IEM et SpEM, appellée SPIEM ([139]) a été expérimentée.

FIGURE4.4.2 – Découpage des données en B blocs.

Une autre idée pour réduire la complexité de l’étape E consiste à compresser les données manipu-lées. Les observations sont compressées de manière à ce qu’un élément appelé observation compressée représente un sous-ensemble des observations. Les n observations sont alors représentées par n′ ob-servations compressées où n′ ≤ n. La quantité de données à traiter est alors plus faible et la quantité de calculs est par conséquent moins importante. En contrepartie, des observations différentes seront affectées de la même probabilité d’appartenance.

La méthode proposée dans [134] est basée sur la construction d’un arbre kd. Un arbre kd est une structure de données arborescente dans laquelle les données sont stockées efficacement. Il est construit par des divisions récursives de l’espace de travail. Dans cette structure de donnée, un en-semble de points appartenant à une même cellule de l’arbre est résumé par son sommet. La racine est le sommet contenant toutes les observations. Le principe de partitionnement des données par un arbre kd est illustré Figure 4.4.3. Les points d’un même sommet sont résumés (compressés) par leur cen-troïde dans [140]. Les probabilités d’appartenance de tous les points associés à un même sommet sont identiques et calculées à partir du centroïde. Ces approches mènent à une réduction importante des calculs. De manière générale, les structures de partitionnement de l’espace sont à utiliser lorsque la dimension d des points reste faible. Enfin, la méthode SPIEM mentionnée précédemment a été combi-née à une compression par des arbres multi-résolutions ([140]) pour segmenter des images IRM. Une autre méthode ([35]) basée sur une compression des données a été développée et consiste à regrouper après avoir lancé l’algorithme EM les observations proches selon la distance de Mahalanobis. Dans ce cas, la convergence vers un maximum local de la fonction de vraisemblance n’est plus garantie.

CHAPITRE 4. DÉTECTION DE TÊTES 3D 118

FIGURE4.4.3 – Les points numérotés sont récursivement séparés par des hyperplans (des droites dans ce cas) horizontalement et verticalement. Le partitionnement est représenté dans un arbre dans lequel les deux fils d’un sommet représentent les points situés de chaque côté de l’hyperplan. Chaque niveau de l’arbre est une compression des données à un niveau de précision donné.

Accélération de l’étape M. Une manière d’accélérer l’étape M est de simplifier le problème de maximisation. Pour cela, les approches de type GEM (Generalized EM) ([69]) proposent simplement d’améliorer la valeur de la fonction de vraisemblance plutôt que de chercher à la maximiser. On trouve également dans cette catégorie d’approches la méthode ECM (Expectation Conditional Maximization) ([132]).

Une autre façon de réduire la complexité du problème de maximisation est de réduire le nombre de paramètres selon lesquels la vraisemblance complétée est maximisée. La méthode CEMM (Component-wise EM algorithm for Mixtures) ([46, 47]) est basée sur une décomposition du vecteur de paramètres inconnus Θ. A chaque étape M, seuls les paramètres d’une composante du mélange sont mis à jour. Ce procédé a pour but d’éviter les situations où l’algorithme EM convergence lentement. On retrouve la même idée que pour IEM mais appliquée aux paramètres et non plus aux données. Le principe est illustré Figure 4.4.4.

119 4.4. ACCÉLÉRATION DE LA MÉTHODE D’ESTIMATION

Dans le document Reconnaissance de formes et suivi de mouvements en 4D temps-réel : Restauration de cartes de profondeur (Page 136-140)