Choix de la famille d’algorithmes de classification au vu des propriétés des données

Avant de choisir la famille d’algorithme la plus appropriée pour notre objectif, nous présentons les caractéristiques des données à classer.

2.4.1 Propriétés des métadonnées temporelles et spatiales

Nous étudions tout d’abord leurs propriétés statiques et ensuite leurs propriétés dynamiques. Les métadonnées peuvent être représentées par un flux de 3-uplet_{{(t, (x, y)) ∈ R × R}2_{}, ou t est la date et} l’heure de prise de vue de l’image, et(x, y) ses coordonnées géographiques.

Une collection est composée de plusieurs événements temporels, définis sur des intervalles de temps variables : cela peut aller de quelques secondes (des images isolées) à plusieurs semaines (vacances). Les classes spatiales sont définies sur des espaces plus ou moins grands, allant de plusieurs mètres (dans une pièce) à plusieurs centaines de kilomètres (photographies de vacances). Pour la classification spatiale, les formes des classes peuvent être variées. Une classe regroupant des images prises lors d’une balade peut avoir une forme en courbe. Néanmoins, nous avons noté, à partir des coordonnées géographiques d’une collection réelle, que les classes spatiales étaient généralement compactes et concentrées en des lieux précis.

Chaque classe d’images, temporelle ou spatiale, peut contenir un nombre variable d’images, pouvant aller de1 à plusieurs centaines. Un lieu habituel contiendra beaucoup d’images alors que certain lieux de

vacances visités une seule fois en contiendront peu. Pour les classes temporelles, un événement associé à des vacances comprendra un grand nombre d’images, mais il est aussi possible d’obtenir des images isolées temporellement. Aucun à priori ne peut donc être fixé sur le nombre de données par classe.

Du point de vue dynamique, le processus de génération de la collection peut entraîner un problème de mise à jour des partitions. Rappelons tout d’abord que les utilisateurs prennent leurs images par paquets [81]. Un lien peut alors être établi entre deux données successives pour l’affectation aux classes (temporelles ou spatiales). On observe une dépendance entre les données et on peut en déduire que :

P (dt∈ k|dt−1∈ k′)6= P (dt∈ k) où P (dt∈ k) est la probabilité d’affectation de la donnée d prises au

tempst à la classe k. De plus grands efforts de ré-organisation des classes sont ainsi nécessaires que si

les donnéesdtetdt−1étaient totalement indépendantes. Par exemple, au fur et à mesure que les données

d’un même lieu sont ajoutées, les classes sont optimisées localement sur cet endroit spécifique, elles peuvent donc être plus difficiles à modifier si un nouveau lieu apparaît.

Chaque composante, spatiale ou temporelle, peut donc présenter des propriétés variables. Le pro- blème de classification de ce type de données n’est donc pas simple et nous devons faire face à des problèmes de classifications classiques :

• la gestion des petits échantillons ; • la gestion de données non structurées ;

2.4.2 Approche par modèle de mélange

Les classifications doivent être réalisées automatiquement sans avoir à régler manuellement de pa- ramètres gênants. L’algorithme de classification doit être automatique. En particulier, il faut pouvoir dé- terminer le nombre de composantes à partir de la structure des données. Parmi les approches explicitées, l’approche par modèle de mélange semble la plus appropriée sur ce point. En effet, les partitions peuvent être évaluées avec des critères statistiques, permettant de comparer des modèles avec des hypothèses différentes, à un faible coût.

L’aspect incrémental nécessite une technique où les affectations des données aux composantes sont très flexibles. Comme explicité dans la section précédente, les partitions doivent pouvoir être remises ré- gulièrement en question (au vu de leur propriété dynamique). Là encore les modèles de mélange semblent les plus adaptés: l’affectation des données aux composantes est très souple. Ce point permet de facilement modifier les paramètres du modèle, et donc les affectations des données aux composantes, après l’ajout d’une nouvelle donnée dans la classification. Les algorithmes d’estimation des paramètres pré- sentent de plus la propriété d’avoir besoin de valeurs initiales de paramètres et nous avons vu que ce point est un avantage pour concevoir un système incrémental. Le couple modèle de mélange et algorithme de

type EM semble approprié pour notre objectif.

Les modèles de mélange fournissent de plus des partitions facilement interprétables et ce avec une complexité raisonnable. La gestion des petits échantillons dépendra du modèle choisi pour représenter les données. Comme nous le verrons dans le chapitre suivant, plusieurs modèles existent présentant des propriétés différentes sur ce type de données.

Enfin, l’aspect hiérarchique peut aussi être géré avec les modèles de mélange. Il existe dans la lit- térature plusieurs méthodes pour construire des classifications hiérarchiques à partir d’un modèle de mélange. Notre solution consiste dans un premier temps à développer un algorithme incrémental four- nissant en sortie une partition des données. Ensuite, nous combinerons cet algorithme à un algorithme hiérarchique pour obtenir nos classifications finales.

Le seul désavantage du choix sur les modèles de mélange est lié à la forme des classes spatiales. Ce choix entraîne des classes de formes convexes alors que dans la réalité les formes sont diverses. Néanmoins, une approche basée sur la densité, qui nous semble la plus adaptée pour régler ce problème, n’est pas possible dans notre contexte. L’ensemble des données à classer n’étant pas connu, il paraît difficile de définir une notion de connectivité entre les données.

L’approche probabiliste semble appropriée pour développer un système hiérarchique et incrémental, sans dépendre de paramètres arbitraires. Nous opterons ainsi pour une approche basée sur les modèles de distribution gaussien. Le choix de ce modèle sera motivé dans le chapitre suivant où plusieurs modèles sont présentés.

2.5 Conclusion

Nous objectif est de fournir un système automatique pour organiser une collection d’images personnelles. Notre approche consiste à construire deux classifications spatiale et temporelle distinctes à partir des métadonnées de chaque image. Une indépendance entre les partitions permet ensuite plusieurs solutions pour les combiner en une seule partition hybride.

Nous avons choisi de traiter ce problème comme une tâche de classification automatique. Afin de fournir un système adapté, nous proposons que les classifications soient :

• incrémentales, afin de prendre en compte le processus de construction de la collection ;

• hiérarchiques afin de pouvoir résumer la collection pour faciliter son parcours sur un terminal

mobile.

Les différentes techniques de classification ont été abordées dans ce chapitre afin de mettre en valeur la plus pertinente pour notre objectif. Nous avons choisi une approche basée sur les modèles de mélange. Celle-ci paraît la plus appropriée pour fournir un système incrémental (affectation souple des données aux classes) et automatique (existence d’algorithmes d’estimation des paramètres de complexité raisonnable et de critères statistiques pour comparer les modèles). Le prochain chapitre présente la modélisation de notre système, où le choix sur les modèles gaussiens est motivé.

CHAPITRE

3

Modèle de mélange

probabiliste pour les

données spatiales et

temporelles

Nous présentons dans ce chapitre la modélisation de nos métadonnées spatiales et temporelles, ob- tenues lors de la prise de vue de chaque image. Nous motivons notre choix sur le modèle de mélange gaussien et l’utilisation de l’algorithme EM pour fournir notre propre algorithme d’estimation des para- mètres, décrit dans le chapitre 5. Enfin, nous avons vu dans le chapitre précédent que certaines classes peuvent être associées à de petits échantillons de données. Ce type de structure pose des problèmes lors de l’estimation des paramètres. Nous présentons une technique pour la gestion des petits échantillons.

3.1 Introduction

L’objectif de ce chapitre est de présenter la modélisation de nos métadonnées spatiales et temporelles et de fournir les outils nécessaires pour leur classification. Nous avons opté pour une modélisation à l’aide de modèle de mélange et une procédure de classification statistique. Les avantages d’une telle approche ont été explicités dans le chapitre précédent.

Nous supposons, avec cette approche, que les données sont tirées aléatoirement d’une densité de pro- babilité. Une classification peut ainsi être modélisée par une combinaison linéaire de densités simples : l’ensemble des classes, appelées composantes du mélanges et associées chacune à une densité de proba- bilité, représente le modèle de mélange. Un point important est le choix de la densité : plusieurs lois de distribution sont utilisées dans le cadre de la classification de données, chacune présentant des propriétés différentes (capacité de modélisation, difficultés sur l’estimation des paramètres du modèle de mélange). Après avoir rappelé la définition et les propriétés d’un modèle de mélange, nous présentons plusieurs lois élémentaires et validons notre choix sur la distribution gaussienne.

Nous introduisons ensuite les paramètres du modèle gaussien, avec les différents choix de contraintes à priori possibles. Ces contraintes concernent les matrices de variance des composantes, ayant un impact sur leur géométrie, et les proportions du mélange. Ce choix est défini en fonction des propriétés des données spatiales et temporelles à classer.

L’estimation des paramètres d’un modèle de mélange est un problème complexe. Les algorithmes existants nécessitent de disposer de la complexité du modèle (nombre de composantes) et sont dépendants de paramètres fixés manuellement. Nous présentons dans ce chapitre les algorithmes les plus employés

pour les estimer : les algorithmes EM, SEM et SAEM, et CEM et CAEM. Les propriétés de chacun sont mises en valeur (convergence, complexité,. . .).

Enfin, un problème courant en classification est la gestion des petits échantillons. Nous parlons de

petit échantillon quand une composante est associée à un faible nombre de données. L’estimation des

paramètres peut être biaisée ou même impossible avec ce type de données. L’approche pour régler ce problème consiste à régulariser les matrices de variance. Après avoir présenté les différents procédés existants, nous définissons notre propre régularisation.

Dans le document Structuration géo-temporelle de données multimédia personnelles en vue de la navigation sur un appareil mobile (Page 39-43)