• Aucun résultat trouvé

3.5 Gestion des petits échantillons de données

3.5.5 Proposition d’une régularisation

Notre régularisation des matrices de variance doit permettre d’obtenir des composantes avec un vo- lume libre tout évitant les composantes ayant une forme très aplaties, expliquée par un rapport entre les valeurs propres des matrices élevé (par exemple la variance de la composante de la figure 3.7(a), page 55).

Les méthodes de régularisation basées sur une combinaison linéaire de l’ensemble des matrices de variance présentent le problème suivant : ils posent l’hypothèse qu’il existe une dépendance entre les groupes de données à classer. La régularisation d’une composante est obtenue à partir d’une combinaison linéaire des autres composantes. Un petit échantillon ne doit pas être associé à une composante ayant un

grand volume sous prétexte que les autres variances présentent cette propriété. L’approche bayésienne présente quant à elle l’inconvénient de fixer un volume maximum au matrice de variance, ce qui est peu pertinent dans notre contexte puisque l’étalement des classes n’est pas connu. Nous proposons donc notre propre technique de régularisation.

Dans le cas temporel, où la dimension des données est de1, nous nous limitons à fixer un volume

minimum à chaque matrice de variance quand celle-ci est singulière :

Σ′k= Σk+ ϕ (3.21)

Pour le cas spatial, notre solution consiste à estimer les matrices de variance en imposant deux contraintes :

• un volume minimum est imposé, en fixant des valeurs propres des matrices de variance minimales.

Cela permet de gérer le cas où la composante est associée à une seule donnée ;

• un ratio maximum entre les deux valeurs propres de la matrice de variance est fixé. Une matrice

pleine est plus flexible qu’une matrice diagonale puisque l’orientation des axes est libre. Mais, avec seulement deux observations, les deux valeurs propres ont des magnitudes différentes et les obser- vations ont des densités de vraisemblance excessives. Cette technique permet d’éviter d’obtenir de telles composantes.

Soit la matrice de covarianceΣk:

Σk= λkDkAkD′k, A =  a1k 0 0 a2k  , (3.22) oùa1k> a2k.

Les contraintes imposées ci-dessus sont donc appliquées en régularisant la matrice de covariance avec : Σk = U.  max (β, a1k) 0 0 max (ϕ, a2k, ϕ′· a1k)  .U−1, (3.23) où ϕ et ϕ′ sont deux paramètres fixés manuellement.ϕ′ ∈ [0, 1] fixe le ratio maximal entre les deux

valeurs propres etϕ est la valeur minimale des valeurs propres.

La figure 3.7 ci-dessus présente un exemple de modèle obtenu avec notre régularisation des matrices de covariance. La matrice de covariance régularisée de la composante présente un plus grand volume que la composante. La valeur propre minimalea2k de la composantek non-régularisée a été augmentée

puisque a2k < ϕ · a1k. Cette technique permet de gérer le cas des petits échantillons et permet de

défavoriser les composantes de formes aplaties. En effet, la log-vraisemblance négative obtenue pour le modèle régularisé de la figure 3.7 est12.19 alors qu’elle est de 8.39 pour le modèle non-régularisé. Ce

critère devant être minimisé, la régularisation a bien permis de donner moins de poids aux vraisemblances des observations. Cet aspect permet ainsi d’améliorer le choix du modèle quand nous comparerons des modèles avec un nombre différent de composantes. Dans cet exemple, un modèle à deux composantes serait plus approprié.

Dans le cas où une composante est associée à une seule donnée, sa vraisemblance tend vers l’infini. Cela peut poser problème quand nous comparerons différentes hypothèses de modèles (problème traité dans le chapitre suivant), en favorisant excessivement les classes à une seule donnée. L’utilisation de la log-vraisemblance et la pondération par la proportion de mélange de la densité permettent de limiter

2 4 6 8 10 3 4 5 6 7 8 9 longitude latitude 2 4 6 8 10 3 4 5 6 7 8 9 longitude latitude (a) (b)

Figure 3.7: Comparaison des matrices de covariance non-régularisées et régularisées : la figure (a) pré- sente le modèle obtenu avec une matrice non-régularisée tandis que sur la figure (b), nous avons appliqué notre régularisation. "+" représente le centre de la composante et l’ellipse sa covariance. Le jeu de don- nées est identique dans les2 cas.

la valeur de vraisemblance d’une telle donnée par rapport aux autres. Cette technique permet ainsi de trouver un bon compromis entre une composante associée à une seule donnée et un modèle où cette donnée est associée à une composante adjacente.

Notre approche présente l’avantage d’être simple et de faible complexité. Les seuls paramètres cri- tiques à régler sont la taille minimum des composantes et le ratio entre la valeurs propres.

3.6

Conclusion

Nous avons présenté dans ce chapitre la modélisation de nos données à l’aide d’un modèle de mé- lange gaussien. Les deux avantages de ce modèle pour notre cas d’utilisation sont :

1. les algorithmes d’estimation des paramètres présentent une complexité raisonnable (linéaire en fonction du nombre de données), un point pertinent pour que notre application soit implémentable sur un terminal mobile ;

2. Les composantes gaussiennes sont sensibles aux données isolées, un cas de figure que l’on re- trouve régulièrement dans les métadonnées spatiales et temporelles d’une collection d’images per- sonnelles et que l’on veut mettre en valeur dans les partitions à obtenir.

Deux approches distinctes pour estimer les paramètres d’un modèle de mélange ont été présentées, basées sur la vraisemblance et la vraisemblance classifiante. Parmi les algorithmes détaillés, l’algorithme

EM présente les meilleures propriétés pour concevoir un algorithme incrémental :

• il n’est pas robuste face aux petits échantillons, contrairement aux algorithmes SEM et SAEM ; • il présente de bonnes propriétés de convergence avec tous types de données et toutes contraintes à

priori.

Le problème de convergence lente aux alentours d’un col de vraisemblance sera limité par notre approche incrémentale.

Enfin, la gestion des petits échantillons posant un problème d’estimation des paramètres du modèle, nous avons proposé une technique de régularisation des matrices de variance. Cette technique consiste à poser des contraintes sur la forme et le volume minimum des composantes. La technique est simple à mettre en oeuvre et n’augmente pas la complexité de l’algorithme d’estimation des paramètres.

La modélisation de nos données étant définie, un problème reste à résoudre : déterminer la com- plexité d’un modèle de mélange. Dans le chapitre suivant, nous étudions différents critères statistiques permettant de comparer des modèles de mélange gaussien.

CHAPITRE

4

Sélection de la

complexité dans le cadre

de modèles de mélange

Nous présentons dans ce chapitre les différentes techniques pour déterminer la complexité d’un mo- dèle de mélange. Notre choix se porte sur l’approche par pénalisation de la vraisemblance. Nous dé- taillons les différents critères numériques existants et motivons ensuite notre préférence pour le critère

ICL (Integrated Completed Likelihood) par des résultats expérimentaux.

4.1

Introduction

Nous avons présenté dans le chapitre précédent notre modélisation des métadonnées spatiales et temporelles. Étant dans un contexte de classification, le nombre de composantes dans un modèle n’est pas connu : il est nécessaire de le déterminer afin de pouvoir fournir un système automatique. Une méthode doit être proposée pour comparer plusieurs solutions de modèles dans un espace d’hypothèses des paramètres et sélectionner celui représentant au mieux la structure des données.

Plusieurs techniques existent pour déterminer le meilleur modèle. Nous présentons dans ce chapitre plusieurs méthodes, dans le cadre des modèles en général : la méthode par ré-échantillonnage, la pé- nalisation de la mesure de qualité d’une partition par sa complexité. Ensuite nous présentons plusieurs méthodes liées aux modèle de mélange. Parmi ces solutions, nous verrons que la plus appropriée est la sélection à l’aide de critères numériques pénalisant la vraisemblance par la complexité ou la classifiabilité du modèle.

Nous proposons ensuite de présenter plusieurs types de critères numériques permettant de détermi- ner la complexité d’un modèle de mélange. On peut distinguer deux types de critères basés sur deux approches différentes : l’approche mélange et l’approche par classifiabilité. La première approche est basée sur des critères statistiques appelés critères d’information. Certains sont établis dans le contexte de la théorie bayésienne (BIC, AW E) et d’autres s’appuient sur des justifications de statistique classique

(AIC, AIC3, ICOM P ). Ces critères sont pertinents pour déterminer les paramètres (contraintes sur

les proportions et les matrices de variances) mais aussi le nombre de composantes pour certains. Les critères de classifiabilité sont eux exclusivement utilisés pour obtenir le nombre de composantes dans un modèle. Nous présentons les critèresP C, N EC, E et LP . Enfin ces différentes approches peuvent être

combinées ensemble : les derniers critères proposés (C, LC, ICL) pénalisent la vraisemblance par un

critère de classifiabilité et par la complexité du modèle. 57

0 2 4 6 8 10 4 5 6 7 8 9 10 longitude latitude 0 2 4 6 8 10 4 5 6 7 8 9 10 longitude latitude (a) (b)

Figure 4.1: comparaison de deux modèles avec des hypothèses différentes. Le modèle sur la figure (a) a

2 composantes tandis que celui sur la figure (b) en contient 3. Le critère de sélection doit favoriser ici le

deuxième modèle puisqu’il semble le plus approprié au vu des observations