E STIMATION D ’ UNE DENSITE DE PROBABILITE

(1)

Master d’Informatique - M1 UPMC Module MQIA

E STIMATION D ’ UNE DENSITE DE PROBABILITE

1. ESTIMATION DE DENSITES :CRITERES MV ET MAP

On se place dans le cadre de l’apprentissage à partir d’exemples. On dispose d’un ensemble de données d’apprentissage E, et on cherche à déterminer par apprentissage les paramètres θ

« optimaux » d’un modèle d’architecture M, (on note le modèle M_θ) représentant au mieux les données.

1.1 Exprimer le lien entre la probabilité de l’ensemble de données E conditionnellement à M_θ et la probabilité du modèle Mθ conditionnellement à l’ensemble des données, E.

1.2 En déduire deux critères d’apprentissage possibles pour les paramètres θ du modèle M.

1.3 A quelles conditions ces deux critères sont-ils équivalents ? 2. CLUSTERING ET MELANGE DE LOIS

On souhaite estimer une densité de probabilité par un modèle de type mélange de gaussiennes. La probabilité d’une observation x est donnée par :

∑

=

= ^L

l

l p x

P x

p

1

) / ( . )

( λ

où les P_l sont les probabilités a priori des lois et les p(x/λ_l) sont des lois gaussiennes caractérisées par leurs moyennes μ_l et leurs variances σ_l, i.e. λ_l =(μ_l,σ_l).

2.1 Dessiner la loi de probabilité pour L=2, P1 = P₂=0.5, et μ₁=1, μ₂=3, σ₁=1, σ₂=10

2.2 Quelles est la probabilité a posteriori qu’un exemple x aie été produit par la Gaussienne n° l, )

/

( x

p λ_l ?

2.3 Expliquer comment l’apprentissage d’un mélange de lois peut être utilisé pour faire du clustering.

2.4 Ecrire le code octave d’une fonction qui prend en entrée un modèle de type mélange de gaussiennes et un ensemble de données et qui renvoie le résultat du clustering de cet ensemble de données par le modèle. L’en-tête de la fonction est la suivante :

Function [Clusters]=cluster_melange(M, X)

Où M est une structure stockant les paramètres d’un modèle de mélange, X est une matrice Nxp stockant un ensemble de données (N individus en dimension p) et Clusters est un tableau de dimension N contenant les n° de clusters de chacun des exemples de X.

1

(2)

Master d’Informatique - M1 UPMC Module MQIA

3. APPRENTISSAGE D’UN MELANGE DE LOIS ET MAXIMUM DE VRAISEMBLANCE

On souhaite apprendre le modèle du 2. avec un critère de maximum de vraisemblance (MV) sur une base d’apprentissage E={x_i, i=1..N}.

3.1 Exprimer le logarithme de la vraisemblance des données par le modèle en supposant que les xi

sont indépendants.

3.2 Montrer que maximiser ce logarithme ou la vraisemblance directement doit aboutir théoriquement à la même solution.

3.3 On utilise un algorithme dit algorithme EM pour l’estimation de ce mélange de gaussiennes.

Voici une des variantes de cet algorithme :

• Initialiser les paramètres (P_i,μ_i,σ_i)_i₌₁_.._L

• Itérer

1. Déterminer pour chaque x_i la gaussienne qui l’a produit avec la plus grande vraisemblance :

Pour i=1..N : ( ) argmax ( _l/ _i)

l

i p x

x

I = λ

2. Ré-estimer les paramètres des lois à partir des exemples qui lui ont été affectés

Pour l=1..L : Ré-estimer λ_l à partir des

{

x_i∈E/I(x_i)=l

}

3.4 Ecrire un code octave de l’algorithme précédent.

3.5 Dans le cas où les matrices de covariance des lois sont fixées à l’Identité, montrer que l’algorithme précédent est équivalent à un algorithme des K-Moyennes.

2