Master d’Informatique - M1 UPMC Module MQIA
E STIMATION D ’ UNE DENSITE DE PROBABILITE
1. ESTIMATION DE DENSITES :CRITERES MV ET MAP
On se place dans le cadre de l’apprentissage à partir d’exemples. On dispose d’un ensemble de données d’apprentissage E, et on cherche à déterminer par apprentissage les paramètres θ
« optimaux » d’un modèle d’architecture M, (on note le modèle Mθ) représentant au mieux les données.
1.1 Exprimer le lien entre la probabilité de l’ensemble de données E conditionnellement à Mθ et la probabilité du modèle Mθ conditionnellement à l’ensemble des données, E.
1.2 En déduire deux critères d’apprentissage possibles pour les paramètres θ du modèle M.
1.3 A quelles conditions ces deux critères sont-ils équivalents ? 2. CLUSTERING ET MELANGE DE LOIS
On souhaite estimer une densité de probabilité par un modèle de type mélange de gaussiennes. La probabilité d’une observation x est donnée par :
∑
== L
l
l
l p x
P x
p
1
) / ( . )
( λ
où les Pl sont les probabilités a priori des lois et les p(x/λl) sont des lois gaussiennes caractérisées par leurs moyennes μl et leurs variances σl, i.e. λl =(μl,σl).
2.1 Dessiner la loi de probabilité pour L=2, P1 = P2 =0.5, et μ1=1, μ2=3, σ1=1, σ2=10
2.2 Quelles est la probabilité a posteriori qu’un exemple x aie été produit par la Gaussienne n° l, )
/
( x
p λl ?
2.3 Expliquer comment l’apprentissage d’un mélange de lois peut être utilisé pour faire du clustering.
2.4 Ecrire le code octave d’une fonction qui prend en entrée un modèle de type mélange de gaussiennes et un ensemble de données et qui renvoie le résultat du clustering de cet ensemble de données par le modèle. L’en-tête de la fonction est la suivante :
Function [Clusters]=cluster_melange(M, X)
Où M est une structure stockant les paramètres d’un modèle de mélange, X est une matrice Nxp stockant un ensemble de données (N individus en dimension p) et Clusters est un tableau de dimension N contenant les n° de clusters de chacun des exemples de X.
1
Master d’Informatique - M1 UPMC Module MQIA
3. APPRENTISSAGE D’UN MELANGE DE LOIS ET MAXIMUM DE VRAISEMBLANCE
On souhaite apprendre le modèle du 2. avec un critère de maximum de vraisemblance (MV) sur une base d’apprentissage E={xi, i=1..N}.
3.1 Exprimer le logarithme de la vraisemblance des données par le modèle en supposant que les xi
sont indépendants.
3.2 Montrer que maximiser ce logarithme ou la vraisemblance directement doit aboutir théoriquement à la même solution.
3.3 On utilise un algorithme dit algorithme EM pour l’estimation de ce mélange de gaussiennes.
Voici une des variantes de cet algorithme :
• Initialiser les paramètres (Pi,μi,σi)i=1..L
• Itérer
1. Déterminer pour chaque xi la gaussienne qui l’a produit avec la plus grande vraisemblance :
Pour i=1..N : ( ) argmax ( l/ i)
l
i p x
x
I = λ
2. Ré-estimer les paramètres des lois à partir des exemples qui lui ont été affectés
Pour l=1..L : Ré-estimer λl à partir des
{
xi∈E/I(xi)=l}
3.4 Ecrire un code octave de l’algorithme précédent.
3.5 Dans le cas où les matrices de covariance des lois sont fixées à l’Identité, montrer que l’algorithme précédent est équivalent à un algorithme des K-Moyennes.
2