• Aucun résultat trouvé

E STIMATION D ’ UNE DENSITE DE PROBABILITE

N/A
N/A
Protected

Academic year: 2022

Partager "E STIMATION D ’ UNE DENSITE DE PROBABILITE "

Copied!
2
0
0

Texte intégral

(1)

Master d’Informatique - M1 UPMC Module MQIA

E STIMATION D UNE DENSITE DE PROBABILITE

1. ESTIMATION DE DENSITES :CRITERES MV ET MAP

On se place dans le cadre de l’apprentissage à partir d’exemples. On dispose d’un ensemble de données d’apprentissage E, et on cherche à déterminer par apprentissage les paramètres θ

« optimaux » d’un modèle d’architecture M, (on note le modèle Mθ) représentant au mieux les données.

1.1 Exprimer le lien entre la probabilité de l’ensemble de données E conditionnellement à Mθ et la probabilité du modèle Mθ conditionnellement à l’ensemble des données, E.

1.2 En déduire deux critères d’apprentissage possibles pour les paramètres θ du modèle M.

1.3 A quelles conditions ces deux critères sont-ils équivalents ? 2. CLUSTERING ET MELANGE DE LOIS

On souhaite estimer une densité de probabilité par un modèle de type mélange de gaussiennes. La probabilité d’une observation x est donnée par :

=

= L

l

l

l p x

P x

p

1

) / ( . )

( λ

où les Pl sont les probabilités a priori des lois et les p(xl) sont des lois gaussiennes caractérisées par leurs moyennes μl et leurs variances σl, i.e. λl =(μll).

2.1 Dessiner la loi de probabilité pour L=2, P1 = P2 =0.5, et μ1=1, μ2=3, σ1=1, σ2=10

2.2 Quelles est la probabilité a posteriori qu’un exemple x aie été produit par la Gaussienne n° l, )

/

( x

p λl ?

2.3 Expliquer comment l’apprentissage d’un mélange de lois peut être utilisé pour faire du clustering.

2.4 Ecrire le code octave d’une fonction qui prend en entrée un modèle de type mélange de gaussiennes et un ensemble de données et qui renvoie le résultat du clustering de cet ensemble de données par le modèle. L’en-tête de la fonction est la suivante :

Function [Clusters]=cluster_melange(M, X)

M est une structure stockant les paramètres d’un modèle de mélange, X est une matrice Nxp stockant un ensemble de données (N individus en dimension p) et Clusters est un tableau de dimension N contenant les n° de clusters de chacun des exemples de X.

1

(2)

Master d’Informatique - M1 UPMC Module MQIA

3. APPRENTISSAGE DUN MELANGE DE LOIS ET MAXIMUM DE VRAISEMBLANCE

On souhaite apprendre le modèle du 2. avec un critère de maximum de vraisemblance (MV) sur une base d’apprentissage E={xi, i=1..N}.

3.1 Exprimer le logarithme de la vraisemblance des données par le modèle en supposant que les xi

sont indépendants.

3.2 Montrer que maximiser ce logarithme ou la vraisemblance directement doit aboutir théoriquement à la même solution.

3.3 On utilise un algorithme dit algorithme EM pour l’estimation de ce mélange de gaussiennes.

Voici une des variantes de cet algorithme :

Initialiser les paramètres (Piii)i=1..L

Itérer

1. Déterminer pour chaque xi la gaussienne qui l’a produit avec la plus grande vraisemblance :

Pour i=1..N : ( ) argmax ( l/ i)

l

i p x

x

I = λ

2. Ré-estimer les paramètres des lois à partir des exemples qui lui ont été affectés

Pour l=1..L : Ré-estimer λl à partir des

{

xiE/I(xi)=l

}

3.4 Ecrire un code octave de l’algorithme précédent.

3.5 Dans le cas où les matrices de covariance des lois sont fixées à l’Identité, montrer que l’algorithme précédent est équivalent à un algorithme des K-Moyennes.

2

Références

Documents relatifs

Bousculé, apostrophé, harcelé, l'auditeur ne sait plus si le bulletin météorologique qui annonce la neige a trait à la journée d'hier ou à celle de demain ; et il se retrouve en

Le soumissionnaire remet, comme pièce constitutive de son offre, un document par lequel il marque son engagement à mettre en œuvre

Pour repérer la thèse défendue, il convient tout d'abord de trouver le thème du texte.. On peut ensuite chercher le jugement ou le sentiment du locuteur à propos de

De la même manière, mais sans l'aide du professeur, observer puis mettre en route le système, et compléter le modèle fonctionnel en réalisant l'exercice 2 de la page 20 de

C’est donc dans ou de cet espace qu’est née une littérature dont « Robben Island » est devenue le symbole?. Il est important de noter que cette littérature revêt une

Il faut choisir un solvant extracteur non miscible avec l’eau et dans lequel l’huile essentielle d’eucalyptus y est très soluble.. Ce solvant doit être le moins dangereux pour

Ils sont ensuite émis sans vitesse par la source S, puis accélérés par un champ électrostatique uniforme qui règne entre S et P tel que.. U sp

Définir la fréquence puis donner la relation entre la période et la fréquence (1pt) 4.. Calculer sa fréquence f, qui est celle des battements