• Aucun résultat trouvé

Méthodes probabilitistes (maximum de vraisemblance)

N/A
N/A
Protected

Academic year: 2022

Partager "Méthodes probabilitistes (maximum de vraisemblance)"

Copied!
3
0
0

Texte intégral

(1)

Apprentissage: cours 7

Mod´elisation probabiliste, maximum de vraisemblance

Simon Lacoste-Julien 30 octobre 2015

R´esum´e

Mod`ele probabiliste pour la r´egression et la classification. Maximum de vraisemblance. Divergence de Kullback-Leibler.

Principe : proposer un mod`ele probabiliste des donn´ees. D´eterminer les param`etres du mod`ele en utilisant leprincipe du maximum de vraisemblance, pr´edire grˆace au mod`ele obtenu. Avant de consid´erer des mod`eles impliquant des entr´ees et des sorties, on consid`ere un mod`ele de donn´ees simple.

Soitµune mesure de r´ef´erence surY (la mesure de comptage surN, la mesure de Lebesgue surR).

D´efinition 1. (Mod`ele param´etrique de distributions) Soit Θ⊂Rpun ensemble de param`etres. On appelle mod`eleP un ensemble de lois de probabilit´es `a valeur dansY, poss´edant une densit´e par rapport `a la mesure de r´ef´erence surY et index´es par Θ :P={pθdµ|θ∈Θ}

Exemple 1. Mod`eles Binomial, Multinomial, Gaussien univari´e et multivari´e.

D´efinition 2. (Vraisemblance) Soit une donn´eey∈ Y. On appellevraisemblance la fonctionθ7→pθ(x) On consid`ere un ensemble d’entraˆınement i.i.d. y1, . . . , yn (dans ce contexte aussi´echantillon). La vrai- semblance de l’ensemble d’entraˆınement est

L(θ) := Πni=1pθ(yi)

1 Principe du maximum de vraisemblance

Principe : un bon choix de param`etre est un choix de param`etre qui maximise la probabilit´e des donn´ees observ´ees, i.e. qui maximise la vraisemblance.

— principe du `a Sir Ronald Fisher

— valid´e a posteriori par les bonnes propri´et´es du maximum de vraisemblance

— `A noter que maximiser la vraisemblance est ´equivalent `a maximiser lelogde la vraisemblance car log est une fonction strictement monotone.

1.1 Reformulation en terme de risque

Ici, nous sommes dans le cadre de l’estimation de densit´e (´etant donn´ees des observations, nous voulons identifier la distribution qui a g´en´er´e les donn´ees). Les actions possibles sont doncA= Θ ; une action aest de choisir une distributionpθ. La perte standard utilis´ee dans ce cadre est le n´egatif de la log-vraisemblance

`(θ, y) =−log(pθ(y)) (appel´ee aussiperte-log). Le risque associ´e est alors R(θ) =−E[ log(pθ(Y))]

1

(2)

En particulier siY ∼pθ0dµpourθ0∈Θ alors la le param`etre cible estθ0. Le risque empirique est alors par d´efinition

Rbn(θ) =−1 n

n

X

i=1

log(pθ(yi))

Le principe de minimisation du risque empirique co¨ıncide alors avec le principe du maximum de vraisemblance de Fisher.

1.2 Divergence de Kullback-Leibler

Consid´erons l’exc`es de risque (en supposant que les donn´ees sont g´en´er´es `a partir depθ0) : R(θ)− R(θ0) =−Eθ0[ log(pθ(Y))] +Eθ0[ log(pθ0(Y))]

=Eθ0[ log

pθ0(Y) pθ(Y)

] =:KL(pθ0||pθ) KL(p||q) est ladivergence de Kullback-Leibler :

KL(p||q) :=

Z

Y

p(y) logp(y) q(y)dµ(y) Propri´et´es:

— KL(p||q)>0 (par Jensen).

— KL(p||p) = 0 (et donc on voit pourquoiθ0 minimisait le risque).

— KL n’est pas une m´etrique (non-sym´etrique, pas d’in´egalit´e triangulaire, etc.), mais est souvent in- terpr´et´ee comme une distance g´en´eralis´ee sur les distributions.

— Avec un abus de notation, on peut ´ecrire la minimisation du risque empirique pour la perte-log avec la KL, o`u ˆpn est la distribution empirique :

min

θ∈ΘKL(ˆpn||pθ).

1.3 Exemples de maximum de vraisemblance

On consid`ere les mod`eles de Bernoulli, multinomial et gaussien univari´e et multivari´e.

Exercice 1. Calculer l’estimateur du maximum de vraisemblance pour ces mod`eles.

1.3.1 Surapprentissage dans le mod`ele multinomial

Pour le mod`ele multinomial : chaque observationYi est une variable discr`ete qui peut prendrekvaleurs.

On l’encode avec un vecteuryi∈ {0,1}k tel queyij = 1 siYi prend la valeurj et 0 autrement (pourj dans {1, . . . , k}). Le mod`ele multinomial yi ∼Mult(π,1) donne la probabilit´e aux vecteursyi valides (donc une seule entr´ee ´egale `a 1) de :p(yi) =Qk

j=1πyjij. Soit nj := Pn

i=1yij le nombre de fois que l’option j a ´et´e observ´ee dans les donn´ees. L’estimateur du maximum de vraisemblance est :

ˆ πj= nj

n.

Si le nombre d’optionskest ´elev´e (par exemple, on pourrait mod´eliser la probabilit´e des mots dans un texte ; chaque mot est une option ; donc k peut facilement ˆetre dans les centaines de milliers), i.e. p = k > n, alors plusieurs options ne sont pas observ´ees et donc on estime leur probabilit´e `a z´ero. La perte-log pour ces options est infinie ; le mod`ele est dans le surapprentissage ! Le maximum de vraisemblance surapprend quandp > n.

Pour le mod`ele multinomial, on peut r´egler se probl`eme en r´egularisant. Une approche est avec lam´ethode bay´esienneavec un `a priori sur les param`etresp(θ) et en utilisant le maximum `a-post´eriori argmaxθp(θ|Dn) = argmaxθp(Dn|θ)p(θ) (avec la r`egle de Bayes) plutˆot que le maximum de vraisemblance argmaxθp(Dn|θ). Les m´ethodes bay´esiennes donnent souvent des estimateurs avec de bonnes propri´et´es fr´equentistes.

2

(3)

1.4 Mod` eles conditionnels

La formulation s’´etend au cas de paires de donn´ees d’entr´ees et de sortie.

Mod`ele g´en´eratif :

R(θ) =−E[ log(pθ(X, Y))] Rbn(θ) =−1 n

n

X

i=1

log(pθ(xi, yi))

Mod`ele conditionnel :

R(θ) =−E[ log(pθ(Y|X))] Rbn(θ) =−1 n

n

X

i=1

log(pθ(yi|xi))

Mod`ele probabiliste pour la r´egression lin´eaire (mod`ele conditionnel)

On consid`ere la mod´elisation probabiliste d’un couple entr´ee sortie (X, Y) avec X = Rp et Y = R Pr´ecis´ement on ne mod´elise que la loi conditionnelle de Y sachant X comme ´etant Y = w>X +ε avec ε∼ N(0, σ2) pour les param`etresθ= (w, σ2)∈Rp×R+. La log-vraisemblanceconditionnelledu mod`ele est

Rbn(θ) =−1 n

n

X

i=1

log(pθ(yi|xi)) = 1 2nσ2

n

X

i=1

(yi−w>xi)2+1

2log(2πσ2).

L’estimateur du maximum de vraisemblance enw est donc celui de la r´egression lin´eaire.

Exercice 2. Calculer l’EMV deσ2

3

Références

Documents relatifs

Or, il est bien document´ e qu’ins´ erer un grand nom- bre de variables explicatives dans un mod` ele peut rendre l’ensemble des param` etres beaucoup plus significatifs qu’ils

Certains param`etres d’entr´ee de ce mod`ele sont al´eatoires, de lois connues, et ind´ependants (il s’agit de param`etres mat´eriaux et de param`etres g´eom´etriques). La figure

Dans la section 2.5, nous avons mis en ´evidence un probl`eme li´e `a l’utilisation du maximum de vraisemblance sur un mod`ele approch´e, nous allons voir `a pr´esent, en guise

Nous avons combin´ e les algorithmes EM et de Newton pour estimer les param` etres des mod` eles, puis utilis´ e notre crit` ere p´ enalis´ e pour s´ electionner le nombre de

Certains param`etres d’entr´ee de ce mod`ele sont al´eatoires, de lois connues, et ind´ependants (il s’agit de param`etres mat´eriaux et de param`etres g´eom´etriques). La figure

Dans ce travail, nous allons ´ etudier nombreux probl` emes de l’approche bay´ esienne pour les mod` eles complexes: la d´ efinition d’une fonction de vraisemblance pour les

Déterminer un estimateur de λ par la méthode du maximum de vraisemblance.. Déterminer un estimateur de p par la méthode du maximum

Ce mod` ele nous permet de pr´ edire les zones d’instabilit´ es en fonction de trois param` etres qui sont apparus comme ´ etant les plus influents ` a savoir : l’angle