• Aucun résultat trouvé

3.2.1 El´´ ements de d´efinitions

Nous appelons “vraisemblance” d’un param`etre ✓ (qui peut ˆetre multidimensionnel), sachant une r´ealisation x d’une loi statistique, la probabilit´e d’observer cette r´ealisation sachant la valeur ✓ de ce param`etre. Elle est not´ee :

L(✓|x) = P (x|✓).

On appellera donc “fonction de vraisemblance” la fonction de ✓ f(x) =L(✓|x), `a x fix´e. En d’autres termes, cette fonction d´etermine, sous un mod`ele, dans quelle mesure le param`etre

1. Les d´efinitions donn´ees dans cette section sont bas´ees sur le livre Probabilit´es, analyse des donn´ees et statistique de Gilbert Saporta (2006).

✓ fix´e pour ce mod`ele explique les donn´ees x.

Ainsi, `a x fix´e, la fonction ✓7! f(x) d´ecrit une surface, appel´ee “surface de vraisemblance”. Bien entendu, il n’est pas toujours possible de repr´esenter cette surface : tout d´epend de la dimension de l’espace dans lequel ✓ est d´efini, i.e. le nombre de param`etres du mod`ele. Nous pouvons faire l’analogie avec les paysages adaptatifs vus plus haut : nous appellerons par la suite une telle surface un “paysage de vraisemblance”.

Le probl`eme du maximum de vraisemblance, ou ML (Maximum Likelihood ) est un probl`eme d’optimisation : il consiste `a rechercher le maximum de la fonction de vraisemblance, i.e. la probabilit´e maximum de la r´ealisation observ´ee x, ce qui revient `a rechercher le param`etre ✓ optimal, expliquant le mieux les donn´ees. Dans certains cas, il est possible de r´esoudre analytiquement ce probl`eme. Notons que puisque la vraisemblance est une probabilit´e condi-tionnelle, elle est sup´erieure `a 0. Il est donc ´equivalent de maximiser la vraisemblance et la log-vraisemblance. Si ce n’est pas possible, il faut estimer ce maximum de vraisemblance, en explorant le paysage de vraisemblance d´efini plus haut et en recherchant ses maxima.

Jusqu’ici, nous consid´erions que tout l’information sur ✓ provient des donn´ees x. Or, si nous avons une des connaissances a priori sur ✓ sous la forme d’une densit´e a priori ⇡(✓) appel´ee prior, il est possible de “mettre `a jour” ce prior grˆace `a notre connaissance des donn´ees x et obtenir ce qu’on appelle la densit´e a posteriori ⇡(✓|x). Le th´eor`eme de Bayes, appliqu´e `a notre cas pr´ecis de vraisemblance, donne en e↵et :

P (✓|x) = P (xP (x)|✓)P (✓) o`u P (x) =R

P (x, ✓) d✓ =R

P (x|✓)P (✓) d✓ est une constante de normalisation.

Nous reconnaissons dans cette formule la vraisemblance P (x|✓) et pouvons ainsi, `a partir d’une connaissance a priori sur les param`etres, obtenir une connaissance a posteriori sur ces param`etres, en regard de l’information que nous avons par les donn´ees. En pratique, pour un jeu de donn´ees x fix´e, la connaissance de la vraisemblance du param`etre ✓ et la celle a priori sur ✓ nous permettent de mettre `a jour notre connaissance sur ces param`etres, `a la lumi`ere des donn´ees observ´ees. Par exemple, si nous n’avons aucune connaissance sur ✓, un prior uniforme est appropri´e, puisqu’il n’apporte aucune information sur le param`etre : celui-ci peut prendre n’importe quelle valeur, avec une probabilit´e ´egale. Ainsi, `a l’aide d’une r´ealisation donn´ee x, la vraisemblance de ✓ sachant x permet `a l’aide du th´eor`eme de Bayes d’apporter de l’information suppl´ementaire sur ✓ et donc de mettre `a jour sa distribution sous la forme d’une loi a posteriori. Dans le cas o`u nous avons une meilleure appr´ehension

de ✓, ce prior peut par exemple prendre la forme d’une loi normale, dont la variance sera d’autant plus faible que notre connaissance est pr´ecise.

Enfin, si ✓ est de dimension n, en int´egrant sur n 1 de ses param`etres, nous pouvons obtenir ce que nous appelons distribution marginale pour le dernier param`etre libre. Par exemple, pour une fonction `a trois param`etres f (x, y, z), la distribution marginale correspondant `a x est : M arg(x) = Z y Z z f (x, y, z)dydz

Dans le cas o`u cette loi marginale n’est pas calculable analytiquement, il est possible de l’estimer num´eriquement en projetant ces n 1 param`etres sur l’axe correspondant `a la variable concern´ee.

3.2.2 Estimer num´eriquement le maximum

Il existe plusieurs m´ethodes permettant d’explorer le paysage de vraisemblance dans le but de rep´erer ce maximum. Une premi`ere fa¸con “na¨ıve” consiste `a choisir un point de d´epart, puis d’explorer le paysage de proche en proche, en ´etudiant tous les voisins de ce point et en choisissant celui qui renvoie la meilleure vraisemblance. `A partir de ce point, on r´eit`ere le proc´ed´e, et ainsi de suite, jusqu’`a atteindre un point meilleur que tous ses voisins, qui sera consid´er´e comme le maximum (mais qui peut ˆetre un maximum local). Encore une fois, cette m´ethode est tr`es coˆuteuse en temps de calcul, puisque le nombre de voisins `a explorer explose avec l’augmentation du nombre de param`etres.

Il existe d’autres m´ethodes plus efficaces que cette recherche par voisin, qui permet de limiter l’e↵et de l’augmentation du nombre de param`etres. L’une d’entre elles consiste, `a partir d’un point de d´epart, `a calculer le gradient en ce point, c’est `a dire la direction de la pente la plus ´elev´ee autour de celui-ci, de la fa¸con suivante, pour une fonction f (x1, x2, x3, ..., xn), o`u n2 N est le nombre de param`etres :

rf(x1, x2, x3, ..., xn) = (f (x1+dx1,x2,x3,...,xn) f (x1 dx1,x2,x3,...,xn)

2dx1 , ...f (x1,x2,x3,...,xn+dxn) f (x1,x2,x3,...,xn dxn)

2dxn )

Ce gradient nous donne la direction optimale `a suivre dans notre recherche du maximum de la surface. Apr`es avoir trouv´e le pic de vraisemblance suivant cette direction, nous r´eit´erons alors le proc´ed´e en calculant un nouveau gradient `a partir de ce point, et ainsi de suite, jusqu’`a obtenir un maximum de vraisemblance, i.e. un point autour duquel la pente est toujours n´egative.

Notons que dans le cas o`u la surface n’est pas uni-modale, c’est `a dire qu’elle poss`ede plusieurs pics, il faut prendre plus de pr´ecautions dans le but d’´eviter d’atteindre un maximum local, et ainsi manquer le v´eritable pic de vraisemblance. Il existe d’autres m´ethodes ou heuristiques permettant d’´eviter de genre de probl`emes, que nous n’avons pas ´etudi´es au cours de cette th`ese.

3.2.3 Echantillonner num´´ eriquement le paysage

La recherche du maximum de vraisemblance n’est pas toujours la meilleure solution. En e↵et, elle d´epend tr`es largement de la forme du paysage de vraisemblance consid´er´e. Si ce paysage ne poss`ede qu’un seul pic tr`es marqu´e, alors, en e↵et, son maximum est tr`es informatif, puisqu’il correspond `a un point “meilleur” que tous les autres, sans ambigu¨ıt´e. Imaginons un paysage pour lequel plusieurs points sont `a une altitude proche, formant un plateau. Son maximum sera alors noy´e parmi ses voisins, n’´etant meilleur que de fa¸con n´egligeable. Il n’est donc que tr`es peu informatif, et les param`etres correspondant `a deux extr´emit´es oppos´ees de ce plateau sont quasiment ´equivalents, mˆeme s’ils sont tr`es di↵´erents. ´Evidemment, plus ce plateau est vaste, moins ce maximum est informatif. Il en va de mˆeme dans le cas o`u la surface n’admet non pas un unique pic, mais plusieurs. Dans cette situation, comme nous l’avons mentionn´e plus haut, nous courons le risque de capturer un maximum local, sans possibilit´e de s’en extraire pour atteindre le maximum global.

Dans ces cas, l’´echantillonnage du paysage est une m´ethode qui nous permet d’obtenir bien plus d’informations pertinentes quant au comportement de la fonction de vraisemblance pour l’ensemble des param`etres possibles. Il consiste `a ´etablir un ensemble de points recouvrant le paysage, au pro rata de la vraisemblance : le nombre de points ´echantillonn´e est plus important dans les r´egions du paysages o`u l’altitude (la vraisemblance) est la plus ´elev´ee. Ainsi, les r´egions o`u l’´echantillonnage est le plus dense sont les zones du paysage o`u la vrai-semblance est g´en´eralement plus ´elev´ee, ce qui permet de pallier efficacement les probl`emes mentionn´es plus haut. En particulier, concernant les plateaux, nous aurons une densit´e ´elev´ee et homog`ene sur ceux-ci, et les di↵´erentes zones les plus denses correspondront aux di↵´erents maxima locaux.

Nous avons utilis´e, pour ce travail de th`ese, une m´ethode de Monte-Carlo par chaˆınes de Markov (MCMC, pour Markov Chain Monte-Carlo) assez classique (Metropolis et Ulam, 1949), mettant en œuvre une chaˆıne de Markov par l’algorithme de Metropolis-Hastings (Metropolis et al., 1953). Encore une fois, nous partons d’un point de d´epart choisi soit arbitrairement, soit par le biais d’une heuristique permettant de se placer d`es le d´epart au

niveau d’une r´egion “int´eressante” du paysage, par exemple en appliquant tout d’abord une recherche de maximum de vraisemblance, et consid´erant ce maximum comme notre point de d´epart. La marche al´eatoire est ensuite d´etermin´ee par l’algorithme suivant : consid´erons un point X = (x1, x2, ..., xn)

— Soit un voisin Y = (y1, y2, ...yn) al´eatoire de X

— Si f (Y ) > f (X) alors le nouveau point courant choisi est Y , sinon

— Soit r une variable al´eatoire tir´ee uniform´ement dans l’intervalle [0; 1], si f (X)f (Y ) < r alors Y est le nouveau point courant, sinon nous conservons X

— R´eit´erer `a partir du nouveau point courant

En pratique, nous laissons tourner le MCMC sans prendre en compte les premiers points (burn in), dans le but d’´eviter de biaiser notre ´echantillonnage par le choix du point de d´epart. Ce burn in est de longueur variable, qui peut aller d’une centaine de points `a plusieurs centaines de milliers de points ´elimin´es. Similairement, nous ne prenons en compte qu’un point tous les k points renvoy´es par l’algorithme, o`u encore une fois, k peut ˆetre tr`es variable. Ainsi, l’´echantillonnage est robuste, mais cette robustesse est aussi (et surtout) d´etermin´ee par la longueur de la chaˆıne : plus nous ´echantillonnons de points, meilleur sera notre aper¸cu du paysage.

Cet algorithme nous assure ainsi d’´echantillonner le paysage au pro rata de la vraisemblance, ce qui nous donne un bon aper¸cu de cette surface, sans se contenter de rep´erer son maximum, parfois peu informatif. En fixant tous les param`etres sauf un, cette m´ethode permet aussi de d´eterminer la distribution marginale pour ce param`etre. Il est important de noter que cette m´ethode est beaucoup plus coˆuteuse en temps de calcul que la recherche du maximum de ce paysage, il convient donc de consid´erer ce point avant de choisir la m´ethode `a appliquer.