• Aucun résultat trouvé

5.2 Estimation du seuil optimal pour un marqueur fixe

Le probl`eme de l’estimation du seuil optimal d’un marqueur fixe en utilisant l’approche pr´edictive est un probl`eme d’optimisation de fonction complexe, faisant intervenir des int´egrales. De mani`ere g´en´erale, la fonction `a optimiser peut ˆetre not´ee :

U?(c) = E(V (c, θ)) =Z Θ

V (c, θ)P (θ|y) dθ (5.4)

o`u V est l’utilit´e lorsque les param`etres θ sont connus. Le calcul de cette int´egrale peut ˆetre effectu´e `a l’aide de la m´ethode de Monte Carlo (partie A.4), en ´echantillonnant des valeurs de θ dans leur distribution a posteriori P (θ|y), puis en approximant l’int´egrale par la moyenne des fonctions d’utilit´e calcul´ees pour les diff´erents ´echantillons de param`etres.

Deux approches sont envisageables ensuite pour estimer le seuil optimal :

– retenir le seuil qui maximise la moyenne des fonctions d’utilit´e (maximisation de l’utilit´e esp´er´ee moyenne) ;

– retenir la moyenne des seuils optimaux obtenus pour chacune des fonctions d’utilit´e (moyenne des maxima des fonctions d’utilit´e).

Ces deux approches sont d´etaill´ees par la suite.

5.2.1 Maximisation de l’utilit´e esp´er´ee moyenne

Le principe de cette m´ethode est de retenir comme seuil optimal le seuil qui maximise la moyenne des fonctions d’utilit´e sur les diff´erents ´echantillons issus de la distribution a posteriori des param`etres de distribution des marqueurs. Reste `a montrer que ce seuil estim´e converge vers le vrai seuil, puis `a obtenir un intervalle de confiance de cette estimation ponctuelle.

5.2.1.1 Convergence en probabilit´e du maximum de la fonction d’utilit´e moyenne Montrer que le seuil qui maximise la moyenne des fonctions d’utilit´e converge vers le vrai seuil n´ecessite de faire un certain nombre d’hypoth`eses sur la chaˆıne MCMC permettant l’´echantillonnage des valeurs de param`etres dans leur distribution a posteriori. Cette partie est assez technique. L’objectif n’est pas d’expliciter de fa¸con formelle les propri´et´es des chaˆınes MCMC, mais plutˆot d’en donner une id´ee relativement intuitive. Une approche plus formelle peut ˆetre trouv´ee dans Gilks et al. (1996) et Robert et Casella (1999).

5.2. Estimation du seuil optimal pour un marqueur fixe 109 On consid`ere pour le param`etre θ une distribution de probabilit´e φ d´efinie sur le domaine Θ. Une chaˆıne MCMC est dite irr´eductible si elle est capable d’atteindre n’importe quel point de Θ pour lequel φ(θ) > 0. Une chaˆıne est p´eriodique si certaines portions de l’espace ne peuvent ˆetre visit´ees qu’`a intervalle de temps r´egulier ; dans le cas contraire, la chaˆıne est dite ap´eriodique. Une chaˆıne irr´eductible peut en principe atteindre n’importe quel point de l’espace pour lequel φ(θ) > 0, mais cela ne veut pas dire qu’elle l’atteindra forc´ement. Si la probabilit´e que la chaˆıne revienne infiniment souvent en tous points du domaine tels que φ(θ) > 0 est sup´erieure `a 0 – et vaut 1 `a l’exception de certaines valeurs de θ d´ependant de φ – alors la chaˆıne est dite r´ecurrente. Une distribution φ? est dite stationnaire pour la chaˆıne si, lorsque la chaˆıne part d’un point o`u les valeurs de θ sont distribu´ees selon φ?, alors les valeurs de θ parcourues au cours des it´erations sont distribu´ees selon φ?. Une chaˆıne r´ecurrente irr´eductible est dite r´ecurrente positive si elle admet une distribution stationnaire. Si la probabilit´e de revenir infiniment souvent en tous points de l’espace vaut 1, alors la chaˆıne est dite Harris r´ecurrente. Une chaˆıne ergodique est une chaˆıne irr´eductible, ap´eriodique et Harris r´ecurrente positive.

La loi forte des grands nombres s’applique aux chaˆınes ergodiques, c’est `a dire que si

f = R

X g(x)dP (x) et que (x1, . . . , xm) est un ´echantillon de P (x) obtenu grˆace `a une chaˆıne MCMC ergodique, alors ¯fm = Pm

i=1g(xi)/m converge presque sˆurement vers f pour m grand. Dans le cas de l’estimation du seuil optimal d’un marqueur, si la chaˆıne MCMC dont sont issus les ´echantillons de la distribution a posteriori des param`etres de distribution des marqueurs dans les deux groupes est ergodique, alors pour toute valeur seuil c, la fonction d’utilit´e moyenne sur l’ensemble des valeurs de param`etres ´echantillonn´ees converge presque sˆurement vers la vraie valeur de la fonction d’utilit´e en ce point. Ceci ne veut pas dire pour autant que la valeur qui maximise la fonction d’utilit´e moyenne soit la valeur qui maximise la vraie fonction d’utilit´e. Pour montrer ce dernier point, il faut faire appel `a la notion d’hypoconvergence, un type particulier de convergence utilis´e dans les probl`emes d’optimisation (Attouch, 1984 ; Geyer, 1994).

Supposons que V (c, θ) soit une fonction d´efinie sur C × Θ, o`u C est un espace m´etrique s´eparable complet, (C, B, φ) est un espace probabilis´e complet, avec Θ un sous ensemble Bor´elien des espaces m´etriques s´eparables complets. On note :

Un?(c) = 1 m m X i=1 V (c, θi)

et on suppose que la chaˆıne MCMC utilis´ee pour ´echantillonner les valeurs θi, i = 1, . . . , m est ergodique. On suppose ´egalement que pour tout θ ∈ Θ, la fonction V est semi-continue

5.2. Estimation du seuil optimal pour un marqueur fixe 110 inf´erieurement en tout point c pour toutes les valeurs de θ, `a l’exception de quelques valeurs de θ d´ependant de φ et ´eventuellement de c, ainsi que la fonction est continue sup´erieurement en tout point c, `a l’exception de quelques valeurs de θ d´ependant de φ mais ne pouvant pas d´ependre de c cette fois-ci. Dans ce cas, U?

m ´epiconverge vers U? presque sˆurement. La preuve de ce th´eor`eme est donn´ee dans Geyer (1994).

L’int´erˆet de l’hypoconvergence est que, si C est un espace compact, s’il existe un unique minimiseur de U?, not´e c?, et que ˆcm est une s´equence d’ε-maximiseurs de Vm, c’est `a dire tels que :

Um?(ˆcm) ≥ sup

c∈CUm?(c) − εm avec εm → 0, alors ˆcm tend en probabilit´e vers c? et U?

m(ˆcm) tend en distribution vers U?(c?). La preuve de ce th´eor`eme est donn´ee par Attouch (1984).

Ainsi, si les conditions pr´esent´ees ci-dessus sont satisfaites, ce qui est vrai dans de nom-breux cas, alors le seuil qui minimise la moyenne des fonctions d’utilit´e converge vers le seuil minimisant la vraie fonction d’utilit´e. Cette m´ethode est, entre autres, utilis´ee par Wang et Geisser (2005) pour estimer le seuil optimal d’un marqueur lorsque les a priori des param`etres de distribution des marqueurs dans les deux groupes ne sont pas conjugu´es. N´eanmoins, aucun intervalle de confiance de l’estimation obtenue n’est fourni.

5.2.1.2 Intervalle de confiance du maximiseur de la moyenne des fonctions d’utilit´e L’objectif de cette partie est de d´etailler les conditions n´ecessaires pour montrer que √

m(ˆcm− c?) tend asymptotiquement vers une loi normale. La pr´esentation est effectu´ee de mani`ere g´en´erique, en consid´erant que ˆcm et c? peuvent ´eventuellement ˆetre des vecteurs, lors-qu’il faut d´eterminer les valeurs optimales de plusieurs param`etres. Les hypoth`eses suivantes sont suppos´ees valides :

1. le minimiseur de U? est unique et l’espace C contient un voisinage ouvert de c? dans R ; 2. ˆcm converge en probabilit´e vers c?;

3. U?(c) = E(V (c, θ)) peut ˆetre diff´erenci´ee deux fois sous le signe esp´erance ; 4. B = ∇2U?(c?) est d´efinie positive ;

5. √m∇Um(c?) tend en distribution vers une loi normale, N (0, σ2) ; 6. ∇3U?

5.2. Estimation du seuil optimal pour un marqueur fixe 111 Dans ce cas, ∇2U?

m(ˆcm) converge en probabilit´e vers B et √m(ˆcm− c?)→ N (0, BD −1V B−1). Ici, ∇ d´enote le gradient, le vecteur des d´eriv´ees premi`eres partielles ; ∇2 correspond au Hessien, la matrice des d´eriv´ees secondes partielles.

La plupart de ces conditions sont similaires `a celles utilis´ees pour d´emontrer la convergence asymptotique des estimateurs du maximum de vraisemblance vers une loi normale. La derni`ere condition peut ˆetre montr´ee en trouvant une fonction dominante et en utilisant le th´eor`eme de convergence domin´ee qui s’applique ´egalement aux chaˆınes MCMC. B peut ˆetre estim´ee par ∇2U?

m(ˆcm). La seule condition inhabituelle est la cinqui`eme condition, qui est une extension du th´eor`eme central limite au cas des chaˆınes MCMC. Normalement, le th´eor`eme central li-mite ne s’applique que lorsque les ´echantillons sont ind´ependants, ce qui n’est pas le cas des ´echantillons issus d’une chaˆıne MCMC. N´eanmoins, si la chaˆıne MCMC est g´eom´etriquement ou uniform´ement ergodique, alors le th´eor`eme central limite s’applique ´egalement aux chaˆınes MCMC (Gilks et al., 1996). Ces deux derni`eres propri´et´es caract´erisent la vitesse de convergence de la chaˆıne MCMC ; elles sont tr`es difficiles `a d´emontrer, mˆeme pour les chaˆınes MCMC les plus simples. De mˆeme, on notera qu’il est relativement difficile d’obtenir une estimation de σ, puisque les ´echantillons ne sont pas ind´ependants. Deux des principales m´ethodes en vue d’y parvenir sont les m´ethodes des moyennes par lot et des estimateurs par fenˆetre (Gilks et al., 1996).

5.2.1.3 Les limites de la m´ethode de maximisation de la moyenne des fonctions d’utilit´e

L’objectif initial ´etait d’optimiser une fonction faisant intervenir plusieurs int´egrales sur des variables al´eatoires, ces variables correspondant aux param`etres de la distribution des mar-queurs dans les deux groupes. En ´echantillonnant des valeurs dans la distribution a posteriori de ces param`etres grˆace `a une chaˆıne MCMC, il est possible de calculer l’utilit´e esp´er´ee par la m´ethode d’int´egration de Monte Carlo ; sous des conditions rencontr´ees fr´equemment, le maxi-miseur de la fonction ainsi approxim´ee converge vers le maximaxi-miseur de la vraie fonction. Ceci correspond aux m´ethodes de maximisation de Monte Carlo. Elles sont couramment utilis´ees dans les probl`emes d’optimisation complexes (Kall, 1986).

N´eanmoins, il est tr`es rare qu’un intervalle de confiance soit fourni pour ces types de probl`emes, alors que cela est indispensable pour l’estimation du seuil optimal d’un marqueur. Les conditions n´ecessaires pour que l’estimateur du seuil suive une loi normale sont tr`es difficiles `a montrer, mˆeme dans les cas les plus simples. De plus, la validit´e de l’intervalle de confiance ainsi

5.2. Estimation du seuil optimal pour un marqueur fixe 112 construit n’est qu’asymptotique. Ainsi, cette m´ethode n’est pas tr`es adapt´ee pour la construction de l’intervalle de confiance de l’estimation du seuil optimal d’un marqueur. Une autre piste `a ´et´e explor´ee, consistant `a retenir la moyenne des seuils optimaux de chacune des fonctions d’utilit´e. Cette seconde m´ethode est pr´esent´ee ci-apr`es.

Avant de terminer cette partie, on notera que le terme optimisation de Monte Carlo est aussi employ´e pour d´ecrire des m´ethodes d’exploration al´eatoire de la fonction d’utilit´e, notamment par recuit simul´e (Muller, 1999), mais ces m´ethodes ne quantifient pas le degr´e d’impr´ecision des estimations ; elles ne sont donc pas utilisables lorsqu’un intervalle de confiance est d´esir´e.

5.2.2 Moyenne des maximums des fonctions d’utilit´e

Dans le cas de l’estimation du seuil optimal d’un marqueur, la fonction d’utilit´e est donn´ee par :

U?(c) =Z Θ0

Z Θ1

(P (˜y1 > c|θ1) + P (˜y0 ≤ c|θ0) × R)P (θ0, θ1|y) dθ01 (5.5) P (˜y1 > c|θ1) est la probabilit´e pr´edite qu’une valeur de marqueur chez un malade soit sup´erieure au seuil c ; P (˜y0 ≤ c|θ0) correspond `a celle qu’une valeur de marqueur chez un non malade soit inf´erieure ou ´egale au seuil c.

Supposons qu’une chaˆıne MCMC permette d’´echantillonner m valeurs dans la distribution a posteriori des param`etres de distribution du marqueur chez les malades et les non malades d’apr`es les mesures y qui ont ´et´e effectu´ees dans les deux groupes. Alors la fonction (5.5) peut ˆetre approxim´ee par :

Um?(c) = 1 m m X i=1 P (˜y1 > c|θ1i) + P (˜y0 ≤ c|θ0i)R (5.6) Chaque it´eration de la chaˆıne MCMC conduit `a une fonction d’utilit´e. Les fonctions d’utilit´e obtenues sur les m it´erations constituent la distribution a posteriori de la fonction d’utilit´e. A chaque it´eration, il est possible de calculer la valeur de seuil qui maximise la fonction d’utilit´e de l’it´eration en question, soit par une formule explicite, soit par une m´ethode de type Newton-Raphson. Les seuils obtenus sur les m it´erations constituent la distribution a posteriori du seuil optimal. Le mode, la moyenne ou la m´ediane des valeurs correspondent `a des estimations ponctuelles du seuil optimal ; un intervalle de cr´edibilit´e est constructible par la m´ethode des quantiles ou par la m´ethode HDP (annexe A).