• Aucun résultat trouvé

5.4 Article accept´e dans le Biometrical Journal

5.5.3 Estimation non param´etrique du seuil optimal

5.5.3.2 Approche semi-param´etrique pr´edictive

Pour d´eterminer la probabilit´e a posteriori qu’une valeur de marqueur soit sup´erieure `a un seuil donn´e sans remplacer cette probabilit´e par une estimation empirique, il est n´ecessaire de connaˆıtre la distribution du marqueur dans le groupe consid´er´e. N´eanmoins, il existe des m´ethodes non param´etriques pour la mod´elisation d’une distribution de probabilit´e, comme les processus de Dirichlet introduits dans le chapitre quatre. A chaque it´eration, la distribution des valeurs de marqueurs chez les malades et les non malades peut ˆetre mod´elis´ee grˆace `a un processus de Dirichlet ; une fois les param`etres du processus de Dirichlet ´echantillonn´es, il est possible de d´eterminer la probabilit´e a posteriori qu’une valeur de marqueur soit sup´erieure ou inf´erieure `a un seuil. Dans ce cas, les fonctions d’utilit´e construites correspondent bien `a des pr´edictions a posteriori de l’utilit´e ; les valeurs de seuil optimal ´echantillonn´ees constituent bien la distribution a posteriori du seuil optimal maximisant l’utilit´e esp´er´ee.

5.5. Compl´ements `a l’article 158 Les processus de Dirichlet conduisant `a des distributions discr`etes, la distribution des marqueurs a ´et´e d´ecrite par un m´elange de distributions normales dont les esp´erances ´etaient distribu´ees selon un processus de Dirichlet :

nadirjk|y ,→ N (φjk, σ2j) φjk|Gφj ,→ Gφj

Gφj ,→ DP(Mj, G0j)

o`u nadirjk est la valeur du nadir de PSA du ki`eme patient du groupe j (malade ou non malade), sachant ses mesures de PSA. Les m´elanges de processus de Dirichlet correspondent `a une ap-proche semi-param´etrique. Une loi normale (N (mj, σ2

µj)) a ´et´e consid´er´ee comme esp´erance a priori de la distribution des valeurs de φj (G0j). Des a priori non informatifs ont ´et´e utilis´es pour l’ensemble des param`etres du m´elange de processus de Dirichlet :

mj ,→ N (c0j, 1/c1j) c0j = 0 c1j = 0, 001 1/σ2 µj ,→ Gamma(δ0j/2, δ1j/2) δ0j = 0, 001 δ1j = 0, 001 1/σ2 j ,→ Gamma(ε0j/2, ε1j/2) ε0j = 0, 001 ε1j = 0, 001 Mj ,→ Gamma(α0j, α1j) α0j = 1 α1j = 1

A une it´eration i de la chaˆıne MCMC, la probabilit´e qu’une valeur de nadir de PSA pour un nouveau patient du groupe j soit inf´erieure `a un seuil donn´e c est donn´ee par :

P ( ^nadirj ≤ c) = Pnj i=1Φ  c−φjki σ2 j  + MjΦ  c−mj σ2 µj  Mj+ nj

φjki correspond `a la valeur de φ ´echantillonn´ee pour le ki`eme patient du groupe j `a la i`eme it´eration de la chaˆıne MCMC ; Φ d´enote la fonction de r´epartition de la loi normale centr´ee r´eduite. Cette formule permet le calcul de la sensibilit´e et de la sp´ecificit´e pr´edites `a posteriori, donc la construction de la fonction d’utilit´e.

5.5. Compl´ements `a l’article 159

3 Simulations dans le cas de lois normales

Un ensemble de simulations a ´et´e r´ealis´e afin de s’assurer de la validit´e de cette m´ethode. Elles reprennent le mˆeme sc´enario que celui d´ecrit dans l’article accept´e dans le Biometrical Jour-nal, avec un marqueur dynamique suivant une loi normale chez les non malades (N (−0, 3; 0, 072)) et chez les malades (N (−0, 1; 0, 072)).

Deux cas de figure ont ´et´e analys´es : un cas o`u le nombre total de patients ´etait de 100 (50 patients par groupe) et un cas avec 200 patients (100 patients par groupe). A chaque fois, 5000 simulations ont ´et´e r´ealis´ees, permettant l’estimation du seuil optimal et de son intervalle de cr´edibilit´e par la m´ethode Bay´esienne param´etrique, la m´ethode Bay´esienne semi-param´etrique propos´ee pr´ec´edemment et la m´ethode Bay´esienne non param´etrique propos´ee dans l’article, appel´ee par la suite m´ethode non param´etrique empirique.

A l’issue de ces simulations, le biais relatif li´e `a l’estimation du seuil optimal par le mode, la moyenne et la m´ediane de la distribution a posteriori, ainsi que la probabilit´e de couverture et la largeur de l’intervalle de cr´edibilit´e `a 95 % ont ´et´e calcul´es (tableau 5.5).

Tableau 5.5 – Comparaison des r´esultats des m´ethodes param´etrique, semi-param´etrique et non param´etrique empirique.

Biais relatif PC Largeur IC

N M´ethode Mode M´ediane Moyenne HDP Quant HDP Quant

100 Param´etrique -0,001 -0,002 -0,002 0,936 0,945 0,031 0,031 SP? -0,001 -0,001 -0,001 0,942 0,946 0,032 0,032 NP§ -0,009 -0,011 -0,011 0,799 0,819 0,037 0,038 200 Param´etrique -0,002 -0,002 -0,002 0,943 0,949 0,022 0,022 SP? -0,001 -0,001 -0,001 0,946 0,951 0,023 0,023 NP§ -0,001 -0,003 -0,002 0,862 0,884 0,033 0,034

? SP : semi-param´etrique ;§NP : non param´etrique ;

PC : probabilit´e de couverture ; IC : intervalle de cr´edibilit´e.

Ces r´esultats montrent que le biais relatif li´e `a l’estimation du seuil est faible (inf´erieur `a 0,2 %) et similaire avec la m´ethode param´etrique et la m´ethode semi-param´etrique. De mˆeme, la probabilit´e de couverture est acceptable pour ces deux m´ethodes, mˆeme pour N = 100 ; les largeurs des intervalles de cr´edibilit´e sont proches. Ainsi, les r´esultats obtenus avec la m´ethode

5.5. Compl´ements `a l’article 160

semi-param´etrique sont aussi bons que ceux obtenus avec la m´ethode param´etrique lorsque les distributions du marqueur suivent des lois connues.

3 Simulations dans le cas de m´elanges de lois normales

Dans un second temps, la m´ethode semi-param´etrique a ´et´e ´evalu´ee lorsque la distribution du marqueur suit, dans l’un des deux groupes, un m´elange de lois. Plus pr´ecis´ement, le cas o`u le marqueur suit un m´elange de deux lois normales chez les malades a ´et´e consid´er´e, la distribution chez les malades ´etant souvent un m´elange de lois refl´etant une h´et´erog´en´eit´e des patients par rapport au stade de la maladie. Pour simplifier les calculs, dans ces simulations, le marqueur ne correspondait pas `a un marqueur calcul´e `a partir des param`etres d’une trajectoire, mais `a un marqueur directement mesur´e.

Chez les malades, ce marqueur a ´et´e g´en´er´e selon une loi normale N (−0, 3 ; 0, 07) ; chez les non malades, il a ´et´e g´en´er´e selon un m´elange de lois normales : 0, 5 × N (0, 05; σ2

11) + 0, 5 × N (−0, 25; σ122 ). Trois param`etres ont ´et´e modifi´es au cours des simulations :

– le nombre total de patients, N, prenant les valeurs 200 et 400, avec `a chaque fois autant de patients dans les groupes malades et non malades ;

– les ´ecart-types des deux lois normales constituant le m´elange de distributions chez les malades : σ11= {0, 07 ; 0, 08 ; 0, 1} et σ12= {0, 07 ; 0, 05}.

Pour chaque jeu de param`etres, 5000 simulations ont ´et´e r´ealis´ees, permettant le calcul du biais relatif li´e aux diff´erentes estimations ponctuelles du seuil, des probabilit´es de couverture et des largeurs des intervalles de cr´edibilit´e (tableau 5.6).

Le biais relatif des estimations ponctuelles diminue plus le nombre de patients augmente ; il est inf´erieur `a 10 % pour 200 patients et inf´erieur `a 8 % pour 400 patients, le mode de la distribution a posteriori conduisant en g´en´eral `a un biais un peu plus faible. La probabilit´e de couverture des intervalles de cr´edibilit´e tourne autour de 95 % ; les r´esultats obtenus sont similaires avec la m´ethode des quantiles ou la m´ethode HDP, de mˆeme en termes de largeur d’in-tervalles de cr´edibilit´e. La nouvelle m´ethode Bay´esienne semi-param´etrique a donc globalement des propri´et´es tout `a fait acceptables.

Ainsi, lorsque la distribution du marqueur ne correspond pas `a une loi connue, il est possible d’utiliser la m´ethode Bay´esienne non param´etrique empirique d’estimation du seuil pour des ´echantillons suffisamment grands. Pour des ´echantillons de taille mod´er´ee, la m´ethode Bay´esienne semi-param´etrique fournit de bons r´esultats, mˆeme si elle est plus difficile `a mettre en

5.5. Compl´ements `a l’article 161 Tableau 5.6 – R´esultats de la m´ethode semi-param´etrique dans le cas de m´elanges de lois chez les malades.

Biais relatif PC Largeur IC

n σ11 σ12 Mode M´ediane Moyenne HDP Quant HDP Quant

400 0,07 0,07 0,003 0,034 0,021 0,949 0,952 0,065 0,068 400 0,08 0,05 0,036 0,083 0,053 0,945 0,931 0,096 0,105 400 0,10 0,05 0,028 0,064 0,042 0,947 0,928 0,080 0,086 200 0,07 0,07 0,011 0,051 0,034 0,938 0,950 0,087 0,091 200 0,08 0,05 0,055 0,105 0,075 0,930 0,924 0,113 0,120 200 0,10 0,05 0,043 0,084 0,061 0,929 0,917 0,096 0,102

PC : probabilit´e de couverture ; IC : intervalle de cr´edibilit´e.

œuvre ; cette m´ethode constitue une solution plus prudente vis-`a-vis de la m´ethode param´etrique, car il y a souvent une incertitude sur le choix de la distribution du marqueur.

Cette derni`ere approche permet d’obtenir une mod´elisation tr`es souple des distributions des marqueurs ; pour autant, il se peut que la distribution obtenue refl`ete des caract´eristiques propres uniquement `a l’´echantillon consid´er´e et non `a la population globale pour laquelle le mar-queur est destin´e. Il faut donc trouver un ´equilibre entre souplesse et capacit´e `a ˆetre g´en´eralisable `a la totalit´e de la population dont est issu l’´echantillon.

3 Application au nadir de PSA

La m´ethode semi-param´etrique a ´et´e appliqu´ee `a l’estimation du seuil optimal du nadir de PSA et `a son intervalle de cr´edibilit´e. Les r´esultats obtenus pour r = 0, 5 sont pr´esent´es dans le tableau 5.7, ainsi que ceux qui avaient ´et´e obtenus en utilisant des distributions log normales ou des valeurs extrˆemes.

Le mode, la m´ediane et la moyenne de la distribution a posteriori du seuil optimal obtenus avec la m´ethode semi-param´etrique se situent entre ceux obtenus par la m´ethode param´etrique avec des lois log normales et des valeurs extrˆemes. Les intervalles de cr´edibilit´e sont plus larges qu’avec la m´ethode param´etrique, ce qui est assez coh´erent.

Globalement, quelle que soit la m´ethode retenue, les r´esultats obtenus en termes d’esti-mation ponctuelle sont assez similaires.

5.6. Bilan du chapitre 5 162