Modélisation de risque individuel basée sur le modèle de décompression
dynamique calibré en population
Asya METELKINA
travail en commun avec L. Pronzato and J. Rendas
2 novembre 2015
Modélisation en biologie et statistique de données biomédicales
1 / 24
Observations
On observeXK={X1, . . . ,XK}oùXk= (Sk,Nk,Ak)avec:
le profil de pressionSk:[0,T]→R+,
le nombre de plongéesNk∈Navec le profilSk,
le nombre d’accidents de décompressionAk∈ {1, . . . ,Nk}.
Notre but
Modéliser la probabilitéP(Y=1|Sk)d’accident de décompressionY∈ {0,1}conditionnellement au profil de pressionSk:[0,T]7→R+.
PrédireP(Y=1|S)pour unnouvelprofil de pressionS.
3 / 24
Les bulles de gaz dans le sang à l’origine des accidents.
Ces bulles ne sont pas directement observables, c’est un processus latentt7→V(t).
Des mesures indirectesmS(ti)∈ {0,1,2,3,4}deV(ti)avec ti∈[0,T]ont montré une grande variabilité individuelle pour un mêmeS.
V dépend deSet des paramètresθd’un individu.
Modèle dynamique de décompression (J. Hugon 2010)
Un modèle dynamiqueMbph(θ), système des équations différentielles ordinaires résolue numériquement, calculeV:t7→V(t,S,θ)pour un plongeur des paramètresθ∈Θ, oùΘest un compact deRd
S→ Mbph(θ) →V(.,S,θ)
Distribution desθdans la population (Y. Bennani, 2015) Lesθne peuvent pas être mesurés,variables latentes.
En supposant queθ∼πθsont i.i.d. dans la population, la distribution ˆ
πθa été estimée:
Continue Non-gaussienne
5 / 24
Formalisation du problème d’estimation de risque
SoitY∈ {0,1}une v.a. etθ∼πθ i.i.d., on cherche un modèle paramétriqueMhz(β)de la distribution de risque en population:
P(Y=1|S,θ) =fβ(S,θ), β∈Rd,θ∼πθ i.i.d.
On va supposer que
θsont des paramètres deMbph(θ)etπθest ˆπθestimé.
P(Y=1|S,θ) =P(Y=1|V(.,S,θ)) =pβ(V(.,S,θ)) avecVest calculé parMbph(θ).
βne dépend pas deθ,πθetS.
Modèle paramétrique de risque en population
S−→ Mph(θ),
θ∼πθ −→V∼πV(S)−→Mhz(β) −→pβ(V),V∼πV(S) oùπV(S)est la mesure image deπθsous l’applicationθ7→V(.,S,θ)
Estimation par maximum de vraisemblance
Supposons quepβ:V 7→[0,1]sont fixés pourβ∈B, un compact de RJ. On estimeβpar maximum de vraisemblance:
βˆ=arg max
β∈BLL(S
k,Nk,Ak)Kk=1(β),
LL(β) =C+
K k=1
∑
[AklnP(Y=1|Sk) + (Nk−Ak)ln(1−P(Y=1|Sk))]. oùC=C((Ak,Nk)Kk=1)etP(Y=1|Sk) =Eπθ(pβ(V(,Sk,θ))).
Chaque évaluation deLL(Sk,Nk,Ak)(β)demandeKcalculs de Eπθ(pβ(V(,Sk,θ))).
πθest une distribution continue et non-gaussienne, donc Eπθ(pβ(V(,Sk,θ)))n’a pas de forme analytique.
7 / 24
Approximation Monté-Carlo
Eπθ(pβ(V(,Sk,θ)))≈m1 ∑m
i=1
pβ(V(.,Sk,θi)), θi∼πθ i.i.d.
avec un nombrem∈Nde tirages assez grand.
Le calcul deLL(Sk,Nk,Ak)(β)demandeK×mcalculs deV(,S,θ),i.e.
K×mappels de simulateur deMbph(θ).
Une famille de modèles de variable binaire On considèrepβ(V) =φ(βth(V))avecβ∈RJ et
une fonction d’extraction d’attributs h:V →H ⊂RJ, une fonction delienφ:H →[0,1].
Exemple: modèle de hasardφ(x) =1−e−xpourH ⊂Rd+ où régression logistiqueφ(x) =1+e1−x pourH ⊂Rd.
Il suffit de connaîtreh(V(.,Sk,θi)),k=1, . . . ,K,i=1, . . . ,m.
SoitD=θ0i, . . . ,θ0d une grille régulière ou un plan d’expérience space fillingdedpoints dansΘ=supp(πθ).
Supposons qu’on a calculéV(.,Sk,θ0i)pour toutk=1, . . . ,Ket i=1, . . . ,davecK×dappels deMbph(θ).
Processus Gaussien (krigeage)
Pour chaquej=1, . . .Jetk=1, . . .K, on considère l’application gj,k:θ7→hj(V(.,Sk,θ))
comme une réalisation d’un processus Gaussien:
gj,k∼GP(µj,k(.),σ2j,kKρj,k(., .)) de fonction moyenneµj,k(θ),
de noyau de covarianceKρj,k(θ,θ0)de paramètreρj,k
9 / 24
Choix du modèle de krigeage
S’il n’y a pas de tendance évidente dansθ7→gj,k(θ), on utilise le krigeage ordinaire avecµj,k∈R.
Covariance isotrope Matérn de paramètre de régularitéν∈Z+12 fixé et de paramètre d’échelleρj,k∈R+
Kρj,k(r) = 1 Γ(ν)2ν−1
2√ νr ρj,k
ν
Kν
2√ νr ρj,k
oùr=|θ−θ0|etKν(.)est la fonction de Bessel modifiée d’ordreν.
Quand il n’y a pas de raison de compter quegj,ksont plus que continues, on fixeν=32.
Remarque: La covariance Matérn correspond à l’interpolation par les splines de Sobolev.
On construit l’interpolateur ˆgj,k par la méthodeplug-in,i.e.utilisant des paramètres estimés:
Estimation des paramètres du modèle de krigeage
Estimateur MV ˆµj,ket estimateur MV restreinte ˆρj,k et ˆσj,k.
Meilleur prédicteur linéaire empirique (Santner, Williams & Notz) L’interpolateurplug-ingˆj,k est une solution du système de krigeage dual
ˆ gj,k(.) =
d
∑
i=1
αij,kKρˆj,k(.,θ0i) +µˆj,k avec(α1j,k, . . . ,αdj,k)∈Rdvérifiant:
(
∑di=1αij,kKρˆj,k(θ0l,θ0i) +µˆj,k=gj,k(θ0l)
∑di=1αij,k=0
Lesαij,k, ˆµj,k et ˆρj,k sont calculés une fois. Pour chaque interpolation ˆ
gj,k(.)on ne recalcule queKρˆj,k(.,θ0i)
11 / 24
Espace des noyaux reproductibles
SiKest un noyau symétrique, le produit scalaire des fonctions fx(.) =K(.,x)avecx∈X
(K(.,x),K(.,y))K =K(x,y), x,y∈X
engendre le produit scalaire sur l’espace de combinaisons linéaires finies
K0= ( J
∑
j=1
αjK(.,xj) avec xj∈X, j=1, . . . ,J )
Une fermeture deK0est un espace de Hilbert naturel associé au noyauK, ou l’espace des noyaux reproductiblesassocié àK.
Espace des noyaux reproductibles associé au noyau Matérn
Le noyau de Matérn de paramètre de régularitéνgénère l’espace de SobolevK =W2ν−12(R). Pourν=32, c’est l’espace de Sobolev W1( )des fonctions ( )ayant une dérivée dans ( ).
Erreur d’approximation par le krigeage (Wu & Schaback,1993) Kρun noyau de Matérn de régularitéν.
µ∈R.
Θcompact deRm.
g:Θ→Rtelle queg−µ∈E oùE est l’espace des noyaux reproductibles généré parKρ.
Dune grille régulière de pashdansΘ.
ˆ
gest le meilleur prédicteur linéaire degassocié au modèle gaussienGP(µ,Kρ(., .)).
Sous ces hypothèses, on a
|g−g| ≤ |gˆ −µ|EP(h) avec P(h)≤C(ρ,ν)h2ν Pourν=32, on aP(h)≤C(ρ)h3.
13 / 24
Utilité de l’interpolation par krigeage
Une fois les attributs importants(h1(.), . . . ,hK)sont sélectionnés et des interpolateurs ˆgj,k()sont construits, on peut:
remplacer le modèleMhz(β)par le modèle approché ˜Mhz(β) pour des profilsSk,k=1, . . . ,K:
pβ(V(.,Sk,θ)) =φ
J
∑
j=1
βjhj(V(.,Sk,θ)
!
≈
˜
pβ(V(.,Sk,θ) =φ
J
∑
j=1
βjgˆj,k(θ))
!
calculer la vraisemblance approchée ˜LL(β).
simuler des accidents dans la population virtuelle depuis ˜Mhz(β).
changer de distributionπθ.
Approximation d’estimateur deβpar MCKrige
Estimation par maximum de la vraisemblance approchée par la méthode MCKrige (Monte Carlo+krigeage):
βˆ =arg max
β∈B
LL(β)˜ avec
LL(β) =˜ C+∑Kk=1
Akln(p˜β(Sk)) + (Nk−Ak)ln(1−p˜β(Sk)) .
˜
pβ(Sk) =m1∑ms=1φ
J
∑
j=1
βjgˆj,k(θs)
!
avecθs∼πθi.i.d.
L’optimisation de la vraisemblance est réalisée en deux étapes:
Recherche globale dans une grilleB0:β0=arg maxβ∈B0LL(β),˜ Recherche locale par la méthode de Powell (optimisation sans information de la dérivée) au voisinage deβ0:
βˆ =arg maxβ∈U(β0)LL(β).˜
15 / 24
Comment estimer les intervalles de confiance? La dépendance de LL(β)˜ deβest fortement non-linéaire.
Intervalles de confiance par le bootstrap paramétrique
On se donne des interpolateurs ˆgj,k()et l’estimateur MCKrige ˆβ.
On fixeNboot∈N. Pourb=1 :Nboot on répète:
Pour chaquek=1 :KtirerNk paramètresθi∼πˆθi.i.d.
Calculer ˆpβ(Sk,θi) =φ(∑Jj=1βjgj,k(θi)),k=1, . . . ,Ket i=1. . .Nk.
Tirer indépendammentYi,k∼B(ˆpβ(Sk,θi)).Abk=
Nk
∑
i=1
Yi,k. Estimer ˆβb=arg max
β∈B
LL˜ (S
k,Nk,Abk)Kk=1(β).
Le biais de ˆβest estimé par N1
boot∑Nb=1bootβˆb−β.ˆ
ICˆ α(β) = [ˆ βˆbα/2,βˆb1−α/2]avec ˆβbαlesα-quantiles empiriques de ˆβb.
Nous considéronsMhzcorrespondant modèles de hasard avec une intensité causale par rapport àV:
La forme de la probabilitépβ(V) P(Y=1 avantt|V) =1−exp
−β Z t
0
f(s,V)ds
avec l’intensitéf(t,V)causale par rapport àV, qui vérifief(t,V)≥0 etf(0,V) =0.
Pour ces modèlespβ(V) =φ(βth(V))avec φ=1−exp(−x)
h(V) =R0Tf(s,V)ds Matrice de Ficher approchée
˜I(β) =
K
∑
k=1
Nk
1
m∑mi=1(e−βˆgk(θi)gˆk(θi)2
1−m1∑mi=1e−βˆgk(θi) 1
m∑mi=1e−βˆgk(θi)
17 / 24
Etude en simulation
K=131,Sk(k=1, . . . ,K) des profils de plongée réels.
Nk correspond à leur fréquence d’utilisation réelle:
Nk varie de 1 à 6138 ce qui reflète la censure par dangereusité.
ModèleMbph(θ)de J. Hugon avecΘ= [0,1]2.
Plan d’expérienceDest une grille régulière 15×15 dansΘ (de pas 0.0714)
Mhz(β)avecφ(x) =1−exp(−x)eth(V) =
T
R
0
V(t)dt.
Jeu de paramètres de hasard utilisé Les valeurs deβ=0.45,β=5 etβ=50.
Résultats des simulations
Mhz(β) βˆ ICˆ 0.95 βˆ∗( ˆIC∗0.95) Mhz(0.45) 0.48 0.28−0.67 0.47(0.28−0.67)
Mhz(5) 5.4 4.6−6.1 4.9(4.3−5.5) Mhz(50) 50 50−50 29(28−31) Ici ˆβ∗et ˆIC∗95%sont estimés avec le modèle designal moyen:
h(V(.,Sk)) =Eπθ( Z T
0
V(t,Sk,θ)dt).
Siβh(V)<<1 , alors ˆβ≈βˆ∗.
Siβh(V)est plus grand, ˆβet ˆβ∗sont différents.
Le modèle de signal moyen sous-estime le risque pour la partie de population au risque élevé.
19 / 24
21 / 24
Conclusions
En présence de la variabilité individuelle de réponse au profil de pressionS, les modèles de risquemoyensous-estiment le risque pour une partie de population.
Il est nécessaire de prendre cette variabilité en compte.
Travaux en cours et perspectives
Etude théorique de l’erreur de l’estimation deβcausée par MCKrige.
Méthode bayesienne pour inclure l’information de mesures indirectes de bulles dans la prédiction de risque grâce au modèle joint de risque-mesure.
Krigeage fonctionnel des volumes de bulles.
Application de la méthodologie aux modèles PBPK.
23 / 24