Modélisation de risque individuel basée sur le modèle de décompression dynamique calibré en population

(1)

Modélisation de risque individuel basée sur le modèle de décompression

dynamique calibré en population

Asya METELKINA

travail en commun avec L. Pronzato and J. Rendas

2 novembre 2015

Modélisation en biologie et statistique de données biomédicales

1 / 24

(2)

Observations

On observeXK={X₁, . . . ,XK}oùXk= (Sk,Nk,Ak)avec:

le profil de pressionSk:[0,T]→R+,

le nombre de plongéesNk∈Navec le profilSk,

le nombre d’accidents de décompressionA_k∈ {1, . . . ,N_k}.

Notre but

Modéliser la probabilitéP(Y=1|S_k)d’accident de décompressionY∈ {0,1}conditionnellement au profil de pressionS_k:[0,T]7→R+.

PrédireP(Y=1|S)pour unnouvelprofil de pressionS.

(3)

3 / 24

(4)

Les bulles de gaz dans le sang à l’origine des accidents.

Ces bulles ne sont pas directement observables, c’est un processus latentt7→V(t).

Des mesures indirectesmS(ti)∈ {0,1,2,3,4}deV(ti)avec t_i∈[0,T]ont montré une grande variabilité individuelle pour un mêmeS.

V dépend deSet des paramètresθd’un individu.

(5)

Modèle dynamique de décompression (J. Hugon 2010)

Un modèle dynamiqueM^bph(θ), système des équations différentielles ordinaires résolue numériquement, calculeV:t7→V(t,S,θ)pour un plongeur des paramètresθ∈Θ, oùΘest un compact deR^d

S→ Mbph(θ) →V(.,S,θ)

Distribution desθdans la population (Y. Bennani, 2015) Lesθne peuvent pas être mesurés,variables latentes.

En supposant queθ∼πθsont i.i.d. dans la population, la distribution ˆ

π_θa été estimée:

Continue Non-gaussienne

5 / 24

(6)

Formalisation du problème d’estimation de risque

SoitY∈ {0,1}une v.a. etθ∼π_θ i.i.d., on cherche un modèle paramétriqueM^hz^(β)de la distribution de risque en population:

P(Y=1|S,θ) =f_β(S,θ), β∈R^d,θ∼π_θ i.i.d.

On va supposer que

θsont des paramètres deM^bph^(θ)^et^πθest ˆπ_θestimé.

P(Y=1|S,θ) =P(Y=1|V(.,S,θ)) =p_β(V(.,S,θ)) avecVest calculé parM^bph^(θ).

βne dépend pas deθ,π_θetS.

Modèle paramétrique de risque en population

S−→ M^ph^(θ),

θ∼π_θ −→V∼πV(S)−→Mhz(β) −→p_β(V),V∼πV(S) oùπV(S)est la mesure image deπ_θsous l’applicationθ7→V(.,S,θ)

(7)

Estimation par maximum de vraisemblance

Supposons quep_β:V ^7→^[0,1]sont fixés pourβ∈B, un compact de R^J. On estimeβpar maximum de vraisemblance:

βˆ=arg max

β∈BLL_(S

k,Nk,Ak)^K_k=1(β),

LL(β) =C+

K k=1

∑

[AklnP(Y=1|Sk) + (Nk−Ak)ln(1−P(Y=1|Sk))]. oùC=C((Ak,N_k)^K_k=1)etP(Y=1|S_k) =Eπθ(p_β(V(,Sk,θ))).

Chaque évaluation deLL_(S_k_,N_k_,A_k₎(β)demandeKcalculs de Eπθ(p_β(V(,Sk,θ))).

πθest une distribution continue et non-gaussienne, donc Eπθ(p_β(V(,Sk,θ)))n’a pas de forme analytique.

7 / 24

(8)

Approximation Monté-Carlo

Eπθ(p_β(V(,Sk,θ)))≈_m¹ ∑^m

i=1

p_β(V(.,Sk,θi)), θi∼π_θ i.i.d.

avec un nombrem∈Nde tirages assez grand.

Le calcul deLL_(S_k_,N_k_,A_k₎(β)demandeK×mcalculs deV(,S,θ),i.e.

K×mappels de simulateur deMbph(θ).

Une famille de modèles de variable binaire On considèrep_β(V) =φ(β^th(V))avecβ∈R^J et

une fonction d’extraction d’attributs h:V ^→H ^⊂R^J, une fonction delienφ:H ^→^[0,1].

Exemple: modèle de hasardφ(x) =1−e^−xpourH ^⊂R^d+ où régression logistiqueφ(x) =_1+e¹−x pourH ^⊂R^d.

Il suffit de connaîtreh(V(.,Sk,θi)),k=1, . . . ,K,i=1, . . . ,m.

(9)

SoitD⁼^θ⁰i, . . . ,θ⁰_d une grille régulière ou un plan d’expérience space fillingdedpoints dansΘ=supp(π_θ).

Supposons qu’on a calculéV(.,Sk,θ⁰_i)pour toutk=1, . . . ,Ket i=1, . . . ,davecK×dappels deMbph(θ).

Processus Gaussien (krigeage)

Pour chaquej=1, . . .Jetk=1, . . .K, on considère l’application g_j,k:θ7→hj(V(.,Sk,θ))

comme une réalisation d’un processus Gaussien:

g_j,k∼GP^(µj,k(.),σ²_j,kK_ρ_j,k(., .)) de fonction moyenneµ_j,k(θ),

de noyau de covarianceK_ρ_j,k(θ,θ⁰)de paramètreρ_j,k

9 / 24

(10)

Choix du modèle de krigeage

S’il n’y a pas de tendance évidente dansθ7→g_j,k(θ), on utilise le krigeage ordinaire avecµ_j,k∈R.

Covariance isotrope Matérn de paramètre de régularitéν∈Z+¹₂ fixé et de paramètre d’échelleρj,k∈R+

K_ρ_j,k(r) = 1 Γ(ν)2^ν−1

2√ νr ρj,k

ν

Kν

2√ νr ρj,k

oùr=|θ−θ⁰|etKν(.)est la fonction de Bessel modifiée d’ordreν.

Quand il n’y a pas de raison de compter queg_j,ksont plus que continues, on fixeν=³₂.

Remarque: La covariance Matérn correspond à l’interpolation par les splines de Sobolev.

(11)

On construit l’interpolateur ˆg_j,k par la méthodeplug-in,i.e.utilisant des paramètres estimés:

Estimation des paramètres du modèle de krigeage

Estimateur MV ˆµ_j,ket estimateur MV restreinte ˆρ_j,k et ˆσ_j,k.

Meilleur prédicteur linéaire empirique (Santner, Williams & Notz) L’interpolateurplug-ingˆ_j,k est une solution du système de krigeage dual

ˆ g_j,k(.) =

d

∑

i=1

αⁱ_j,kK_ρ_ˆ_j,k(.,θ⁰_i) +µˆ_j,k avec(α¹_j,k, . . . ,α^d_j,k)∈R^dvérifiant:

(

∑^d_i=1αⁱ_j,kK_ρ_ˆ_j,k(θ⁰_l,θ⁰_i) +µˆ_j,k=g_j,k(θ⁰_l)

∑^d_i=1αⁱ_j,k=0

Lesαⁱ_j,k, ˆµ_j,k et ˆρ_j,k sont calculés une fois. Pour chaque interpolation ˆ

g_j,k(.)on ne recalcule queK_ρ_ˆ_j,k(.,θ⁰_i)

11 / 24

(12)

Espace des noyaux reproductibles

SiKest un noyau symétrique, le produit scalaire des fonctions fx(.) =K(.,x)avecx∈X

(K(.,x),K(.,y))_K =K(x,y), x,y∈X

engendre le produit scalaire sur l’espace de combinaisons linéaires finies

K0= ( J

∑

j=1

αjK(.,xj) avec xj∈X, j=1, . . . ,J )

Une fermeture deK0est un espace de Hilbert naturel associé au noyauK, ou l’espace des noyaux reproductiblesassocié àK.

Espace des noyaux reproductibles associé au noyau Matérn

Le noyau de Matérn de paramètre de régularitéνgénère l’espace de SobolevK ⁼^W₂^ν−¹²⁽R). Pourν=³₂, c’est l’espace de Sobolev W¹( )des fonctions ( )ayant une dérivée dans ( ).

(13)

Erreur d’approximation par le krigeage (Wu & Schaback,1993) K_ρun noyau de Matérn de régularitéν.

µ∈R.

Θcompact deR^m.

g:Θ→Rtelle queg−µ∈E ^oùE est l’espace des noyaux reproductibles généré parK_ρ.

Dune grille régulière de pashdansΘ.

ˆ

gest le meilleur prédicteur linéaire degassocié au modèle gaussienGP^(µ,^Kρ(., .)).

Sous ces hypothèses, on a

|g−g| ≤ |gˆ −µ|_EP(h) avec P(h)≤C(ρ,ν)h^2ν Pourν=³₂, on aP(h)≤C(ρ)h³.

13 / 24

(14)

Utilité de l’interpolation par krigeage

Une fois les attributs importants(h₁(.), . . . ,hK)sont sélectionnés et des interpolateurs ˆg_j,k()sont construits, on peut:

remplacer le modèleM^hz^(β)par le modèle approché ˜M^hz^(β) pour des profilsS_k,k=1, . . . ,K:

p_β(V(.,S_k,θ)) =φ

J

∑

j=1

βjh_j(V(.,S_k,θ)

!

≈

˜

p_β(V(.,S_k,θ) =φ

J

∑

j=1

βjgˆ_j,k(θ))

!

calculer la vraisemblance approchée ˜LL(β).

simuler des accidents dans la population virtuelle depuis ˜M^hz^(β).

changer de distributionπθ.

(15)

Approximation d’estimateur deβpar MCKrige

Estimation par maximum de la vraisemblance approchée par la méthode MCKrige (Monte Carlo+krigeage):

βˆ =arg max

β∈B

LL(β)˜ avec

LL(β) =˜ C+∑^K_k=1

A_kln(p˜_β(Sk)) + (Nk−A_k)ln(1−p˜_β(Sk)) .

˜

p_β(Sk) =_m¹∑^m_s=1φ

J

∑

j=1

βjgˆ_j,k(θs)

!

avecθs∼πθi.i.d.

L’optimisation de la vraisemblance est réalisée en deux étapes:

Recherche globale dans une grilleB0:β₀=arg maxβ∈B0LL(β),˜ Recherche locale par la méthode de Powell (optimisation sans information de la dérivée) au voisinage deβ0:

βˆ =arg maxβ∈U(β₀)LL(β).˜

15 / 24

(16)

Comment estimer les intervalles de confiance? La dépendance de LL(β)˜ deβest fortement non-linéaire.

Intervalles de confiance par le bootstrap paramétrique

On se donne des interpolateurs ˆg_j,k()et l’estimateur MCKrige ˆβ.

On fixeNboot∈N. Pourb=1 :Nboot on répète:

Pour chaquek=1 :KtirerN_k paramètresθi∼πˆ_θi.i.d.

Calculer ˆp_β(Sk,θi) =φ(∑^J_j=1βjg_j,k(θi)),k=1, . . . ,Ket i=1. . .Nk.

Tirer indépendammentY_i,k∼B^(ˆ^pβ(Sk,θi)).A^b_k=

N_k

∑

i=1

Y_i,k. Estimer ˆβ^b=arg max

β∈B

LL˜ _(S

k,Nk,A^b_k)^K_k=1(β).

Le biais de ˆβest estimé par _N¹

boot∑^N_b=1^bootβˆ^b−β.ˆ

ICˆ _α(β) = [ˆ βˆ^b^α/2,βˆ^b^1−α/2]avec ˆβ^b^αlesα-quantiles empiriques de ˆβ^b.

(17)

Nous considéronsM^hzcorrespondant modèles de hasard avec une intensité causale par rapport àV:

La forme de la probabilitép_β(V) P(Y=1 avantt|V) =1−exp

−β Z t

0

f(s,V)ds

avec l’intensitéf(t,V)causale par rapport àV, qui vérifief(t,V)≥0 etf(0,V) =0.

Pour ces modèlesp_β(V) =φ(β^th(V))avec φ=1−exp(−x)

h(V) =^R₀^Tf(s,V)ds Matrice de Ficher approchée

˜I(β) =

K

∑

k=1

N_k

1

m∑^m_i=1(e^−βˆ^g^k^(θⁱ⁾gˆk(θi)2

1−_m¹∑^m_i=1e^−βˆ^g^k^(θⁱ⁾ ₁

m∑^m_i=1e^−βˆ^g^k^(θⁱ⁾

17 / 24

(18)

Etude en simulation

K=131,S_k(k=1, . . . ,K) des profils de plongée réels.

N_k correspond à leur fréquence d’utilisation réelle:

N_k varie de 1 à 6138 ce qui reflète la censure par dangereusité.

ModèleMbph(θ)de J. Hugon avecΘ= [0,1]².

Plan d’expérienceDest une grille régulière 15×15 dansΘ (de pas 0.0714)

M^hz^(β)âvec^{φ(x) =}¹⁻êxp(−x)êt^{h(V) =}

T

R

0

V(t)dt.

(19)

Jeu de paramètres de hasard utilisé Les valeurs deβ=0.45,β=5 etβ=50.

Résultats des simulations

Mhz(β) βˆ ICˆ _0.95 βˆ^∗( ˆIC^∗_0.95) Mhz(0.45) 0.48 0.28−0.67 0.47(0.28−0.67)

Mhz(5) 5.4 4.6−6.1 4.9(4.3−5.5) Mhz(50) 50 50−50 29(28−31) Ici ˆβ^∗et ˆIC^∗_95%sont estimés avec le modèle designal moyen:

h(V(.,Sk)) =Eπ_θ( Z T

0

V(t,Sk,θ)dt).

Siβh(V)<<1 , alors ˆβ≈βˆ^∗.

Siβh(V)est plus grand, ˆβet ˆβ^∗sont différents.

Le modèle de signal moyen sous-estime le risque pour la partie de population au risque élevé.

19 / 24

(20)

(21)

21 / 24

(22)

Conclusions

En présence de la variabilité individuelle de réponse au profil de pressionS, les modèles de risquemoyensous-estiment le risque pour une partie de population.

Il est nécessaire de prendre cette variabilité en compte.

(23)

Travaux en cours et perspectives

Etude théorique de l’erreur de l’estimation deβcausée par MCKrige.

Méthode bayesienne pour inclure l’information de mesures indirectes de bulles dans la prédiction de risque grâce au modèle joint de risque-mesure.

Krigeage fonctionnel des volumes de bulles.

Application de la méthodologie aux modèles PBPK.

23 / 24

(24)

Modélisation de risque individuel basée sur le modèle de décompression dynamique calibré en population

Modélisation de risque individuel basée sur le modèle de décompression

dynamique calibré en population

∑

∑

∑

∑

Merci pour votre attention!