• Aucun résultat trouvé

Modélisation de risque individuel basée sur le modèle de décompression dynamique calibré en population

N/A
N/A
Protected

Academic year: 2022

Partager "Modélisation de risque individuel basée sur le modèle de décompression dynamique calibré en population"

Copied!
24
0
0

Texte intégral

(1)

Modélisation de risque individuel basée sur le modèle de décompression

dynamique calibré en population

Asya METELKINA

travail en commun avec L. Pronzato and J. Rendas

2 novembre 2015

Modélisation en biologie et statistique de données biomédicales

1 / 24

(2)

Observations

On observeXK={X1, . . . ,XK}oùXk= (Sk,Nk,Ak)avec:

le profil de pressionSk:[0,T]→R+,

le nombre de plongéesNk∈Navec le profilSk,

le nombre d’accidents de décompressionAk∈ {1, . . . ,Nk}.

Notre but

Modéliser la probabilitéP(Y=1|Sk)d’accident de décompressionY∈ {0,1}conditionnellement au profil de pressionSk:[0,T]7→R+.

PrédireP(Y=1|S)pour unnouvelprofil de pressionS.

(3)

3 / 24

(4)

Les bulles de gaz dans le sang à l’origine des accidents.

Ces bulles ne sont pas directement observables, c’est un processus latentt7→V(t).

Des mesures indirectesmS(ti)∈ {0,1,2,3,4}deV(ti)avec ti∈[0,T]ont montré une grande variabilité individuelle pour un mêmeS.

V dépend deSet des paramètresθd’un individu.

(5)

Modèle dynamique de décompression (J. Hugon 2010)

Un modèle dynamiqueMbph(θ), système des équations différentielles ordinaires résolue numériquement, calculeV:t7→V(t,S,θ)pour un plongeur des paramètresθ∈Θ, oùΘest un compact deRd

S→ Mbph(θ) →V(.,S,θ)

Distribution desθdans la population (Y. Bennani, 2015) Lesθne peuvent pas être mesurés,variables latentes.

En supposant queθ∼πθsont i.i.d. dans la population, la distribution ˆ

πθa été estimée:

Continue Non-gaussienne

5 / 24

(6)

Formalisation du problème d’estimation de risque

SoitY∈ {0,1}une v.a. etθ∼πθ i.i.d., on cherche un modèle paramétriqueMhz(β)de la distribution de risque en population:

P(Y=1|S,θ) =fβ(S,θ), β∈Rd,θ∼πθ i.i.d.

On va supposer que

θsont des paramètres deMbph(θ)etπθest ˆπθestimé.

P(Y=1|S,θ) =P(Y=1|V(.,S,θ)) =pβ(V(.,S,θ)) avecVest calculé parMbph(θ).

βne dépend pas deθ,πθetS.

Modèle paramétrique de risque en population

S−→ Mph(θ),

θ∼πθ −→V∼πV(S)−→Mhz(β) −→pβ(V),V∼πV(S) oùπV(S)est la mesure image deπθsous l’applicationθ7→V(.,S,θ)

(7)

Estimation par maximum de vraisemblance

Supposons quepβ:V 7→[0,1]sont fixés pourβ∈B, un compact de RJ. On estimeβpar maximum de vraisemblance:

βˆ=arg max

β∈BLL(S

k,Nk,Ak)Kk=1(β),

LL(β) =C+

K k=1

[AklnP(Y=1|Sk) + (Nk−Ak)ln(1−P(Y=1|Sk))]. oùC=C((Ak,Nk)Kk=1)etP(Y=1|Sk) =Eπθ(pβ(V(,Sk,θ))).

Chaque évaluation deLL(Sk,Nk,Ak)(β)demandeKcalculs de Eπθ(pβ(V(,Sk,θ))).

πθest une distribution continue et non-gaussienne, donc Eπθ(pβ(V(,Sk,θ)))n’a pas de forme analytique.

7 / 24

(8)

Approximation Monté-Carlo

Eπθ(pβ(V(,Sk,θ)))≈m1m

i=1

pβ(V(.,Ski)), θi∼πθ i.i.d.

avec un nombrem∈Nde tirages assez grand.

Le calcul deLL(Sk,Nk,Ak)(β)demandeK×mcalculs deV(,S,θ),i.e.

K×mappels de simulateur deMbph(θ).

Une famille de modèles de variable binaire On considèrepβ(V) =φ(βth(V))avecβ∈RJ et

une fonction d’extraction d’attributs h:V H RJ, une fonction delienφ:H [0,1].

Exemple: modèle de hasardφ(x) =1−e−xpourH Rd+ où régression logistiqueφ(x) =1+e1−x pourH Rd.

Il suffit de connaîtreh(V(.,Ski)),k=1, . . . ,K,i=1, . . . ,m.

(9)

SoitD=θ0i, . . . ,θ0d une grille régulière ou un plan d’expérience space fillingdedpoints dansΘ=supp(πθ).

Supposons qu’on a calculéV(.,Sk0i)pour toutk=1, . . . ,Ket i=1, . . . ,davecK×dappels deMbph(θ).

Processus Gaussien (krigeage)

Pour chaquej=1, . . .Jetk=1, . . .K, on considère l’application gj,k:θ7→hj(V(.,Sk,θ))

comme une réalisation d’un processus Gaussien:

gj,k∼GPj,k(.),σ2j,kKρj,k(., .)) de fonction moyenneµj,k(θ),

de noyau de covarianceKρj,k(θ,θ0)de paramètreρj,k

9 / 24

(10)

Choix du modèle de krigeage

S’il n’y a pas de tendance évidente dansθ7→gj,k(θ), on utilise le krigeage ordinaire avecµj,k∈R.

Covariance isotrope Matérn de paramètre de régularitéν∈Z+12 fixé et de paramètre d’échelleρj,k∈R+

Kρj,k(r) = 1 Γ(ν)2ν−1

2√ νr ρj,k

ν

Kν

2√ νr ρj,k

oùr=|θ−θ0|etKν(.)est la fonction de Bessel modifiée d’ordreν.

Quand il n’y a pas de raison de compter quegj,ksont plus que continues, on fixeν=32.

Remarque: La covariance Matérn correspond à l’interpolation par les splines de Sobolev.

(11)

On construit l’interpolateur ˆgj,k par la méthodeplug-in,i.e.utilisant des paramètres estimés:

Estimation des paramètres du modèle de krigeage

Estimateur MV ˆµj,ket estimateur MV restreinte ˆρj,k et ˆσj,k.

Meilleur prédicteur linéaire empirique (Santner, Williams & Notz) L’interpolateurplug-ingˆj,k est une solution du système de krigeage dual

ˆ gj,k(.) =

d

i=1

αij,kKρˆj,k(.,θ0i) +µˆj,k avec(α1j,k, . . . ,αdj,k)∈Rdvérifiant:

(

di=1αij,kKρˆj,k0l0i) +µˆj,k=gj,k0l)

di=1αij,k=0

Lesαij,k, ˆµj,k et ˆρj,k sont calculés une fois. Pour chaque interpolation ˆ

gj,k(.)on ne recalcule queKρˆj,k(.,θ0i)

11 / 24

(12)

Espace des noyaux reproductibles

SiKest un noyau symétrique, le produit scalaire des fonctions fx(.) =K(.,x)avecx∈X

(K(.,x),K(.,y))K =K(x,y), x,y∈X

engendre le produit scalaire sur l’espace de combinaisons linéaires finies

K0= ( J

j=1

αjK(.,xj) avec xj∈X, j=1, . . . ,J )

Une fermeture deK0est un espace de Hilbert naturel associé au noyauK, ou l’espace des noyaux reproductiblesassocié àK.

Espace des noyaux reproductibles associé au noyau Matérn

Le noyau de Matérn de paramètre de régularitéνgénère l’espace de SobolevK =W2ν−12(R). Pourν=32, c’est l’espace de Sobolev W1( )des fonctions ( )ayant une dérivée dans ( ).

(13)

Erreur d’approximation par le krigeage (Wu & Schaback,1993) Kρun noyau de Matérn de régularitéν.

µ∈R.

Θcompact deRm.

g:Θ→Rtelle queg−µ∈E E est l’espace des noyaux reproductibles généré parKρ.

Dune grille régulière de pashdansΘ.

ˆ

gest le meilleur prédicteur linéaire degassocié au modèle gaussienGP(µ,Kρ(., .)).

Sous ces hypothèses, on a

|g−g| ≤ |gˆ −µ|EP(h) avec P(h)≤C(ρ,ν)h Pourν=32, on aP(h)≤C(ρ)h3.

13 / 24

(14)

Utilité de l’interpolation par krigeage

Une fois les attributs importants(h1(.), . . . ,hK)sont sélectionnés et des interpolateurs ˆgj,k()sont construits, on peut:

remplacer le modèleMhz(β)par le modèle approché ˜Mhz(β) pour des profilsSk,k=1, . . . ,K:

pβ(V(.,Sk,θ)) =φ

J

j=1

βjhj(V(.,Sk,θ)

!

˜

pβ(V(.,Sk,θ) =φ

J

j=1

βjj,k(θ))

!

calculer la vraisemblance approchée ˜LL(β).

simuler des accidents dans la population virtuelle depuis ˜Mhz(β).

changer de distributionπθ.

(15)

Approximation d’estimateur deβpar MCKrige

Estimation par maximum de la vraisemblance approchée par la méthode MCKrige (Monte Carlo+krigeage):

βˆ =arg max

β∈B

LL(β)˜ avec

LL(β) =˜ C+∑Kk=1

Akln(p˜β(Sk)) + (Nk−Ak)ln(1−p˜β(Sk)) .

˜

pβ(Sk) =m1ms=1φ

J

j=1

βjj,ks)

!

avecθs∼πθi.i.d.

L’optimisation de la vraisemblance est réalisée en deux étapes:

Recherche globale dans une grilleB00=arg maxβ∈B0LL(β),˜ Recherche locale par la méthode de Powell (optimisation sans information de la dérivée) au voisinage deβ0:

βˆ =arg maxβ∈U(β0)LL(β).˜

15 / 24

(16)

Comment estimer les intervalles de confiance? La dépendance de LL(β)˜ deβest fortement non-linéaire.

Intervalles de confiance par le bootstrap paramétrique

On se donne des interpolateurs ˆgj,k()et l’estimateur MCKrige ˆβ.

On fixeNboot∈N. Pourb=1 :Nboot on répète:

Pour chaquek=1 :KtirerNk paramètresθi∼πˆθi.i.d.

Calculer ˆpβ(Ski) =φ(∑Jj=1βjgj,ki)),k=1, . . . ,Ket i=1. . .Nk.

Tirer indépendammentYi,k∼Bpβ(Ski)).Abk=

Nk

i=1

Yi,k. Estimer ˆβb=arg max

β∈B

LL˜ (S

k,Nk,Abk)Kk=1(β).

Le biais de ˆβest estimé par N1

bootNb=1bootβˆb−β.ˆ

ICˆ α(β) = [ˆ βˆbα/2,βˆb1−α/2]avec ˆβbαlesα-quantiles empiriques de ˆβb.

(17)

Nous considéronsMhzcorrespondant modèles de hasard avec une intensité causale par rapport àV:

La forme de la probabilitépβ(V) P(Y=1 avantt|V) =1−exp

−β Z t

0

f(s,V)ds

avec l’intensitéf(t,V)causale par rapport àV, qui vérifief(t,V)≥0 etf(0,V) =0.

Pour ces modèlespβ(V) =φ(βth(V))avec φ=1−exp(−x)

h(V) =R0Tf(s,V)ds Matrice de Ficher approchée

˜I(β) =

K

k=1

Nk

1

mmi=1(e−βˆgki)ki)2

1−m1mi=1e−βˆgki) 1

mmi=1e−βˆgki)

17 / 24

(18)

Etude en simulation

K=131,Sk(k=1, . . . ,K) des profils de plongée réels.

Nk correspond à leur fréquence d’utilisation réelle:

Nk varie de 1 à 6138 ce qui reflète la censure par dangereusité.

ModèleMbph(θ)de J. Hugon avecΘ= [0,1]2.

Plan d’expérienceDest une grille régulière 15×15 dansΘ (de pas 0.0714)

Mhz(β)avecφ(x) =1exp(−x)eth(V) =

T

R

0

V(t)dt.

(19)

Jeu de paramètres de hasard utilisé Les valeurs deβ=0.45,β=5 etβ=50.

Résultats des simulations

Mhz(β) βˆ ICˆ 0.95 βˆ( ˆIC0.95) Mhz(0.45) 0.48 0.28−0.67 0.47(0.28−0.67)

Mhz(5) 5.4 4.6−6.1 4.9(4.3−5.5) Mhz(50) 50 50−50 29(28−31) Ici ˆβet ˆIC95%sont estimés avec le modèle designal moyen:

h(V(.,Sk)) =Eπθ( Z T

0

V(t,Sk,θ)dt).

Siβh(V)<<1 , alors ˆβ≈βˆ.

Siβh(V)est plus grand, ˆβet ˆβsont différents.

Le modèle de signal moyen sous-estime le risque pour la partie de population au risque élevé.

19 / 24

(20)
(21)

21 / 24

(22)

Conclusions

En présence de la variabilité individuelle de réponse au profil de pressionS, les modèles de risquemoyensous-estiment le risque pour une partie de population.

Il est nécessaire de prendre cette variabilité en compte.

(23)

Travaux en cours et perspectives

Etude théorique de l’erreur de l’estimation deβcausée par MCKrige.

Méthode bayesienne pour inclure l’information de mesures indirectes de bulles dans la prédiction de risque grâce au modèle joint de risque-mesure.

Krigeage fonctionnel des volumes de bulles.

Application de la méthodologie aux modèles PBPK.

23 / 24

(24)

Merci pour votre attention!

Références

Documents relatifs

Parallèlement, dans les bâtiments, à côté des problèmes liés aux relargages de composés chimiques par les matériaux ou à l'émission de polluants liés à l'activité des

Description par chapitre des principaux résultats Estimation de la queue d'une distribution bivariée : notre proposition Diérents modèles de risque en assurance ou en nance

La somme pondérée des facteurs de risque de chaque catégorie est elle-même pondérée et permet de calculer la probabilité de contamination significative en mycotoxines de la ration

Sans doute peut-on résumer ces périodes par leurs deux apports qui restent applicables même dans le cas de systèmes civils : à savoir les modèles de blindages (câbles ou structures)

fracture périphérique sans traumatisme majeur (sauf crâne, orteils, doigts et rachis

Le premier article (projet Risklab) présente une mesure du risque de modèle lié à la modélisation de la volatilité et une stratégie de couverture (au pire) basée sur la théorie

En fait, la popularité des processus GARCH faibles dans la littérature récente, à la suite des articles fondateurs de Drost et Nijman (1993), Drost et Werker (1996) et Nijman

Le 20 février 2016, des associations de quartiers ont ainsi convoqué une manifestation pour protester contre le tourisme de masse et ses effets : multiplication des meublés