Méthodes non linéaires pour des problèmes statistiques inverses

(1)

HAL Id: inria-00494690

https://hal.inria.fr/inria-00494690

Submitted on 24 Jun 2010

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de

Méthodes non linéaires pour des problèmes statistiques

inverses

Pierre Barbillon, Gilles Celeux, Agnès Grimaud, Yannick Lefebvre, Etienne de

Rocquigny

To cite this version:

Pierre Barbillon, Gilles Celeux, Agnès Grimaud, Yannick Lefebvre, Etienne de Rocquigny. Méthodes non linéaires pour des problèmes statistiques inverses. 42èmes Journées de Statistique, 2010, Marseille, France, France. �inria-00494690�

(2)

M´

ethodes non lin´

eaires pour des probl`

emes

statistiques inverses

Pierre Barbillon1 _{& Gilles Celeux}1 _{& Agn`es Grimaud}2 _{& Yannick Lefebvre}3 _{& Etienne}

De Rocquigny4

1 _Universit´_{e Paris-sud 11, Laboratoire de Math´}_{ematiques d’Orsay, Orsay Cedex, F-91405}

INRIA Saclay, projet select

2 _{Institut de Math´}_{ematiques de Luminy Case 907 163 Avenue de Luminy 13288}

Marseille cedex 9

3 _{Schlumberger, 1 Cour du Triangle, 92936 La Defense Cedex} 4 _{Ecole Centrale Paris, Grande Voie des Vignes, 92290 Chˆ}_{atenay Malabry}

R´

esum´

e

Dans le cadre du traitement des incertitudes étudié ici, la variabilité intrinsèque des entrées d’un modèle physique est modélisée par une loi de probabilité multivariée. L’objectif est d’identifier cette loi de probabilité à partir d’observations des sorties du modèle. Afin de se limiter à un nombre d’appels raisonnable au code de calcul (souvent coûteux) du modèle physique dans l’algorithme d’inversion, une méthodologie d’approximation non linéaire faisant intervenir le krigeage et un algorithme EM stochastique est présentée. Elle est comparée à une méthode utilisant une approximation linéaire itérative sur la base de jeux de données simulées provenant d’un modèle de crues simplifié mais réaliste. Les cas où cette approche non linéaire est préférable seront mis en lumière.

Mots clés : Modélisation des incertitudes, Approximation non linéaire, Krigeage, Algo-rithme stochastique.

Abstract

In the uncertainty treatment framework considered in this paper, the intrinsic variability of the inputs of a physical simulation model is modelled by a multivariate probability distribution. The objective is to identify this probability distribution - the dispersion of which is independent of the sample size since intrinsic variability is at stake - based on observation of some model outputs. Moreover, in order to limit to a reasonable level the number of (usually burdensome) physical model runs inside the inversion algorithm, a non linear approximation methodology making use of Kriging and stochastic EM algorithm is presented. It is compared with iterated linear approximation on the basis of numerical experiments on simulated data sets coming from a simplified but realistic modelling of a

(3)

dyke overflow. Situations where this non linear approach is to be preferred to linearisation are highlighted.

Key words : Uncertainty Modelling, Non linear Approximation, Kriging, Stochastic Algorithm.

R´

esum´

e long

Le modèle considéré s’écrit :

Yi = H(Xi, di) + Ui, 1 ≤ i ≤ n (1)

o`u

• (Yi) ∈ Rp, 1 ≤ i ≤ n, sont des vecteurs des donn´ees observ´ees,

• H est une fonction connue de R(q+q2)

dans Rp_{. Elle est de type “boˆıte-noire”,}

c’est-à-dire que nous ne disposons pas d’une formulation explicite de H. On peut l’évaluer en tout point par un code de calcul numérique exact mais cette évaluation est coûteuse. H doit être supposée injective afin de rendre le modèle (1) identifiable. • (Xi) ∈ Rq, 1 ≤ i ≤ n, désignent des vecteurs aléatoires non observés, supposés

ind´ependants et identiquement distribu´es (i.i.d.) de loi normale N (µ, C).

• (di), 1 ≤ i ≤ n, sont des variables observées liées aux conditions expérimentales, de

dimension q2.

• (Ui), 1 ≤ i ≤ n, sont des variables al´eatoires qui repr´esentent les erreurs de

mesure. Elles sont supposées i.i.d. de distribution N (0, R), R ne doit pas être nécessairement supposé connu. Les variables aléatoires (Xi) et (Ui) sont supposées

ˆetre ind´ependantes.

Notre but est d’estimer les param`etres (µ, C, R) `a partir des observations (Yi, di), i =

1, . . . , n. Les (Xi)1≤i≤n n’étant pas observés, cette structure de données manquantes

mène à utiliser en général des algorithmes faisant appel un grand nombre de fois au modèle physique H. Mais comme nous l’avons précisé, H demande un temps de calcul important. Pour traiter ce problème, Celeux et al. (2009) ont proposé de linéariser la fonction H autour d’un point x0 et d’employer un algorithme ECME pour estimer les

paramètres (µ, C), R doit être fixé. Du fait de la linéarisation du modèle, la mise à jour des paramètres courants dans l’algorithme ECME est explicite. Ils proposent d’itérer la procédure de linéarisation afin d’améliorer la précision de l’algorithme et d’éviter une trop grande dépendance vis à vis du point x0 choisi.

(4)

résultats satisfaisants. Par contre si H présente un comportement hautement non linéaire, il est risqué d’utiliser cet algorithme. C’est pourquoi dans (Barbillon et al., 2009), nous proposons une méthode d’approximation de H par krigeage que nous intégrons dans un algorithme EM stochastique (SEM).

Nous présentons la (k + 1)ème _{itération de l’algorithme SEM qui comporte trois étapes :}

• ´Etape E : calcul de la densit´e conditionnelle p(.|Y ; θ(k)_{) de X}(k)_{, o`}_{u θ}(k)_{est la valeur}

courante du param`etre θ.

• Étape S (Stochastique) : restauration des données manquantes; des données complétes Z(k)= (Y, X(k)_{) sont générées en simulant X}(k)_{suivant la loi conditionnelle p(.|Y ; θ}(k)_).

• Étape M : L’estimateur mis à jour θ(k+1) est l’estimateur du maximum de vraisem-blance calculé sur les Z(k)_.

Cet algorithme génère une chaˆıne de Markov irréductible dont la loi stationnaire est con-centrée autour des valeurs de l’estimateur du maximum de vraisemblance de θ (Nielssen, 2000). Une période de chauffe de longueur ℓ est nécessaire afin d’atteindre le régime stationnaire de la chaˆıne, ensuite la moyenne 1

L−ℓ

PL

k=ℓ+1θ(k) est calcul´ee avec L assez

grand pour obtenir un estimateur de θ. Pour le modèle (1), l’étape de simulation de SEM est problèmatique puisque la loi conditionnelle (X|Y, θ) n’est pas explicite. Un al-gorithme type MCMC (Markov Chain Monte Carlo) est nécessaire pour réaliser l’étape S. Pour la restauration de chacun des Xi (1 ≤ i ≤ n), m itérations d’un algorithme de

Metropolis-Hasting sont utilisées. Ainsi, à l’itération k, l’étape S s’écrit : Pour 1 ≤ i ≤ n, • Soit Xi,0 = Xi(k−1).

• Pour s = 1, ..., m

1. Simuler ˜Xi,s suivant la loi de proposition qθk(Xi,s−1, .).

2. Xi,s= ˜Xi,s avec probabilit´e

α(Xi,s−1, ˜Xi,s) = min 1,

p( ˜Xi,s|Yi; θ(k))qθk( ˜Xi,s, Xi,s−1)

p(Xi,s−1|Yi; θ(k))qθk(Xi,s−1, ˜Xi,s)

!

et Xi,s = Xi,s−1 avec probabilit´e 1 − α(Xi,s−1, ˜Xi,s).

• X_i(k)= Xi,m.

Le calcul du taux d’acceptation α(., .) dans une itération d’un algorithme de Metropolis-Hasting demande un appel à H. Si on suppose que m itérations permettent d’atteindre la distribution stationnaire de la chaˆıne, l’étape S dans une itération de l’algorithme SEM engendrerait alors n × m appels à H. Au total H serait calculée L × n × m fois, ce qui

(5)

n’est pas envisageable puisque H est une fonction coûteuse. C’est pourquoi nous pro-posons comme alternative de remplacer H par une approximation non linéaire obtenue par krigeage (Cressie, 1990). Le krigeage permet à partir d’un nombre fixé d’évaluations de H sur un plan d’expérience numérique D = {x1, . . . , xNmax} de fournir une

approxi-mation de H, not´ee ˆH sur un domaine E choisi pr´ealablement. Ainsi nous n’effectuerons en tout et pour tout que Nmax appels au code de calcul de H. Le choix de E le

do-maine d’approximation est sensible puisqu’il doit être assez grand pour contenir avec grande probabilité la variable aléatoire X et pas trop étalé dans la mesure où la qualité de l’approximation dépend de la concentration des points de D dans E. Après s’être assuré par validation croisée de la qualité de l’approximation, nous rempla¸cons dans les calculs des taux d’acceptation tout appel à H coûteux par un appel à ˆH d’évaluation quasi instantanée.

Nous comparons ensuite les méthodes ECME avec linéarisations itérées et SEM avec approximation par krigeage sur un modèle hydrodynamique simplifié mais réaliste. Ce modèle est lié au risque de dépassement d’une digue durant une crue. Les deux variables observées (le vecteur Y ) sont la hauteur de la rivière au niveau de la digue et sa vitesse. La condition observée (d) est le débit de la rivière en amont et on cherche à estimer les paramètres des lois des variables non observées (vecteur X), le coefficient de friction du lit de la rivière et la côte de fond de la rivière au niveau de la digue. Les deux méthodes fournissent des estimations satisfaisantes. La méthode employant un algorithme ECME avec des linéarisations itérées est performante ici puisque la fonction H correspondant au modèle peut être assez finement approchée localement par une fonction linéaire.

Nous proposons aussi un exemple qui met en défaut cette méthode. Sur cet exemple, seule l’approche non linéaire utilisant l’algorithme SEM et une approximation par krigeage donne des estimateurs raisonnables car elle est plus flexible.

(6)

Bibliographie

[1] Barbillon, P., Celeux, G., Grimaud, A., Lefebvre, Y. and De Rocquigny, E. (2009). Non linear methods for inverse statistical problems. Rapport de recherche INRIA. [2] Celeux, G., Grimaud, A., Lefebvre, Y. and De Rocquigny, E. (2009). Identifying variability in multivariate systems through linearised inverse methods. Inverse Problems In Science & Engineering, to appear.

[3] Cressie, N. (1990). The origins of kriging. Mathematical Geology, 22(2): 239-252. [4] Koehler, J.R. and Owen, A.B. (1996). Computer experiments. Handbook of Statistics Vol 13, pp. 261-308, Elsevier Science, New York.

[5] Nielsen, S. F. (2000). The stochastic EM algorithm: estimation and asymptotic results Bernoulli 6, 457-489.