• Aucun résultat trouvé

Chapitre 5 M´ ethode pour le lissage d’histogramme 105

5.2 Approche propos´ee

5.2.1 Principes

La m´ethodologie d´evelopp´ee durant ces travaux s’appuie sur l’exploration et la caract´erisation des donn´ees par le biais d’un grand nombre d’histogrammes (ou de diagrammes de fr´equence) marginaux calcul´es suivant diff´erentes directions de l’espace. L’id´ee principale est alors de les introduire sous la forme de contraintes lors de l’interpolation lisse discr`ete de la loi de densit´e. L’int´erˆet de cette approche est de limiter la quantit´e de donn´ees n´ecessaires. En effet, l`a o`u les autres m´ethodes n´ecessitent l’estimation d’un histogramme en dimension n, ici, il s’agit de construire plusieurs histogrammes, certes en grand nombre, mais unidimensionels. En pratique, la proc´edure est divis´ee en quatre ´etapes :

1. Calcul des diagrammes de fr´equence marginaux (figures (5.2) et (5.3)) : ceux-ci sont sim-plement calcul´es par projection orthogonale des donn´ees le long de lignes reparties dans l’espace. Ces lignes sont construites de telle mani`ere (1) qu’elles se croisent au centre de gravit´e des donn´ees et (2) qu’elles soient distribu´ees de mani`ere uniforme dans les diff´e-rentes directions de l’espace. Ces diagrammes illustrent alors diff´ediff´e-rentes caract´eristiques (valeur moyenne, dispersion, asym´etrie, etc.) de la population ´etudi´ee ;

2. Lissage, si n´ecessaire, de ces diagrammes `a l’aide de techniques classiques telles que l’utilisa-tion de noyaux ou de foncl’utilisa-tion splines (figure (5.4)). L’objectif est d’accroˆıtre leur r´esolul’utilisa-tion et d’´eliminer d’´eventuels artefacts.

3. Interpolation du diagramme de fr´equence multivari´e `a l’aide de la m´ethode DSI (figure (5.5)) en tenant compte (1) des diff´erents diagrammes marginaux et (2) d’´eventuelles informations sur les mesures statistiques de la distribution finale (moyennes, variances, covariances, etc.) ;

4. Normalisation des r´esultats qui doivent satisfaire la condition suivante :

P (−∞ < x1 < +∞ ∩ · · · ∩ −∞ < xn< +∞) = 1 (5.1) Id´ealement il est possible d’implanter la relation (5.1) sous forme d’une contrainte pour l’interpolation lisse discr`ete. Cependant, au vu de son coˆut prohibitif en termes de calcul, il est pr´ef´erable de proc´eder `a un post-processus.

5.2.2 Contraintes pour l’interpolation lisse discr`ete

Cette section d´ecrit les diff´erentes contraintes n´ecessaires `a l’interpolation lisse discr`ete d’une loi de densit´e multivari´ee suivant l’approche propos´ee. Ces contraintes ont ´et´e d´evelopp´ees et implant´ees dans le mˆeme cadre que celui utilis´e pour l’interpolation de surfaces de r´eponse. En particulier, ce travail s’appuie sur les structures de donn´ees repr´esentant un ensemble de points et une grille structur´ee r´eguli`ere dans un espace de dimension quelconque. L`a encore, le r´esultat final se pr´esentera sous la forme d’une propri´et´e d´efinie aux nœuds de la grille.

1Les fonctionnalit´ees correspondantes implant´ees dans la GSLIB sont respectivement, histsmth et scatsmth [Deutsch et Journel, 1992].

Fig. 5.6 – Contrainte DSI pour imposer le respect d’un diagramme de fr´equence

Notations Dans la description des diff´erentes contraintes, les notations suivantes, coh´erentes avec celles employ´ees par Mallet [2002], ont ´et´e utilis´ees :

– X1,· · · , Xn repr´esente les n variables al´eatoires dont la loi de densit´e multivari´ee doit ˆetre estim´ee ;

– β repr´esente un nœud donn´e de la grille r´eguli`ere structur´ee support de l’interpolation et x(β) = [x1(β),· · · , xn(β)]t sa position ;

– Ω est l’ensemble des nœuds β du mod`ele discret ;

– et fX1...Xn(β) repr´esente la valeur de la loi de densit´e au nœud β.

Contrainte de diagramme de fr´equence marginal

La m´ethode propos´ee repose sur l’utilisation d’un certain nombre de diagrammes de fr´equence marginaux lors de l’interpolation de la loi de densit´e. En pratique, le respect de ces diagrammes est impos´e par le biais d’un ensemble de contraintes DSI mises en place pour chacune de de ses classes. Soit une classe donn´ee, la contrainte DSI correspondante (1) consid`ere tous les nœuds du mod`ele discret qui, par projection orthogonale, appartiennent `a cette classe et (2) sp´ecifie que l’int´egration de la loi de densit´e sur ces nœuds est ´egale `a la fr´equence associ´ee `a la classe. Consid´erons un diagramme de fr´equence donn´e et notons ck, k ∈ {1, . . . , nk} l’une de ses classes ainsi que bkla fr´equence qui lui est associ´ee. Notons, en outre, Ωk l’ensemble des nœuds β de Ω qui, par projection orthogonale, appartiennent `a ck(figure (5.3)). La contrainte `a imposer est :

X

β∈Ωk

fX1...Xn(β) = bk (5.2)

Il vient alors que les coefficients de la contrainte DSI correspondante sont : Ac(β) = 1, ∀β ∈ Ωk Ac(β) = 0, sinon (5.3)

Un probl`eme lors de la construction des diagrammes de fr´equence marginaux est le choix de la largeur des diff´erentes classes. En effet, comme soulign´e par Soong [1981], celle-ci influence directement leurs fr´equences relatives et l’information qui peut ˆetre extraite des donn´ees. Cela peut conduire `a la perte d’informations de haute r´esolution si la largeur choisie est trop grande ou bien `a des fluctuations erratiques dans le cas contraire. Une seconde contrainte est la taille des cellules de la grille utilis´ee lors de l’interpolation. En effet, lors de la mise en place des contraintes, il est n´ecessaire qu’`a chaque classe corresponde un certain nombre de nœuds du maillage. Diff´erents tests ont montr´e que choisir une largeur de classe sup´erieure ou ´egale `a deux fois la taille des cellules de la grille donne des r´esultats satisfaisants. En outre, signalons que la r´esolution de la grille de calcul d´etermine largement les performances de la m´ethode (voir l’´etude pr´esent´ee section (2.6.3)). Il est ainsi n´ecessaire de trouver un ´equilibre entre la quantit´e de donn´ees disponibles et la taille de la grille de calcul.

Dans la suite, nous utiliserons l’heuristique propos´ee par Sturges [1926] repris dans Soong [1981] qui sugg`ere que le nombre de classes k d’un diagramme de fr´equence 1D, soit d´etermin´e `a partir du nombre de donn´ees disponibles n, tel que :

k = 1 + 3.3 log10n (5.4)

et nous adapterons en cons´equence la r´esolution de la grille sur laquelle est r´ealis´ee l’interpolation.

Contraintes sur les mesures caract´eristiques d’une distribution

Dans la cadre des G´eosciences, les donn´ees disponibles sont limit´ees en quantit´e mais aussi non pleinement repr´esentatives de la population ´etudi´ee. Il est donc n´ecessaire, en imposant un certain nombre de caract´eristiques issues de donn´ees analogues ou ´etablie par un expert, par exemple :

– la moyenne d’une variable al´eatoire ;

– la covariance entre deux variables al´eatoires ; – ou le quantile d’une des distributions marginales.

Ces contraintes peuvent ˆetre cumul´ees et pond´er´ees, l’algorithme DSI ayant pour objectif de les honorer toutes aux sens des moindres carr´es.

Moyenne d’une variable al´eatoire La moyenne mi d’une variable al´eatoire quelconque Xi, peut facilement ˆetre estim´ee `a partir de la loi de densit´e multivari´ee suivant la relation suivante :

mi = Z +∞ −∞ xi fXi(xi) dxi (5.5) avec fXi(xi) = Z +∞ −∞ . . . Z +∞ −∞ fX1,...,Xn(x) dx/dxi (5.6) o`u dx/dxi indique une int´egration sur l’ensemble des variables sauf xi. Afin de pouvoir imposer cette moyenne lors de l’interpolation, il est tout d’abord n´ecessaire de lin´eariser l’´equation (5.5)

sur le mod`ele discret Ω, tel que :

miX

β∈Ω

xi(β) fX1,...,Xn(β) (5.7)

Les coefficients de la contrainte DSI correspondante sont alors : Ac(β) = xi(β) ∀β ∈ Ω bc = mi (5.8)

Covariance de deux variables al´eatoires Consid´erons deux variables al´eatoires Xi et Xj dont les moyennes, respectivement mi et mj, sont connues. Leur covariance, not´ee Cij, est calcul´ee classiquement `a partir de la loi de densit´e multivari´ee telle que :

Cij = Z +∞ −∞ Z +∞ −∞ xi xj fXi,Xj(xi, xj) dxidxj− mi mj (5.9) avec fXi,Xj(xi, xj) = Z +∞ −∞ . . . Z +∞ −∞ fX1,...,Xn(x) dx/(dxidxj) (5.10) De mˆeme que pr´ec´edemment, cette relation est ensuite lin´earis´ee sous la forme :

CijX

β∈Ω

{xi(β)· xj(β)} fX1,...,Xn(β)− mi· mj (5.11)

Les coefficients de la contrainte DSI sont alors : Ac(β) = xi(β)· xj(β) ∀β ∈ Ω bc = Cij+ mi· mj (5.12)

Il est int´eressant de noter que si i = j, alors Cii correspond `a la variance marginale (σ2 i) de la variable al´eatoire Xi. Il est alors possible de l’imposer comme contrainte mais avec les coefficients

suivants : Ac(β) = x2i(β) ∀β ∈ Ω bc = σ2 i + m2 i (5.13)

Pour finir, deux remarques sur cette contrainte peuvent ˆetre faites : tout d’abord, il s’agit d’imposer une mesure de covariance lin´eaire, il est donc conseill´e, si l’on souhaite utiliser ce type de contrainte de proc´eder `a une transformation des donn´ees ; d’autre part, cette contrainte n´ecessite de connaˆıtre pr´ealablement les moyennes mi et mj des variables ´etudi´ees, or il est important de souligner que ces mesures sont rarement robustes en particulier dans le cas de jeu de donn´ees de taille limit´ee.

Quantile d’une distribution Notons qi le quantile d’une variable al´eatoire Xi et correspon-dant `a une valeur de fr´equence cumul´ee Qi. Par d´efinition, la relation entre ces deux variables et la loi de densit´e multivari´ee est :

Qi = P (X1< +∞, · · · , Xi < qi,· · · , Xn< +∞) = Z +∞ −∞ . . . Z qi −∞ . . . Z +∞ −∞ fX1,··· ,Xn(x)· dx

Consid´erons maintenant ΩQi l’ensemble des nœuds β du maillage discret tel que xi(β) < qi. Il est alors possible de lin´eariser l’´equation (5.15) sous la forme :

QiX

β∈ΩQi

fX1,··· ,Xn(β) (5.15)

ce qui conduit naturellement aux coefficients de contrainte DSI suivants : Ac(β) = 1 ∀β ∈ ΩQi Ac(β) = 0 sinon bc = Qi (5.16)

L’int´erˆet `a pouvoir imposer le quantile d’une distribution est double : tout d’abord les quatiles sont souvent des mesures relativement robuste, ainsi la m´ediane d’une distribution (i.e. le P50) est moins sensibles aux donn´ees extrˆemes que sa moyenne ; et d’autre part les quantiles permettent de contraindre les valeurs extrˆemes d’une distribution par exemple le P10ou le P90. En effet, ces valeurs sont, d’un point de vue de la mod´elisation, les plus int´eressantes mais aussi relativement mal ´echantillonn´ees.

Remarques Les contraintes d´ecrites ci-dessus permettent d’imposer des mesures statistiques globales de la distribution. Un probl`eme reste cependant ouvert : doit-on et peut-on traduire ces informations sur les histogrammes marginaux utilis´es lors de l’interpolation ? Ou bien doit on laisser la possiblit´e `a la technique d’interpolation de choisir de respecter ou non ces informations vis-`a-vis des donn´ees elle-mˆemes ?

5.2.3 R´esultats pr´eliminaires

Cette section pr´esente un exemples de lissage d’histogramme pour illustrer et discuter la m´ethodologie propos´ee. Le jeu de donn´ees consiste en 720 points de calibration entre des mesures de perm´eabilit´e et de porosit´e dans un r´eservoir p´etrolier.

La figure (5.7) pr´esente les r´esultat obtenus apr`es lissage dans le cas o`u aucune mesure statistique externe n’est prise en compte. L’interpolation s’appuie sur le calcul en pr´e-processus de 24 diagrammes marginaux unidimensionels de 30 classes chacun et distribu´es de mani`ere uniforme dans l’espace. La loi de densit´e obtenue est relativement satisfaisante : elle respecte les donn´ees initiales et ne pr´esente pas de fluctuations erratiques. Cet exemple illustre la capacit´e de l’approche propos´ee a combiner diff´erents histogrammes marginaux pour reconstruire un diagramme global bi-dimensionnel.

5.3 Analyse de la sensibilit´e de la m´ethode `a ses diff´erents