• Aucun résultat trouvé

où k.k désigne la norme euclidienne, alors pour un réseau digital randomisé par un fully random scrambling ou un random linear scrambling :

Varrµˆscrs POpn´3logd´1pnqq.

Démonstration. Nous renvoyons à la preuve du théorème 2 dans [Owe97b].

Ces deux résultats montrent que randomiser une suite digitale permet poten-tiellement d’améliorer l’estimation de la moyenne µ. Toutefois, comme les suites digitales randomisées sont des pt, dq-suites, dans le pire des cas la vitesse de conver-gence reste enOplogdpnq{nq.

Cet ordre de convergence est cependant pessimiste car la vitesse de convergence d’unept, dq-suite est plus ou moins liée à la dimension effective de la fonctionf. La dimension effective d’une fonctionf se définie à partir de la décomposition ANOVA fonctionnelle def :

fpxq “ ÿ uĎD

fupxq,

détaillée plus précisement à la section 2.1.2. Notons parσ2 et σ2

u les variances res-pectives de f et fu. Etant donné une proportion p, la dimension effective de f au sens de superposition est le plus petit entier dS tel que :

1 σ2 ÿ 0ď#uďdS σ2 u ěp.

Autrement dit la fonction f peut être approchée par une somme de fonctions d’au plusdS variables. La dimension effective def au sens de troncation est le plus petit entier dT tel que :

1

σ2

ÿ

uĎt1,2,...,dTu

σ2uěp.

Autrement dit la fonctionf peut être approchée par une somme de fonctions définies seulement à partir des dT premières variables. Pour plus de précisions sur la notion de dimension effective nous renvoyons le lecteur à l’article de Caflischet al.[CMO97]. Dans [WF03], les auteurs remarquent, illustrations à l’appui, que dans le cas de fonctions ayant une petite dimension effective au sens de troncation (ď 10) ou de superposition (ď 3q, on peut s’attendre à ce que la vitesse de convergence d’une pt, dq-suite soit meilleure que celle d’un plan aléatoire.

1.4 Critères de qualité

La dernière section de ce chapitre est dédiée à la présentation de critères permet-tant d’étudier les propriétés d’uniformité ou de bon remplissage de l’espace (space-filling) d’un plan d’expériences numériques. Les critères que nous présentons dans cette section ne requièrent aucune hypothèse supplémentaire sur le modèlef étudié.

Le premier critère est appelé discrépance et permet de mesurer si la distribution des points d’un plan d’expériences est proche ou non d’une distribution uniforme.

Le second critère que nous présentons est un critère de distance entre points permettant d’évaluer la qualité de remplissage de l’espace d’un plan d’expériences.

Le dernier critère s’inspire de la théorie des graphes, ce critère permet de classer la distribution des points d’un plan d’expériences parmi différentes catégories de distributions.

Combiner l’utilisation de ces différents critères permet d’investiguer avec préci-sion la qualité d’un plan d’expériences à partir de ses propriétés d’uniformité et de remplissage de l’espace.

1.4.1 Discrépance

La discrépance permet de juger l’uniformité d’un plan d’expériences. Ce critère peut être vu comme une généralisation multidimensionnelle de la statistique de Kolmogorov-Smirnov. Afin de définir ce critère nous introduisons l’ensemble des parties der0,1sd de la forme : r0,vs “ ! X P r0,1sd |0ďXj ďvj,@jPD ) , v“ pv1, . . . , vdq P r0,1sd. Ces ensembles sont des pavés dont l’un des sommets est l’origine 0 der0,1sd. Pour un plan d’expériences P “ tXiuni“1, nous comptons combien de points du plan

P appartiennent à chaque pavé. C’est à dire que nous déterminons la cardinalité suivante :

αpP,vq “#tXiPPX r0,vsu,

où # désigne l’opérateur cardinalité. La fonction de répartition empirique de P

assigne une probabilité deαpP,vq{nau pavér0,vs. Pour une loi uniforme surr0,1sd, cette probabilité vaut

d

ś

j“1

vj. On peut alors mesurer l’écart, la discrépance, entre la distribution des points de P et une loi uniforme, par :

D˚ pPq “ sup vPr0,1sd d ź j“1 vj´αpP,vq{n . (1.11) D˚

pPq est appelée la discrépance étoilée d’un ensemble de points P. Une variante de cette mesure est la discrépance extrême qui ne restreint pas un des sommets des pavés à être à l’origine. Les pavés étudiés sont alors définis par :

rw,vs “

!

X P r0,1sd|wj ďXj ďvj,@jPD), pv,wq P pr0,1sdq2, à partir desquels on dénombre :

1.4. Critères de qualité 31

La discrépance extrême est alors définie par :

DpPq “ sup pw,vqPpr0,1sdq2 d ź j“1 pvj´wjq ´αpP,w,vq{n . (1.12)

Pour les dimensions d“1 etd“2 des formules analytiques ont été trouvées pour (1.11) et (1.12) [Nie92b]. Malheureusement, le calcul de ces quantités devient trop complexe pour des dimensions plus grandes. Les expressions (1.11) et (1.12) font intervenir une norme L8, une alternative consiste à considérer une norme L2. On définit alors la discrépance L2 étoilée et la discrépance L2 extrême par :

D˚ 2pPq “ ¨ ˚ ˝ ż r0,1sd ˜ d ź j“1 vj´αpP,vq{n ¸2 dv ˛ ‹ ‚ 1{2 , (1.13) D2pPq “ ¨ ˚ ˝ ż r0,1s2d ˜ d ź j“1 pvj´wjq ´αpP,w,vq{n ¸2 dwdv ˛ ‹ ‚ 1{2 . (1.14)

Des expressions analytiques de (1.13) et (1.14) peuvent être obtenues [Hic98a]. Pour un plan aléatoire P à npoints, nous avons les résultats suivants :

ErD˚

2pPq2

s “ p2´d

´3´dq{n,

ErD2pPq2s “6´dp1´2´dq{n.

Les discrépances L2 sont les plus utilisées en pratique du fait de leurs expressions analytiques simples et rapides à évaluer. Pour des petites valeurs den, la discrépance

L2 extrême n’est pas assez précise (approximations grossières observées sur des cas tests) tandis que la discrépanceL2étoilée ne capte pas la différence

d

ś

j“1

vj´αpP,vq{n dans des variétés géométriques (manifolds) de faible dimension.

Pour remédier à ces défauts, Hickernell propose plusieurs versions modifiées de la discrépance L2 étoilée [Hic98a,Hic98b, FLS06] parmi lesquelles les discrépances

L2 centrée et L2 enveloppée. Les formules analytiques de ces diverses discrépances sont explicitées dans [Fra08].

Pour l’étude des propriétés d’uniformité de nos plans construits aux chapitres 3 à 5, on se limite à l’utilisation de la discrépance L2 étoilée. En effet, dans nos exemples d’application, les tailles n des plans construits sont suffisament grandes pour pallier les défauts de cette discrépance.

1.4.2 Distance entre points

Dans [JMY90], Johnson introduit deux critères de distance entre points. Ces critères permettent d’évaluer si la distribution des points d’un plan d’expériences

P “ tXiuni“1 est proche de celle d’une grille régulière ou non. Le premier critère, appelé critère minimax, est défini par :

φpmMpPq “ max

vPr0,1sd min

XiPPkv´Xikp, (1.15) où k.kp désigne la norme Lp dansr0,1sd:

kvkp “ ˜ d ÿ j“1 vjp ¸1{p .

Le critère minimax est appelé critère de dispersion par Niederreiter [Nie92b, Cha-pitre 6]. Ce critère est le plus couramment défini pourp“2et l’on abrège le critère par φmM. Une petite valeur de φmMpPq signifie qu’il n’existe pas de point v dans r0,1sd qui ne soit pas proche d’un point Xi de l’ensemble P. L’utilisation de ce critère requiert le calcul de toutes les distances entre les pointsv du domainer0,1sd et les points Xi de P. En pratique, ce critère est approximé à l’aide d’une discré-tisation fine du domaine r0,1sd, les points issus de la discrétisation substituant v

dans (1.15). Dans [PM12], Pronzato et Müller propose un calcul exact deφmMpPqà partir de la triangulation de Delauney de l’ensemble de pointsP. Ces deux dernières approches (approximation et calcul exact) ne sont cependant envisageables que pour des petites valeurs de d.

Le second critère, appelé critèremaximin, est défini par : φpM mpPq “ min

pXi,XjqPP2kXi´Xjkp. (1.16) Le critère maximin est également le plus souvent défini pour p “ 2 et l’on abrège ce critère par φM n. Ce critère ne fait appel qu’aux points du plan P et évalue le minimum des distances entre toutes les paires de points de P. Si ce minimum vaut c, tous les points de P sont espacés les uns des autres d’une distance d’au moins c. Ainsi, plus la valeur de φM n est grande, meilleur est le remplissage de l’espace par

P.

1.4.3 Arbre de poids minimal

L’introduction du critère arbre de poids minimal [FVCS09], encore appeléemst (euclidean minimal spanning tree), nécessite au préalable quelques rappels sur la notion de graphe.

Un graphe est un ensemble de points nommés noeuds (sommets) reliés par des arêtes. Formellement, on note l’ensemble des noeuds du graphe parV “ tv1, . . . ,vnu et l’ensemble des arêtes parE “ te“ pv,v1q|pv,v1q PV2

u. Dans notre cas, les arêtes sont non orientées. Le graphe associé est notéG“ pV, Eq.

1.4. Critères de qualité 33

Dans le cas général, un graphe peut posséder des arêtes dites multiples qui relient toutes la même paire de sommets. Un graphe peut également posséder des boucles, c’est à dire des sommets reliés à eux-mêmes. Nous introduisons maintenant quelques définitions relatives aux graphes :

‚ un cycle est une suite d’arêtes deE reliant un sommet à lui même.

‚ un graphe pondéré sur ces arêtes est un graphe auquel on associe une fonction de pondération θ de ses arêtes. C’est à dire que chaque arête e “ pv,v1

q possède un poidsθpeq.

‚ un graphe simple est un graphe ne possèdant ni arêtes multiples ni boucles. ‚ un graphe connexe est un graphe tel que : quelque soit la paire de sommets

distincts pv,v1q P V2 considérée, il existe une suite d’arêtes de E reliant v à

v1.

Un graphe est un arbre s’il est simple, connexe et acyclique (ne possède pas de cycles). Un graphe est un arbre de poids minimal s’il est un arbre dont la somme des poids de ses arêtes est minimale.

Le critèreemstpour un planP “ tXiuni“1consiste à construire un arbre de poids minimalG“ pV, Eq où l’ensemble des sommets V s’identifie aux points du planP. Le poids de chaque arête e P E correspond à la valeur de la distance euclidienne entre les sommets reliés par e:θpeq “kXi´Xkk2, pXi,Xkq PP2.

Pour un même ensemble de points, on peut construire plusieurs arbres de poids minimal. Cependant, l’histogramme des poids des arêtes est unique [FVCS09]. Le plan P peut ainsi être caractérisé par la moyenne µG et l’écart-type σG des poids des arêtes de l’arbreG. Le critèreemst peut être représenté dans un graphe d’inter-prétationpµG, σGq, illustré en figure1.10, afin de comparer la distribution des points de P à différentes catégories de distributions ; la distribution uniforme faisant office de distribution de référence.

Parmi ces catégories, les distributions quasi-périodiques sont caractérisées par une grande valeur deµGet une faible valeur deσG. Une grande valeur deµGsignifie qu’en moyenne les points sont bien espacés les uns des autres. Une faible valeur de σG que les distances entre les points sont homogènes. Ainsi les distributions quasi-périodiques remplissent efficacement le domainer0,1sddu point de vue de la distance entre points.

Il est possible de définir le critère de comparaison suivant : un plan P1 remplit mieux l’espace qu’un plan P2, si µG1 ąµG2 etσG1 ăσG2 avec G1 etG2 les arbres respectifs deP1,P2. Le critèreemst est un bon complément du critèremaximin pour diagnostiquer avec précision les propriétés space-filling d’un plan d’expériences. Il est également possible de construire d’autres types d’arbres (par exemple l’arbre des plus proches voisins [PM12]) pour évaluer les propriétés space-filling d’un plan d’expériences.

Figure 1.10 – Graphe d’interprétationpµG, σGq du critèreemst pour un arbreG.

Documents relatifs