Méthode économique pour la construction IM séquentielle

4.4 Plans d’expériences IM séquentiels

4.4.2 Aspects numériques

4.4.2.1 Méthode économique pour la construction IM séquentielle

Examinons tout d’abord log(det R_{X∪{x},X∪{x}}). Quitte à renuméroter les lignes et les colonnes, la matrice R_{X∪{x},X∪{x}} se met sous la forme

RX,X RX,x

R^t_X,x 1 #

d’où log(det R_{X∪{x},X∪{x}}) = log(1 − R_X,x^t R⁻¹_X,XRX,x) + log(det R_X,X).

Avec la factorisation de Cholesky R_X,X = S^tS on obtient finalement

log(det R_{X∪{x},X∪{x}}) = log1 − (S^−tRX,x)^t(S^−tRX,x))+ 2 log(det S).

Avec cette expression, S ne dépendant pas de x, seul le calcul de S^−tR_X,xest à faire à chaque point de test.

Faire apparaître des calculs indépendants de x dans l’évaluation de log(det R_X\{x},X\{x}) est plus complexe. Il est nécessaire d’introduire une partition en blocs des points de X. Soit J = {1, 2, · · · , M − n} l’ensemble des indices des points de X, L un sous ensemble de J . On note I = J \ L et L^−l= L \ {l} pour l un indice de L, ce qui donne la partition de J en I ∪ L^−l∪ {l}. Notre but est de faire apparaître des calculs indépendants de l lorsque l demeure dans L.

Quitte à renuméroter ses lignes et ses colonnes, la matrice R_X,X peut être mise sous la forme par blocs suivante :



 

R_I,I R_I,L−l R_I,l R^t_I,L−l R_L−l,L−l R_L−l,l

RI,l^t R^t_L−l,l Rl,l





. (4.27)

On veut calculer le logarithme du déterminant de la matrice obtenue en supprimant la ligne et la colonne l de R_X,X c’est-à-dire, log det " RI,I R_I,L−l R_I,L−lt R_L−l,L−l #! . (4.28)

En introduisant le complément de Schur du bloc R_I,I, on peut écrire :

log det "

R_I,I R_I,L−l

R_I,L−lt R_L−l,L−l

Quand l parcourt l’ensemble d’indices L, la matrice R_I,I est fixe ; elle ne demande qu’une seule factorisation de Cholesky R_I,I = StS.

Les calculs de R^t_I,L−lR⁻¹_I,IR_I,L−l = (S^−tRI,L−l)^tS^−tRI,L−l ne demandent pas non plus à être refaits pour chaque l ∈ L. Il suffit de calculer une fois la matrice C = S^−tRI,L, de supprimer la colonne correspondant à l C_,−l et d’effectuer la factorisation de Cholesky de R_L−l,L−l− (C_,−l)^tC_,−l. Pour traiter la suppression de tous les indices dans J , on se donne une partition en m sous-ensembles : J = {1, 2, · · · , M − n} = ∪^m_v=1Lv et on traite chaque groupe d’indices L_v successive-ment. Les étapes du calcul de det R_X\{l},X\{l} sont récapitulées dans l’Algorithme 9.

Algorithm 9 Évaluation det R_X\{l},X\{l} en découpant R_X,X par blocs : for v = 1 to m do

L = Lv

I = J \ L

R_I,I = S^tS "factorisation de Cholesky" C = S^−tRI,L

det₁ = 2Pcard(I)

i=1 log(S_i,i) for l=1 to card(L) do L^−l= L \ {l} B = R_L−l,L−l − Ct ,−lC,−l B = Q^tQ "factorisation de Cholesky" det₂= 2Pcard(L^−l)

i=1 log(Q_i,i) + det₁ end for

Il s’agit à présent de choisir la taille des blocs L_v. Plus la taille est grande, plus on fait d’économies dans le calcul de det₁, mais on augmente en même temps le coût du calcul de det₂. La suite traite de cette question sur des exemples.

Soit t_N,m le temps de calcul nécessaire pour générer un plan IM -séquentiel X_N à N points en utilisant l’algorithme9. On nomme m^∗ le nombre optimal de blocs pour générer X_N.

m^∗= arg min

m∈{1,2,··· ,M −N }t_N,m. (4.30)

Afin de spécifier l’ordre de grandeur de m^∗, on va étudier :

1. l’impact du nombre total de points N du plan sur le nombre m de blocs.

2. l’impact de la taille de la grille utilisée pour discrétiser le domaine sur le nombre m de blocs. On génère des plans IM -séquentiels à 50 et à 100 points en utilisant une grille régulière à 289 points en dimension d = 2 et on compare le nombre optimal de blocs dans les deux cas. On sait que le temps de calcul nécessaire pour construire un plan IM −séquentiel est proportionnel à la dimension et au nombre de points, c’est pourquoi on le normalise par rapport aux temps de calcul minimum et maximum afin de pouvoir le comparer pour différents nombres de points :

t_N,m = t_N,m− min_m(t_N,m)

max_m(t_N,m) − min_m(t_N,m). (4.31)

La figure 4.27représente le lien entre le temps de calcul normalisé (équation (4.31)) et le nombre m des blocs pour générer des plans IM -séquentiels à 100 (en noir) et à 50 points (en bleu), les deux courbes ont la même zone d’optimalité pour m^∗ ∈ {7, 8, 9}. Cette figure montre qu’il y a une influence faible voire nulle du nombre de points, quand il reste du même ordre de grandeur, sur le nombre optimal de blocs. De plus, elle nous informe que l’on ne doit pas utiliser un nombre élevé de blocs.

L’impact de la taille de grille utilisée pour discrétiser le domaine sur le choix optimal de nombre de blocs est présenté sur la figure4.28. On trace dans cette figure le temps de calcul normalisé en fonction du nombre de blocs utilisé pour générer un plan IM -séquentiel à 50 points en dimension d = 2 en utilisant une grille régulière à M = 121 points (resp. M = 169, M = 225, M = 289, M = 361, M = 1225) en jaune (resp. violet, bleu clair, bleu foncé, vert, rouge). Le tableau 4.1

récapitule le nombre optimal de blocs.

Cette figure et ce tableau nous confirment que le nombre de blocs ne doit pas être très élevé. D’après le tableau on peut déterminer la valeur de m^∗ par la règle empirique :

m^∗ = √

Figure 4.27 – Temps de calcul normalisé en fonction du nombre de blocs m = {2, 3, · · · , 35} utilisés pour construire un plan IM -séquentiel à N = 100 points en noir et à 50 points en bleu en dimension d = 2 en utilisant une grille régulière à M = 289 points.

Figure 4.28 – Temps de calcul normalisé en fonction du nombre de blocs m = {2, 3, · · · , 35} utilisés pour construire un plan IM -séquentiel à N = 50 points sur une grille régulière à M = 121 points (resp. M = 169, M = 225, M = 289, M = 361, M = 1225) en jaune (resp. violet, bleu clair, bleu foncé, vert, rouge).

M 121 169 225 289 361 1225

m^∗ 6 6 7 7 9 14

Table 4.1 – Le nombre optimal de blocs trouvé avec différentes grilles en dimension d = 2.

générer des plans IM -séquentiels en utilisant la méthode proposée dans cette section, noté t₁ (a) avec un nombre m de blocs calculé par l’équation (4.32) et la méthode naïve, noté t₂(b) en fonction de la dimension d, ainsi que le rapport entre ces deux temps de calcul. La discrétisation de la grille et le nombre de points du plan sont tels que : M = 100d et N = 10d. Cette figure confirme l’utilité de la méthode. Par exemple, pour construire un plan IM -séquentiel à N = 100 points en dimension d = 10 en utilisant un ensemble à M = 1000 points, t₂ = 35t₁. Ainsi, la nouvelle méthode a pu remarquablement réduire le temps de calcul.

On conclut que d’un côté, la factorisation de Cholesky permet de rendre le critère plus stable nu-mériquement et elle contribue à réduire un peu le temps de calcul de la construction IM -séquentielle. D’un autre côté, la méthode d’évaluation par blocs réduit le temps de calcul et rend cette construc-tion accessible en grande dimension. Ainsi, la construcconstruc-tion de plans d’expériences séquentiels à partir de l’information mutuelle, critère adapté à de la prédiction par krigeage, devient abordable en grande dimension.

4.4.3 Synthèse

L’objectif principal de la section 4.4 était d’étudier en détail la construction de plans IM -séquentiels. Nous commençons par explorer l’impact de différents paramètres du critère IM sur la construction IM -séquentielle. Nous étudions l’influence de la finesse de la discrétisation du domaine et nous trouvons que plus la grille est fine plus les points évitent les bords du domaine. Nous retenons le noyau exponentiel après l’avoir comparé au noyau gaussien car la construction avec ce noyau ne subit pas de problème numérique, de plus la qualité de remplissage de l’espace des plans IM -séquentiels avec le noyau exponentiel est meilleure que celle avec un noyau gaussien. Nous proposons pour ce noyau une valeur de la portée θ qui fournit des plans remplissant bien l’espace dans le cas où d = 2. Enfin, nous proposons une méthode computationelle pour la construction séquentielle qui s’appuie sur le découpage de la matrice de corrélation en blocs. L’intérêt de cette méthode réside dans la réduction importante du temps de calcul de la construction IM -séquentielle.

(a) (b)

(c)

Figure 4.29 – Temps de calcul en seconde pour générer des plans IM -séquentiels avec M = 100d, N = 10d en fonction de dimension d en utilisant (a) la méthode découpant la matrice R_X,X en blocs, (b) la méthode classique.

Chapitre 5

Conclusions et perspectives

5.1 Résumé et conclusions

Ce travail de thèse porte sur la planification d’expériences numériques adaptées à la prédiction par krigeage, l’un des métamodèles les plus utilisés en pratique. Le krigeage est construit à partir d’un nombre réduit de simulations qui sont organisées dans un plan d’expériences, et il est important de choisir un plan d’expériences approprié. Le meilleur plan d’expériences est celui qui donne une erreur de prédiction minimale, c’est-à-dire qui minimise l’erreur quadratique moyenne intégrée (IM SE) du modèle. Au sein de ce travail je propose plusieurs techniques permettant de construire de bons plans d’expériences par rapport au critère IM SE sans optimiser directement l’IM SE, critère souvent considéré comme trop coûteux à évaluer, et donc à optimiser.

Le chapitre 2 fait un tour d’horizon non exhaustif de l’état de l’art en plans d’expériences nu-mériques. Tout d’abord, nous présentons les deux grandes familles de critères visant à quantifier la qualité d’un plan. Les premiers sont indépendants de toute connaissance du métamodèle. On les appelle critères sans modèle et ils visent à quantifier la bonne répartition des points dans l’espace. La deuxième famille de critères vise à quantifier la qualité du plan pour un type de métamodèle donné. On les appelle critères avec modèle. Un plan d’expérience est souvent construit de sorte à être optimal par rapport à l’un des critères précédents. Nous introduisons dans le chapitre2 deux méthodes de génération de plans d’expériences. La première cherche à générer des N points dans le domaine expérimental en appliquant un algorithme d’optimisation. Les plans obtenus par cette méthode sont nommés les plans d’expériences à une seule étape, ou plans à taille N fixe. Nous avons listé plusieurs types de plans à taille fixe. La deuxième méthode a pour but de générer un plan par ajout successif des points l’un après l’autre : ce sont les plans séquentiels.

Les résultats de la thèse peuvent être divisés en deux parties : la première partie porte sur la génération de plans à taille fixe de bonne qualité prédictive pour le krigeage (chapitre 3), la deuxième sur la génération de ces plans de manière séquentielle (chapitre 4).

Nous avons commencé par l’étude, dans le chapitre 3, de l’impact de la contrainte LHD sur la répartition spatiale des points de plans optimisés selon le critère maximin dans le cas de petites dimensions d = 2, 3. On obtient que quand le nombre de points est faible par rapport à la dimension, la contrainte LHD aide à la bonne répartition spatiale, en réduisant le nombre de points sur le bord.

Ce n’est plus le cas quand le nombre de points augmente, où la contrainte LHD pénalise alors la qualité SFD du plan.

Les plans maximin-optimaux étudiés ci-dessus ont tendance à présenter une (trop) grande partie des points sur les bords du domaine. En lien avec ce constat, nous avons introduit un nouveau critère de "discrépance radiale". Ce critère quantifie l’écart à l’uniformité de la distribution empirique de points selon leur distance aux bords du domaine. Nous avons introduit ce critère en norme L∞ et L2. Ce nouveau critère permet de déceler la pathologie des plans maximin-optimaux, pathologie non décelée par les autres critères de discrépance.

Pour éviter l’optimisation directe de l’IM SE, nous proposons, toujours au sein du chapitre 3, d’étudier le lien entre critères sans modèle et IM SE. Plus généralement, nous cherchons un critère sans modèle, intéressant pour des modèles processus gaussiens ayant des covariances très différentes. Nous trouvons qu’il existe une relation remarquable entre le critère IM SE et le critère minimax φmM. Le lien entre ces deux critères s’explique par le fait que le critère φ_mM mesure la distance maximale entre un point du domaine expérimental et les points du plan d’expériences. Ainsi, un plan ayant une petite valeur de φ_mM produit un modèle de krigeage avec une faible erreur. Cependant, le critère φ_mM qui est calculé en utilisant soit la tessellation de Voronoï soit la triangulation de Delaunay est aussi difficile à calculer que l’IM SE. C’est pourquoi nous proposons un "proxy" pour un plan φ_mM ou IM SE optimal basé sur un plan maximin-optimal. Le principe de ce proxy est d’éviter le bord du domaine, sur-représenté avec les plans maximin-optimaux, en ajoutant une bande de vide autour de la configuration maximin. Il s’agit d’une méthode assez efficace pour générer de bons plans φ_mM et IM SE à partir d’un plan maximin-optimal.

Ainsi la dernière partie du chapitre 3 porte sur le verrou de cette première partie de la thèse : l’optimisation du critère maximin, problème que nous proposons de résoudre par une métaheuris-tique. Après avoir dressé un bref état de l’art de différentes métaheuristiques, notre choix s’est porté sur l’algorithme du recuit simulé. Il s’agit d’une méthode facile à implémenter, elle est applicable aux problèmes d’optimisation continus et elle possède une preuve de convergence asymptotique. Cet algorithme a plusieurs paramètres à régler (schéma de refroidissement, opérateur de proposi-tion, · · · ). A partir de nombreux essais numériques effectués en dimension d = 2, 3, nous proposons un réglage efficace des paramètres de la méthode pour optimiser des plans selon le critère maxi-min. La performance du recuit simulé ainsi réglé est confirmée lors de comparaisons à deux autres algorithmes d’optimisation de type métaheuristiques (les algorithmes ESE et CMA-ES).

La deuxième partie de cette thèse porte sur la génération séquentielle d’un plan ayant de bonnes qualités prédictives pour le krigeage. Autrement dit, nous cherchons à construire une suite de plans imbriqués de telle manière que chaque plan de la suite permette une bonne prédiction de la réponse par krigeage.

Dans ce contexte de génération séquentielle d’un plan (chapitre 4), nous exploitons le théorème introduit par Nemhauser et al. (1978) qui assure la bonne qualité de la suite de plans si la suite est construite par un algorithme glouton qui optimise un critère croissant et sous-modulaire. Dans

présentés dans le chapitre2nous trouvons que seuls les deux critères d’information (entropie et in-formation mutuelle) satisfont ces conditions. Ces deux critères s’appuient sur la corrélation spatiale entre les points pour générer un plan d’expériences. La différence entre ces deux critères réside dans le fait que l’entropie considère seulement les points du plan d’expériences, tandis que le critère de l’information mutuelle tient aussi compte des autres points du domaine. Ces deux constructions : H et IM séquentielles sont comparées à un critère de qualité de prédiction de la régression par processus gaussiens en dimension d = 2. On montre que les plans IM -séquentiels sont les plus adaptés à la prédiction par krigeage.

Ainsi la dernière partie du chapitre 4(cf. section4.4) porte sur l’étude des plans IM -séquentiels, en particulier sur l’impact de ses différents paramètres sur la qualité des plans et son évaluation numérique. Nous obtenons que le noyau exponentiel est plus approprié que le noyau gaussien : l’évaluation numérique est moins sensible à la valeur de la portée et les points du plan sont mieux répartis spatialement. Des valeurs de la portée sont alors préconisées dans le cas d = 2 et dépendent de la discrétisation du domaine. Nous proposons en deuxième partie de la section4.4une implémen-tation efficace du calcul de l’information mutuelle, basée sur un découpage par blocs de la matrice de corrélation. Cette méthode réduit considérablement le temps de calcul et permet d’envisager l’exploitation de cette construction séquentielle en grande dimension.

Dans le document Plans prédictifs à taille fixe et séquentiels pour le krigeage (Page 139-147)