Plans d'expériences D- et X-optimaux pour des modèles de connaissance nonlinéaires

(1)

HAL Id: hal-01607212

https://hal.archives-ouvertes.fr/hal-01607212

Submitted on 4 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Plans d’expériences D- et X-optimaux pour des modèles de connaissance nonlinéaires

Sebastien Issanchou, Jean-Pierre Gauchi

To cite this version:

Sebastien Issanchou, Jean-Pierre Gauchi. Plans d’expériences D- et X-optimaux pour des modèles de

connaissance nonlinéaires. Coloque 30 ans de Méthodologie de la Recherche Expérimentale, Jun 2005,

Aix en Provence, France. �hal-01607212�

(2)

Plans d’expériences optimaux pour réseaux de neurones Sébastien Issanchou* et Jean-Pierre Gauchi**

* Netral, 14 rue Verdi − 92130 Issy les Moulineaux

** INRA, Domaine de Vilvert − 78352 Jouy en Josas Cedex Sebastien.Issanchou@netral.com

Mots-clés : Plans d’expériences optimaux, Réseaux de neurones, D-optimalité

Résumé :

Ce travail jette un regard neuf sur la modélisation par réseaux de neurones. La théorie de la régression non linéaire et des plans d’expériences optimaux sont mis à profit pour élaborer des plans d’expériences visant à accroître la précision du modèle neuronal prédictif. Le critère de D-optimalité est retenu dans ce travail. Les algorithmes habituellement utilisés sont adaptés afin de permettre la construction, aidée par ordinateur, de plans d’expériences localement D- optimaux, continus et discrets. Le gain apporté par l’utilisation de tels plans d’expériences est évalué au moyen d’une étude par simulation de la distribution empirique du prédicteur. Le développement d’une stratégie séquentielle est illustré à partir d’un exemple.

Summary:

This work gives a new insight in the field of feed forward neural networks modelling. It comes within the framework of nonlinear regression and uses statistical concepts to construct computer-aided D-optimum designs for this class of model. Classical algorithms are adapted to construct locally continuous and discrete D-optimum designs. Improvements in the precision of the predictor are evaluated by means of a simulation-based study. The development of a D-optimum sequential strategy for neural networks models is illustrated on an example.

1 Introduction

La méthode des plans d’expériences est un moyen privilégié de recueillir une information fiable pour la construction d’un modèle mathématique d’un processus qu’il convient de comprendre et/ou d’optimiser.

Lorsqu’on utilise un modèle polynomial complet et qu’aucune contrainte ne vient perturber l’étude, la méthode des plans d’expériences fait appel à des plans désormais largement répandus au niveau industriel et qui sont notamment fondés sur l’orthogonalité entre facteurs expérimentaux. Ce sont les plans de criblage, les plans factoriels complets ou fractionnaires et les plans pour surface de réponse (Box et coll., 1978 ; Box et Draper, 1987 ; Kobilinsky, 1997).

En revanche, lorsque le modèle polynomial postulé est incomplet ou lorsque le domaine expérimental est tronqué, pour ne citer que les contraintes les plus usuelles, ces familles de plans d’expériences ne sont plus optimales ou tout simplement impossibles à mettre en œuvre.

La théorie de l’optimalité en plans d’expériences, fondée essentiellement par Kiefer à la fin

des années 50 (Kiefer, 1959, 1974), a permis de définir une nouvelle famille de plans

d’expériences particulièrement adaptés à de telles situations, dès lors que le modèle du

processus est linéaire par rapport à ses paramètres à estimer. Ce sont les plans d’expériences

(3)

optimaux (Fedorov, 1972 ; Atkinson, 1982) dont les plus célèbres reposent sur le critère de D- optimalité (St John et Draper, 1975).

Box et Lucas Box et Lucas, 1959 ont été parmi les premiers à suggérer l’utilisation des plans d’expériences optimaux pour des modèles de régression non linéaires par rapport à leurs paramètres. Initialement développée dans le cadre de l’estimation des paramètres de modèles de connaissance non linéaires issus de la cinétique chimique ou de la pharmacocinétique, l’approche proposée consiste à tout d’abord linéariser le modèle non linéaire puis à utiliser les critères développés pour le modèle linéaire. Bien qu’approximative, cette approche demeure localement optimale et une vaste littérature témoigne de son intérêt. Néanmoins, contrairement au cas linéaire, les critères d’optimalité des plans d’expériences dépendent ici de la valeur des paramètres du modèle. Afin de remédier à cette situation paradoxale, des stratégies adaptées telles que la planification locale (Chernoff, 1953), la planification séquentielle (Box et Hunter, 1963, 1965 ; Benhken, 1964 ; Fedorov, 1972) ou la planification bayesienne (Draper et Hunter, 1967 ; Pronzato, 1986 ; Merlé et coll, 1994 ; Merlé et Mentré, 1995) sont alors utilisées.

Dans ce travail, nous proposons d’adapter la méthodologie des plans d’expériences optimaux aux réseaux de neurones statiques de type perceptron multi-couches (Dreyfus et coll., 2004) vus comme des modèles de régression non linéaires paramétrés.

2 Notations et positionnement du problème

2.1 Formalisme du modèle de régression non linéaire On note le modèle de régression non linéaire comme :

( ^, ^* ) ^ε ⁱ ^1, ^N

η

y

_i

= x

_i

θ +

_i

= avec :

− y

_i

: observation de la réponse lors de l’expérience i ;

− η ( x

_i

, θ * ) : fonction continue des variables explicatives définies par le vecteur x

i

et des paramètres θ * (la partie déterministe du modèle) ;

− x

_i

: vecteur ( h × 1 ) dont les composantes x

1_i

, x

2_i

, K , x

_hi

représentent les niveaux fixés et parfaitement contrôlés des h variables explicatives (les entrées dans le cas des réseaux de neurones) x

1

, x

2

, K , x

_h

pour l’expérience i , avec x

_i

∈ Ξ , domaine expérimental compact

ℜ

h

⊂ ;

− θ * : vecteur ( p × 1 ) dont les composantes sont les p paramètres inconnus du modèle déterministe à estimer, avec θ * ∈ Θ , domaine paramétrique compact ⊂ ℜ

^p

(les poids synaptiques dans le cas des réseaux de neurones) ;

− ε

_i

: un terme d’erreur aléatoire supposé suivre une loi normale ^N ( ⁰ ^, ^σ

²

) ^.

2.2 Modélisation neuronale

Le terme η ( x

_i

, θ * ) modélise l’espérance des observations, notée aussi E ( y x

i

) , que

l’on pourrait obtenir en répétant l’expérience i une infinité de fois. Un raisonnement physique

peut être à l’origine de l’équation mathématique utilisée pour modéliser cette espérance

(modèle de connaissance) mais il est également possible d’utiliser un modèle de

(4)

comportement tel qu’un perceptron multi-couches, en s’appuyant notamment sur la propriété d’approximation universelle dont jouit, sous certaines conditions, ce type de réseau (Hornik, 1991). Dans ce qui suit, nous utiliserons exclusivement des réseaux à une seule couche de neurones cachés à fonction d’activation « tangente hyperbolique ». Par exemple, pour un processus dépendant de 3 facteurs modélisé par un réseau à 2 neurones dans la couche cachée, la partie déterministe du modèle s’écrit :

( ) ( )

(

i

)

* i

*

i

* i

*

* i

x x

x

x x

x

* ,

3 11 2 10 1 9 8 7

3 6 2 5 1 4 3 2

1

tanh tanh

θ + θ + θ + θ θ

+

θ + θ + θ + θ θ

+ θ

= η x θ

Bien sûr, la complexité (i.e., le nombre de neurones cachés) du réseau à utiliser peut être très (trop ?) grande si l’on ne prend pas garde à limiter le domaine expérimental d’intérêt afin de réduire la complexité du processus à modéliser. Par retour d’expérience, et pour peu que ce domaine soit correctement choisi, il est rarement nécessaire de construire des réseaux ayant plus de 4 ou 5 neurones cachés.

2.3 Estimation des moindres carrés et planification expérimentale

Dans un contexte statistique gaussien, l’estimateur des moindres carrés (EMC) des paramètres, noté θ ˆ , est asymptotiquement non biaisé et efficace, ce qui justifie son utilisation pour l’apprentissage du réseau à partir d’observations expérimentales. Il est cependant très difficile d’évaluer la précision de cet estimateur à distance finie (i.e., pour un nombre fini d’observations). Une solution est d’effectuer un développement en série de Taylor limité au premier terme de la partie déterministe du modèle non linéaire, soit :

( ^x

i

^, ^θ ) ≈ η ( ) ( ) ( ) ^x

i

^, ^θ ^ˆ + ^z ^x

i

^, ^θ ^ˆ

^T

^θ − ^θ ^ˆ η

avec ^z ( ) ^x

i

^, ^θ ^ˆ

^T

(de dimension ( 1 × p ) ) une ligne de la matrice jacobienne du modèle (de dimension ( N × p ) ) calculée en θ ˆ , notée Z

_θ_ˆ

et de terme générique { } ( )

j i ˆ ij

, ˆ

Z ∂ θ

η

= ∂ x θ

θ

.

A cette approximation linéaire, correspond l’approximation asymptotiquement convergente de la matrice de variance-covariance de l’EMC suivante :

( ) ^θ ⁼ ^σ

²

( ^Z

^T_θ

^Z

_θ

)

⁻¹

V ˆ

ˆ ˆ

La précision des prévisions futures faites à partir d’un modèle neuronal de structure donnée étant intimement liée à la précision des estimations de ses poids « optimaux », un objectif naturel visé par la planification d’expériences peut être de « minimiser », en un certain sens, cette matrice ^V ( ) ^θ ^ˆ qui dépend des entrées du réseau par l’intermédiaire de la matrice jacobienne Z

_θ_ˆ

. Le critère de D-optimalité, noté j

D

, correspond au déterminant de

( ) ^θ

V ˆ qu’il convient de minimiser. Un plan D-optimal, noté ξ

^D

, peut donc être défini par :

[ ] ^V ( ) ^θ [ ( ^Z

^T_θˆ

^Z

_θˆ

) ]

ξ ξ

D

ˆ

ξ = Arg min det = Arg max det

3 Plans d’expériences D-optimaux séquentiels pour réseaux de neurones

L’application du critère de D-optimalité dans le contexte spécifique de la modélisation

neuronale pose deux problèmes majeurs. D’une part, comme pour tout modèle non linéaire, le

critère de planification des expériences dépend de la valeur inconnue des poids « optimaux »

(5)

du modèle neuronal. D’autre part, la structure neuronale la plus adaptée à la modélisation du processus étudié (i.e., celle qui propose le meilleurs compromis « biais + variance ») est inconnue et dépendante, en toute rigueur, du nombre d’observations disponibles. Afin de lever ces problèmes, nous proposons une stratégie séquentielle de planification des expériences.

Dans un premier temps, un plan d’expériences de type « space filling » (e.g., un hypercube latin), qui a pour avantage de ne favoriser aucune structure de modèle a priori, est utilisé afin de rechercher une structure neuronale adaptée à la modélisation du processus.

Dans ce travail, nous utilisons la méthode traditionnelle de validation croisée de « leave-one- out » pour déterminer cette structure et ses paramètres sont estimés par la méthode des moindres carrés. A ce stade, on devrait donc disposer d’une structure de modèle qui présente un biais faible mais une variance importante due à une information véhiculée par le premier plan insuffisante pour une estimation paramétrique de qualité.

Dans un deuxième temps, un plan D-optimal est calculé en substituant la valeur estimée des paramètres θ ˆ à la valeur « optimale » θ * inconnue (mais théoriquement nécessaire pour le calcul du plan). Ce plan devrait ainsi permettre de réduire la variance du modèle en optimisant la qualité de l’estimation paramétrique qui est à nouveau effectuée à la lueur des observations supplémentaires recueillies.

Il est à noter qu’après la réalisation des expériences complémentaires, il est possible de planifier séquentiellement une (ou plusieurs) série(s) supplémentaire(s) d’expériences pour lutter contre une valeur imprécise des poids utilisée pour planifier les expériences. De nouvelles observations peuvent également avoir pour conséquence, la modification de la structure du modèle neuronal. Dans tous les cas, les propriétés de la D-optimalité lui confère une souplesse qui autorise la prise en compte des observations déjà disponibles dans la planifications des expériences supplémentaires (approche de type « augment design »).

4 Applications

Nous présenterons, lors de l’exposé, un ou plusieurs exemples d’application de la méthode des plans d’expériences optimaux au cas de la modélisation neuronale de processus à partir d’études simulées et/ou de problématiques industrielles proposées par nos partenaires.

5 Conclusions

Dans ce travail, la théorie développée dans le cadre de la modélisation statistique et de la planification expérimentale pour l’estimation des paramètres d’un modèle a été mise à profit afin d’établir des protocoles expérimentaux adaptés aux réseaux de neurones, technique fructueuse de modélisation non linéaire de processus. La méthode proposée s’appuie sur un développement de Taylor limité au premier terme du modèle non linéaire et sur l’utilisation du critère de D-optimalité dans une démarche séquentielle. Nous avons ainsi pu montrer que l’utilisation des plans d’expériences permet une amélioration significative des prévisions faites par un modèle neuronal.

6 Remerciements

Les auteurs remercient le Commissariat à l’Energie Atomique − Direction des

Applications Militaires, l’Institut Français du Pétrole, Peugeot S.A. et Rhodia pour leur

participation au partenariat de recherche sur les « plans d’expériences et réseaux de

neurones » initié par Netral, éditeur des logiciels Neuro One et Neuro Pex, utilisés dans ce

travail.

(6)

Bibliographie

Atkinson, A.C. (1982). Developments in the design of experiments. International Statistical Revue, 50, 161-177.

Benhken, D.W. (1964). Estimation of copolymer reactivity ratios: An example of nonlinear estimation. Journal of Polymer Science, part A, 2, 645-668.

Box, G.E.P. et Draper, N.R. (1987). Empirical Model Building and Response Surfaces. John Wiley & Sons, New York.

Box, G.E.P. et Hunter, W.G. (1963). Sequential Design of Experiments for nonlinear models.

Proceedings of the IBM Scientific Computing Symposium on Statistics, October, 21-33 et 113-137.

Box, G.E.P. et Hunter, W.G. (1965). The experimental study of physical mechanisms.

Technometrics, 7, 23-42.

Box, G.E.P., Hunter, W.G. et Hunter, J.S. (1978). Statistics for Experimenters : An Introduction to Design, Data Analysis and Model Building. John Wiley & Sons, New York.

Box, G.E.P. et Lucas, H.L. (1959). Design of experiments in nonlinear situations. Biometrika, 46, 77-90.

Chernoff, H. (1953). Locally optimum designs for estimating parameters. Annals of Mathematical Statistics, 24, 586-602.

Draper, N.R. et Hunter, W.G. (1967). The use of prior distributions in the design of experiments for parameter estimation in nonlinear situations. Biometrika, 54, 147-153.

Dreyfus, G., Martinez, J. –M., Samuelides, M., Gordon, M. B., Badran, F., Thiria, S. et Hérault, L. (2002). Réseaux de neurones, Méthodologie et applications. Eyrolles, Paris.

Fedorov, V.V. (1972). Theory of Optimal Experiments. Academic Press, New York.

Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks. Neural Networks, 4, 251-257.

Kiefer, J. (1959). Optimum experimental designs. Journal of the Royal Statistical Society B, 21, 272-319.

Kiefer, J. (1974). General equivalence theory for optimum designs (approximate theory).

Annals of Statistics, 2, 849-879.

Kobilinsky, A. (1997). Les Plans Factoriels, chapitre 3. In Plans d’expériences Applications à l’entreprise. J. Droesbeke, J. Fine & G. Saporta (Eds). Editions Technip, Paris.

Merlé, Y. et Mentré, F. (1995). Bayesian design criteria: Computation, comparison and application to a pharmacokinetic and a pharmacodynamic model. Journal of Pharmacokinetics and Biopharmaceutics, 23, 101-124.

Merlé, Y., Mentré, F., Mallet F. et Aurengo A. (1994). Designing an optimal experiment for bayesian estimation: Application to the kinetics of iodine thyroid uptake. Statistics in Medicine, 13, 185-196.

Plans d'expériences D- et X-optimaux pour des modèles de connaissance nonlinéaires

HAL Id: hal-01607212

https://hal.archives-ouvertes.fr/hal-01607212

Submitted on 4 Jun 2020

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Plans d’expériences D- et X-optimaux pour des modèles de connaissance nonlinéaires

Sebastien Issanchou, Jean-Pierre Gauchi

To cite this version:

Sebastien Issanchou, Jean-Pierre Gauchi. Plans d’expériences D- et X-optimaux pour des modèles de

connaissance nonlinéaires. Coloque 30 ans de Méthodologie de la Recherche Expérimentale, Jun 2005,

Aix en Provence, France. �hal-01607212�

Plans d’expériences optimaux pour réseaux de neurones Sébastien Issanchou* et Jean-Pierre Gauchi**

* Netral, 14 rue Verdi − 92130 Issy les Moulineaux

** INRA, Domaine de Vilvert − 78352 Jouy en Josas Cedex Sebastien.Issanchou@netral.com

Mots-clés : Plans d’expériences optimaux, Réseaux de neurones, D-optimalité

Résumé :

Summary:

1 Introduction

La méthode des plans d’expériences est un moyen privilégié de recueillir une information fiable pour la construction d’un modèle mathématique d’un processus qu’il convient de comprendre et/ou d’optimiser.

En revanche, lorsque le modèle polynomial postulé est incomplet ou lorsque le domaine expérimental est tronqué, pour ne citer que les contraintes les plus usuelles, ces familles de plans d’expériences ne sont plus optimales ou tout simplement impossibles à mettre en œuvre.

La théorie de l’optimalité en plans d’expériences, fondée essentiellement par Kiefer à la fin

des années 50 (Kiefer, 1959, 1974), a permis de définir une nouvelle famille de plans

d’expériences particulièrement adaptés à de telles situations, dès lors que le modèle du

processus est linéaire par rapport à ses paramètres à estimer. Ce sont les plans d’expériences

optimaux (Fedorov, 1972 ; Atkinson, 1982) dont les plus célèbres reposent sur le critère de D- optimalité (St John et Draper, 1975).

Dans ce travail, nous proposons d’adapter la méthodologie des plans d’expériences optimaux aux réseaux de neurones statiques de type perceptron multi-couches (Dreyfus et coll., 2004) vus comme des modèles de régression non linéaires paramétrés.

2 Notations et positionnement du problème

2.1 Formalisme du modèle de régression non linéaire On note le modèle de régression non linéaire comme :

( , * ) ε i 1, N

η

y

= x

θ +

= avec :

− y

: observation de la réponse lors de l’expérience i ;

− η ( x

, θ * ) : fonction continue des variables explicatives définies par le vecteur x

et des paramètres θ * (la partie déterministe du modèle) ;

− x

: vecteur ( h × 1 ) dont les composantes x

, x

, K , x

représentent les niveaux fixés et parfaitement contrôlés des h variables explicatives (les entrées dans le cas des réseaux de neurones) x

, x

, K , x

pour l’expérience i , avec x

∈ Ξ , domaine expérimental compact

ℜ

⊂ ;

− θ * : vecteur ( p × 1 ) dont les composantes sont les p paramètres inconnus du modèle déterministe à estimer, avec θ * ∈ Θ , domaine paramétrique compact ⊂ ℜ

(les poids synaptiques dans le cas des réseaux de neurones) ;

− ε

: un terme d’erreur aléatoire supposé suivre une loi normale N ( 0 , σ

) .

2.2 Modélisation neuronale

Le terme η ( x

, θ * ) modélise l’espérance des observations, notée aussi E ( y x

) , que

l’on pourrait obtenir en répétant l’expérience i une infinité de fois. Un raisonnement physique

peut être à l’origine de l’équation mathématique utilisée pour modéliser cette espérance

(modèle de connaissance) mais il est également possible d’utiliser un modèle de

( ) ( )

(

)

x x

x

x x

x

* ,

tanh tanh

θ + θ + θ + θ θ

+

θ + θ + θ + θ θ

+ θ

= η x θ

2.3 Estimation des moindres carrés et planification expérimentale

( x

, θ ) ≈ η ( ) ( ) ( ) x

( ^, ^* ) ^ε ⁱ ^1, ^N

: un terme d’erreur aléatoire supposé suivre une loi normale ^N ( ⁰ ^, ^σ

) ^.

( ^x

^, ^θ ) ≈ η ( ) ( ) ( ) ^x

^, ^θ ^ˆ + ^z ^x

^, ^θ ^ˆ

^θ − ^θ ^ˆ η

avec ^z ( ) ^x

^, ^θ ^ˆ

( ) ^θ ⁼ ^σ

( ^Z

^Z

( ) ^θ

[ ] ^V ( ) ^θ [ ( ^Z

^Z