HAL Id: hal-01607212
https://hal.archives-ouvertes.fr/hal-01607212
Submitted on 4 Jun 2020
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Plans d’expériences D- et X-optimaux pour des modèles de connaissance nonlinéaires
Sebastien Issanchou, Jean-Pierre Gauchi
To cite this version:
Sebastien Issanchou, Jean-Pierre Gauchi. Plans d’expériences D- et X-optimaux pour des modèles de
connaissance nonlinéaires. Coloque 30 ans de Méthodologie de la Recherche Expérimentale, Jun 2005,
Aix en Provence, France. �hal-01607212�
Plans d’expériences optimaux pour réseaux de neurones Sébastien Issanchou* et Jean-Pierre Gauchi**
* Netral, 14 rue Verdi − 92130 Issy les Moulineaux
** INRA, Domaine de Vilvert − 78352 Jouy en Josas Cedex Sebastien.Issanchou@netral.com
Mots-clés : Plans d’expériences optimaux, Réseaux de neurones, D-optimalité
Résumé :
Ce travail jette un regard neuf sur la modélisation par réseaux de neurones. La théorie de la régression non linéaire et des plans d’expériences optimaux sont mis à profit pour élaborer des plans d’expériences visant à accroître la précision du modèle neuronal prédictif. Le critère de D-optimalité est retenu dans ce travail. Les algorithmes habituellement utilisés sont adaptés afin de permettre la construction, aidée par ordinateur, de plans d’expériences localement D- optimaux, continus et discrets. Le gain apporté par l’utilisation de tels plans d’expériences est évalué au moyen d’une étude par simulation de la distribution empirique du prédicteur. Le développement d’une stratégie séquentielle est illustré à partir d’un exemple.
Summary:
This work gives a new insight in the field of feed forward neural networks modelling. It comes within the framework of nonlinear regression and uses statistical concepts to construct computer-aided D-optimum designs for this class of model. Classical algorithms are adapted to construct locally continuous and discrete D-optimum designs. Improvements in the precision of the predictor are evaluated by means of a simulation-based study. The development of a D-optimum sequential strategy for neural networks models is illustrated on an example.
1 Introduction
La méthode des plans d’expériences est un moyen privilégié de recueillir une information fiable pour la construction d’un modèle mathématique d’un processus qu’il convient de comprendre et/ou d’optimiser.
Lorsqu’on utilise un modèle polynomial complet et qu’aucune contrainte ne vient perturber l’étude, la méthode des plans d’expériences fait appel à des plans désormais largement répandus au niveau industriel et qui sont notamment fondés sur l’orthogonalité entre facteurs expérimentaux. Ce sont les plans de criblage, les plans factoriels complets ou fractionnaires et les plans pour surface de réponse (Box et coll., 1978 ; Box et Draper, 1987 ; Kobilinsky, 1997).
En revanche, lorsque le modèle polynomial postulé est incomplet ou lorsque le domaine expérimental est tronqué, pour ne citer que les contraintes les plus usuelles, ces familles de plans d’expériences ne sont plus optimales ou tout simplement impossibles à mettre en œuvre.
La théorie de l’optimalité en plans d’expériences, fondée essentiellement par Kiefer à la fin
des années 50 (Kiefer, 1959, 1974), a permis de définir une nouvelle famille de plans
d’expériences particulièrement adaptés à de telles situations, dès lors que le modèle du
processus est linéaire par rapport à ses paramètres à estimer. Ce sont les plans d’expériences
optimaux (Fedorov, 1972 ; Atkinson, 1982) dont les plus célèbres reposent sur le critère de D- optimalité (St John et Draper, 1975).
Box et Lucas Box et Lucas, 1959 ont été parmi les premiers à suggérer l’utilisation des plans d’expériences optimaux pour des modèles de régression non linéaires par rapport à leurs paramètres. Initialement développée dans le cadre de l’estimation des paramètres de modèles de connaissance non linéaires issus de la cinétique chimique ou de la pharmacocinétique, l’approche proposée consiste à tout d’abord linéariser le modèle non linéaire puis à utiliser les critères développés pour le modèle linéaire. Bien qu’approximative, cette approche demeure localement optimale et une vaste littérature témoigne de son intérêt. Néanmoins, contrairement au cas linéaire, les critères d’optimalité des plans d’expériences dépendent ici de la valeur des paramètres du modèle. Afin de remédier à cette situation paradoxale, des stratégies adaptées telles que la planification locale (Chernoff, 1953), la planification séquentielle (Box et Hunter, 1963, 1965 ; Benhken, 1964 ; Fedorov, 1972) ou la planification bayesienne (Draper et Hunter, 1967 ; Pronzato, 1986 ; Merlé et coll, 1994 ; Merlé et Mentré, 1995) sont alors utilisées.
Dans ce travail, nous proposons d’adapter la méthodologie des plans d’expériences optimaux aux réseaux de neurones statiques de type perceptron multi-couches (Dreyfus et coll., 2004) vus comme des modèles de régression non linéaires paramétrés.
2 Notations et positionnement du problème
2.1 Formalisme du modèle de régression non linéaire On note le modèle de régression non linéaire comme :
( , * ) ε i 1, N
η
y
i= x
iθ +
i= avec :
− y
i: observation de la réponse lors de l’expérience i ;
− η ( x
i, θ * ) : fonction continue des variables explicatives définies par le vecteur x
iet des paramètres θ * (la partie déterministe du modèle) ;
− x
i: vecteur ( h × 1 ) dont les composantes x
1i, x
2i, K , x
hireprésentent les niveaux fixés et parfaitement contrôlés des h variables explicatives (les entrées dans le cas des réseaux de neurones) x
1, x
2, K , x
hpour l’expérience i , avec x
i∈ Ξ , domaine expérimental compact
ℜ
h⊂ ;
− θ * : vecteur ( p × 1 ) dont les composantes sont les p paramètres inconnus du modèle déterministe à estimer, avec θ * ∈ Θ , domaine paramétrique compact ⊂ ℜ
p(les poids synaptiques dans le cas des réseaux de neurones) ;
− ε
i: un terme d’erreur aléatoire supposé suivre une loi normale N ( 0 , σ
2) .
2.2 Modélisation neuronale
Le terme η ( x
i, θ * ) modélise l’espérance des observations, notée aussi E ( y x
i) , que
l’on pourrait obtenir en répétant l’expérience i une infinité de fois. Un raisonnement physique
peut être à l’origine de l’équation mathématique utilisée pour modéliser cette espérance
(modèle de connaissance) mais il est également possible d’utiliser un modèle de
comportement tel qu’un perceptron multi-couches, en s’appuyant notamment sur la propriété d’approximation universelle dont jouit, sous certaines conditions, ce type de réseau (Hornik, 1991). Dans ce qui suit, nous utiliserons exclusivement des réseaux à une seule couche de neurones cachés à fonction d’activation « tangente hyperbolique ». Par exemple, pour un processus dépendant de 3 facteurs modélisé par un réseau à 2 neurones dans la couche cachée, la partie déterministe du modèle s’écrit :
( ) ( )
(
i)
* i
* i
*
*
*
i
* i
* i
*
*
*
* i
x x
x
x x
x
* ,
3 11 2 10 1 9 8 7
3 6 2 5 1 4 3 2
1
tanh tanh
θ + θ + θ + θ θ
+
θ + θ + θ + θ θ
+ θ
= η x θ
Bien sûr, la complexité (i.e., le nombre de neurones cachés) du réseau à utiliser peut être très (trop ?) grande si l’on ne prend pas garde à limiter le domaine expérimental d’intérêt afin de réduire la complexité du processus à modéliser. Par retour d’expérience, et pour peu que ce domaine soit correctement choisi, il est rarement nécessaire de construire des réseaux ayant plus de 4 ou 5 neurones cachés.
2.3 Estimation des moindres carrés et planification expérimentale
Dans un contexte statistique gaussien, l’estimateur des moindres carrés (EMC) des paramètres, noté θ ˆ , est asymptotiquement non biaisé et efficace, ce qui justifie son utilisation pour l’apprentissage du réseau à partir d’observations expérimentales. Il est cependant très difficile d’évaluer la précision de cet estimateur à distance finie (i.e., pour un nombre fini d’observations). Une solution est d’effectuer un développement en série de Taylor limité au premier terme de la partie déterministe du modèle non linéaire, soit :
( x
i, θ ) ≈ η ( ) ( ) ( ) x
i, θ ˆ + z x
i, θ ˆ
Tθ − θ ˆ η
avec z ( ) x
i, θ ˆ
T(de dimension ( 1 × p ) ) une ligne de la matrice jacobienne du modèle (de dimension ( N × p ) ) calculée en θ ˆ , notée Z
θˆet de terme générique { } ( )
j i ˆ ij
, ˆ
Z ∂ θ
η
= ∂ x θ
θ
.
A cette approximation linéaire, correspond l’approximation asymptotiquement convergente de la matrice de variance-covariance de l’EMC suivante :
( ) θ = σ2( Z
TθZ
θ)
−1
V ˆ
ˆ ˆLa précision des prévisions futures faites à partir d’un modèle neuronal de structure donnée étant intimement liée à la précision des estimations de ses poids « optimaux », un objectif naturel visé par la planification d’expériences peut être de « minimiser », en un certain sens, cette matrice V ( ) θ ˆ qui dépend des entrées du réseau par l’intermédiaire de la matrice jacobienne Z
θˆ. Le critère de D-optimalité, noté j
D, correspond au déterminant de
( ) θ
V ˆ qu’il convient de minimiser. Un plan D-optimal, noté ξ
D, peut donc être défini par :
[ ] V ( ) θ [ ( ZTθˆ Z
θˆ ) ]
ξ ξ
D