ENSAI3 Année19-03-2012 IntroductionetcasdumodèlelinéaireFrédéricBertrand Planiﬁcationoptimaledesexpériences

(1)

Planification optimale des expériences

Introduction et cas du modèle linéaire

Frédéric Bertrand ¹

1

IRMA, Université de Strasbourg Strasbourg, France

ENSAI 3 ^e Année

19-03-2012

(2)

Ce cours s’appuie essentiellement sur

1. le livre de Hardeo Sahai et Mohammed I. Ageel, The Analysis of Variance : Fixed, Random and Mixed Models, aux éditions Birkhäuser, 2000.

2. le livre de Hardeo Sahai et Miguel Ojeda, Analysis of Variance for Random Models, Volume I: Balanced data, aux éditions Birkhäuser, 2004.

3. le livre de Hardeo Sahai et Miguel Ojeda, Analysis of Variance for Random Models, Volume II: Unbalanced data, aux éditions Birkhäuser, 2005.

4. le livre de Douglas C. Montgomery, Design and Analysis of Experiments, 7 ^th Edition, aux éditions Wiley, 2009.

5. le livre de Samuel D. Silvey, Optimal Design, aux éditions

Chapman and Hall, 1980.

(3)

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(4)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(5)

Introduction

La planification d’expérience traite, comme son nom l’indique, de l’organisation réfléchie des expériences de manière à pouvoir

1. analyser celles-ci avec des modèles permettant de

reproduire fidèlement la, plus ou moins grande, complexité des processus expérimentaux à décrire ;

2. maximiser la quantité d’information (au sens de Fisher par

exemple) que nous apporte les essais que nous choisirons

de réaliser.

(6)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(7)

Contexte

Un exemple simple pour comprendre pourquoi il est important de réfléchir à la planification les expériences.

Supposons que nous devions peser 4 objets avec une balance ayant deux plateaux en réalisant au maximum 4 pesées.

À chacune des pesées, nous pouvons répartir tous ou une

partie des objets sur l’un ou l’autre des deux plateaux de la

balance.

(8)

Définition

La répartition des objets lors des quatre pesées est appelée un plan pour pesée.

Mise en équation

Soit β ₁ , β ₂ , . . ., et β n les poids, inconnus, des objets.

Nous posons u _ij = 1 si le j−ème objet est dans le plateau de

droite au cours de la i−ème pesée, u _ij = −1 si le j−ème objet

est dans le plateau de gauche au cours de la i−ème pesée et

u _ij = 0 si le j−ème objet n’est pas utilisé lors de la i−ème

pesée.

(9)

Mise en équation (suite)

Afin d’équilibrer les deux plateaux de la balance lors de la i−ème pesée il est possible de rajouter une masse à l’un des deux plateaux de la balance.

Le signe de cette masse dépend du plateau sur lequel elle a été posée : positif si elle se trouve sur le plateau de gauche et négatif si elle se trouve sur le plateau de droite.

Nous désignons par y _i cette masse signée utilisée lors de la

i−ème pesée.

(10)

Mise en équation (suite)

Supposons que les erreurs de mesure ne sont pas corrélées, de dispersion stable et sans biais systématique, ce qui revient à supposer les variables y _i sont aléatoires non corrélées, de même variance, notée σ _e ² , et d’espérance égale à la valeur de la masse qu’il faut ajouter lors de la i−ème pesée afin

d’équilibrer les deux plateaux de la balance.

(11)

Le premier plan pour pesée.

1. Pesée 1 : objet 1 à droite ; 2. Pesée 2 : objet 2 à droite ; 3. Pesée 3 : objet 3 à droite ; 4. Pesée 4 : objet 4 à droite.

La matrice X associée est







1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1







(12)

Comparaisons de deux plans Le premier plan pour pesée.

1. Pesée 1 ⁰ : objets 1, 2, 3 et 4 à droite ;

2. Pesée 2 ⁰ : objets 3 et 4 à gauche, 1 et 2 à droite ; 3. Pesée 3 ⁰ : objets 2 et 3 à gauche, 1 et 4 à droite ; 4. Pesée 4 ⁰ : objets 2 et 4 à gauche, 1 et 3 à droite.

La matrice X associée est







1 1 1 1

1 1 −1 −1

1 −1 1 −1

1 −1 −1 1







(13)

Comparaisons de deux plans

Ainsi pour le premier plan, nous obtenons avec le théorème de Gauss-Markov et la formule β b = (X ⁰ X ) ⁻¹ X ⁰ y = y , les BLUE

1. c β 1 = y ₁ , Var[ c β 1 ] = σ _e ² ;

2. c β ₂ = y ₂ , Var[c β ₂ ] = σ _e ² ;

3. c β ₃ = y ₃ , Var[c β ₃ ] = σ _e ² ;

4. c β ₄ = y ₄ , Var[ c β ₄ ] = σ _e ² .

(14)

Comparaisons de deux plans

Ainsi pour le premier plan, nous obtenons avec le théorème de Gauss-Markov et la formule β b = (X ⁰ X ) ⁻¹ X ⁰ y = X ⁰ y , les BLUE

1. Pesée 1 : c β ₁ = ¹ ₄ (y ₁ + y ₂ + y ₃ + y ₄ ), Var[ c β ₁ ] = ^σ ₄

^e²

;

2. Pesée 2 : c β ₂ = ¹ ₄ (y ₁ + y ₂ − y ₃ − y ₄ ), Var[c β ₂ ] = ^σ ₄

^e²

;

3. Pesée 3 : c β ₃ = ¹ ₄ (y ₁ − y ₂ − y ₃ + y ₄ ), Var[ c β ₃ ] = ^σ ₄

^e²

;

4. Pesée 4 : c β ₄ = ¹ ₄ (y ₁ − y ₂ + y ₃ − y ₄ ), Var[c β ₄ ] = ^σ ₄

^e²

.

(15)

En conclusion

Le second plan pour pesée est le plus intéressant puisque la variance des estimateurs des masses des objets est quatre plus petite.

Il vaut mieux combiner astucieusement les objets pour la

balance pour les peser tous quatre fois, plutôt que de les peser

chacun directement. En effet, dans le premier cas, l’estimateur

est un moyenne de quatre termes non corrélés, ce qui réduit sa

variance.

(16)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(17)

Modélisation de la réponse y ˜

Nous supposons que la loi de probabilité de la variable aléatoire y ˜ dépend de :

1. un vecteur colonne u = (u ₁ , u ₂ , . . . , u _r ) ⁰ de variables

réelles appelées variables contrôlées parce qu’elles ont

été choisies par l’expérimentateur et puisque les valeurs

qu’elles prennent sont parfaitement connues et peuvent

être fixées par lui ;

(18)

Modélisation de la réponse y ˜

Nous supposons que la loi de probabilité de la variable aléatoire y ˜ dépend de :

2. un vecteur colonne θ = (θ 1 , θ 2 , . . . , θ k ) ⁰ de paramètres qui sont fixes mais dont les valeurs sont inconnues de l’expérimentateur ; ce sont les valeurs de ces paramètres, ou de fonctions de ces paramètres, que l’expérimentateur essaye de connaître ;

3. un vecteur colonne τ = (τ 1 , τ 2 , . . . , τ r ) ⁰ de paramètres de

nuisance ; ceux-ci sont également fixes et inconnus mais

l’expérimentateur n’est pas particulièrement intéressé par

le fait de connaître leur valeur.

(19)

Paramètres d’intérêts et de nuisance

La distinction entre les paramètres d’intérêt et les paramètres de nuisance peut être difficile à faire, en particulier lorsque notre attention porte sur l’estimation d’un nombre de fonctions de θ strictement à inférieur au nombre k de paramètres.

Néanmoins, typiquement les vecteurs u et θ apparaîtront dans

E[˜ y ] et τ dans la « variance des erreurs ».

(20)

Domaines d’appartenance des vecteurs

1. Les vecteurs u peut être choisis dans la partie U ⊂ R ^r ; 2. Nous savons que le vrai vecteur de paramètres θ

appartient à la partie Θ ⊂ R ^k ;

3. Nous savons que le vrai vecteur de paramètres τ

appartient à la partie T ⊂ R ^l ;.

(21)

Loi de y ˜

Nous supposons que pour, pour des valeurs données de u, θ et τ , la loi de ˜ y est donnée par une densité de probabilité par rapport à une mesure σ−finie.

Si la variable y ˜ est

• discrète cette mesure est la mesure de comptage ;

• continue cette mesure est la mesure de Lebesgue.

(22)

Principe de la planification

L’expérimentateur est autorisé à réaliser N observations indépendantes de la réponse y ˜ aux points u ₍₁₎ , u ₍₂₎ , . . ., u _(N) qui auront été choisis par lui dans l’ensemble U .

Ce choix des N vecteurs, s’appelle le choix du plan expérimental en N essais ou d’un N−plan.

La question classique est alors de savoir comment construire

un N-plan « intéressant ».

(23)

Pour évaluer la qualité d’un N−plan plusieurs approches ont été proposées :

1. Théorie de la décision, voir Brooks (1972), Bandemer (1979) pour les premières utilisations, en définissant une fonction d’utilité et une distribution a priori sur θ et τ et en calculant la richesse, au sens de Bayes, apportée par chaque N −plan. Il « suffit » alors de choisir l’un des plans qui maximise cette richesse.

2. Utilisation de l’information au sens de Fisher.

La seconde approche est la plus souvent utilisée car la

première, bien que simple en apparence, pose de réels

problèmes aussi bien pratiques que théoriques.

(24)

Information de Fisher

Supposons que nous souhaitions estimer θ.

Nous supposons que la famille

{p(y|u, θ, τ ) ; u ∈ U, θ ∈ Θ, τ ∈ T }

est suffisamment régulière pour que la matrice d’information de Fisher existe et qu’il soit possible d’utiliser la seconde

caractérisation de l’information.

(25)

Information de Fisher

Pour une observation de ˜ y au vecteur u, la matrice partitionnée d’information de Fisher adaptée à l’estimation de (θ, τ ) est

J (u; θ, τ) =

J _θθ (u) J _θτ (u) J _θτ ⁰ (u) J _{τ τ} (u)

.

où J _θθ (u) est la matrice carrée d’ordre k dont la coordonnée (i, j) est

E

− ∂ ² log p(y |u, θ, τ )

∂θ _i ∂θ _j

et J _θτ (u) et J _{τ τ} (u) sont définies de manière similaire.

(26)

Information de Fisher

Par conséquent la matrice d’information pour N observations indépendantes de y ˜ réalisées aux points u ₍₁₎ , u ₍₂₎ , . . ., u _(N) est

L(u; θ, τ) =

N

X

i=1

J(u _(i) ; θ, τ ) =

L _θθ (u) L _θτ (u) L _θτ (u) L _{τ τ} (u)

.

où u = (u ₍₁₎ , . . . , u _(N) ), L _θθ (u) = P N

i J _θθ (u _(i) ) et L _θτ (u) et

L _{τ τ} (u) sont définies de manière similaire.

(27)

Supposons maintenant que u est tel que la matrice L(u; θ, τ) est inversible ¹ .

L’inégalité de Fréchet-Darmois-Cramer-Rao fournit alors une borne inférieure :

1. L ⁻¹ (u; θ, τ), pour la variance d’un estimateur sans biais de (θ, τ) ;

2. V (u; θ, τ) = (L _θθ (u) − L _θτ (u)L ⁻¹ _{τ τ} (u)L ⁰ _θτ (u)) ⁻¹ , pour la variance d’un estimateur sans biais de θ.

V (u; θ, τ) est en fait la première matrice principale carré d’ordre k extraite de L ⁻¹ (u; θ, τ).

1. Nous verrons dans la suite que nous ne pourrons pas toujours faire cette

hypothèse et comment l’affaiblir.

(28)

Information de Fisher Il est important de noter que

1. les bornes inférieures précédentes dépendent du plan u qui a été choisi par l’expérimentateur. Comme nous l’avons vu, un choix judicieux peut donc améliorer la précision de l’estimation ;

2. dans le cadre du modèle linéaire gaussien, V (u; θ, τ ) est exactement la variance de l’estimateur de Gauss-Markov de θ.

3. si N est grand, et sous des hypothèses de régularité

suffisante, la matrice de variance-covariance de

l’estimateur par maximum de vraisemblance de θ est

approximativement V (u; θ, τ) puisque ces estimateurs sont

asymptotiquement efficaces ;

(29)

Estimation d’une fonction du paramètre

Supposons que nous souhaitions estimer les fonctions à valeurs réelles g ₁ (θ), . . . , g _s (θ) à la place de θ.

Posons g la fonction (g ₁ , . . . , g s ) ⁰ à valeurs dans R ^s et notons Dg(θ) =

∂g _j (θ)

∂θ i

16i,j6n

sa différentielle au point θ

lorsqu’elle existe.

(30)

Estimation d’une fonction du paramètre

Sous des hypothèses de régularité suffisante et pour un plan u donné, une borne inférieure pour la matrice de

variance-covariance d’un estimateur sans biais de g(θ) est

V _g (u; θ, τ) = {Dg(θ)} ⁰ V (u; θ, τ) {Dg(θ)} . (1)

À nouveau, pour N suffisamment grand, la variance-covariance

de l’estimateur par maximum de vraisemblance de g sera

proche de cette borne inférieure.

(31)

Estimation d’un fonction du paramètre

Le cas de l’estimation du paramètre θ correspond au cas où g _i (θ) = θ pour tout i = 1, . . . , k et ainsi Dg(θ) = I _k , la matrice identité d’ordre k .

Par conséquent, nous nous intéresserons uniquement au cas

de l’estimation d’une fonction du paramètre θ.

(32)

Objectif de la planification

L’idée simple, que nous poursuivrons dans la plus grande partie de l’exposé qui va suivre, est de s’efforcer de choisir le plan u de telle sorte que la quantité qui apparaît dans l’équation (1) soit la plus petite possible, ou, ce qui est similaire, de rendre son inverse le plus grand possible.

En procédant de la sorte, nous utilisons un plan u qui nous

apporte le plus d’information possible, au sens de Fisher, sur la

fonction g(θ).

(33)

Objectif de la planification

Nous pourrons utiliser effectivement toute cette information soit

• dans le cadre de l’estimation de Gauss-Markov du modèle linéaire gaussien ;

• soit avec des estimateurs du maximum de vraisemblance

et un effectif N suffisamment grand.

(34)

Objectif de la planification

Le problème ainsi posé semble considérable et deux questions se posent immédiatement à nous :

1. au sens de quel critère souhaitons-nous rendre la matrice V g (u; θ, τ) « petite » ?

2. est-il possible de trouver un plan u, noté u _? , indépendant

de θ et τ , qui rende V g (u; θ, τ ) « petite », au sens où nous

le souhaitons, pour toutes les valeurs de θ et τ ?

(35)

Objectif de la planification

Pour toute une classe de problèmes, le modèle linéaire par exemple, l’expression de V _g (u; θ, τ) est si simple qu’il est possible de répondre affirmativement à la seconde question, ce qui motivera l’étude de plans classiques comme les plans factoriels, fractionnaires, en blocs, . . ..

Pour les autres situations, pour lesquelles un tel plan u _?

n’existe pas, nous devrons réfléchir à comment tenir compte de

cette situation. Nous commençons par étudier la première

classe de problèmes qui pourra nous fournir des pistes pour

aborder la seconde, plus complexe.

(36)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(37)

Régression linéaire simple, gaussienne et contrôlée Dans cet exemple :

• u est un nombre réel ;

• θ = (θ 0 , θ 1 ) ⁰ ;

• τ est un nombre réel strictement positif.

Pour des valeurs de u, θ et τ données, y ˜ suit une N (θ 0 + θ 1 u, τ ) ⁰ .

Supposons que U = [−1, 1] et considérons un plan

u = (u ₍₁₎ , . . . , u _(N) ) avec donc −1 6 u _(i) 6 1.

(38)

Régression linéaire simple, gaussienne et contrôlée Un calcul direct permet de montrer que

V ⁻¹ (u; θ, τ ) = 1 τ

N P N

i=1 u _(i) P N

i=1 u _(i) P N i=1 u _(i) ²

! .

Voici un cas où V (u; θ, τ ) se simplifie comme indiqué

ci-dessus. Il sera alors possible de trouver un plan u _? qui sera

le « meilleur » pour toutes les valeurs de θ et τ possibles.

(39)

Si nous sommes intéressés par l’estimation de θ, le problème se transforme ainsi en celui de rendre la matrice

M(u) = 1 τ

N P N

i=1 u _(i) P N

i=1 u _(i) P N i=1 u _(i) ²

! .

« aussi grande que possible ».

1. Il est possible de montrer qu’il n’existe pas, même dans ce cas simple, de plan u _? qui soit le « meilleur » au sens matriciel fort, ordre de Loewner, suivant : M(u _? ) − M(u) est semi-définie positive pour tout plan u.

Par conséquent, et pour remédier à cette difficulté, nous

essayerons de rendre maximale une fonction de V ⁻¹ .

(40)

Régression linéaire simple, gaussienne et contrôlée 2. Dans le cas de ce modèle, même si nous avions travaillé

en l’absence de l’hypothèse de normalité mais en conservant les

E [˜ y|u, θ, τ] = θ ₀ + θ ₁ u Var[˜ y|u, θ, τ] = τ

V (u; θ, τ) resterait la matrice de variance-covariance de

l’estimateur de Gauss-Markov de θ, ce qui rejoint la

remarque que nous avions faite précédemment sur la

recherche de plans dans le contexte du modèle linéaire

homoscédastique.

(41)

Plans factoriel complet 2 ²

Une partie de la planification d’expériences traite de la manière de répartir les traitements de plusieurs facteurs à des unités expérimentales. La différence apparente avec notre approche est qu’il s’agit de planifier des expériences avec des variables qualitatives et non quantitatives.

Montrons, à l’aide de l’exemple simple suivant, comment

inclure également ce domaine dans notre cadre général.

(42)

Plans factoriel complet 2 ²

Supposons que nous soyons intéressés par l’estimation des effets séparés (principaux) et combinés (interactions) de deux traitments T ₁ et T ₂ sur une réponse expérimentale y .

Nous supposons, comme généralement pour ce type de modèle, qu’une combinaison quelconque des modalités des traitements ne peut modifier que la valeur moyenne de y ˜ . Notons :

• θ 1 l’effet de T ₁ seul ;

• θ ₂ l’effet de T ₂ seul ;

• θ ₁ + θ ₂ + θ ₃ l’effet de T ₁ et T ₂ lorsqu’ils sont combinés.

(43)

Plans factoriel complet 2 ²

Il est possible de mettre chacune des unités expérimentales dans l’une des quatre conditions suivantes :

1. aucun traitement ;

2. seulement T ₁ ;

3. seulement T ₂ ;

4. T ₁ et T ₂ .

(44)

Plans factoriel complet 2 ²

Codons ces situations, avec u = (u ₁ , u ₂ ) de la manière suivante :

1. (0, 0) ; 2. (1, 0) ; 3. (0, 1) ; 4. (1, 1).

Le rôle du planificateur est de choisir, pour chaque unité

expérimentale, les valeurs de u ₁ et u ₂ dans {0; 1}.

(45)

Plans factoriel complet 2 ²

Par conséquent, l’ensemble U est réduit à quatre points.

En formulant les hypothèses usuelles pour nos modèles, nous obtenons :

E [˜ y |u, θ, τ ] = θ ₀ + θ ₁ u ₁ + θ ₂ u ₂ + θ ₃ u ₁ u ₂ Var[˜ y |u, θ, τ ] = τ,

ce qui correspond exactement à un modèle de régression

linéaire tel que nous l’avons vu dans l’exemple 1.

(46)

Régression quadratique avec une variable contrôlée, fonction non-linéaire du paramètre

Dans cet exemple :

• u est un nombre réel ;

• θ = (θ 0 , θ 1 , θ 2 ) ⁰ , avec θ 2 < 0 ;

• τ est un nombre réel strictement positif.

Pour des valeurs de u, θ et τ données, y ˜ suit une N (θ 0 + θ 1 u + θ 2 u ² , τ ) ⁰ .

Supposons que nous souhaitions trouver la valeur de u pour laquelle E (˜ y ) est maximale, c’est-à-dire estimer

g(θ) = −θ ₁

(2θ ₂ ) .

(47)

Régression quadratique avec une variable contrôlée, fonction non-linéaire du paramètre

Un calcul direct permet de montrer que, pour un N−plan,

V ⁻¹ (u; θ, τ) = 1 τ







N P N

i=1 u _(i) P N i=1 u _(i) ² P N

i=1 u _(i) P N

i=1 u ² _(i) P N i=1 u _(i) ³ P N

i=1 u _(i) ² P N

i=1 u ³ _(i) P N i=1 u _(i) ⁴





 .

V (u; θ, τ) se simplifie de la même manière que pour l’exemple

1. Néanmoins, il y a une différence fondamentale liée à la

présence de la fonction non-linéaire g.

(48)

Régression quadratique avec une variable contrôlée, fonction non-linéaire du paramètre

Rappelons que dans le cas d’un ESB de g(θ), la borne inférieure de l’inégalité de Fréchet-Darmois-Cramer-Rao est :

{Dg(θ)} ⁰ V (u; θ, τ) {Dg(θ)} , avec ici {Dg(θ)} ⁰ = 1

2θ ₂ ² −θ ₂ θ ₁ .

La quantité précédente dépend de θ et rien ne permet d’assurer qu’il existe un plan u _? qui la rende minimale pour toutes les valeurs de θ possible.

À ce titre, cette situation se distingue des deux précédentes.

(49)

Analyse probit : un modèle non-gaussien et non linéaire Des sujets peuvent être soumis à un stimulus avec différents niveaux d’intensité u pouvant appartenir à un intervalle U . Un sujet peut ou non réagir à un stimulus de niveau u, et la probabilité pour qu’il réagisse est donnée avec une bonne approximation par :

Φ

u − θ ₁ θ 2

où Φ est la fonction de répartition de la loi normale centrée et

réduite.

(50)

Analyse probit : un modèle non-gaussien et non linéaire Supposons que nous disposions de N sujets pour réaliser l’expérience.

À quels niveaux du stimulus u devons-nous les soumettre pour

estimer θ ₁ et θ ₂ le plus précisément possible ?

(51)

Analyse probit : un modèle non-gaussien et non linéaire Introduisons la variable aléatoire binaire y ˜ qui prend :

• la valeur 1 si le sujet réagit ;

• la valeur 0 si le sujet n’as pas de réaction.

La densité de y ˜ est alors donnée par l’expression p(y |u, θ) =

Φ

u − θ ₁ θ 2

y 1 − Φ

u − θ ₁ θ 2

1−y

.

(52)

Analyse probit : un modèle non-gaussien et non linéaire Un calcul direct permet de montrer que pour un plan u, la matrice d’information au sens de Fisher pour les paramètres θ ₁ et θ ₂ est







N

X

i=1

1 Φ _i (1 − Φ _i )

∂Φ i

∂θ ₁

2 N

X

i=1

1 Φ _i (1 − Φ _i )

∂Φ i

∂θ ₁

∂Φ i

∂θ ₂

N

X

i=1

1 Φ i (1 − Φ i )

∂Φ _i

∂θ 1

∂Φ _i

∂θ 2 N

X

i=1

1 Φ i (1 − Φ i )

∂Φ _i

∂θ 2

2 





où Φ _i désigne Φ _u

(i)

−θ

₁

θ

2

.

(53)

Analyse probit : un modèle non-gaussien et non linéaire En vertu du principe que nous avons énoncé plus haut, nous souhaitons choisir un u qui rende cette matrice la plus grande possible en un sens que nous préciserons dans la suite.

À nouveau cette matrice dépend de θ, ce qui empêche a priori

l’existence d’un plan u _? qui rende l’information maximale pour

tout θ.

(54)

Analyse probit : un modèle non-gaussien et non linéaire Cet exemple permet d’avoir une idée concrète du type

problème rencontré dans le cas non-linéaire.

Nous ne voulons pas en effet réaliser d’expériences pour des valeurs de u pour lesquelles Φ

u−θ

₁

θ

2

est soit proche de 0, soit proche de 1, parce que l’observation de telles valeurs sera peu informatif sur θ ₁ et θ ₂ .

Or les valeurs de u pour lesquelles ceci se produit

dépendent de θ 1 et θ 2 !

(55)

Analyse probit : un modèle non-gaussien et non linéaire Puisque nous ignorons les valeurs réelles des paramètres θ 1 et θ ₂ , comment pouvons-nous savoir si nous sommes en train de réaliser des expériences pour des valeurs non-informatives de u ?

La seule solution envisageable à ce problème est de mettre en

place une expérimentation séquentielle où nous choisirons

les niveaux à utiliser pour les nouveaux sujets à partir des

réponses obtenues pour les niveaux que nous avons déjà

utilisés pour les sujets pour lesquels nous avons déjà fait les

expériences.

(56)

Analyse probit : un modèle non-gaussien et non linéaire Une telle approche séquentielle sera généralement

nécessaire pour tous les problèmes de planification

non-linéaire pour lesquels nous ne disposons pas de

connaissance préalable sur les valeurs plausibles des

paramètres inconnus.

(57)

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(58)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(59)

une réponse Y à valeurs réelles

• U une partie d’un espace vectoriel de dimension finie R ^v muni de sa structure euclidienne canonique ;

• une variable indépendante u ∈ U ;

• f = (f ₁ , . . . , f _k ) ⁰ est une fonction connue définie sur U et à valeurs dans R ^k , posons X = f (U) ;

• θ = (θ ₁ , . . . , θ _k ) ⁰ ∈ R ^k est un vecteur de paramètres inconnus.

y (u) =

k

X

j=1

θ j f _j (u) = θ ⁰ f (u), (2)

(60)

Valeurs de la réponse y aux points u ₁ , . . . , u _n ∈ U représentées par des variables aléatoires à valeurs réelles y ˜ ₁ , . . . , y ˜ n

décorrélées telles que

E [˜ y _i |u, θ, τ ] = y (u _i ) i = 1, . . . , n, (3)

Var[˜ y _i |u, θ, τ ] = τ i = 1, . . . , n. (4)

τ ∈]0, +∞[ est inconnue.

(61)

général si nous supposons que

Var[˜ y _i |u, θ, τ] = τ v (u), i = 1, . . . , n, où v est une fonction de u connue.

En effet, il suffit alors de ramener au cas précédent en considérant :

• y ⁰ = y

v (u) ^1/2 à la place de y ;

• f _i (u) ⁰ = f _i (u)

v(u) ^1/2 à la place de f _i .

(62)

Les valeurs u ₁ , . . . , u _n pour lesquelles les observations sont effectuées sont :

1. connues exactement

2. contrôlées par l’expérimentateur.

Définition

Un plan approché ξ est un couple (U, w ) où :

1. U est un ensemble fini de points {u ₁ , . . . , u _r } ∈ U, le support du plan,

2. w = (w ₁ , . . . , w _r ) sont les poids des points support du plan.

(63)

composante dans l’espace induit par le plan X = f (U ).

Choisir un N-plan revient donc à choisir N vecteurs dans l’espace induit par le plan X .

Par conséquent, nous pouvons, sans perte de généralité, adopter la notation suivante, en remplaçant (3) par (3’),

E[˜ y |x, θ, τ ] = θ ⁰ x .

et représenter un plan ξ par un couple (X , w), où X est un

ensemble fini de points {x ₁ , . . . , x _r } ∈ X , l’espace induit par le

plan.

(64)

Plan approché = mesure de probabilité de support fini sur X . Plan exact de taille n = plan avec des poids ξ n (x _i ) = ⁿ _n

ⁱ

, n _i entiers de somme n.

Dans la réalité, il n’est possible de n’organiser des expériences que selon ces plans d’où leur qualificatif.

Qualité d’un plan expérimental traduite par sa matrice des

moments M(ξ).

(65)

ainsi :

M(ξ) =

r

X

i=1

ξ(u _i )f (u _i )f (u _i ) ⁰

=

r

X

i=1

w _i x _i x _i ⁰ . Pour un plan exact, nous avons :

M(ξ n ) = X

f (u _i )f (u _i ) ⁰

= X

x _i x _i ⁰ .

(66)

Proposition

1. M(ξ) matrice carrée d’ordre k , matrice polaire d’une forme quadratique positive.

2. Si ξ n plan exact et M (ξ n ) inversible alors ^τ _n M(ξ _n ) ⁻¹ matrice de variance-covariance de l’estimateur des moindres carrés ordinaires de θ.

3. Si modèle linéaire gaussien, alors ⁿ _τ M(ξ n ) matrice d’information de Fisher.

⇒ Naturel de comparer les plans au travers des propriétés de

leur matrice des moments.

(67)

Notions abordées dans la suite pour comparer les plans.

1. admissibilité

2. optimalité alphabétique

3. diverses notions d’invariance associées à un plan comme :

l’équivariance, l’invariance et l’invariance faible.

(68)

Il existe un ordre partiel sur les formes quadratiques positives : l’ordre de Loewner.

Définition

A 6 B ⇐⇒ B − A ∈ S _k ⁺

∀(A, B) ∈ S _k ²

(5)

où S _k ⁺ est le cône convexe des matrices symétriques réelles

positives.

(69)

matrice des moments n’est pas inversible.

Définition

Un plan ξ ₀ est dit admissible s’il n’existe pas de plan ξ tel que : M(ξ ₀ ) 6 M(ξ) et M(ξ ₀ ) 6= M(ξ), (6) où M(ξ ₀ ) et M(ξ) sont les matrices des moments

respectivement du plan ξ ₀ et du plan ξ.

Propriété d’admissibilité indépendante des poids du plan.

(70)

Ordre partiel de Loewner : défaut majeur.

Ne permet pas de sélectionner un optimum unique : si k 6= 1.

Chacune des matrices des moments qui ne sont pas comparables associées à plusieurs plans.

De nombreux dispositifs expérimentaux non comparables.

Il est d’usage de spécifier un critère d’optimalité réel : une

fonction de la matrice des moments à valeurs réelles.

(71)

Définition (Critère d’optimalité)

Une fonction Φ : A → R est un critère d’optimalité si : 1. A est un cône convexe inclus dans S _k tel que

S _k ⁺⁺ ⊂ A ⊂ S _k ⁺ , où S _k ⁺⁺ est le cône convexe étoilé en 0 des matrices réelles symétriques définies positives d’ordre k .

2. Φ est décroissante pour l’ordre partiel de Loewner :

A 6 B ⇐⇒ Φ(A) > Φ(B), ∀(A, B) ∈ A ² . (7)

3. Φ est convexe.

(72)

Recherche d’un plan Φ−optimal ξ.

Chercher une solution au problème de minimisation suivant :

ξ|M(ξ)∈A min Φ(M(ξ)). (8) Posons M l’ensemble des matrices des moments M(ξ)

lorsque ξ parcourt l’ensemble de tous les plans.

Le problème de minimisation donné par l’équation 8 devient alors :

M∈M∩A min Φ(M). (9)

(73)

Chez certains auteurs la fonction Φ est 1. Condition inchangée.

2. Φ est croissante pour l’ordre partiel de Loewner :

A 6 B ⇐⇒ Φ(A) 6 Φ(B), ∀(A, B) ∈ A ² . (10) 3. Φ est concave.

La recherche d’un plan optimal est alors un problème de maximisation défini sur les mêmes ensembles.

Pour passer de l’une à l’autre des conventions, remplacer φ par

−φ.

(74)

Définition (Concavité et concavité stricte)

Une application Φ à valeur dans R ∪ {−∞} est concave sur A si φ(λM ₁ + (1 − λ)M ₂ ) > λΦ(M ₁ ) + (1 − λ)M ₂ ,

pour tout λ ∈ [0; 1], pour tout (M ₁ , M ₂ ) ∈ A ² .

Si l’inégalité précédente est stricte pour 0 < λ < 1 sur A ⁺ , l’ensemble des points A de A pour lesquels Φ(A) est fini, alors φ est strictement concave.

Proposition

Un critère strictement concave admet sur A un unique

maximum A _? .

(75)

Problème de minimisation convexe.

2. Construire un plan ξ de matrice des moments M(ξ) = M ^? . Plusieurs difficultés :

1. Dimension du problème rapidement très élevée.

2. Résolution numérique du problème ⇒ connaissance approchée de la matrice des moments optimales.

3. Exhiber un plan ayant la bonne matrice des moments.

Coordonnées des points support du plan connues de

manière aproximative.

(76)

Remarquons que solution du problème d’optimalité tel que nous l’avons posé n’a aucune raison pour être un plan exact.

C’est même volontairement que nous avons décidé de recherché les plans optimaux dans un ensemble, les plans approchés, qui contient strictement les plans exacts.

En effet, l’ensemble des N−plans, ou plans exacts à N essais,

est un ensemble discret et minimiser le critère φ sur celui-ci

revient à chercher le minimum d’une fonction à valeurs réelles

définie uniquement sur les nombres entiers !

(77)

Dans le cas d’une fonction à valeurs réelles définie uniquement sur les nombres entiers mais naturellement prolongeable à R + , nous chercherions ses variations et son minimum t _? sur R + à l’aide des outils du calcul différentiel, puis nous chercherions à montrer que le minimum sur les entiers est en fait atteint pour un entier proche de t _? .

C’est cette idée qui a amené Kiefer à introduire les plans

approchés.

(78)

Classe importante de critères d’optimalité : critères orthogonalement invariants sur S _k ⁺⁺ .

Définition

Un critère d’optimalité sur S _k ⁺⁺ est orthogonalement invariant s’il est invariant pour l’action du groupe orthogonal de R ^k par congruence sur S _k ⁺⁺ .

Objectif : Utiliser les symétries du problème de minimisation pour :

1. Réduire la dimension.

2. Obtenir une résolution exacte.

(79)

sont des critères d’optimalité orthogonalement invariants. Ce sont les critères d’optimalité Φ p de Kiefer (1974).



 



 



Φ _p (A) =

1 k

P k

j=1 λ _j (A) ^p

⁻¹_p

, si p 6∈ {−∞, 0} , Φ ₀ (A) =

Q k

j=1 λ _j (A)

⁻¹_k

= (det(A))

⁻¹^k

,

Φ −∞ (A) =

min ^k _j=1,...,k λ j (A) −1

.

(11)

Les critères obtenus pour p = 0, p = −1 et p = −∞ sont

appelés respectivement critères de D−optimalité, A−optimalité

et E−optimalité.

(80)

Remarque

La D−optimalité trouve son interprétation naturelle dans le contexte du modèle linéaire gaussien.

Un ellipsoïde de confiance pour θ, pour un niveau de confiance fixé et une somme des carrés résiduelles donnée, provenant de l’utilisation du plan ξ est de la forme

E = n

θ ∈ R ^k : (θ − θ) b ⁰ M(ξ)(θ − θ) b 6 constante o

où θ b est l’estimateur de Gauss-Markov de θ.

(81)

Remarque

Le volume de cet ellipsoïde E, vol (() E ), est proportionnel à (det (M(ξ))) ⁻

¹²

.

Le critère de D−optimalité vise donc à rendre cette ellipsoïde

le plus petit possible en minimisant le déterminant de M(ξ) ⁻¹

ou, en d’autre termes, en maximisant celui de M(ξ).

(82)

Définition (Optimalité minimax)

Pour toute partie C ⊂ R ^k telle que f soit prolongeable naturellement à C, un critère d’optimalité est défini par la formule :

Φ C (A) = max

u∈C f (u) ⁰ A ⁻¹ f (u). (12)

En utilisant ce critère, pour choisir un plan nous cherchons à rendre minimale la valeur maximale de la variance de

l’estimateur de θ ⁰ f (u) lorsque u décrit C.

(83)

Définition (G−optimalité)

Le critère de G−optimalité, qui est orthogonalement invariant, est défini en prenant C = X :

Φ _G (A) = max

u∈U f (u) ⁰ A ⁻¹ f (u). (13)

En utilisant ce critère, pour choisir un plan nous cherchons à rendre minimale la valeur maximale de la variance de

l’estimateur de θ ⁰ f (u) lorsque u décrit U.

(84)

Définition (E −optimalité)

Le critère de E−optimalité est défini en prenant C égal à la sphère unité :

Φ E (A) = max

x∈ R

^k

:x

⁰

x=1

x ⁰ A ⁻¹ x. (14)

En utilisant ce critère, pour choisir un plan nous cherchons à rendre minimale la valeur maximale de la variance de

l’estimateur de θ ⁰ x lorsque x décrit la sphère unité, ce qui

revient bien à chercher à rendre maximale la plus petite valeur

propre de M(ξ).

(85)

Définition (I−optimalité)

Le critère de I−optimalité, qui n’est pas orthogonalement invariant, est défini pour tout domaine compact U d’intérieur non vide par la formule :

Φ I (A) = 1 vol (U)

Z

U

f (u) ⁰ A ⁻¹ f (u)du, (15) où vol (U ) désigne le volume du domaine expérimental

compact U.

(86)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(87)

Différentes notions d’invariance pour l’action d’un groupe G existent (Pukelsheim 1993, Gaffke, Heiligers 1996).

1. La (G, Q)−équivariance = propriétés de symétrie héritées de la forme du domaine expérimental U et du modèle de régression.

2. La G−invariance = équivariance et invariance de

l’ensemble des points support du plan pour l’action de G.

3. La G−invariance faible = équivariance et invariance de la

matrice des moments du plan pour l’action de G sur les

points support du plan.

(88)

Définition (Équivariance)

Considérons un modèle de régression linéaire, y(u) = θ ⁰ f (u), u ∈ U , θ ∈ R ^k . Soit G un groupe de transformations bijectives de U sur U et Q un groupe de matrices réelles carrées d’ordre k pour la multiplication matricielle usuelle. Le modèle de régression est équivariant pour G et Q, ce que nous

abrégeons également en (G, Q)−équivariant, s’il existe une application surjective de G sur Q qui à un élément g de G associe un élément Q g de Q tel que :

f (g(u)) = Q g f (u), ∀(u, g) ∈ U × G. (16) Exemple

Tout modèle de régression est ({id _U } , {I _k })−équivariant.

(89)

Une application g de U dans U induit une opération sur l’ensemble des plans dont le support est inclus dans U de la manière suivante :

ξ ^g =

g(u ₁ ) . . . g(u _r ) ξ(u ₁ ) . . . ξ(u r )

, (17)

où ξ ^g est l’image par g du plan ξ =

u ₁ . . . u r

ξ(u ₁ ) . . . ξ(u _r )

. (18)

(90)

Proposition

Si un modèle de régression est (G, Q)−équivariant alors le groupe G induit une opération sur l’ensemble des matrices des moments des plans dont le support est inclus dans U de la manière suivante :

M(ξ ^g ) = Q g M(ξ)Q _g ⁰ , ∀ξ ⊂ U, ∀g ∈ G. (19)

Il s’agit donc d’une action par congruence du groupe Q.

(91)

1. G−invariant si pour tout g ∈ G, ξ ^g = ξ,

2. G−faiblement invariant si pour tout g ∈ G, M(ξ ^g ) = M(ξ).

Lemme

Soit un modèle de régression (G, Q)−équivariant avec Q un groupe compact. Pour tout plan ξ il existe un plan faiblement invariant e ξ tel que

M( e ξ) ∈ Conv {M(ξ ^g ), g ∈ G} . (20)

Si G est fini alors, pour tout plan faiblement invariant e ξ, il existe

un plan invariant ξ dont le support, Suppξ, est inclus dans celui

de e ξ et pour lequel M(ξ) = M( e ξ).

(92)

Soient d un entier naturel et A un sous-ensemble fini de N ^v . Les éléments de A notés α = (α ₁ , . . . , α _v ) sont tels que :

1. |α| = P v

i=1 α _i 6 d pour tout α ∈ A 2. il existe α ₀ ∈ A tel que |α ₀ | = d .

Un modèle de régression multiple polynomiale A de degré d sur un domaine expérimental U ∈ R ^v est alors défini par :

y (u) = X

α∈A

θ α u ^α , u = (u ₁ , . . . , u _v ) ⁰ ∈ U. (21) Le modèle de régression multiple polynomiale complet A _d de degré d sur un domaine expérimental U ∈ R ^v est défini par :

A _d = {α ∈ N ^v , |α| 6 d } . (22)

(93)

Si le domaine expérimental U est G _s −invariant alors tout modèle de régression multiple polynomiale A est

(G _s , Q _s )−équivariant.

2. Soit G _p le groupe des permutations des coordonnées.

Si le domaine expérimental U est G _p −invariant et l’ensemble des degrés A est invariant par permutation alors le modèle de régression multiple polynomiale A est (G _p , Q _p )−équivariant.

3. Soit G _sp le groupe engendré par G _s et G _p .

Si le domaine expérimental U est G _sp −invariant et

l’ensemble des degrés A est invariant par permutation

alors le modèle de régression multiple polynomiale A est

(G _sp , Q _sp )−équivariant.

(94)

Exemple

Le domaine expérimental U la boule de R ^v centrée en 0. Soit G = G _orth le groupe des transformations orthogonales de R ^v . Le modèle de régression multiple polynomiale complet A _d est (G _orth , Q _orth )−équivariant.

Définition (Isovariance)

Soient un domaine expérimental U et un le modèle de régression multiple polynomiale complet A _d

(G _orth , Q _orth )−équivariant.

Un plan ξ est dit isovariant s’il est G _orth −faiblement invariant.

(95)

Remarques

1. Seuls les trois groupes Q _s , Q _p et Q _sp sont des sous-groupes du groupe orthogonal.

2. Les plans invariants pour l’action du groupe G _orth sont réduits au plan formé par le point 0.

3. Nous verrons dans la suite que les plans faiblement

invariants pour l’action du groupe G _orth ne se réduisent

pas à celui formé par le point 0.

(96)

Intérêt marqué pour la combinaison invariance, admissibilité et optimalité : Gaffke et Heiligers 96, Schwabe 96 et Liski,

Mandal, Shah et Sinha 02.

Définition (Critère invariant)

Soit Q un groupe de matrices réelles carrées d’ordre k . Un critère d’optimalité Φ défini sur A est Q−invariant si :

QAQ ⁰ ∈ A et Φ(QAQ ⁰ ) = Φ(A), ∀(A, Q) ∈ A × Q. (23) Exemples

Le critère Φ 0 de D−optimalité est Q _orth −invariant.

(97)

Lemme

Soit un modèle de régression multiple polynomiale A (G, Q)−équivariant, avec Q est un groupe compact, et Φ un critère d’optimalité défini sur A et Q−invariant. Pour tout plan ξ tel que M(ξ) ∈ A et tout plan e ξ G−faiblement invariant avec M( e ξ) ∈ Conv {M(ξ ^g ), g ∈ G} nous avons :

M( e ξ) ∈ A, Φ

M

e ξ

6 Φ (M (ξ)) . (24)

(98)

Importance des plans isovariants parmi tous les plans dont le support est inclus dans une boule de R ^v centrée en 0 pour les critères de D−optimalité.

Corollaire

Considérons un domaine expérimental U égal à une boule de

R ^v centrée en 0. Pour un modèle polynomial de degré d

isovariant et le critère d’optimalité Φ ₀ et Φ _I , nous pouvons

restreindre la recherche d’un plan optimal pour la classe des

plans dont le support est dans U à la sous-classe des plans

isovariants.

(99)

Un plan ξ est admissible pour un modèle de régression polynomial A de degré d est dit A−admissible.

Lemme (Gaffke, Heiligers 96)

Soit G un groupe compact de transformations agissant linéairement sur U . Supposons que le modèle de régression polynomial A de degré d est (G, Q)−équivariant. Alors, pour tout plan faiblement invariant ξ il existe un plan faiblement invariant e ξ qui soit A−admissible et A _d −admissible et tel que :

M( e ξ) > M(ξ). (25)

(100)

Corollaire

Lors de la recherche d’une solution optimale pour un critère d’optimalité Q−invariant dans la classe des plans dont le support est dans χ, nous pouvons nous restreindre à chercher un plan optimal dans la sous-classe des plans faiblement invariants et A _d -admissibles.

Nous pouvons désormais caractériser les plans

A _d −admissibles pour un domaine χ compact. Le cas

unidimensionnel a été traité en 1959 par Kiefer.

(101)

Théorème

Soit v = 1, et χ = [a, b] avec (a, b) ∈ R ² tels que a < b. Un plan ξ est A _d −admissible si et seulement si :

Card (supp(ξ)∩]a, b[) 6 d − 1. (26)

(102)

Nous introduisons désormais la notion de segment et

d’intérieur relatif d’un segment pour appliquer le théorème 2.1 au cas d’un modèle polynomial A _d avec v > 2.

Définition (Segment)

Un segment S d’extrémités x ⁽⁰⁾ et x ⁽¹⁾ , deux points de R ^v , est l’enveloppe convexe de ces points :

S = n

λx ⁽⁰⁾ + (1 − λ)x ⁽¹⁾ , λ ∈ [0, 1] o

. (27)

Le segment S n’est pas dégénéré si ces extrémités, x ⁽⁰⁾ et

x ⁽¹⁾ , ne sont pas égales.

(103)

Définition (Intérieur relatif)

L’intérieur relatif d’un segment S, noté ri (S), d’extrémités x ⁽⁰⁾ et x ⁽¹⁾ , deux points de R ^v , est l’ensemble des barycentres à coefficients strictement positifs de ces points :

S = n

λx ⁽⁰⁾ + (1 − λ)x ⁽¹⁾ , λ ∈]0, 1[ o

. (28)

(104)

Théorème

Soit v > 1, et S ⊂ χ un segment non dégénéré inclus dans le domaine expérimental. Si un plan ξ est A _d −admissible :

Card (supp(ξ) ∩ ri (S )) 6 d − 1. (29)

(105)

Définition (Face)

Une face F d’un ensemble χ est un sous-ensemble convexe de χ tel que :

S ⊂ χest un segment et F ∩ ri (S) 6= ∅, = ⇒ S ⊂ F. (30)

Remarque

L’ensemble χ est une face de χ et chaque point extrémal de χ

est une face de χ.

(106)

Il existe plusieurs liens entre un compact convexe χ et ses faces. La proposition suivante explicite l’un d’entre eux.

Proposition

Si χ est un compact convexe de R ^v , alors :

χ = [

F face de χ

ri (F ) . (31)

(107)

Nous reprenons le contexte du théorème 2.2 et nous supposons de surcroît que le domaine expérimental χ est compact et convexe.

1. Si d = 1, alors les points support d’un plan A ₁ −admissible sont les points extrêmes de χ.

2. Si d = 2, alors pour toute face F de χ un plan

A ₂ −admissible a au plus un point support dans ri (F ).

Pour obtenir des résultats plus précis nous étudions des

domaines expérimentaux particuliers.

(108)

Définition (Domaine cubique)

Le domaine expérimental C _b est un v −hypercube symétrique centré en 0 :

C _b = n

x = (x ₁ , . . . , x _v )

⁰

∈ R ^v , |x _i | 6 b _i , 1 6 i 6 v o

, (32)

où b _i ∈]0, +∞[, 1 6 i 6 v .

L’ensemble des sommets de C _b est V _b avec V _b =

n

x = (x ₁ , . . . , x _v )

⁰

∈ R ^v , |x _i | = ±b _i , 1 6 i 6 v o

. (33)

(109)

Définition (Domaine elliptique)

Le domaine expérimental E _H est un v −ellipsoïde centré en 0 : E _H =

n

x = (x ₁ , . . . , x _v )

⁰

∈ R ^v , x

⁰

Hx 6 1 o

, (34)

où H ∈ S _k ⁺⁺ .

La frontière de E _H est ∂E _H :

∂E _H = n

x = (x ₁ , . . . , x _v )

⁰

∈ R ^v , x

⁰

Hx = 1 o

. (35)

(110)

Corollaire

Soit un modèle de régression multiple polynomiale de degré d = 1 sur χ = C _b ou χ = E _H . Un plan ξ est A ₁ −admissible si et seulement si :

supp(ξ) ⊂

V _b , si χ = C _b ,

∂E _H , si χ = E _H . (36)

(111)

Dans le cas d’un domaine E _H avec H = (1/r ² )I _v , c’est-à-dire si χ est la boule de rayon r centrée en 0, la matrice des moments d’un plan faiblement invariant pour G _sp et A ₁ −admissible est M ^∗ = Diag

1, ^r _v

²

, . . . , ^r _v

²

. Il s’agit de la même matrice des moments que celle d’un plan isovariant et A ₁ −admissible.

Ainsi tout plan sphérique est un plan A ₁ −admissible si le domaine expérimental est si le support du plan est inclus dans la frontière de cette boule.

Dans la suite nous nous concentrons sur les résultats

d’admissibilité concernant les domaines de type E _H .

(112)

Corollaire

Soit un modèle de régression multiple polynomiale de degré d = 2, un domaine expérimental χ égal à E _H et le groupe de transformations constitué de deux éléments, l’identité et la symétrie centrale par rapport à l’origine du repère.

1. Si un plan ξ est faiblement invariant et A ₂ −admissible alors supp(ξ) ⊂ E _H ∪ {0}.

2. Réciproquement, si un plan, non nécessairement

faiblement invariant, ξ est tel que supp(ξ) ⊂ E _H ∪ {0} alors

il est A ₂ −admissible.

(113)

comportant des points répartis sur une même sphère, éventuellement complétés par des points au centre pour un modèle de régression polynomiale multiple de degré 2 et un domaine expérimental de type boule ; le support du plan étant inclus dans la frontière de cette boule.

Corollaire

Tout plan dont le support est contenu dans la sphère unité de

R ^v est A ₂ −admissible pour un domaine χ égal à la boule unité

de R ^v .

(114)

Dans le cas d’un domaine expérimental de type cube centré en 0 et symétrique ou de la boule de rayon r centrée en 0,

quelques résultats généraux concernant les modèles de degré supérieurs ou égaux 3 existent, voir Gaffke et Heiligers (1996).

Toutefois si nous faisons l’hypothèse supplémentaire que le

plan est isovariant il est possible de démontrer le résultat que

nous allons exposer dans la section suivante.

(115)

Lors de la recherche d’une solution optimale pour un critère d’optimalité Q−invariant dans la classe des plans dont le support est dans U, nous pouvons nous restreindre à chercher un plan optimal dans la sous-classe des plans faiblement invariants et A _d -admissibles.

Réduction de dimension

Les classes essentiellement complètes formées de plans faiblement invariants, de plans admissibles, ou de plans faiblement invariants et admissibles donnent une cadre formel pour la réduction de la dimension du problème de

minimisation.

(116)

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

(117)

fondateur de Box et Hunter (1957) :

• Draper, Gaffke et Pukelsheim (1993) ;

• Gaffke et Heiligers (1996) ;

• Myers et Montgomery (2002).

Lorsqu’un plan possède la propriété d’isovariance, la variance de l’estimateur de Gauss-Markov en un point du domaine expérimental ne dépend que de la distance de ce point au centre du domaine.

Ainsi, à une distance fixe de l’origine, la précision de

l’estimation est constante.

(118)

Soit χ un domaine expérimental égal à la boule centrée en 0 et de rayon r > 0 et un modèle de régression multiple isovariant de degré d > 1.

Nous supposons que, pour le problème d’optimalité considéré,

la restriction à l’ensemble des plans isovariants est justifiée

comme c’est le cas pour les critères de D−optimalité et de

I−optimalité.

(119)

B _r de rayon r centrée en 0 et le groupe de transformations G _orth . Pour tout ρ ∈ [0, r ], l’ensemble des plans isovariants dont le support est inclus dans la sphère S _ρ est non-vide et tous ces plans ont la même matrice des moments, notée M _d,ρ . Nous avons de plus, pour tout plan ξ isovariant sur la boule B _r la décomposition suivante pour la matrice de ses moments :

M _d (ξ) = X

ρ∈R(ξ)

ξ(S _ρ )M _d,ρ , (37) où ξ(S _ρ ) est le poids total de tous les points du plan ξ

appartenant à la sphère S _r et R(ξ) l’ensemble, fini, des rayons

ρ ∈ [0, r ] tels que ξ(S _ρ ) > 0.

ENSAI3 Année19-03-2012 IntroductionetcasdumodèlelinéaireFrédéricBertrand Planiﬁcationoptimaledesexpériences

Planification optimale des expériences

Introduction et cas du modèle linéaire

Frédéric Bertrand 1

IRMA, Université de Strasbourg Strasbourg, France

ENSAI 3 e Année

19-03-2012

Ce cours s’appuie essentiellement sur

1. le livre de Hardeo Sahai et Mohammed I. Ageel, The Analysis of Variance : Fixed, Random and Mixed Models, aux éditions Birkhäuser, 2000.

2. le livre de Hardeo Sahai et Miguel Ojeda, Analysis of Variance for Random Models, Volume I: Balanced data, aux éditions Birkhäuser, 2004.

3. le livre de Hardeo Sahai et Miguel Ojeda, Analysis of Variance for Random Models, Volume II: Unbalanced data, aux éditions Birkhäuser, 2005.

4. le livre de Douglas C. Montgomery, Design and Analysis of Experiments, 7 th Edition, aux éditions Wiley, 2009.

5. le livre de Samuel D. Silvey, Optimal Design, aux éditions

Chapman and Hall, 1980.

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

Introduction

La planification d’expérience traite, comme son nom l’indique, de l’organisation réfléchie des expériences de manière à pouvoir

1. analyser celles-ci avec des modèles permettant de

reproduire fidèlement la, plus ou moins grande, complexité des processus expérimentaux à décrire ;

2. maximiser la quantité d’information (au sens de Fisher par

exemple) que nous apporte les essais que nous choisirons

de réaliser.

Introduction

Plans pour pesée

Définition générale du problème Exemples

Planification, modèle linéaire et symétries Définitions, admissibilité, optimalité Invariances

Cas de l’isovariance

Caractérisation différentielle de l’optimalité Définitions, première propriétés

Théorèmes de caractérisation

Contexte

Un exemple simple pour comprendre pourquoi il est important de réfléchir à la planification les expériences.

Supposons que nous devions peser 4 objets avec une balance ayant deux plateaux en réalisant au maximum 4 pesées.

À chacune des pesées, nous pouvons répartir tous ou une

partie des objets sur l’un ou l’autre des deux plateaux de la

balance.

Définition

La répartition des objets lors des quatre pesées est appelée un plan pour pesée.

Mise en équation

Soit β 1 , β 2 , . . ., et β n les poids, inconnus, des objets.

Nous posons u ij = 1 si le j−ème objet est dans le plateau de

droite au cours de la i−ème pesée, u ij = −1 si le j−ème objet

est dans le plateau de gauche au cours de la i−ème pesée et

u ij = 0 si le j−ème objet n’est pas utilisé lors de la i−ème

pesée.

Mise en équation (suite)

Afin d’équilibrer les deux plateaux de la balance lors de la i−ème pesée il est possible de rajouter une masse à l’un des deux plateaux de la balance.

Le signe de cette masse dépend du plateau sur lequel elle a été posée : positif si elle se trouve sur le plateau de gauche et négatif si elle se trouve sur le plateau de droite.

Nous désignons par y i cette masse signée utilisée lors de la

i−ème pesée.

Mise en équation (suite)

d’équilibrer les deux plateaux de la balance.

Le premier plan pour pesée.

1. Pesée 1 : objet 1 à droite ; 2. Pesée 2 : objet 2 à droite ; 3. Pesée 3 : objet 3 à droite ; 4. Pesée 4 : objet 4 à droite.

La matrice X associée est









1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1









Comparaisons de deux plans Le premier plan pour pesée.

1. Pesée 1 0 : objets 1, 2, 3 et 4 à droite ;

2. Pesée 2 0 : objets 3 et 4 à gauche, 1 et 2 à droite ; 3. Pesée 3 0 : objets 2 et 3 à gauche, 1 et 4 à droite ; 4. Pesée 4 0 : objets 2 et 4 à gauche, 1 et 3 à droite.

La matrice X associée est



Frédéric Bertrand ¹

ENSAI 3 ^e Année

4. le livre de Douglas C. Montgomery, Design and Analysis of Experiments, 7 ^th Edition, aux éditions Wiley, 2009.

Soit β ₁ , β ₂ , . . ., et β n les poids, inconnus, des objets.

Nous posons u _ij = 1 si le j−ème objet est dans le plateau de

droite au cours de la i−ème pesée, u _ij = −1 si le j−ème objet

u _ij = 0 si le j−ème objet n’est pas utilisé lors de la i−ème

Nous désignons par y _i cette masse signée utilisée lors de la

1. Pesée 1 ⁰ : objets 1, 2, 3 et 4 à droite ;

2. Pesée 2 ⁰ : objets 3 et 4 à gauche, 1 et 2 à droite ; 3. Pesée 3 ⁰ : objets 2 et 3 à gauche, 1 et 4 à droite ; 4. Pesée 4 ⁰ : objets 2 et 4 à gauche, 1 et 3 à droite.

Ainsi pour le premier plan, nous obtenons avec le théorème de Gauss-Markov et la formule β b = (X ⁰ X ) ⁻¹ X ⁰ y = y , les BLUE

1. c β 1 = y ₁ , Var[ c β 1 ] = σ _e ² ;

2. c β ₂ = y ₂ , Var[c β ₂ ] = σ _e ² ;

3. c β ₃ = y ₃ , Var[c β ₃ ] = σ _e ² ;

4. c β ₄ = y ₄ , Var[ c β ₄ ] = σ _e ² .

Ainsi pour le premier plan, nous obtenons avec le théorème de Gauss-Markov et la formule β b = (X ⁰ X ) ⁻¹ X ⁰ y = X ⁰ y , les BLUE

1. Pesée 1 : c β ₁ = ¹ ₄ (y ₁ + y ₂ + y ₃ + y ₄ ), Var[ c β ₁ ] = ^σ ₄

2. Pesée 2 : c β ₂ = ¹ ₄ (y ₁ + y ₂ − y ₃ − y ₄ ), Var[c β ₂ ] = ^σ ₄

3. Pesée 3 : c β ₃ = ¹ ₄ (y ₁ − y ₂ − y ₃ + y ₄ ), Var[ c β ₃ ] = ^σ ₄

4. Pesée 4 : c β ₄ = ¹ ₄ (y ₁ − y ₂ + y ₃ − y ₄ ), Var[c β ₄ ] = ^σ ₄

1. un vecteur colonne u = (u ₁ , u ₂ , . . . , u _r ) ⁰ de variables

2. un vecteur colonne θ = (θ 1 , θ 2 , . . . , θ k ) ⁰ de paramètres qui sont fixes mais dont les valeurs sont inconnues de l’expérimentateur ; ce sont les valeurs de ces paramètres, ou de fonctions de ces paramètres, que l’expérimentateur essaye de connaître ;

3. un vecteur colonne τ = (τ 1 , τ 2 , . . . , τ r ) ⁰ de paramètres de

1. Les vecteurs u peut être choisis dans la partie U ⊂ R ^r ; 2. Nous savons que le vrai vecteur de paramètres θ

appartient à la partie Θ ⊂ R ^k ;

appartient à la partie T ⊂ R ^l ;.