Quelques bons plans construits par optimisation en r´egression polynˆomiale
18 avril 2003
R´esum´e
On consid`ere un mod`ele de r´egression param´etrique. On rapelle tout d’abord les r´esultats classiques concernant l’estimateur des moindres carr´es. On d´efinit ensuite plu- sieurs crit`eres d’optimalit´e du plan d’exp´erience. Ces crit`eres sont bˆatis sur la matrice de variance covariance de l’estimateur des moindres carr´es. Nous examinons ensuite le cas particulier de la r´egression polynˆomiale unidimensionnelle dans lequel nous exhibons les plans optimaux. Une ouverture sur la r´egression polynˆomiale multidimensionnelle est donn´ee en conclusion. Cet expos´e reprend pour l’essentiel le chapitre 5 du livre de H.
Dette et al [DS97].
1 R´ egression param´ etrique
Soit U un sous-ensemble compact de R
d(d ≥ 1), et f une application de R
ddans R
k(k ≥ 1).
On consid`ere le mod`ele de r´egression :
Y (x) = " f(x), θ
∗# + ε(x) (x ∈ U). (1) (ε(x))
x∈Uest un bruit blanc et "· , ·# d´esigne le produit scalaire habituel sur R
k. Le mod`ele (1) est observ´e sur une la grille de points x
1, . . . , x
n(ces points ne sont pas n´ecessairement tous disctints). Le mod`ele d’observation est alors :
Y = F θ
∗+ ε. (2)
O` u F = (f
j(x
i))
i=1,...n;j=1...k, (n > k) est la matrice du plan d’exp`erience et ε = (ε(x
i))
i=1,...nest le vecteur des erreurs. On fait l’hypoth`ese que le mod`ele d’observation n’est pas d´eg´en´er´e, c’est-`a-dire que la matrice F est de rang plein (k). On appelle ! θ
nl’estimateur des moindres carr´es de θ
∗(c’est l’estimateur qui minimise en θ ∈ R
kl’erreur d’ajustement % Y − F θ %
2). On a alors le r´esultat classique suivant qui s’obtient de fa¸con ´el´ementaire en utilisant le th´eor`eme de projection et de l’alg`ebre lin´eaire de base.
Th´ eor` eme 1
1) θ !
nexiste et est unique. Par ailleurs on a θ !
n= (F
TF )
−1F
TY .
2) Si on suppose de plus que ε est un vecteur de carr´e int´egrable centr´e et de matrice de variance covariance σ
∗2I
n(bruit d´ecorell´e), alors
E ( θ !
n) = θ
∗(sans biais), et Var θ !
n= σ
∗2(F
TF )
−1(matrice de variance-covariance). (3) Rappelons que si A et B sont des matrices carr´es sym´etriques et positives, on dit que A ≤ B (ordre de Loewner) lorsque A − B est positive. Cela d´efinit un ordre partiel sur l’ensemble des matrices sym´etriques et positives. Le th´eor`eme de Gauss-Markov suivant conf`ere `a θ !
nune propri´et´e d’optimalit´e relativement `a l’ordre de Loewner.
Proposition 1 Soit B une matrice l × k (l ≤ k), de rang plein.
1) Sous les hypoth`eses du point 2) du Th´eor`eme 1, B θ !
nest l’estimateur qui poss`ede la matrice de variance-covariance minimale (pour l’ordre de Loewner) parmi tous les esti- mateurs lin´eaires (c’est-`a-dire s’´ecrivant sous la forme AY ) et sans biais de Bθ
∗.
2) Sous les hypoth`eses pr´ec´edentes on suppose de plus que ε est un vecteur gaussien. Alors, B θ !
nest l’estimateur qui poss`ede la matrice de variance-covariance minimale parmi tous les estimateurs sans biais de Bθ
∗.
A la lecture de la proposition pr´ec´edente on pourrait se sentir optimiste et essayer de chercher
`a optimiser la matrice du plan d’exp`erience en minimisant en x
1, . . . , x
nla matrice de variance- covariance (pour l’ordre de Loewner) de B θ !
n(pour un B donn´e). Malheureusement, comme nous avons `a faire avec un ordre partiel, il n’y a pas de solution. Pour construire un plan d’exp´erience par minimisation d’un crit`ere, il faut bˆatir une fonction de coˆ ut sur les matrices sym´etriques positives. C’est l’objet du paragraphe suivant.
2 Construction de plans d’exp´ erience
A partir de maintenant on suppose que les hypoth`eses du point 2) du Th´eor`eme 1 sont v´erifi´ees (sur le bruit). Soit B une matrice comme dans la Proposition 1. Remarquons tout d’abord que la matrice de variance covariance de B ! θ
nest :
Var B θ !
n= σ
2∗B (F
TF )
−1B
T.
Typiquement, on peut s’int´eresser seulement `a une partie du param`etre. Par exemple, si on s’int´eresse au j -`eme param`etre 1 ≤ j ≤ k, B est le j-`eme vecteur de la base canonique duale de R
k.
On r´esume les points de la grille dans une mesure de probabilit´e : µ
n(dx) = 1
n
"
n i=1δ
xi(dx).
Il est alors imm´ediat que n
−1(F
TF ) n’est rien d’autre que la matrice des moments d’ordre 2 du vecteur al´eatoire f (X
n) quand X
na la loi µ
n:
1
n (F
TF )
i,j=
#
U
f
i(x)f
j(x)µ
n(dx) = 1 n
"
nf
i(x
m)f
j(x
m) (i, j = 1, . . . k). (4)
Pla¸con nous dans un cadre asymptotique. Puisque U est compact il est naturel de supposer que la suite µ
nconverge en loi vers une mesure de probabilit´e µ concentr´ee sur U . Soit X de loi µ sans perte de g´en´eralit´e on peut supposer que la matrice des moments d’ordre 2 de f (X) est non d´eg´en´er´ee (sinon on r´eduit la dimension). Notons ∆(µ) cette matrice :
(∆(µ))
i,j=
#
U
f
i(x)f
j(x)µ(dx) (i, j = 1, . . . k). (5) Soit Σ
Uun ensemble de mesure de probabilit´e sur U . Pour construire un plan d’exp´erience on proc`ede alors en deux temps :
1) On se place en asymptotique. On maximise un crit`ere bˆati sur la matrice de variance- covariance asymptotique renormalis´ee de B θ !
n: B∆
−1(µ)B
T. Soit µ
∗une mesure maximi- sante.
2) On approxime (dans un sens `a pr´eciser), la mesure µ
∗par une mesure port´ee par un nombre fini de points.
D´efinissons maintenant les crit`eres matricielles que nous allons consid´erer.
D´ efinition 1 Soit A une matrice sym´etrique l × l d´efinie positive (l ∈ N
∗). Soit λ
1≥ λ
2≥ . . . λ
l> 0 les valeurs propres de A. On consid`ere les fonctions de coˆ ut suivantes :
D(A) = det(A
−1) =
$
l j=11 λ
j,
E(A) = 1
sup
u∈Rlu
TAu = 1 λ
1.
La proc´edure de construction de plans d’exp´erience peut alors ˆetre formalis´ee de la fa¸con sui- vante :
D´ efinition 2 Soit Σ
Uun ensemble de mesure de probabilit´es sur U et B une matrice l × k (l ≤ k) de rang plein.
1) On dit que la mesure µ
∗∈ Σ
Uest D-optimale (resp. E-optimale) lorsqu’elle maximise D(B∆
−1(µ)B
T) (resp. E(B∆
−1(µ)B
T)) sur Σ
U.
2) Une suite de plans d’exp´eriences (µ
∗n) est D-optimale (resp. E-optimale) lorsqu’elle converge en loi vers µ
∗qui satisfait 1).
Interpr´ etation
• D-optimalit´ e. Dans le cas o` u le bruit ε est suppos´e gaussien, l’ellipso¨ıde de confiance, au niveau α ∈ ]0, 1[, pour Bθ
∗est donn´e par :
Ω
α= %
θ ∈ R
k: (θ − ! θ
n)
T[B(F
TF )
−1B
T]
−1(θ − ! θ
n) ≤ lS
n2f
α,l,n−k&
. (6)
O` u
S
n2= % Y − F θ !
n%
2n − k
est l’estimateur sans biais de la variance σ
∗2et f
α,l,n−kest le quantile sup´erieur de niveau α pour la loi de Fisher F (l, n − k). Le volume de Ω
αest proportionel `a det B (F
TF )
−1B
T. Un plan D-optimal permet donc d’obtenir asymptotiquement un volume minimal pour l’ellipso¨ıde de confiance de Bθ
∗.
• E-optimalit´ e. Il s’agit ici de minimiser la plus grande valeur propre de la matrice de va- riance covariance de B θ !
n. C’est donc un crit`ere minimax. On cherche le plan d’exp´erience qui minimise asymptotiquement la plus grande des variances des combinaisons lin´eaires construites sur B θ !
n.
Soit P (U ) l’ensemble des mesures de probabilit´es sur U . A partir de maintenant, on travaile avec
Σ
∗U= { µ ∈ P (U) : Card(Suppµ) < + ∞ et ∆(µ) est inversible } . Si µ ∈ Σ
∗Uest port´ee par m points de U et vaut µ = '
mj=1
q
jδ
xjon l’´ecrit µ =
( x
1x
2. . . x
mq
1q
2. . . q
m)
On a la caract´erisation suivante :
Th´ eor` eme 2 On suppose (pour simplifier) que B = I. Il existe un plan D-optimal. De plus, un plan µ
∗est D-optimal si, et seulement si,
∀ x ∈ U, f
T(x)∆
−1(µ
∗)f(x) ≤ k.
Remarquons que l’on a toujours, pour µ ∈ Σ
∗U, k = Tr(∆(µ)∆(µ)
−1) =
"
m j=1q
jf
T(x
j)∆
−1(µ)f (x
j) ≤ % f
T∆
−1(µ)f %
∞. Posons,
G(µ) = % f
T∆
−1(µ)f %
∞= sup
x∈U
f
T(x)∆
−1(µ)f (x).
D’apr`es le Th´eor`eme pr´ec´edent, si µ
∗est un plan D-optimal on a G(µ
∗) = k.
D´ efinition 3 Un plan est dit G-optimal si il minimise la fonction G sur Σ
∗U.
Il faut noter que f
T(x)∆
−1(µ)f (x) est la variance de f
T(x) θ !
n. Ainsi, le plan G-optimal a la propri´et´e minimax de minimiser la plus grande variance de cette collections d’estimateurs quand x d´ecrit U . Le Corollaire suivant s’obtient en utilisant les remarques pr´ec´edentes ou par des arguments de perturbation sur la fonction Φ(µ) = log det(∆(µ)), (µ ∈ Σ
∗U).
Corollaire 1 (Kiefer-Wolfowitz) On suppose que B = I. µ
∗est G-optimal si, et seulement
si, elle est D-optimal.
3 Cas de la r´ egression polynˆ omiale
3.1 Quelques syst` emes de polynˆ omes orthogonaux
Sur [ − 1, 1] on consid`ere la loi b´eta de param`etres α, β > − 1 (not´ee β(α, β)), dont la densit´e par rapport `a la mesure de Lebesgue est :
w
α,β(x) = 2
−1−α−βB(α + 1, β + 1) (1 − x)
α(1 + x)
β,
B(α, β) est la constante de normalisation. Pour n ∈ N et x ∈ [ − 1, 1], le polynˆome de Jacobi d’ordre n est
P
nα,β(x) = ( − 1)
n2
nn! (1 − x)
−α(1 + x)
−βd
ndx
n* (1 − x)
n+α(1 + x)
n+β+
= 2
−n"
n j=0( n + α j
) ( n + β n − j
)
(x − 1)
n−j(x + 1)
j.
Les polynˆomes de Jacobi sont orthogonaux pour w
α,β(produit scalaire L
2sur [ − 1, 1]). Les polynˆomes ultrasph´eriques (C
nλ)
n∈Nsont obtenus dans le cas α = β = λ − 1/2 (λ > − 1/2) avec une autre normalisation :
C
nλ(x) =
Γ(λ +
12)Γ(2λ + n)
Γ(2λ)Γ(λ + n +
12) P
λ−1/2,λ−1/2n
(x) x ∈ [ − 1, 1], λ + = 0, 2
n κ
nP
n−1/2,−1/2(x) x ∈ [ − 1, 1], λ = 0, o` u pour n ∈ N
∗,
κ
n= 2 · 4 · · · 2n
1 · 3 · · · (2n − 1) et κ
0= 1.
Dans le cas α = β = 0 (λ = 1/2), on obtient les polynˆomes de Legendre orthogonaux pour la loi uniforme sur [ − 1, 1]. On note
P
n(x) = P
n0,0(x) = C
n1/2(x) (x ∈ [ − 1, 1], n ∈ N ).
3.2 R´ egression polynˆ omiale univari´ ee
On se place maintenant dans le mod`ele de r´egression polynˆomiale : Y (x) =
"
r j=0θ
∗jx
j+ ε(x), (x ∈ [ − 1, 1]). (7)
On a bien sˆ ur k = r + 1. Sans perte de g´en´eralit´e nous nous sommes plac´es sur [ − 1, 1]. C’est
en effet toujours possible par reparam´etrisation du probl`eme. On a alors le Th´eor`eme suivant :
!1 !0.8 !0.6 !0.4 !0.2 0 0.2 0.4 0.6 0.8 1 5
10 15 20 25 30 35 40
degré du polynôme
D!plans optimaux
Fig. 1 – D-plans optimaux pour diverses valeurs de r
Th´ eor` eme 3 On suppose B = I. Le plan D-optimal dans le mod`ele de r´egression univarie´e (7) est la mesure uniforme sur les z´eros du polynˆ ome de degr´e r + 1 :
(x
2− 1)P
r%(x).
La preuve de ce Th´eor`eme utilise des techniques de moments canoniques `a travers la repr´esentation des d´eterminants de Hankel sur ces moments. Lorsque le degr´e du polynˆome augmente, le plan optimal converge en loi vers la loi de l’arcsinus (de densit´e w
−1/2,−1/2). La figure 1 est la repr´esentation graphique des plans D-optimaux pour diverses valeurs de r.
3.3 R´ egression polynˆ omiale multivari´ ee
On s’int´eresse maintenant au probl`eme de r´egression multivari´ee : Y (x) = θ
0∗+
"
d i=1θ
∗ix
i+ "
1≤i1≤i2≤d
θ
∗i1,i2x
i1x
i2+ · · ·
+ "
1≤i1≤···≤id≤r
θ
i∗1,...,id$
r j=1x
ij+ ε(x), x =
x
1...
x
d
∈ [ − 1, 1]
d. (8)
On a ici k =
( r + d r
)
. L’ensemble des mesures consid´er´e ici n’est pas Σ
∗[−1,1]dmais son sous ensemble constitu´e de mesures produits :
Σ
∗∗[−1,1]d= 6
d7 µ
i: µ
i∈ Σ
∗[−1,1], i = 1 . . . d 8
. (9)
!1 !0.8 !0.6 !0.4 !0.2 0 0.2 0.4 0.6 0.8 1
!1
!0.8
!0.6
!0.4
!0.2 0 0.2 0.4 0.6 0.8 1
plan optimal. Poids o=3/196 +=1/49 *=3/98