Agrégation non linéaire d’estimateur (COBRA)

1.2 Contributions

1.2.3 Agrégation non linéaire d’estimateur (COBRA)

α^|m|0✶BM|m|0(r)(θ) V(r) ^, ^(1.15)

avecα∈ (0,1),BM|m|0(r) désigne la bouleℓ2de rayon r dans RM|m|0etV(r) son volume, etM est l’ensemble des modèles, c’est-à-direM= {0,1}^d. Sous l’hypothèse technique (et classique dans la littérature PAC-bayésienne) que pour un certain modèle m,θappartient à la boule BM|m|0(r), nous prouvons le résultat central duChapitre 3:

Théorème 1.5. Pour toutε∈ (0,1), P " R(f_ˆθa) ≤^c_c²⁽^β⁾ 1(β)m∈^infM inf θ∈BM|m|0(r) ½ R(fθ) +_β_nc² 2(β) · M|m|0 µ 1 +log µβnrc2(β)C′ 2M|m|0 ¶¶ +|m|0log µ de |m|0 ¶ + |m|0log(1/α) +log µ 1 1 −α ¶ + log(2/ε) ¸¾¸ ≥ 1 −ε. Notons que bien que nous soyons dans un contexte profondément différent, nous parve-nons à faire apparaître les vitesses optimales de convergence, de l’ordre de |m|0/n.

LeChapitre 3 se referme par une section dédiée à l’implémentation effective de notre

méthode (voirAlgorithme 3.1). Il s’agit d’une adaptation de l’approche présentée dans le

Chapitre 2.

1.2.3 Agrégation non linéaire d’estimateur (COBRA)

Comme on l’a vu, une part importante des travaux issus de cette thèse a consisté à étendre la méthodologie PAC-bayésienne. Nous abordons ici une stratégie (inspirée par les travaux de Mojirsheibani, 1999, en classification supervisée) qui se veut une alternative aux techniques d’agrégation existantes. Plutôt que de construire une combinaison linéaire ou convexe d’estimateurs de la fonction de régression (dont nous changeons la notation, dans la suite du chapitre, en r⋆

), nous les utilisons comme indicateurs de distance entre échantillon d’apprentissage et nouveaux points de design. Pour un nouveau point de design

X, nous considérons qu’un point de l’échantillon d’apprentissage en est proche si l’ensemble

● ● ● ● ● ● ● ● ^● ● ● ● ● ●

(A) Comment prédire la réponse du point de design en pointillés ? ● ● ● ● ● ● ● ● ^● ● ● ● ● ●

(B) Prédictions des deux estimateurs.

● ● ● ● ● ● ● ● ^● ● ● ● ● ● ● ● ^● ● ●

● ● ● ● ● ● ● ● ^● ● ● ● ● ● ● ● ^● ● ● (D) Prédiction finale.

FIGURE1.3 – Exemple d’agrégation non linéaire de deux estimateurs.

correspondant à un paramètre de lissage. La prédiction faite pour le point X est alors la moyenne des réponses des points d’apprentissage proches. Cette définition informelle est illustrée par laFigure 1.3.

Présentons maintenant la méthode plus en détails. Supposons que l’on dispose d’un échantillon d’apprentissage D_n= {(X1,Y₁),...,(Xn,Yn)} de réplication i.i.d. de (X,Y ) à va-leurs dans Rd

×R. Nous coupons cet échantillon en deux sous-échantillons, notésD_k etD_ℓ: surD_k, nous construisons M estimateurs de la fonction de régression r⋆

, notés rk,1,..., rk,M. Insistons ici sur un point saillant de notre approche : ces estimateurs peuvent être paramé-triques, semi-paramétriques ou non paramétriques. N’importe quelle stratégie d’estimation (suggérée par le contexte expérimental ou le statisticien) est acceptable, à l’unique condition

1.2. CONTRIBUTIONS 31 qu’elle soit capable, sur la base deD_k, de fournir une estimation de r⋆

. Ces estimateurs “pri-mitifs” — appelés également machines dans leChapitre 4— sont fixés par le statisticien. Nous définissons notre estimateur final Tn, nommé collectif de la régression, par

Tn(rk(x)) =X^ℓ

i=1

Wn,i(x)Y_i, x ∈ R^d, (1.16)

avec la notation r_k_{= (r}_k,1,..., r_k,M) et où les poids aléatoires Wn,i(x) sont définis par Wn,i(x) = ^✶ TM m=1{|rk,m(x)−rk,m(Xi)|≤εℓ} Pℓ j=1✶TM m=1{|rk,m(x)−rk,m(Xj)|≤εℓ} , (1.17)

avec εℓ > 0. L’originalité de cette approche réside dans le fait que l’estimateur final de la fonction de régression dépend de façon non linéaire des estimateurs primitifs. À notre connaissance, il n’y a pas de technique comparable dans la littérature portant sur l’agréga-tion.

Avec la fonction de perte quadratique, et sous des hypothèses techniques (vérifiée par exemple dès que les machines sont bornées), nous obtenons en particulier le résultat sui-vant.

Théorème 1.6 (Biau et al.,2013). Siεℓ∝ℓ⁻M+2¹ , alors E^¯¯Tn(rk(X)) − r⋆ (X)¯¯ 2 ≤ min m=1,...,ME^¯¯rk,m(X) − r⋆ (X)¯¯ 2 + Cℓ⁻M+2² , pour une certaine constante positive C indépendante de k.

Ce résultat porte plusieurs enseignements. Tout d’abord, l’estimateur combiné Tn est asymptotiquement aussi bon que le meilleur estimateur initial, au sens de l’erreur qua-dratique moyenne. De plus, cette inégalité oracle exacte fait apparaître un terme rési-duel de vitesse satisfaisant dans notre cadre : comme le nombre de machines M est fixé, le termeℓ^−2/(M+2) est négligeable devant la vitesse non paramétrique classique ℓ^−2/(d+2), par exemple. Bien sûr, des vitesses plus rapides peuvent être atteintes si la distribution de (X,Y ) peut être approchée de façon paramétrique, cependant notre stratégie est conçue pour des problèmes de régression plus périlleux. Insistons ici sur le fait que contrairement à d’autres approches, comme les méthodes pénalisées en normeℓ1, il n’est fait ici aucune hypothèse sur le design, et les conditions portant sur les estimateurs initiaux sont faibles.

En particulier, il est important de noter que si l’un des estimateurs initiaux est consis-tant, c’est-à-dire que pour un certain m₀,

E^¯¯rk,m0(X) − r⋆

(X)¯¯

→ 0 quand k → ∞, alors l’estimateur combiné Tnhérite de cette consistance :

lim

k,ℓ→∞E^¯¯Tn(rk(X)) − r⋆

(X)¯¯

= 0.

Notre procédure d’agrégation non linéaire offre ainsi une alternative aux techniques exis-tantes, permettant au praticien de mélanger des estimateurs très différents quand il se retrouve confronté à un problème difficile.

Cette approche est implémentée dans le paquet pour le logiciel R COBRA (acronyme de COmBined Regression Alternative,Guedj,2013a), téléchargeable gratuitement². Nous

présentons dans le Chapitre 4 un protocole de validation expérimentale conséquent, dé-montrant les excellentes performances de COBRA, en terme d’erreur de prédiction et de temps de calcul (le paquet sait nativement tirer parti des architectures multi-cœur). Nous menons ensuite une étude comparative avec l’algorithme “Super Learner” (van der Laan

et al.,2007;Polley and van der Laan,2010), ainsi qu’avec l’agrégation à poids exponentiels.

Les figures1.4et1.5représentent des exemples d’exécution du paquet. Notons que la ver-sion implémentée fait intervenir une définition plus générale des poids que celle introduite en (1.17). En effet, il était demandé à l’ensemble des machines de tomber d’accord sur l’im-portance des points Yiintervenant dans la moyenne (1.16). Nous relâchons cette contrainte d’unanimité, en modifiant les poids de la façon suivante : pour une fractionα∈ (0,1),

Wn,i(x) = ^✶^{P M m=1✶_{{|rk,m(x)−rk,m(Xi)|≤εℓ}}≥Mα} Pℓ j=1✶_{PM m=1✶_{{|rk,m(x)−rk,m(Xj)|≤εℓ}}≥Mα} .

Autrement dit, il suffit qu’une proportion au moinsαdes machines place x à distance (au sens de la métrique sur les machines) au plusεℓ de X_i pour que Y_i contribue à la prédic-tion de la réponse de x. Cette proporprédic-tionα peut être interprétée comme une mesure de l’homogénéité de l’ensemble des machines initiales.

0 2 4 6 8 10 12 0 5

Dans le document Aggregation of estimators and classifiers : theory and methods (Page 30-33)