• Aucun résultat trouvé

1.2 Présentation des résultats

2.1.3 Pénalisation ℓ 0

Notons |A| le cardinal de A, un ensemble quelconque d’indice. Il est commode, pour l’étude de méthodes de sélection de variables, de définir l’ensemble de sparsité A∗; c’est

l’objet de la Définition 2.1. Définition 2.1.

Soit le modèle de régression linéaire (2.1). On définit l’ensemble de sparsité associé au vec- teur β∗ par

A∗={j : βj6= 0}. (2.7)

On définit par la suite, l’indice de sparsité de β∗ par la quantité |A|.

La construction d’estimateurs interprétables est un enjeu important. Des estimateurs parmi ceux qui répondent à cette attente sont par exemple construits à partir de la pénalité ℓ0,

tels que les critères d’information Cp de Mallows, AIC (Akaike Information Criterion) ou

encore BIC (Bayesian Information Criterion), aujourd’hui classiques et introduits respecti- vement par Mallows [105], Akaike [2] et Schwartz [127]. Ces critères sélectionnent parmi une collection de taille D d’estimateurs de β∗, notée

b

F =nβˆ1,· · · , ˆβD

o ,

celui qui remplit au mieux le double objectif suivant : la bonne estimation de Xβ∗ et la

bonne estimation de l’ensemble des variables pertinentes A∗définie en (2.7). On comprendra

aisément l’importance du choix de cette famille bF. Ces critères sont construits à partir de la pénalité pen(β, n) qui fait intervenir la semi-norme ℓ0 du vecteur β

pen(β, n) = λnkβk0, (2.8)

où kβk0 est définie par kβk0 = Ppj=1I(βj 6= 0) et I(·) dénote la fonction indicatrice. La

définition et la valeur de λnsont propres au critère considéré. Dans le cadre de la régression

linéaire (2.1) que nous considérons et sous l’hypothèse de bruit gaussien, les critères Cp et

AIC sont confondus et la pénalité est définie comme penAIC(β, n) = penCp(β, n) :=

2kβk 0

n . (2.9)

Soit ˆβ un estimateur de β∗, définissons tout d’abord :

df( ˆβ) = 1 σ2 n X i=1 Cov(xiβ, yˆ i),

où Cov désigne la covariance sous la loi de ε. La quantité df( ˆβ) est le degré de liberté de l’estimateur ˆβ (cf. Efron [58] et Hastie et Tibshirani [75]). Le degré de liberté d’un estimateur est lié à la dimension de l’espace engendré par les variables explicatives Xj qui interviennent

dans sa construction. Sous l’hypothèse du bruit gaussien, un point important est l’équation qui lie l’erreur de prédiction au degré de liberté df( ˆβ) d’un estimateur ˆβ :

EhkX ˆβ− Xβk2 n i + σ2= EhkY − X ˆβk2n i +2σ 2 n df( ˆβ), (2.10)

où E dénote l’espérance sous la loi de ε. On remarque que minimiser l’erreur de prédiction est équivalent à minimiser le membre de droite dans l’équation (2.10). Un estimateur de df( ˆβ) est donné park ˆβk0 (Mallows [105] et Hastie et Tibshirani [75]). De par sa définition,

l’estimateur Cp et AIC, noté ¯β, est tel que

kY − X ¯βk2n+

2σ2k ¯βk 0

n

donne une bonne approximation de l’erreur de prédiction. Les critères Cpet AIC fournissent

des estimateurs performants du point de vue de la prévision de Xβ∗.

Le critère BIC est plus approprié pour l’estimation de l’ensemble A∗ des composantes non

nulles de β∗, en ce sens qu’il surpénalise les gros modèles ; i.e. ceux dont l’ensemble A

associé est de cardinal grand. Le critère BIC est défini par (2.11) comme penBIC(β, n) := σ2log(p)kβk0

La pénalité BIC impose une plus forte contrainte aux estimateurs dont beaucoup de com- posantes sont différentes de zéro, dès que p ≥ 7. En d’autres termes, le critère BIC tend à sélectionner des estimateurs plus parcimonieux (sparse en anglais) que ceux choisis par les critères Cp et AIC.

Notons que les performances théoriques de ces critères diffèrent selon la finalité de l’étude. L’estimateur BIC fournit en général de meilleures performances théoriques dans le cadre de l’estimation du support A∗ de β(on parle de sélection). A l’inverse, les estimateurs C

p

et AIC donnent de meilleurs résultats pour l’estimation de Xβ∗ (on parle de prédiction).

Ces remarques ont fait l’objet de nombreux travaux ; citons ici Yang [156], Shibata [132], Foster et George [65], Leeb et Pötscher [97], McQuarrie et Tsai [108], Shao [129]. Yang [157] a montré qu’il est toutefois possible de combiner, dans certains cas, les avantages de ces différents critères.

Les critères bâtis sur la pénalité ℓ0 ont été largement étudiés dans la littérature. Pour p fixé

et n tendant vers l’infini, les critères Cp et AIC fournissent des estimateurs consistants au

sens ℓ2 si l’on considère l’erreur de prédiction. Les performances théoriques de ces estima-

teurs ont été établies par Shibata [131], Li [100], Polyak et Tsybakov [121], Baraud [13] et par Birgé et Massart [21] au prix d’un contrôle sur le cardinal D de la famille bF considérée. Lorsque la finalité de l’étude est l’estimation du support A∗, Haughton [76] et Guyon et

Yao [72] ont obtenu de bons résultats théoriques en utilisant le critère BIC. Dans le modèle de régression semi-paramétrique, Bunea [27] montre que le critère BIC sélectionne le bon sous-ensemble des variables pertinentes avec une probabilité qui tend vers 1, lorsque n tend vers l’infini, en adaptant la pénalité au cadre semi-paramétrique par l’ajout d’un terme de correction.

Plus récemment et en grande dimension (p ≥ n) et n fini, Barron, Birgé, et Massart [14], Birgé et Massart [21], Bunea [27] et Massart [106] se sont intéressés au contrôle non- asymptotique de l’erreur de prédiction d’estimateurs de type ℓ0. Les auteurs montrent

que des estimateurs définis avec une pénalité légèrement différente de (2.8) satisfont des inégalités pour l’erreur de prédiction dépendant de la dimension p de manière seulement logarithmique. Un point intéressant de ces travaux est qu’aucune hypothèse sur la matrice de Gram, Ψn= X′X

n , n’est nécessaire. En contrepartie, une hypothèse sur la taille D de la

famille bF doit être faite. Toutefois, Bunea, Tsybakov, et Wegkamp [32] et Birgé et Massart [20] se sont affranchis de cette hypothèse et ont obtenu des résultats similaires.

Inconvénient de ces critères. Les procédures définies à partir de la pénalité ℓ0 abou-

tissent à de bonnes performances théoriques en s’affranchissant de toute hypothèse sur la matrice de Gram, mais sous la condition que le cardinal D de la famille bF considérée soit suffisamment grand. La complexité algorithmique devient trop grande dès lors que D est grand, ou que p est grand. Des hypothèses sur le modèle sont alors nécessaires. Les hypo- thèses rencontrées dans la littérature sont du type : "supposer les variables ordonnées", ou encore "considérer une famille bF d’estimateurs sparses".

Documents relatifs