• Aucun résultat trouvé

Le contenu de cette section est inspiré des travaux de P. Massart [6] sur la sélection de mo- dèles. Nous présentons ici des notions qui vont nous être utiles pour le cadre paramétrique à la Section 2.5. Nous tenons également à souligner que notre but premier n’est pas la sé- lection de modèle mais plutôt l’estimation paramétrique, comme nous le verrons dans les sections suivantes. Ainsi, la notion de pénalisation que nous utiliserons par la suite portera sur l’espace des paramètres Θ donné par l’étude de computer experiments. Ce sera l’objet de la Section 2.6. Avant cela, nous donnons quelques définitions et notations dans un cadre plus général.

2.4.1 Motivations et définitions

Dans les sections qui précèdent, nous avons vu qu’une caractéristique ρF ∈ F (inconnue) telle que

ρF =Argmin

ρ∈F

RΨ(ρ), RΨ(ρ) =EQzΨ(ρ, Z) est prédite par

b ρF=Argmin ρ∈F b RΨ(ρ), (2.22)

où F ⊂ F est un modèle et bRΨ un risque empirique associé au risqueRΨ (inconnu). Rappelons que le projeté de ρF ∈ F sur F est donné par

ρF=Argmin ρ∈F

RΨ(ρ).

Il est alors légitime de comprendre d’où provient l’erreur d’estimation entre la caractéristique que l’on calcule ρbF et son objectif ρF. Il est aisé de noter que la seule différence est d’avoir remplacé le risque inconnuRΨ par un risque empirique bRΨdisponible.

Ecrivons RΨ(ρ) =RbΨ(ρ) +  RΨ(ρ) −RbΨ(ρ)  , et posons penidΨ(ρ):= RΨ(ρ) −RbΨ(ρ). (2.23)

Alors nous avons

ρF=Argmin ρ∈F  b RΨ(ρ) +penidΨ(ρ)  .

Autrement dit, dans la procédure de minimisation donnantbρF(2.22) il "manquerait" le terme penidΨ(ρ) pour "tomber" sur la cible ρF (i.ebρF=ρF).

En fait, la quantité penidΨ(ρ) ci-dessus est qualifiée de pénalité idéale, terme repris de [1], qui représente la quantité manquante à la procédure de minimisation (2.22) pour annihiler l’erreur de substitution due au fait de remplacer RΨ(ρ)par bRΨ(ρ).

Malheureusement, la quantité penid

Ψ(ρ)est inconnue de l’utilisateur car elle dépend notam- ment de la mesure Qz. Ainsi, deux stratégies se présentent : soit on ne pénalise pas, soit on cherche à établir une procédure permettant de prendre en compte le "terme manquant" dans la procédure de minimisation.

La première stratégie conduit souvent à un problème de surapprentissage. C’est à dire que l’on va apprendre une caractéristique ρbF qui va "coller" excessivement aux données. On donnera

une illustration dans la Section 4.15.

La deuxième stratégie semble plus sage car elle permet une généralisation de l’information apportée par les données, ce qui améliore les performances de prédiction.

Il est à noter que, dans nos propos, la pénalité idéale aura très souvent une espérance nulle

ρ∈ F, E(penidΨ(ρ)) =0 ,

ce qui n’est pas le cas en sélection de modèle. Notre objectif étant l’estimation paramétrique où le "vrai" risque a été remplacé par un risque empirique. Nous verrons cela à la Section 2.6.

Définition 2.4.1. Fonction de pénalisation et contraste pénalisé.

Soit unF-contrasteΨ .

On appelle fonction de pénalisation surF (ou pénalisation) une application penΨ : F −→ R

ρ 7−→ penΨ(ρ). (2.24)

On appelle contraste pénalisé un contraste

Ψpen(ρ, z) =Ψ(ρ, z) +penΨ(ρ). (2.25)

Bien que la pénalité idéale penidΨ(ρ) := RΨ(ρ) −RbΨ(ρ) soit inconnue, on peut tenter de l’estimer. Les récents travaux de [6] et [1] donne une méthodologie permettant de construire une pénalité "proche" de la pénalité idéale dans le cadre de la sélection de modèle. Nous n’irons pas au niveau de détail présent dans ces travaux, nous nous contenterons d’en extraire les grandes lignes et de les inscrire dans nos développements.

2.4.2 Choix d’une pénalité

Le choix d’une pénalité "convenable" sera guidé par le lemme suivant.

Lemme 2.4.1. SoitΨ unF-contrast. Considérons la pénalité idéale penidΨ (2.23) et soit une pénalité penΨ : F →R telle que

pour tout ρ∈ F⊂ F, penΨ(ρ) ≥penidΨ(ρ). (2.26)

En considérant le contraste pénaliséΨpen(ρ, z) =Ψ(ρ, z) +penΨ(ρ) et ρbF =Argminρ∈FRbΨpen(ρ), nous obtenons RΨ(bρF) ≤ inf ρ∈F  RΨ(ρ) + (penΨ−penidΨ)(ρ)  . (2.27) Démonstration. Soit ρ∈ F, on a RΨ(ρbF) = RbΨ(ρbF) +penidΨ(bρF)

= RbΨ(ρbF) +penΨ(ρbF) + (penidΨ−penΨ)(ρbF). Or, par définition deρbF, pour tout ρ∈ F

b

Puis, en écrivant bRΨ(ρ) = RΨ(ρ) −penidΨ(ρ), il vient

RΨ(bρF) ≤ RΨ(ρ) + (penΨ−penidΨ)(ρ) + (penidΨ−penΨ)(bρF).

Enfin, si penΨ satisfait (2.26) alors le troisième terme du membre de droite de la dernière inégalité est négatif, on le majore donc par 0.

Ce qui donne, pour tout ρ∈ F

RΨ(ρbF) ≤ RΨ(ρ) + (penΨ−penidΨ)(ρ), et en prenant l’infimum sur F, on a le résultat voulu.

L’inégalité (2.27) du lemme précédent nous informe de combien on "s’écarte" du risque idéal

RF=inf

ρ∈FRΨ(ρ). En effet, on peut écrire (avec une borne supérieure plus pessimiste)

RF ≤ RΨ(ρbF) ≤ RF+sup ρ∈F  (penΨ−penidΨ)(ρ)  .

Ainsi, tout l’enjeu du choix d’une pénalité est d’en choisir une dont on peut garantir qu’elle reste "uniformément proche" de la pénalité idéale, autrement dit, on voudrait que

penidΨ ≤penΨ ≤ (1+δ)penidΨ uniformément sur F , avec δ>0 le plus petit possible.

L’étude d’une telle pénalité se fait en regardant la pénalité idéale penid

Ψ comme un proces-

sus empirique, dont le contrôle peut se faire grâce aux inégalité de concentrations, on pourra consulter le chapitre des auteurs S. Boucheron, O. Bousquet et G. Lugosi [2] et les références qui y figurent.

Remarque 2.4.1. Si les fluctuations de la pénalité idéale sont très minimes, par example penidΨ ≈constante ,

alors, ne pas pénaliser ne sera pas très préjudiciable quant à la performance de la prédiction. En somme, nous venons de voir qu’une "bonne" pénalité devrait avoir un comportement proche de la pénalité idéale. Or, cette dernière pénalité dépend également des données, c’est pourquoi en pratique on considérera des pénalités de la forme

penΨ(ρ) =K penshape(ρ) (2.28)

où K est communément appelée constante de calibration (aux données) et penshape repré- sente la forme de la pénalité.

2.4.3 Entre "pénalisation" et "régularisation"

La notion de pénalisation, comme nous l’avons définie, a donc pour but d’améliorer la qua- lité de la prédiction dont il est question, en cherchant à compenser au maximum l’erreur due à la substitution de quantités déterministes (inconnues) par des quantités empiriques basées sur des données (connues). Dans ce cas, les considérations sont purement statistiques dans le sens où on ne se pose pas le problème de résolution algorithmique du projetéρbF.

La notion de régularisation, quant à elle, intervient dans les problèmes mal-posés pour juste- ment les rendre bien-posés. Il s’agit de régulariser le problème inverse dont il est question.

La méthode la plus utilisée est la méthode de Tikhonov [7].

Ces deux notions sont fondamentalement liées et un comportement naturel du praticien sera de penser à la régularisation lorsqu’il pénalise, ou au contraire, penser à la pénalisation (i.e pénalité idéale) lorsqu’il s’interesse au problème d’optimisation.

Nous utiliserons l’exemple de la ridge regression à la Section 2.7 où l’on verra également cette méthode sous l’angle de la pénalité idéale, autre manière de justifier l’usage d’une pénalité L2.

Documents relatifs