• Aucun résultat trouvé

5.2 Sélection de modèle dans la factorisation

5.2.1 État de l’art

5.2.3 Pénalité et estimateur du risque . . . 69

5.2.4 Estimateur sans biais du risque. . . 70

5.2.5 Calcul de la divergence . . . 70

5.2.6 Limites du modèle actuel . . . 71

5.3 Adaptation et élargissement de la méthode . . . . 71

5.3.1 Amélioration relative à la fonction de seuillage . . . 71

5.3.2 Passage à l’échelle . . . 76

5.3.3 Estimation de la variance . . . 81

5.4 Discussion. . . . 84

Lorsqu’il s’agit de factorisation, un problème récurrent et qui a été peu adressé

jusqu’à maintenant est le choix du nombre de facteurs latents à prendre en

compte. Dans ce chapitre, nous nous intéresserons au problème de sélection de

modèle pour extraire automatiquement le nombre de facteurs latents. Après un

état de l’art des méthodes actuellement utilisées, nous verrons comment faire de

la sélection de modèle par minimisation d’estimateur de risque pour la

factori-sation. Enfin nous proposerons un moyen d’adapter cette sélection de modèle à

des problèmes de grande taille, comme c’est généralement le cas dans la

recom-mandation.

5.1 La sélection de modèle

La sélection de modèle consiste à évaluer un certain nombre de modèles et les comparer afin

de décider lequel représente le mieux le modèle sous-jacent aux données. Nous invitons le lecteur

à consulter le paragraphe2.1de [Boisbunon 2013] pour une présentation détaillée du problème de

sélection de modèle.

5.1.1 Un cadre de sélection de modèle

Nous allons présenter le cadre duquel nous sommes partis pour les travaux de recherche

présen-tés dans ce chapitre. D’autres approches pour la sélection de modèle existent, comme des approches

bayésiennes où l’on va par exemple chercher à optimiser le critère d’information de Bayes (BIC)

in-troduit par [Schwarzet al.1978].

Quelque soit le problème de sélection de modèle, on part systématiquement d’un a priori sur le

modèle des données. Dans le cadre de la régression, on supposera toujours que pourX ∈Rn×p les

données observées ety∈Rnles labels observés, que le modèle sous-jacent est de la forme :

y=r(X)+²1, ²∼N(0,σ2),

où1est un vecteur de taillepne contenant que des 1. Nous nous concentrons ici sur le cas gaussien

(où²est un bruit gaussien), [Boisbunon 2013] s’intéresse également au cas non gaussien en

généra-lisant le problème au cas des distributions à symétrie sphérique. Si l’on se place dans un contexte de

régression linéaire,rsera généralement de la former(X)=Xβavecβ∈Rp. On cherche ici la fonction

r qui explique le mieux les données.

Le principe général de la sélection de modèle est de restreindre le problème en fixant un ensemble

de modèles (fonctions f) possiblesF ={f1, . . . ,fm} (notons queF peut très bien être infini). Le but

est de trouver le bon modèler?qui minimise un critère donné. Ce critère est le risque de prédiction

et se formule ainsi :

R(f)=E£

L¡

r(X),f(X)¢¤, (5.1)

Lest une fonction coût (par exempleL(y,f)=Pn

i=1(yifi)2. Le principal obstacle de ce problème

de minimisation est que l’on ne connaît pasr, nous ne pouvons donc pas trouver de cette façon la

fonctionr?qui minimise le risque. L’idée est alors d’estimer ce risque.

5.1.2 Estimation du risque

Nous voulons estimer le risque de prédiction sur notre modèle. Le critère le plus évident est le

risque empirique :

Remp(f)= 1

n

n

X

j=1

l¡

yj,f(xj

.

Dans un cas de régression linéaire avec un coût quadratique pourl, le problème se résoud et ˆβ=

ˆ

βLS =(X>X)1X>y. Cependant ce problème peut avoir une infinité de solutions et ces solutions

peuvent avoir tendance à surapprendre les données.

Pour éviter ce surapprentissage, on préfèrera généralement choisir de minimiser un critère de la

forme :

min

5.2. Sélection de modèle dans la factorisation 67

oùΩest un terme de pénalisation sur f et qui est une mesure de complexité ou un degré de liberté

(d f) surf.λest un paramètre qui joue ici un rôle d’équilibrage entre qualité d’apprentissage et

sim-plicité du modèle. On considère queJ est un critère qui estime correctement le risque de prédiction

et on sélectionnera le modèle qui minimise ce critère.

Cependant, la taille deF peut être très grande, voire infinie, et il peut s’avérer difficile de

trou-ver la fonction f qui minimise5.2. Pour faciliter ceci, on partitionne généralementF en sous

en-sembles inclus. Par exemple dans le cas du lasso, ces sous enen-sembles sont de la forme :Fλ={f =

b>x | kbk1≤λ}, et le problème se réécrit ainsi :

min

λ minf∈F

λ

Remp(f)+Ω(λ). (5.3)

On cherchera donc, dans un premier temps à trouver la famille { ˆfλ} pourλ∈Rqui minimise le

pro-blème :

min

f∈F

λ

Remp(f),

pour unλdonné. On cherchera ensuite le ˆλqui minimise

min

λ

ˆ

fλ+Ω(λ).

Ainsi nous obtenons ˆfλˆqui est un estimateur der.

5.1.3 Choix du critère, de la pénalité et du coût

De cette forme de critèreLont été dérivés dans la littérature un grand nombre de critères

d’esti-mation du risque. À titre d’exemple, nous pouvons citer les critères les plus utilisés tels qu’ils peuvent

apparaître pour un choix de coût quadratique, comme l’estimateur sans biais du risqueL0, le critère

de MallowCp, le critère d’information d’AkaikeAIC.

L0( ˆf)= kyfˆ(X)k2+(2d i vy( ˆf(X))−n) ˆσ2,

Cp( ˆf)=ky

ˆ

f(X)k2

ˆ

σ2 +2d i vy( ˆf(X))−n,

AIC( ˆf)=ky

ˆ

f(X)k2

ˆ

σ2 +2d i vy( ˆf(X)),

(5.4)

où ˆσ2est un estimateur sans biais de la variance. Notons que ces critères trois sont équivalents dans

ce cadre (Boisbunon 2013).

Les problèmes qui découle de cette approche sont multiples : comment partitionnerF?

com-ment choisirΩ(λ) ? et comment optimiser l’ensemble du problème ? Le paragraphe 2.4 de [

Boisbu-non 2013] donne des éléments de réponse à ces questions.

5.2 Sélection de modèle dans la factorisation

Dans ce paragraphe, nous dresserons un état de l’art de la sélection de modèle dans le cadre de

la factorisation matricielle. Nous proposerons ensuite une approche de sélection de modèle pour la

factorisation de type minimisation de risque que nous formaliserons. Enfin, nous présenterons les

limites d’une telle méthode dans un cadre qui nous intéresse, à savoir le domaine de la

recomman-dation.

5.2.1 État de l’art

Un certain nombre de méthodes proposent de sélectionner le modèle en faisant de la détection

de rupture sur les valeurs propres à partir d’une métrique donnée. On les dénote généralement par

méthodes du « coude », on cherche en effet à détecter un changement d’état des valeurs singulières

qui graphiquement une allure de coude. [Cattell 1966] propose une métrique basée sur la variation

des valeurs singulières de la matrice. La métrique proposée par [Jolliffe 2002] est assez similaire, il

s’agit d’un pourcentage cumulé des variations des valeurs singulières. On peut trouver d’autres

mé-triques analogues comme dans [Heet al.2009] pour de la factorisation tensorielle. Le principal défaut

de ces méthodes réside dans le fait qu’il faut fixer un seuil pour la détection de rupture, ce qui en fait

des méthodes de sélection de modèle non automatiques.

D’autres approches s’intéressent à l’estimation du nombre de variables à sélectionner par la

minimisation d’un critère de risque. [Ulfarsson & Solo 2008] et [Candèset al. 2012] estiment tous

deux le risque sans biai de Stein (SURE). [Candèset al.2012] utilise une fonction de seuillage doux

¡

fλ(x)=max(0,xl

pour approximer le modèle, tandis que [Ulfarsson & Solo 2008] utilise la

fonc-tion suivante : fλ(x)=max(0,xll). Un critère à minimiser dérivé du BIC (Bayesian Information

Cri-terion) est proposé dans [Seghouane & Cichocki 2007], il s’agit de l’ICPPA (Information Criterion for

Principal Component analysis)1. Le modèle est approché à l’aide d’une fonction de seuillage doux.

Une approche bayésienne est également proposée par [Minka 2000] qui utilise une approximation

de Laplace pour estimer le rang de la matrice. [Hansen et al.1999] estime, quant à lui, le risque à

l’aide d’un critère similaire à l’AIC (Akaike Information Criterion). On peut également citer [

Bouvey-ronet al.2011] qui minimise l’estimateur de risque du maximum de vraisemblance.

Certaines approches sont plus orientées méthodologie et visent à sélectionner le bon modèle par

validation croisée par exemple, comme [Eastment & Krzanowski 1982] ou [Dias & Krzanowski 2003].

On peut également trouver des approches de types Monte-Carlo, pour notamment approximer la

distribution à posteriori à l’aide d’une chaîne de Markov (Hoff 2007), ou déterminer des critères

d’arrêts dans le calcul successif des composantes principales d’une matrice (Peres-Netoet al.2005).

D’autres approches visent à trouver le rang de la matrice en modifiant le problème initial (comme par

exemple [Labiod & Nadif 2011a] qui maximise la modularité de la matrice).

Plusieurs méthodes sont donc proposées mais aucunes ne gèrent vraiment de façon automatique

la sélection de modèle dans des problèmes de grande taille. Notre contribution, présentée dans la

suite du chapitre, présente une proposition de réponse à une telle problématique.

Documents relatifs