5.2 Sélection de modèle dans la factorisation
5.2.1 État de l’art
5.2.3 Pénalité et estimateur du risque . . . 69
5.2.4 Estimateur sans biais du risque. . . 70
5.2.5 Calcul de la divergence . . . 70
5.2.6 Limites du modèle actuel . . . 71
5.3 Adaptation et élargissement de la méthode . . . . 71
5.3.1 Amélioration relative à la fonction de seuillage . . . 71
5.3.2 Passage à l’échelle . . . 76
5.3.3 Estimation de la variance . . . 81
5.4 Discussion. . . . 84
Lorsqu’il s’agit de factorisation, un problème récurrent et qui a été peu adressé
jusqu’à maintenant est le choix du nombre de facteurs latents à prendre en
compte. Dans ce chapitre, nous nous intéresserons au problème de sélection de
modèle pour extraire automatiquement le nombre de facteurs latents. Après un
état de l’art des méthodes actuellement utilisées, nous verrons comment faire de
la sélection de modèle par minimisation d’estimateur de risque pour la
factori-sation. Enfin nous proposerons un moyen d’adapter cette sélection de modèle à
des problèmes de grande taille, comme c’est généralement le cas dans la
recom-mandation.
5.1 La sélection de modèle
La sélection de modèle consiste à évaluer un certain nombre de modèles et les comparer afin
de décider lequel représente le mieux le modèle sous-jacent aux données. Nous invitons le lecteur
à consulter le paragraphe2.1de [Boisbunon 2013] pour une présentation détaillée du problème de
sélection de modèle.
5.1.1 Un cadre de sélection de modèle
Nous allons présenter le cadre duquel nous sommes partis pour les travaux de recherche
présen-tés dans ce chapitre. D’autres approches pour la sélection de modèle existent, comme des approches
bayésiennes où l’on va par exemple chercher à optimiser le critère d’information de Bayes (BIC)
in-troduit par [Schwarzet al.1978].
Quelque soit le problème de sélection de modèle, on part systématiquement d’un a priori sur le
modèle des données. Dans le cadre de la régression, on supposera toujours que pourX ∈Rn×p les
données observées ety∈Rnles labels observés, que le modèle sous-jacent est de la forme :
y=r(X)+²1, ²∼N(0,σ2),
où1est un vecteur de taillepne contenant que des 1. Nous nous concentrons ici sur le cas gaussien
(où²est un bruit gaussien), [Boisbunon 2013] s’intéresse également au cas non gaussien en
généra-lisant le problème au cas des distributions à symétrie sphérique. Si l’on se place dans un contexte de
régression linéaire,rsera généralement de la former(X)=Xβavecβ∈Rp. On cherche ici la fonction
r qui explique le mieux les données.
Le principe général de la sélection de modèle est de restreindre le problème en fixant un ensemble
de modèles (fonctions f) possiblesF ={f1, . . . ,fm} (notons queF peut très bien être infini). Le but
est de trouver le bon modèler?qui minimise un critère donné. Ce critère est le risque de prédiction
et se formule ainsi :
R(f)=E£
L¡
r(X),f(X)¢¤, (5.1)
oùLest une fonction coût (par exempleL(y,f)=Pn
i=1(yi−fi)2. Le principal obstacle de ce problème
de minimisation est que l’on ne connaît pasr, nous ne pouvons donc pas trouver de cette façon la
fonctionr?qui minimise le risque. L’idée est alors d’estimer ce risque.
5.1.2 Estimation du risque
Nous voulons estimer le risque de prédiction sur notre modèle. Le critère le plus évident est le
risque empirique :
Remp(f)= 1
n
n
X
j=1
l¡
yj,f(xj)¢
.
Dans un cas de régression linéaire avec un coût quadratique pourl, le problème se résoud et ˆβ=
ˆ
βLS =(X>X)−1X>y. Cependant ce problème peut avoir une infinité de solutions et ces solutions
peuvent avoir tendance à surapprendre les données.
Pour éviter ce surapprentissage, on préfèrera généralement choisir de minimiser un critère de la
forme :
min
5.2. Sélection de modèle dans la factorisation 67
oùΩest un terme de pénalisation sur f et qui est une mesure de complexité ou un degré de liberté
(d f) surf.λest un paramètre qui joue ici un rôle d’équilibrage entre qualité d’apprentissage et
sim-plicité du modèle. On considère queJ est un critère qui estime correctement le risque de prédiction
et on sélectionnera le modèle qui minimise ce critère.
Cependant, la taille deF peut être très grande, voire infinie, et il peut s’avérer difficile de
trou-ver la fonction f qui minimise5.2. Pour faciliter ceci, on partitionne généralementF en sous
en-sembles inclus. Par exemple dans le cas du lasso, ces sous enen-sembles sont de la forme :Fλ={f =
b>x | kbk1≤λ}, et le problème se réécrit ainsi :
min
λ minf∈F
λRemp(f)+Ω(λ). (5.3)
On cherchera donc, dans un premier temps à trouver la famille { ˆfλ} pourλ∈Rqui minimise le
pro-blème :
min
f∈F
λRemp(f),
pour unλdonné. On cherchera ensuite le ˆλqui minimise
min
λ
ˆ
fλ+Ω(λ).
Ainsi nous obtenons ˆfλˆqui est un estimateur der.
5.1.3 Choix du critère, de la pénalité et du coût
De cette forme de critèreLont été dérivés dans la littérature un grand nombre de critères
d’esti-mation du risque. À titre d’exemple, nous pouvons citer les critères les plus utilisés tels qu’ils peuvent
apparaître pour un choix de coût quadratique, comme l’estimateur sans biais du risqueL0, le critère
de MallowCp, le critère d’information d’AkaikeAIC.
L0( ˆf)= ky−fˆ(X)k2+(2d i vy( ˆf(X))−n) ˆσ2,
Cp( ˆf)=ky−
ˆ
f(X)k2
ˆ
σ2 +2d i vy( ˆf(X))−n,
AIC( ˆf)=ky−
ˆ
f(X)k2
ˆ
σ2 +2d i vy( ˆf(X)),
(5.4)
où ˆσ2est un estimateur sans biais de la variance. Notons que ces critères trois sont équivalents dans
ce cadre (Boisbunon 2013).
Les problèmes qui découle de cette approche sont multiples : comment partitionnerF?
com-ment choisirΩ(λ) ? et comment optimiser l’ensemble du problème ? Le paragraphe 2.4 de [
Boisbu-non 2013] donne des éléments de réponse à ces questions.
5.2 Sélection de modèle dans la factorisation
Dans ce paragraphe, nous dresserons un état de l’art de la sélection de modèle dans le cadre de
la factorisation matricielle. Nous proposerons ensuite une approche de sélection de modèle pour la
factorisation de type minimisation de risque que nous formaliserons. Enfin, nous présenterons les
limites d’une telle méthode dans un cadre qui nous intéresse, à savoir le domaine de la
recomman-dation.
5.2.1 État de l’art
Un certain nombre de méthodes proposent de sélectionner le modèle en faisant de la détection
de rupture sur les valeurs propres à partir d’une métrique donnée. On les dénote généralement par
méthodes du « coude », on cherche en effet à détecter un changement d’état des valeurs singulières
qui graphiquement une allure de coude. [Cattell 1966] propose une métrique basée sur la variation
des valeurs singulières de la matrice. La métrique proposée par [Jolliffe 2002] est assez similaire, il
s’agit d’un pourcentage cumulé des variations des valeurs singulières. On peut trouver d’autres
mé-triques analogues comme dans [Heet al.2009] pour de la factorisation tensorielle. Le principal défaut
de ces méthodes réside dans le fait qu’il faut fixer un seuil pour la détection de rupture, ce qui en fait
des méthodes de sélection de modèle non automatiques.
D’autres approches s’intéressent à l’estimation du nombre de variables à sélectionner par la
minimisation d’un critère de risque. [Ulfarsson & Solo 2008] et [Candèset al. 2012] estiment tous
deux le risque sans biai de Stein (SURE). [Candèset al.2012] utilise une fonction de seuillage doux
¡
fλ(x)=max(0,x−l)¢
pour approximer le modèle, tandis que [Ulfarsson & Solo 2008] utilise la
fonc-tion suivante : fλ(x)=max(0,x−ll). Un critère à minimiser dérivé du BIC (Bayesian Information
Cri-terion) est proposé dans [Seghouane & Cichocki 2007], il s’agit de l’ICPPA (Information Criterion for
Principal Component analysis)1. Le modèle est approché à l’aide d’une fonction de seuillage doux.
Une approche bayésienne est également proposée par [Minka 2000] qui utilise une approximation
de Laplace pour estimer le rang de la matrice. [Hansen et al.1999] estime, quant à lui, le risque à
l’aide d’un critère similaire à l’AIC (Akaike Information Criterion). On peut également citer [
Bouvey-ronet al.2011] qui minimise l’estimateur de risque du maximum de vraisemblance.
Certaines approches sont plus orientées méthodologie et visent à sélectionner le bon modèle par
validation croisée par exemple, comme [Eastment & Krzanowski 1982] ou [Dias & Krzanowski 2003].
On peut également trouver des approches de types Monte-Carlo, pour notamment approximer la
distribution à posteriori à l’aide d’une chaîne de Markov (Hoff 2007), ou déterminer des critères
d’arrêts dans le calcul successif des composantes principales d’une matrice (Peres-Netoet al.2005).
D’autres approches visent à trouver le rang de la matrice en modifiant le problème initial (comme par
exemple [Labiod & Nadif 2011a] qui maximise la modularité de la matrice).
Plusieurs méthodes sont donc proposées mais aucunes ne gèrent vraiment de façon automatique
la sélection de modèle dans des problèmes de grande taille. Notre contribution, présentée dans la
suite du chapitre, présente une proposition de réponse à une telle problématique.
Dans le document
Factorisation Matricielle, Application à la Recommandation Personnalisée de Préférences
(Page 72-75)