Méthodes d’évaluation du modèle - Réduction de la dimensionnalité

3.4 Méthode pour l’utilisation de la régression comme modèle numérique de similarité

3.4.6 Réduction de la dimensionnalité

3.4.7.2 Méthodes d’évaluation du modèle

Nous nous intéressons ici aux techniques permettant de valider les différentes briques de notre modèle.

3.4. Méthode pour l’utilisation de la régression comme modèle numérique de similarité Une méthode statistique pertinente ne doit pas modéliser trop ﬁnement l’ensemble d’apprentissage, mais plutôt établir un bon compromis entre les performances de généralisation et les performances de d’apprentissage. Sa validité dépend de l’évaluation de cet ajustement, appelé « compromis biais / variance » [GBD92].

Cette section nous permet d’appréhender cette notion statistique, étroitement liée à celle de la performance. Nous mettons l’accent sur les méthodes existantes pour contrôler ce biais de manières a priori et a posteriori.

• Le compromis biais / variance

Nous illustrons ce principe à l’aide de la ﬁgure 3.15. Dans celle-ci, la fonction g, qui représente la régression idéale, est supposée inconnue ; la fonction f est une approximation de g (la sortie du modèle de régression) ; les croix représentent les éléments de l’ensemble d’apprentissage.

Un modèle ayant un biais trop faible génère une variance trop forte. Dans l’exemple de la ﬁgure 3.15 (partie a.), la fonction f s’ajuste de manière presque parfaite aux données d’apprentissage : son biais est quasiment nul. Toutefois sa forme varie beaucoup trop, car elle est totalement fonction des données. Ce risque est appelé le surajustement (ou overﬁtting) ;

Un modèle ayant un biais trop fort possède une faible variance. Dans l’exemple de la ﬁg- ure3.15(partie b.), la fonction afﬁne f s’écarte énormément du modèle idéal, son biais est très important. Toutefois cet écart ne dépend que très peu de l’ensemble d’apprentissage, sa variance est donc faible. Ce risque s’appelle la surgénéralisation ;

Un bon modèle génère une fonction ayant un bon équilibre entre ces paramètres. La fonc- tion f de la ﬁgure3.15 (partie c.), a un comportement proche de l’idéal. Son biais et sa variance sont faibles, la régression donnera une réponse moyenne satisfaisante (bonne capacité de généralisation) tout en dépendant le moins possible de l’échantillon d’apprentissage (bonne capacité de généralisation).

FIGURE3.15 – Illustration portant sur le compromis biais / variance

Il existe des techniques permettant d’éviter ces problèmes, ou du moins de les contrôler. Elles se classent en deux familles qui dépendent de la manière de résoudre le problème (pendant

ou après la procédure d’apprentissage). Nous les présentons dans les deux sections suivantes. • Gestion a priori

Nous pouvons exprimer le problème du dilemme biais / variance de la façon suivante : l’espace des hypothèses doit être contrôlé pour que les fonctions soient recherchées de manière à minimiser les risques de surgénéralisation et de surajustement. Lorsque ce problème est abordé a priori, c’est-à-dire pendant (voire avant) l’apprentissage, nous parlons de régularisation.

Lorsque nous avons déﬁni un modèle de régression dans la section 3.4.3.1, nous avons abordé la question de la performance de la fonction qui lui est liée au travers de la minimisation du risque régularisé, dont nous rappelons ici l’équation3.15:

Rreg[f ] = Remp(f ) + υReg(f )

Nous avons fait le choix d’utiliser cette technique, dite du weight decay, qui est la plus connue des méthodes de pénalisation de la fonction de coût a priori. La constante de régulation υ gère le compromis entre biais et variance. Si υ est trop grand, le biais sera élevé. S’il est trop petit, la variance sera trop forte. Il faut donc estimer υ, au même titre que les autres paramètres de la fonction de régression.

Des alternatives de pénalisation existent, mais ne nous ont pas séduites. Nous pouvons par exemple citer [Bis92] qui utilise une méthode pénalisant les fonctions à forte courbure, en ajoutant à la fonction de coût la norme du vecteur dérivé seconde de la sortie de la fonction (le score décisionnel de la régression). Cette technique a été spéciﬁquement développée pour être intégrée à des réseaux de neurones, pour lesquelles l’interopérabilité entre le weight decay et l’algorithme standard de construction du réseau (rétropropagation du gradient) pose des pro- blèmes.

Une autre famille d’algorithmes connue sous le nom de l’early stopping [MB89] permet de s’affranchir d’un terme de pénalisation. Les algorithmes de cette classe de méthodes arrêtent prématurément l’apprentissage, même si la fonction de coût n’a pas convergé vers un mini- mum. Nous ne retiendrons pas cette technique, car même si elle permet parfois d’obtenir de bons résultats, elle se fonde sur une partition arbitraire de la base des exemples en une base d’apprentissage et une base de validation ; la répartition des données dans ces deux partitions n’est pas traitée et peut nuire à la reproductibilité des résultats.

• Gestion a posteriori

Une autre manière de contrôler le surajustement est de s’intéresser aux performances de généralisation. L’évaluation se fait après la construction de celui, elle est dite a posteriori.

Ces techniques possèdent toutes la même philosophie : il s’agit de comparer des modèles entre eux et d’en conserver le meilleur. Il en existe de nombreuses, telles que les tests d’hypo- thèses [Guj04] ou le critère d’information [AK99]. Nous détaillons dans cette sous-section la

3.4. Méthode pour l’utilisation de la régression comme modèle numérique de similarité méthode de validation croisée [PC84].

Cette méthode (illustrée dans la figure3.16) consiste, comme pour l’early stopping, à par- tager la base d’apprentissage, afin d’estimer les performances en utilisant des exemples n’ayant pas servis à l’élaboration du modèle. La base est divisée en Q parties de tailles égales. Q apprentissages sont ensuite réalisés, chacun d’eux laissant de côté une des parties qui servira à valider le modèle courant. Un critère E d’évaluation est utilisé pour récupérer le score de validation de chaque apprentissage. La performance de généralisation du modèle est calculée en réalisant la moyenneM_E (modifiée selon le critère) des Q scores de validation précédents. Quelques exemples de critères :

– l’erreurE = (f(x) − y) qui génère une moyenne M_E = _Q1 E

– l’erreur absolue|E| = |f(x) − y| qui génère une moyenne M_|E|= _Q1 |E| – l’erreur quadratiqueE2 = (f (x)− y)2qui génère une moyenneM_E2 = _Q1

FIGURE3.16 – Illustration du principe de validation croisée. Les parties blanches sont utilisées pour l’apprentissage, les hachurées pour la validation

Un cas particulier de la validation croisée s’appelle le leave-one-out. Cette technique consiste à valider chaque phase d’apprentissage par une partie contenant un exemple unique. Dans ce cas extrême, le nombre d’exemples est égal à Q.

• Autre technique

Lorsqu’une estimation de la valeur d’un paramètre statistique est recherchée, il est de cou- tume de définir un intervalle appelé intervalle de confiance qui contient, avec un certain degré de confiance, cette estimation. Ces intervalles sont de fait étroitement liés à la notion de performance de généralisation du modèle de régression.

Ils peuvent être calculés de différentes façons : – de manière analytique [SW05],

– par des méthodes, type boostrappng [ET93].

3.5 Conclusion

La vision que nous avons de l’organisation de contenus aidée par la similarité nous a poussés à déﬁnir un modèle numérique de similarité. Il servira de cadre à l’élaboration d’un moteur d’apprentissage dédié à la problématique qui nous incombe.

Nous avons pensé le cœur de ce modèle comme un organe de nature statistique : à l’aide d’une régression univariée, nous souhaitons construire une mesure de similarité qui nous permet de rester en accord avec nos contraintes structurelles. Cette proposition détermine la notion de similarité comme un phénomène de nature prédictible.

Nous avons de ce fait suggéré une méthode qui nous autorise à intégrer la régression grâce à des techniques provenant des domaines des statistiques et de l’apprentissage (semi-)supervisé. Celle-ci, aidée du formalisme déﬁni dans le chapitre précédent, va nous permettre par la suite de construire un prototype et d’évaluer la pertinence des choix que nous avons faits.

Chapitre 4

Prototype et expérimentations

Sommaire

4.1 Introduction . . . 100

Dans le document Apprentissage de similarités pour l'aide à l'organisation de contenus audiovisuels (Page 110-115)