• Aucun résultat trouvé

3.4 Approches d’agrégation de listes

3.4.3 Approches d’apprentissage d’ordonnancements

Dans cette section, nous introduisons les approches d’apprentissage d’ordon-nancements (ou learning to rank).

3.4.3.1 Description du problème

L’apprentissage d’ordonnancements est un sous domaine majeur de l’ap-prentissage automatique (Liu, 2009). L’objectif principal des algorithmes proposés dans ce domaine consiste à combiner plusieurs descripteurs de per-tinence afin d’optimiser l’ordonnancement des documents et ce en se basant sur des approches issues de l’apprentissage automatique. Ces techniques sont souvent appliquées par les moteurs de recherche pour la combinaison de dif-férents modèles de pondération de documents ou autres descripteurs liés à la requête (Liu, 2009). Les modèles d’apprentissage d’ordonnancements gé-nèrent un modèle qui pourrait représenter au mieux la fonction d’ordonnan-cements. La forme du modèle généré diffère selon la technique utilisée, pour certaines elle peut être représentée par un vecteur de poids pour combiner de façon linéaire chaque descripteur (Metzler, 2007; Xu et Li, 2007), pour d’autres elle peut représenter un réseau de neurones (Burges et al., 2005) ou une série d’arbres de décision (Weinberger et al., 2010). Avant de procéder à

la génération du modèle, un algorithme d’apprentissage d’ordonnancements commence par la représentation des couples de requêtes-document dans l’es-pace des descripteurs (features). Considérons une requête q, un document dj et d le nombre de descripteurs, alors le couple requêtes-document (q, dj) est représenté par le vecteur x= φ(q, dj) ∈ Rdoù φ est un extracteur de descrip-teur tel que xi= φi(q, dj) est la valeur du descripteur i pour le couple (q, dj). Les descripteurs de pertinence communément utilisés incluent souvent des mesures de similarité tel que BM25, le degré d’importance PageRank ou d’autres caractéristiques du document ou de la requête.

Figure 3.5: Schéma général des approches d’apprentissage d’ordonnance-ments.

Dans un modèle d’apprentissage d’ordonnancements, le processus général de classement des documents se décompose en deux étapes principales, comme montré dans la figure 3.5 (Liu, 2009) :

mo-dèle prend en entrée un jeu de données comprenant l’ensemble des paires requête-documents (qi, dj), où chaque paire est représentée par le vecteur des descripteurs xi,j ∈ Rd, tel que xi,j = x(1)i,j . . . x(d)

i,j . A chaque paire (qi, dj) est associé un score de pertinence yi,j mesurant la correspondance entre la requête et le document. Ce score peut être soit un nombre réel, soit un entier représentant le degré ou la classe de pertinence du document (e.g., 0 pour les non pertinents, 2 pour un très pertinent, etc). Ces scores (ou labels) sont généralement donnés manuellement par des assesseurs, et utilisés pour apprendre la fonction d’ordonnancements. Cette fonction permet alors de prédire les scores de pertinence des documents à travers la minimisation d’une fonction objectif (loss function) (i.e., avoir la plus petite erreur possible).

– Ordonnancement des documents : l’algorithme utilise la fonction apprise dans la première étape pour la prédiction de la pertinence des nouveaux documents (i.e., n’ayant pas fait partie de l’apprentissage) suivant chaque requête. Le modèle permet alors de générer pour chaque requête, l’en-semble des documents ordonnés selon les valeurs données par la fonction objectif, avec pour chacun un score ou un degré de pertinence.

Au cours de la dernière décennie, un grand nombre d’algorithmes ont été proposés pour l’apprentissage d’ordonnancements. Ils sont généralement re-groupés sous trois grands types d’approches : par point (pointwise), par paire (pairwise) et par liste (listwise) (Liu, 2009). Ces approches sont détaillées dans la suite.

3.4.3.2 Méthodes par point (pointwise)

Dans les approches par point, la fonction objectif est définie sur des objets uniques. Comme nous l’avons déjà mentionné, les jugements de pertinence peuvent être soit des scores réels soit des degrés de pertinence ou même non ordonnés (pertinent/non pertinent).

Dans le cas où les scores sont des nombres réels, le problème d’agrégation d’ordonnancements peut être ramené à un problème de régression linéaire. Pour chaque document dj, l’algorithme apprend une fonction f(yj, yj) = (yj− yj)2 qui minimise l’écart entre yj le score de pertinence de référence et yj le score de pertinence prédit, traduisant l’écart entre la valeur prédite et la valeur attendue. Dans le cas où les scores sont binaires le problème d’or-donnancements peut être ramené à un problème de discrimination. Dans le cas où les scores de pertinence sont des variables ordonnées, on exploite

gé-néralement des méthodes de régression ordinale, qui permettent de prendre en compte l’ordre relatif entre les classes pour apprendre le modèle (Liu, 2009). L’approche d’ordonnancements par point est la plus simple à mettre en œuvre, mais aussi la moins performante, car elle ne prend pas en compte l’ordre relatif des documents, contrairement à l’approche par paire, qui lui est généralement préférée.

3.4.3.3 Méthodes par paire (pairwise)

Le principe d’ordonnancements consiste ici à faire des comparaisons entre les paires des documents, à travers des préférences, pour déterminer lequel est plus pertinent. L’objectif est donc d’apprendre la fonction qui permet de discriminer au mieux les paires de documents et de leur affecter la classe correspondante. Parmi les algorithmes les plus connus abordant ce type de problème, les SVM (Joachims, 2006), les réseaux de neurones (Burges et al., 2005) et les arbres de décision.

Le principe de l’algorithme RankSVM est de rechercher l’hyperplan qui sé-pare de façon optimale les documents non pertinents des documents per-tinents dans l’espace des descripteurs de pertinence. Formellement, si on considère une paire de documents (di, dj) associée à une requête q et re-présentée par le vecteur xq= xi− xj ∈ Rd dans l’espace des descripteurs de pertinence, SVM l’apprentissage de la fonction objectif s’effectue à travers la résolution du problème d’optimisation suivant :

minw

1 2∥w∥2

2+ Cr

q=1l(wTxq) (3.7)

où w est le vecteur des poids représentant le modèle linéaire appris, wT son transposé, C est un paramètre permettant le contrôle des erreurs de prédiction et l() est une fonction de perte telle que l(wTxq) = max(0.1 − wTxq) dans RankSVM.

3.4.3.4 Méthodes par liste (listwise)

En ce qui concerne les approches par liste (Cao et al., 2007), on considère la totalité de la liste ordonnée des documents pour chaque requête comme une instance pour l’apprentissage, à la différence de l’approche par paire

où l’on considère des comparaisons paire à paire. Par conséquence, ces ap-proches sont capables de différencier les documents des différentes requêtes, et de considérer leur rang lors de l’apprentissage. Ces méthodes peuvent être classées en deux catégories suivant les fonctions de perte utilisées : (i) les méthodes considérant des fonctions de perte définies à partir de mesures de RI, et (ii) celles utilisant des fonctions de perte indépendantes des mesures de RI.

Parmi les algorithmes se basant sur des mesures de RI, nous trouvons Ada-Rank (Xu et Li, 2007), basé sur l’algorithme AdaBoost et permettant ainsi l’optimisation des métriques MAP et du NDCG respectivement. Parmi les algorithmes exploitant des fonctions objectifs indépendantes des mesure de RI, nous citons ListNet (Cao et al., 2007). L’objectif de cet algorithme est de construire une fonction de perte qui mesure le nombre de permutations entre la liste de référence et la liste apprise.