Contributions - Définition et évaluation de modèles d'agrégation pour l'estimation de la pertin

Afin de pallier le manque de flexibilité des modèles de combinaison clas- siques, nous proposons deux schémas d’agrégation dont l’un est dédié aux collections de documents statiques et l’autre est plus adapté aux flux de documents qui changent dans le temps. Pour chacune de ces approches, nous détaillons les contributions proposées ci-dessous.

bution concerne l’agrégation des dimensions de pertinence, qu’elles soient interdépendantes ou indépendantes. Dans un premier temps, nous proposons un modèle de combinaison de pertinence multicritères basé sur un opérateur flexible. Ce dernier est fondé sur les intégrales floues utilisées en aide à la décision multicritères (Grabisch, 1995). La principale originalité de cet opérateur réside dans sa capacité à modéli- ser des interactions entre les critères grâce à l’utilisation d’une mesure floue définie sur l’ensemble des critères. Ainsi, cette mesure permet de surmonter le problème d’additivité des fonctions de combinaison clas- siques, qui sont incapables de modéliser plusieurs situations du monde réel. Nous avons adapté ce modèle pour deux scénarios de combinaison de pertinence multicritères :

(a) Une approche qui se base sur l’intégrale de Choquet discrète (Choquet, 1953; Grabisch, 1995; Grabisch et Labreuche, 2010), un opérateur qui a été largement exploité dans le domaine d’aide multicritères pour la prise de décision (Grabisch et Labreuche, 2010). Parmi nos motivations derrière l’adoption de ce type de méthodes, est d’essayer de résoudre en partie le problème de dé- pendance (ou corrélations) pouvant exister entre les critères de pertinence, comme déjà annoncé dans plusieurs travaux en RI (Carterette et al., 2011; Eickhoff et al., 2013b). Les principales contributions (Moulahi et al., 2013, 2014d) dans cette première partie sont :

i. L’adoption d’un opérateur mathématique qui d’un point de vue théorique, présente un certain nombre de propriétés qui semblent être très intéressantes sous l’angle de RI. Notre idée est de se baser sur la flexibilité et la capacité de cet opérateur dans la modélisation des dépendances pour éviter le biais in- troduit à cause des critères redondants ou complémentaires. L’intuition majeure consiste donc à définir des poids d’importance différents, non seulement sur les critères de pertinence individuels, mais aussi sur tous les sous ensembles de critères. Cette représentation robuste permet de faciliter l’in- terprétation des degrés d’importance des critères via l’indice d’interaction et l’indice de Shapley (Grabisch, 1996). Avec ces caractéristiques, notre méthode de combinaison pourrait être considérée comme une méta-classe qui permet de généraliser

sage des poids d’importance des critères et sous ensembles de critères. Cet algorithme étant générique, ne dépend ni de la collection de données ni de la tâche de RI considérée. Ainsi, il permet de retourner des résultats qui sont facilement interprétables par des humains grâce aux deux indices d’interaction et de Shapley.

iii. Une évaluation approfondie du modèle d’estimation multi- critères dans une tâche de recherche de tweets (Ounis et al., 2011, 2012). Nous avons appliqué le modèle dans une collection de test standard basée sur les tâches Microblog de TREC 2011 et 2012. Nous nous sommes basés sur des dimensions de pertinence déjà exploitées dans des travaux de RI sociale sur Twitter (Duan et al., 2010; Nagmoti et al., 2010).

Dans un second temps, nous présentons une approche d’agré- gation personnalisée basée sur l’adaptation de la mesure floue sous-jacente à l’opérateur de Choquet Moulahi et al. (2014b,a,c). Cette partie comprend deux points clés :

i. Une agrégation pondérée par les préférences des utilisateurs. A travers la mesure floue, nous avons obtenu un schéma de pondération facilement personnalisable qui est à la base de la quantification de l’importance estimée de chaque dimension pour chaque utilisateur ainsi que leur degré d’interactivité ou d’interdépendance. Les degrés d’importance des critères sont estimés selon le même algorithme d’apprentissage déjà énoncé, en inférant les mesures optimales pour chaque utilisateur.

ii. Une évaluation de l’opérateur d’agrégation personnalisé dans deux contextes de RI différents, dont l’un en se basant sur un scénario de RI dans les folksonomies et l’autre en utilisant un contexte de RI contextuelle. Dans ces deux derniers scéna- rios, nous exploitons respectivement une collection de signets (bookmark) collectés à partir d’un système d’annotation so- ciale ainsi que la collection de test standard fournie par la tâche Contextual Suggestion de TREC 2014 (Dean-Hall et al., 2013). Pour ces deux cadres de RI, nous montrons l’impact de la prise en compte des dépendances entre les critères de

2. Une approche d’agrégation sensible au temps. Le deuxième axe de re- cherche auquel nous nous sommes intéressés dans cette thèse est l’inté- gration du critère temporel dans le processus d’agrégation pour tenir compte des changements occurrants dans les collections de documents au cours du temps (Moulahi et al., 2015a,c). Les principales contribu- tions présentées pour répondre à cette problématique incluent :

(a) Une approche d’estimation de pertinence multidimensionnelle sensible au temps basée sur l’injection du critère temporel au sein d’un modèle d’agrégation d’ordonnancements. Cette approche permet d’éliciter l’aspect temporel des requêtes en se basant sur les séries chronologiques (Moulahi et al., 2015b). Ceci permet d’identifier les périodes auxquelles fait référence une requête et donc de favoriser les documents appartenant à cet intervalle de temps.

(b) Une analyse temporelle des collections de test standards pour va- lider l’hypothèse de corrélation temporelle entre les termes d’une même requête. Nous avons ensuite évalué empiriquement notre approche sensible au temps sur les corpus fournis par les tâches Temporal Summarization de TREC 2013 et 2014.

Dans le document Définition et évaluation de modèles d'agrégation pour l'estimation de la pertinence multidimensionnelle en recherche d'information (Page 34-37)