• Aucun résultat trouvé

Cette thèse est constituée d’un chapitre introductif ainsi que de trois prin- cipales parties, dont la première présente la synthèse des travaux de l’état de l’art, la seconde partie détaille nos principales contributions et la der- nière conclut le manuscrit et discute des perspectives de recherche. Nous présentons le contenu ci-après.

Le chapitre 1 introduit la thèse. Il présente le contexte, les problématiques de recherche abordées et les contributions issues de nos travaux.

La première partie de cette thèse, intitulée Synthèse des travaux de l’état de

l’art présente le contexte de nos travaux. Compte tenu du cadre de notre

thèse, nous avons axé l’état de l’art sur les travaux de combinaison mul- ticritères ainsi que sur les méthodes d’apprentissage d’ordonnancements et d’agrégation sensibles au temps. Cette partie englobe trois chapitres :

les principaux modèles de RI ainsi que les mesures d’évaluation utilisées pour le test des différentes approches proposées dans ce cadre. Une forma- lisation de tous les modèles et métriques est ainsi proposée. Ce chapitre se termine par l’étude de l’émergence de la notion de pertinence multidimen- sionnelle. Il montre aussi l’orientation des travaux vers la RI multicritères et aborde les problématiques majeures et les verrous scientifiques.

– Le troisième chapitre intitulé “Approches multicritères pour l’estima-

tion de pertinence des documents en RI ” présente une revue critique de

l’état de l’art et des différentes approches proposées pour l’agrégation multicritères. Il montre ensuite le principe d’agrégation de pertinence multidimensionnelle en RI. Une formalisation des approches d’agrégation multicritères issues des problèmes de prise de décision et des méthodes d’agrégation et apprentissage d’ordonnancements sont également présen- tées.

– Le quatrième chapitre intitulé “Recherche d’information temporelle et

pertinence : synthèse des travaux de l’art” est dédié aux travaux de la

littérature exploitant le temps dans le cadre des tâches de RI. Il présente une définition générale des concepts des critères fraîcheur d’information et récence et propose un schéma général pour catégoriser les travaux de l’état de l’art suivant la manière avec laquelle l’information temporelle a été exploitée. Un aperçu sur les collections de test standards existants ainsi que les cadres d’évaluation des systèmes de RI sensibles au temps qui pourraient être exploités est également présenté dans ce chapitre. La deuxième partie de cette thèse, intitulée Contribution à la définition et

l’évaluation de modèles d’agrégation de pertinence multidimensionnelle en RI, présente nos contributions relatives à l’agrégation de pertinence multidi-

mensionnelle. Elle englobe deux chapitres présentant deux modèles différents pour la combinaison multicritères :

– Le cinquième chapitre intitulé “Méthode d’agrégation de pertinence

multidimensionnelle : proposition et évaluation dans des tâches de RI sociales et personnalisées ” est dédié à la présentation de la première

contribution de la thèse. Ce chapitre dresse la problématique et quelques motivations puis présente une formalisation du problème d’agrégation de pertinence multidimensionnelle. Ensuite, il présente le modèle d’agréga- tion basé sur l’intégrale de Choquet discrète, et illustre la particularité qu’offre cette méthode pour éliciter les degrés d’importance des critères et identifier les dépendances pouvant exister entre eux.

mation personnalisée” aborde le problème de personnalisation des préfé-

rences utilisateurs dans l’agrégation multicritères. Il décrit une méthode basée sur l’intégrale de Choquet permettant de personnaliser les poids d’importance des critères grâce à la flexibilité du concept de mesure floue. Ce chapitre présente enfin deux cadres d’évaluation dont l’une est dans un cadre de recherche de tweets et au sein d’une collection de test standard fournie par la tâche Microblog de TREC. Tandis que l’autre se situe au niveau des tâches TREC dédiées à la RI personnalisée en l’occurrence TREC Contextual Suggestion. L’approche est également évaluée dans une tâche de recherche personnalisée dans les folksonomies. Nous dressons le cadre expérimental puis les résultats de l’application des deux méthodes proposées. Ce chapitre est clôturé par une discussion des résultats dans les deux cadres d’évaluation ainsi qu’une étude de l’importance des différents critères utilisés.

– Le sixième chapitre intitulé “Vers une approche d’agrégation guidée par

la requête : évaluation dans le cadre d’une tâche de RI sensible au temps”

présente la deuxième partie de nos contributions, relative à l’intégration de la dimension temporelle dans le processus d’agrégation et d’ordonnan- cements des documents.

Ce chapitre présente une nouvelle approche d’agrégation sensible au temps permettant d’adapter les résultats de recherche en fonction des carac- téristiques temporelles de la requête. Nous y présentons également une évaluation expérimentale dans le cadre d’une tâche de RI temporelle, en l’occurrence la tâche “Temporel Summarization” de TREC 2013 et 2014. La troisième partie, intitulée Conclusion générale (Chapitre 7) discute l’im- pact de nos contributions. Ce chapitre conclut cette thèse et présente nos perspectives de recherche.

Synthèse des travaux de

l’état de l’art

Concepts de base de la RI

classique

2.1

Introduction

La recherche d’information (RI) est un domaine de recherche qui intègre des modèles et des techniques dont le but est de faciliter l’accès à l’information pertinente pour un utilisateur ayant un besoin en information. Ce besoin en information est souvent formulé en langage naturel par une requête décrite par un ensemble de mots clés. Pour une requête utilisateur, un système de RI permet de retrouver un sous-ensemble de documents susceptibles d’être per- tinents, à partir d’une collection de documents, en réponse à cette requête. L’essor du web a remis la RI face à de nouveaux défis d’accès à l’information, à savoir retrouver une information pertinente en tenant compte du cadre de recherche dans lequel se situe l’utilisateur. La problématique majeure de la plupart des moteurs de recherche classiques réside en partie dans le fait qu’ils sont basés sur une approche généraliste qui considère que le besoin en information est complètement représenté par sa requête et délivrant alors des résultats ne tenant compte que de l’adéquation thématique entre les documents et les requêtes. Pour pallier à ces lacunes, des réflexions ont été menées dans le but de mieux cerner la notion de pertinence du point de vue de l’utilisateur et d’identifier les différents facteurs ayant un impact sur cette notion (Borlund, 2003). Les études menées dans ce sens ont montré que la

pertinence n’est pas une relation isolée entre un document et une requête ; elle est définie selon différents niveaux intégrant différents facteurs liés à l’utilisateur et à son environnement dans une situation de recherche d’infor- mation (crédibilité et autorité des auteurs, diversité, accessibilité et fraîcheur des résultats de recherche, etc.). Ces dernières proposent des techniques de combinaison de pertinence issues de l’exploitation de plusieurs dimensions de pertinence pour définir un seul score de pertinence des documents. Ce chapitre traite des concepts de base de la RI classique ainsi que de l’émer- gence de la notion de pertinence multidimensionnelle. La section 2.2 présente tout d’abord les fondements de la RI classique. Nous abordons les notions et les modèles de base de la RI classique, puis nous présentons la démarche d’évaluation des systèmes de RI. Dans la section 2.3, nous définissons la no- tion de pertinence et nous détaillons ses différents propriétés. Ensuite, nous montrons l’orientation des travaux vers la RI multicritère pour laquelle nous abordons les problématiques majeures et les verrous scientifiques. La der- nière section conclut le chapitre.

2.2

Les fondements de la recherche d’information