Modèle de langue - Concepts et processus de R

2.2 Concepts et processus de R

2.3.2 Modèle de langue

Les modèles de langue ont été appliqués à la recherche d’information par un certain nombre de chercheurs dans la ﬁn des années 1990 [159, 88, 143]. Ils proviennent des

modèles probabilistes de génération de langage développés pour les systèmes de reconnaissance automatique de la parole dans le début des années 1980 [165]. Les systèmes

de reconnaissance automatique de la parole combinent des probabilités de deux mod- èles distincts : le modèle acoustique et le modèle de langue. La puissance du modèle acoustique réside dans la production des textes candidats suivants, donnés par ordre de probabilité décroissante : "food born thing", "good corn sing", "mood morning", et "good morning". Ensuite, le modèle de langue a pour but de déterminer l’expression la plus probable, à savoir, dans notre cas "good morning" est la phrase la plus appropriée car elle apparaît plus fréquemment en anglais que les autres phrases. En effet, quand le modèle de langue est combiné avec le modèle acoustique, le système devient capable de prendre des décisions, en augmentant ainsi la performance du système.

Pour la recherche d’information, l’idée de base des modèles de langue est de déter- miner la probabilité P(Q|D), la probabilité que la requête Q puisse être générée à partir du document D. Cette formulation est similaire à l’idée derrière les modèles proba- bilistes formulés pour la première fois dans [140]. Cependant, comme on peut voir plus

loin, la façon de calculer P(Q|D) dans les modèles de langue est différente de celle des modèles probabilistes traditionnels [34]. Typiquement, cette probabilité est calculée

selon des méthodes paramétriques : on suppose que la distribution des mots suit une certaine norme (par exemple, distribution Poisson) parmi les documents pertinents (et non-pertinents). En fonction des distributions des mots parmi deux ensembles (pertinent et non-pertinent) de documents échantillons, on peut estimer les probabilités des mots pour la pertinence. En suivant cette approche, le modèle de langue du livre que vous lisez en ce moment serait d’attribuer une probabilité exceptionnellement élevée pour les mots "social signals", indiquant que ce livre serait un bon candidat pour les signaux sociaux si la requête contient ces mots.

Le principe des approches utilisant un modèle de langue est différent. On ne tente pas de modéliser directement la notion de pertinence dans le modèle, mais on considère que la pertinence d’un document face à une requête est en rapport avec la probabilité que la requête puisse être générée par le modèle de langue du document. Ainsi, on considère qu’un document D incarne un sous-langage, pour lequel on tente de construire un modèle de langue MD. Le score du document face à une requête Q est déterminé par

la probabilité que son modèle génère la requête :

Score(Q, D) =P(Q|MD) (2.9)

On écrira aussi P(Q|D)pour représenter la même probabilité dans les descriptions plus tard.

2.3 modèles de ri 21 De façon générale, une requête peut être vue comme une suite de mots : Q =t1t2. . . tn.

Nous avons donc :

Score(Q, D) =P(t1t2. . . tn|MD) =

∏

ti∈Q

P(ti|D) (2.10)

Cependant, dans cette formulation, les documents longs, et contenant des mots fréquents vont être favorisés. Aﬁn de remédier à ce problème, nous pouvons utiliser la loi de Bayes :

Score(Q, D) =P(D|Q) = P(D) ·P(Q|D)

P(Q) (2.11)

En supposant que l’ordre des documents est indépendant de P(Q)et les termes sont indépendants les uns des autres, la formule2.11peut s’écrire comme suit :

P(D|Q)rank= P(D) ·P(Q|D) =P(D) ·

∏

ti∈Q

P(ti|D) (2.12)

Avec ti représente les mots de la requête Q.

P(D)représente la probabilité a priori du document D, son utilité est de modéliser et intégrer d’autres sources d’évidence indépendantes de la requête (ex. longueur de document) dans le processus de la recherche d’information. L’estimation de P(ti|D)

peut être effectuée en utilisant différents modèles (ex. Jelineck Mercer, Dirichlet) [215].

Cette probabilité P(ti|D) s’appuie sur une estimation de la fréquence des termes ti

de la requête Q dans le document D (estimation par maximum de vraisemblance). Ceci peut conduire à assigner une probabilité nulle pour les documents ne contenant pas 1 terme de la requête. Dans ce cas particulier, le score de similarité du document est nul alors que le document pourrait partiellement répondre au besoin en information formulé par la requête. Pour remédier à cet inconvénient, les modèles de langues font appel à des techniques de lissage [103,135]. Le lissage permet d’assigner une probabil-

ité non nulle à des événements absents. Les méthodes les plus utilisées en RI sont celles basées sur l’interpolation. Elles consistent à estimer la probabilité d’un terme en fonction du document et d’une collection de référence, souvent la collection de document même. Dans la littérature, il y a une série de méthodes proposées. Ci-dessous nous présentons quelques unes classiques.

Le lissage par interpolation, par exemple de Jelinek-Mercer [103], consiste à combiner

un modèle avec un ou des modèles d’ordre inférieur systématiquement comme suit : P(t1t2. . . tn|D) =

∏

ti∈Q

(λ·P(ti|D) + (1−λ) ·P(ti)) (2.13)

Le modèle de base P(ti) peut être déﬁni par la probabilité d’occurrence de terme

dans la collection estimée selon un maximum de vraisemblance. Dans l’équation, λ est un paramètre inconnu qui doit être ﬁxé de façon empirique, ce qui représente un inconvénient pour cette technique.

Une autre technique de lissage souvent utilisée en recherche d’information est ap- pelée lissage de Dirichlet, elle est déﬁnie comme suit [215] :

P(t1t2. . . tn|D) =

∏

ti∈Q t f(ti, D) +μP(ti|C) |D| +μ (2.14)

Avec |D| représente la taille du document (le nombre total d’occurrences de mots), et t f(ti, D)est la fréquence du mot ti dans D.

Il existe plusieurs autres méthodes et techniques de lissage, le document de Chen et Goodman les présente soigneusement [47].

2.4 Évaluation

L’évaluation des approches de RI est nécessaire pour mesurer leur efﬁcacité, leur performance et pour pouvoir les comparer en étudiant l’impact des différents facteurs employés dans ces approches.

Un système de RI efﬁcace doit répondre de façon satisfaisante aux besoins d’information de l’utilisateur en termes de qualité des résultats retournés, de rapid- ité du système ainsi que la facilité d’utilisation du système qui représentent les prin- cipaux facteurs à évaluer pour un système de RI [138]. Dans notre cas et de manière

plus générale en RI, on s’intéresse particulièrement à : la capacité d’un système à sélec- tionner des documents pertinents que l’on nomme efficacité (effectiveness). Le mode d’évaluation généralement utilisé de nos jours est basé sur celui développé dans le projet Cranfield [51] communément appelé le paradigme de Cranfield. Ce paradigme

déﬁnit la méthodologie d’évaluation des systèmes de RI en se basant sur trois éléments : une collection de documents sur laquelle les recherches sont effectuées, un ensemble de requêtes de test (besoins des utilisateurs) et la liste des documents pertinents pour chacune des requêtes (jugements de pertinence). L’idée générale de ce paradigme est de créer un environnement unique aﬁn de pouvoir comparer les systèmes équitablement. Cet environnement est appelé la collection de test.

Dans le document Recherche d'information sociale : exploitation des signaux sociaux pour améliorer la recherche d'information (Page 46-48)