• Aucun résultat trouvé

Un système purement statistique : le système du Tokyo Institute of Technology

Technology

Les systèmes présentés par le Tokyo Institute of Technology [Whittaker, et al. 2005a ; Whittaker, et al. 2006] sont un peu l’opposé de ceux du LCC. L’idée est de construire un système purement statistique sans aucune connaissance linguistique. D’un point de vue probabiliste, trouver la meilleure réponse

possible à une question consiste à construire un modèle P (R|Q) capable de donner la probabilité

d’une réponse étant donnée une question et ensuite de garder, dans l’ensemble des réponses possibles, celle qui a la meilleure probabilité.

R = arg max

r

P (r|Q) (5.1)

5.3. UN SYSTÈME PUREMENT STATISTIQUE : LE SYSTÈME DU TOKYO INSTITUTE OF TECHNOLOGY81

X, représente les élements à rechercher dans les documents. L’autre, noté W , représente le type de

réponse attendue.

R = arg max

r

P (r|W, X) (5.2)

Après quelques hypothèses simplificatrices (indépendance deW et X pour un r donné,

équiprobabi-lité a priori des candidats réponse), l’équation prend la forme :

R = arg max

r

P (r|X)P (W |r) (5.3)

Le problème se décompose ainsi en deux parties : une recherche d’informations, représentée par

P (r|X), qui extrait les candidats réponse en rapport avec les éléments de la question et un filtrage, P (W |r), qui sélectionne parmi ces candidats ceux qui correspondent au type de question voulu. À

ces deux modèles s’ajoute un algorithme s’appuyant sur des probabilités permettant d’extraire dans les documents les phrases intéressantes. Nous décrivons ces modèles dans l’ordre de leur utilisation. Étant donnée une question, la première étape consiste à extraire les phrases les plus pertinentes. La méthode est simple : un modèle de langage unigramme est construit pour chaque phrase et document, lissé par absolute discounting [Ney, et al. 1994]. Une probabilité peut alors être calculée pour la question étant donné le modèle d’une phrase ou d’un document. La probabilité calculée sur la phrase est combinée linéairement à celle calculée sur le document qui la contient pour obtenir le score final

de chaque phrase. La question est notéeQ, le document D et la phrase examinée S.

Score(S) = αP (Q|S) + (1 − α)P (Q|D, S ∈ D) (5.4)

Pour l’évaluation QAst 2007 cette extraction a été enrichie par une expansion de requête [Whittaker et al. 2007]. Des classes non-disjointes contenant des ensembles de mots sont construites pour repré-senter les thèmes possibles. La méthode de construction n’est pas indiquée. [Peat & Willett 1991] donne des exemples de méthodes possibles, incluant certaines ne demandant aucune connaissance linguistique (mesures de co-occurrence, calculs d’information mutuelle...). Les mots de la question sont alors «étendus» en l’ensemble des mots des classes auxquels ils appartiennent avec une probabi-lité uniforme. Un score étendu peut alors être calculé de la même façon, le calcul étant simplifié par le fait que les modèles ne sont qu’unigrammes. Le score final est une interpolation linéaire entre le score simple et le score étendu. Cette expansion n’est utilisée que pour l’extraction de phrases, et n’a permis d’obtenir qu’un gain très faible en pratique.

Une fois les phrases pertinentes obtenues, le modèle de recherche d’informationsP (r|X) tente

d’ex-traire les candidats réponse intéressants indépendamment du type de question. La méthode de sélec-tion des suites de mots représentant des candidats n’est pas précisée. On peut penser que pour chaque phrase toutes les suites de mots jusqu’à une certaine taille limite sont évaluées. Les mots vides (stop-words), choisis comme étant les 50 mots les plus présents dans les documents, sont supprimés de la question. L’ensemble des suites de mots, de toutes tailles, contenues dans la question ainsi simplifiée

constitue l’ensemble X des éléments à rechercher. L’évaluation d’un candidat réponse est calculée

comme la moyenne de probabilités élémentaires sur tous les sous-ensembles deX :

P (r|X) = 1 2|X|

X

x⊂X

P (r|x) (5.5)

Chaque probabilité élémentaire est calculée par maximum de vraisemblance sur l’ensemble des phrases extraites dans la première étape :

P (r|x) = N (r, x)

Z(x) (5.6)

N (r, x) = count(S, r ∈ S ∧ x ⊂ S) (5.7)

Z(x) est choisi pour normaliser le résultat. En pratique le calcul de N (r, x) est légèrement modifié

pour tenir compte des phrases autour avec un poids inférieur à 1 nomméλadj. NotantS+ etSla

phrase après et avant une phraseS donnée et avec un λadjentre 0 et 1 (0,3 pour TREC 2005),

N (r, x) = count(S, r ∈ S ∧ x ⊂ S) + λadjcount(S, r /∈ S ∧ (r ∈ S+∨ r ∈ S) ∧ x ⊂ S) (5.8)

Le filtrage des réponses en fonction d’une forme de type de question est un peu plus compliqué [Whittaker, et al. 2005b]. Le principe est de comparer la question demandée à un ensemble de paires

ques-tion/réponse (environ 290 000) d’un corpus d’apprentissage. Notant E l’ensemble des paires (q, a)

d’apprentissage, etr représentant toujours la réponse potentielle examinée, le filtrage est approximé

par : P (W |r) = 1 |E| X (q,a)∈E P (W |q)P (a|r) (5.9)

La structure de traits contenue dansW est similaire à X dans le sens où elle est constituée de

l’en-semble des suites de mots de toutes tailles présente dans une version filtrée de la question. Le filtrage est cependant différent : un ensemble d’environ 2 500 mots considérés pertinents pour caractériser une question sont conservés, le reste supprimé. Cet ensemble de mots a été choisi statistiquement à

partir deE. La probabilité P (W |q), mesurant la ressemblance de la question posée à une du corpus,

est estimée comme la proportion des suites de mots de W dans la question du corpus filtrée de la

même façon.

L’estimation deP (a|r) se fait via des classes de mots de réponse. Environ 5 000 classes contenant

chacune un ensemble de mots sont construites par clustering agglomératif en partant des mots sem-blant les plus pertinents des questions et en se basant sur des statistiques de co-occurrences calculées sur une grande quantité de documents. De plus, il est pris comme hypothèse simplificatrice que seuls

les mots de même indice dans les réponses sont à comparer. Le calcul final est alors, avecr, réponse