• Aucun résultat trouvé

5.5 Fonctionnalités d’extraction d’informations

5.5.2 Les systèmes de question-réponse (SQR)

Les SQR exploitent des requêtes formulées à l’aide du langage naturel et non plus en se fondant uniquement sur des mots clefs. Leur objectif est de fournir une réponse précise à une question posée.

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

118 Cette tâche diffère de la recherche d’information, car, au lieu de retourner un document entier, le système retourne l’information pertinente que contient le document [12, Bruandet].

Comme nous l’avons vu précédemment, des moteurs de recherches « classiques » proposent une suite de documents classés selon l’estimation de leur pertinence. L’utilisateur doit ensuite effectuer un tri dans ces documents et parfois en consulter plusieurs afin d’obtenir l’information complète dont il a besoin. Dans le cas d’un système de réponse aux questions, le système reconstruit une réponse en langage naturel à partir des contenus des documents qui contiennent partiellement ou en totalité les réponses à la question formulée.

Le SQR a des applications dans de nombreux domaines [12, Bruandet] :

• l’accès à des bases de données pour retrouver des valeurs associées à des champs ou pour accéder à de l’information contenue dans des documents textes exprimés en langage naturel ;

• l’accès à des informations « fines » contenues dans les documents ;

• l’accès fin à de grandes collections de documents.

Cela permet donc de gagner énormément en efficacité lors de la consultation du document pour obtenir l’information désirée.

Ce type de recherche nous semble être très intéressant, notamment dans le secteur scientifique où elle constituerait un complément remarquable des processus d’exploitation des connaissances contenues dans les documents tels que nous les avons vus dans le chapitre consacré aux référentiels.

C’est pourquoi nous allons y consacrer un peu plus d’espace que pour les fonctionnalités précédemment exposées.

La recherche d’une information dans un SQR peut se décomposer en trois tâches [12, Bruandet] :

• l’analyse de la question (type de réponse attendue, extraction de termes clefs et rapprochement du terme avec un référentiel) ;

• la recherche d’une sous-partie d’un document susceptible de contenir la réponse (zone du document, champs d’une base de données, document appartenant à une collection) ;

• la sélection des passages contenant la réponse ;

• l’extraction de la réponse (réalisation des inférences nécessaires, accès à plusieurs sources si nécessaire, formulation ou reformulation de la réponse.).

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

119 Prenons l’exemple d’une question pour laquelle la réponse est une entité nommée et l’espace de recherche une collection d’articles de journaux23 :

• Les questions sont analysées selon leur type :

o Questions factuelles : « Où a été signé l’armistice ? »

o Questions booléennes (oui ou non) : « François Hollande est-il marié ? » o Définitions : « Que signifie le sigle RATP ? »

o Causes/conséquences : « Pourquoi le ciel est-il bleu ? » o Procédures : « Comment aller à Vierzon ? »

o Listes : « Citer 3 présidents français »

o Requêtes évaluatives/comparatives : « Quelle est la plus grande ville de France ? » o Opinions : « Que pensent les Français du concubinage de François Hollande ? »

• En fonction de l’objet de la question, des réponses-types sont élaborées. Le type de la réponse attendue correspond à l’identification de l’objet de la question ou du type de la phrase attendu.

Par exemple :

o Exemple de type d’objets :

Personne : « Quel président français... » → « Qui... » Organisation : « Quelle compagnie... » → « Qui... » Lieu : « Dans quelle ville... » → « Où... »

Date : « En quelle année... » → « Quand... » o Exemple de type de phrase :

Explication : « Pour quelle raison le ciel est-il bleu ? » → « Pourquoi... »,

Procédure : « Quelles sont les étapes pour renouveler un passeport ? » →

« Comment... »

• Les questions sont analysées (les termes peuvent en être lemmatisées) et transformées en requêtes. Des documents sont associés aux requêtes. Exemple de transformation de questions en requêtes par extraction de mots clefs :

o « Qui est Clint Eastwood ? » → requête : Clint Eastwood.

o « Que fabrique l’entreprise Majorette ? » → requête : Majorette; entreprise; fabriquer.

• Les documents appariés sont analysés par un traitement automatique des langues

« superficielles » (indexation sur des termes complexes, reconnaissance des entités nommées).

23 https://fr.wikipedia.org/wiki/Systèmes_de_questions-réponses

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

120 Une première série de passages candidats est sélectionnée. Ceux-ci peuvent être composés de simples phrases, de paragraphes ou de documents entiers. Ces passages contiennent ou ne contiennent pas de réponses candidates. Par exemple :

o Question : Qui est le père de Mazarine Pingeot ? → Type de réponse « personne » : Passage candidat : paragraphe « François Hollande et Mazarine Pingeot inaugurent la Bibliothèque François Mitterrand. »

Réponse candidate dans le passage : « Mazarine Pingeot a évoqué l’action de son père, François Mitterrand, en faveur de la culture. »

• Le système évalue la qualité des passages afin de, si nécessaire, réajuster les mots clefs utilisés par la requête. Il tiendra aussi compte du nombre de passages obtenus. S’il en obtient trop, il restreindra le nombre de mots clefs. S’il n’en obtient pas assez, il étendra la requête.

• Une fois une série de passages sélectionnés, il leur attribue un score afin de les classer.

• Les documents sont ensuite analysés par des techniques de TAL plus fines, permettant d’établir une similitude entre leur contenu et la question par résolution des variations linguistiques.

Exemple de variations que traitent les TAL :

o Variation morphologique : « Où se trouve la capitale de l’Europe ? » ou « Où se trouve la capitale européenne ? »

• En fonction de cette similitude linguistique, et pour extraire les documents candidats, le système attribue un score aux réponses candidates selon des critères prenant en compte :

o Le contexte global : on essaie d’évaluer la pertinence du passage d’où provient la réponse candidate. Pour cela, on se fonde sur :

Le nombre de mots clefs présents dans le passage ; Le nombre de mots communs à la question et au passage ;

Le nombre de mots de la réponse candidate qui ne sont pas des mots clefs de la question ;

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

121 La distance moyenne entre la réponse candidate et les mots clefs présents dans le passage.

o La justesse du type sémantique : on s’assure que le type de la réponse candidate est soit du même type, soit un sous-type du type de réponse attendue (adjectif, verbe, nom propre).

o La redondance : on sélectionne les réponses présentes dans le plus possible de passages candidats possibles.

À partir de cette analyse, le système peut répondre « Victor Hugo ».

• Le système peut aussi introduire une analyse sémantique supplémentaire en tenant compte du type de relations liant les éléments par construction d’un arbre de dépendance à partir de la question.

On voit à travers la description du processus d’un système de question-réponse que celui-ci est prometteur, mais complexe. Les traitements en langage naturel qu’il demande peuvent nécessiter de faire appel à des ontologies d’entités nommées ou des ontologies du domaine considéré afin de permettre l’extraction d’informations sémantiques riches [12, BRUANDET].

Par ailleurs, les SQR rencontrent encore de nombreuses limites liées notamment aux difficultés de traitement de la langue naturelle et d’interrogation des documents :

• Quand la réponse à une question est répartie sur plusieurs documents, il est difficile de construire une réponse à partir de passages issus de ces différents documents.

• Certaines questions doivent être décomposées. Par exemple, « Le président français est-il marié ? » implique « Qui est le président de la France ? », puis « François Hollande est-il marié ? ».

• Le traitement de la langue n’est pas encore parfait, certains traitements ne fonctionnent pas ou de manière non optimale : le traitement des anaphores, des synonymes, des paraphrases, des métonymies, de la négation, des quantifieurs (unités), la reconnaissance des figures de style.

• Certaines questions demandent que le système fasse appel à des systèmes d’inférences complexes pour élaborer les réponses : « Lille est la 2e plus grande ville de France » ; « Londres

Mémoire CNAM-INTD Titre 1 2015 - FRONTERE Mikhaïl

122 est plus grand que Lille »; « Paris est plus grand que Londres » ; « Paris est en France ». Donc Paris > Londres > Lille, etc.

• Les questions portant sur les relations entre objets d’information ne sont pas encore résolubles :

« Quelles sont les relations entre ostéopathes et son patient ? »

• Il est difficile de faire de l’implication textuelle, c’est-à-dire de faire en sorte que le système soit capable de reconnaître qu’un passage peut en impliquer un autre : par exemple, « Nicolas Sarkozy a fait refaire un avion destiné à ses transports officiels » implique « Un avion est destiné aux voyages du président français ».

Ces limites, ainsi que la complexité de leur implémentation font que les SQR se situent encore à la frontière entre les technologies d’usage et les technologies à venir. De nombreuses autres fonctionnalités d’assistance à la recherche d’information sont envisagées dans un futur proche. Parmi celles qui nous intéressent le plus, il y a celles qui tiennent compte du contexte utilisateur.