• Aucun résultat trouvé

2.5 Evaluation

2.5.4 La campagne d’´evaluation INEX

2.5.4.5 Les diff´erentes tˆ aches

La tˆache ad-hoc. La tˆache principale de la campagne INEX est la tˆache ad-hoc. Il s’agit de trouver les ´el´ements XML contenant les informations pertinentes quant aux besoins d’information exprim´es par les titres des requˆetes, et d’ordonner ces ´el´ements dans l’ordre suppos´e de leur pertinence. En 2005, plusieurs aspects de cette tˆache ont ´et´e explor´es, dans la but d’´etudier l’influence de l’utilisation de la structure (dans les requˆetes) sur l’efficacit´e de la recherche.

En effet, outre la distinction CO+S / CAS d´ej`a exprim´ee, les organisateurs ont s´epar´e la partie CAS en quatre sous-parties, qui distinguent le caract`ere strict ou souple de l’interpr´etation des contraintes structurelles dans la cible* et le support* : SSCAS correspond `a une interpr´etation stricte des deux ´el´ements, SVCAS `a une interpr´etation stricte de la cible et souple du support, et VSCAS et VVCAS repr´esentent les deux autres combinaisons.

La tˆache CO, elle, propose trois variantes : Focussed, dans laquelle le syst`eme doit trouver le meilleur ´el´ement dans un chemin donn´e (le chevauchement est donc interdit) ; Thorough autorise les chevauchements, mais bien entendu les meilleurs ´el´ements doivent ˆetre mieux class´es ; enfin, la strat´egie Fetch and Browse consiste `a renvoyer un article (un document) entier et `a lister `a la suite les ´el´ements les plus pertinents de cet article. Autres tˆaches. Des tˆaches annexes ont ´et´e ajout´ees au fil des ans `a la tˆache ad-hoc pour arriver au nombre de six en 2005 :

– Relevance Feedback, ou comment utiliser les r´esultats d’un moteur pour am´eliorer la requˆete.

– Heterogenous Collections, ou comment permettre aux utilisateurs de faire des recherches sur plusieurs collections diff´erentes (aux DTD diff´erentes). Pour cela d’autres ensembles de documents ont ´et´e mis `a la disposition des participants. – Interactive, ou comment rendre la recherche dans les collections XML accessibles

`

a tous les types d’utilisateurs, en termes d’interface de requˆete et de pr´esentation des r´esultats.

– Document Mining, ou comment appliquer les techniques de classification et de clusterisation aux collections XML.

– Multimedia, ou comment utiliser les contenus non textuels pour la recherche d’in- formation XML.

Chapitre 3

Traitement automatique de la

langue

Comme nous l’avons remarqu´e `a de nombreuses reprises au cours de ce rapport, l’ˆetre humain est au centre du processus de recherche d’information. Parmi tous ses charmes, nous avons d´ej`a d´etaill´e sa versatilit´e et sa subjectivit´e, qui ruinent les espoirs de parvenir `a la conception d’un syst`eme de RI “id´eal”1, et nous avons tent´e de montrer

qu’un syst`eme, id´eal `a un moment donn´e pour un utilisateur donn´e, ne le serait plus le lendemain ou pour une autre personne.

Une autre caract´eristique embarrassante de l’humain est qu’il s’exprime, `a l’´ecrit langage naturel

comme `a l’oral, dans un langage dit naturel. On appelle ainsi le langage courant, vecteur de la communication quotidienne et notamment du pr´esent rapport, par opposition aux langages des machines (langages de programmation, protocoles de communication, etc.). Ainsi, qu’il soit dans une disposition plate ou semi-structur´ee (au moins dans l’approche orient´ee document*), et mˆeme souvent dans des bases de donn´ees, le contenu textuel des documents est compos´e d’´enonc´es en langage naturel. Ces textes sont ´ecrits par des humains, pour des humains, et bien entendu aucun effort particulier n’est fait pour faciliter l’analyse linguistique du texte par une machine2.

Par ailleurs, lorsqu’un ˆetre humain cherche une information, il se pose d’abord une question en langage naturel, avec toutes les impr´ecisions et les subtilit´es que cela implique, mˆeme s’il sait qu’il devra par la suite la transcrire au moyen d’un choix de mots-cl´es ou d’un langage de requˆetes formel et sp´ecifique3.

On voit donc que le domaine du langage naturel et de son traitement automatique se trouve au cœur de la probl´ematique de la recherche d’information. Il semble ´evident que les progr`es des futurs moteurs de recherche passeront par une meilleure “compr´ehension” de la langue, aussi bien en ce qui concerne les documents que la question pos´ee.

L’´etat actuel de la recherche est loin de cette compr´ehension, et de nombreuses difficult´es se pr´esentent `a tous les niveaux de l’analyse de l’´ecrit. Les probl`emes peuvent ainsi ˆetre d’ordres morphologique*, syntaxique*, s´emantique* ou pragmatique*.

Dans un premier temps, de la section 3.1 `a la section 3.4, ce chapitre d´ecrira ces diff´erents niveaux d’´etude de la langue, et abordera quelques-uns des ´ecueils auxquels

1Voir la section2.5, page34.

2Une indexation manuelle du document est parfois fournie, une structure (tables ou balisages) peut

ˆetre mise en place, mais il ne s’agit pas l`a d’une aide `a la “compr´ehension” s´emantique ou syntaxique du texte.

3Nous ne nous attarderons pas sur deux autres points essentiels, qui sont d’une part que les humains

ne s’expriment pas tous dans la mˆeme langue, et d’autre part que la majorit´e d’entre eux font des fautes d’orthographe et de grammaire en ´ecrivant.

se heurte particuli`erement toute tentative d’analyse automatique de textes.

Nous d´evelopperons par la suite les aspects du traitement automatique de la langue qui ont ´et´e explor´es dans les syst`emes de recherche d’information (section 3.5), puis nous aborderons le domaine des interfaces en langage naturel pour les bases de don- n´ees (section 3.6). Enfin, en guise de transition vers la seconde partie, nous donnerons un aper¸cu des enjeux et des premi`eres approches concernant les interfaces en langage naturel pour la recherche d’information semi-structur´ee (section 3.7).

3.1

Les diff´erents niveaux du langage

L’analyse du langage n´ecessite une connaissance de sa structure sur de nombreux niveaux : que sont les mots ? Que signifient-ils ? Comment se combinent-ils pour former la phrase ? Comment contribuent-ils au sens de la phrase ? Et, par ailleurs, comment fonctionnent le monde et le raisonnement de l’humain dans le monde ?

De la r´eception des sons (ou leur prononciation) jusqu’`a la compr´ehension appro- fondie des mots prononc´es dans l’environnement o`u ils sont prononc´es, les linguistes distinguent plusieurs palliers permettant l’analyse ou la g´en´eration d’un ´enonc´e en langage naturel. Ces niveaux de connaissance restent bien entendu toujours valables lorsque l’on aborde l’analyse automatique de la langue. Les grandes sp´ecialit´es sont :

– la phon´etique et la phonologie, ou comment les mots et les phrases sont li´es aux sons qui les r´ealisent `a l’oral [38,123]. Ne traitant que l’´ecrit, nous ne reviendrons pas sur ce domaine.

– la morphologie, ou comment les mots sont construits et quels sont leurs rˆoles

morphologie

dans la phrase [157].

– la syntaxe*, ou comment les mots se combinent pour former des syntagmes*,

syntaxe

puis des propositions et enfin des phrases correctes.

– la s´emantique*, ou comment les mots font du sens lorsqu’ils sont ins´er´es dans

s´emantique

une phrase (ind´ependamment du contexte) [111].

– la pragmatique*, ou comment les phrases peuvent ˆetre interpr´et´ees selon leur

pragmatique

contexte d’´enonciation (interlocuteurs, phrases pr´ec´edentes, connaissance com- mune du monde, . . .) [142,58].

Allen [9] donne les exemples suivants pour faire la distinction entre syntaxe, s´e- mantique et pragmatique. Consid´erons que les phrases suivantes sont candidates pour figurer en tˆete du pr´esent m´emoire, c’est-`a-dire qu’elles sont ´enonc´ees en l’absence totale de contexte :

(3.1) La recherche d’information automatis´ee permet `a un utilisateur de formuler un besoin d’information.

(3.2) Les grenouilles vertes ont des gros nez. (3.3) Les id´ees vertes ont des gros nez. (3.4) Vertes des ont les id´ees nez gros.

La premi`ere phrase semble ˆetre un d´ebut raisonnable pour un tel rapport. Elle correspond `a tout ce qui est connu en mati`ere de syntaxe, de s´emantique et de pragma- tique. La phrase 3.2 est bien form´ee sur les plans syntaxique et s´emantique, mais pas pragmatique. En effet, elle conviendrait mal comme premi`ere phrase d’un m´emoire de th`ese, et le lecteur ne verrait aucune raison valable de la voir utilis´ee.

Mais l’exemple3.3 serait pire encore : il est `a la fois pragmatiquement et s´emanti- quement mal form´e. On remarque en effet qu’il est possible d’affirmer que la phrase3.2

Morphologie 49 est vraie ou fausse, tandis que c’est impossible pour 3.3 dans une conversation coh´e- rente. La structure en est pourtant correcte, mais des id´ees ne peuvent pas ˆetre vertes et, mˆeme si elles le peuvent dans certains contextes, elles n’ont certainement pas de nez, ni gros ni maigre1.

Enfin, la phrase 3.4 est tout simplement inintelligible : elle contient pourtant les mˆemes mots que la pr´ec´edente, mais ne respecte aucune des structures grammaticales (syntaxiques) admises en Fran¸cais.

Dans le cadre de notre travail, nous nous basons uniquement sur la langue ´ecrite2, ce qui implique que les entit´es les plus petites que nous allons ´etudier (les unit´es gram- maticales) sont les mots. Cela ne signifie pourtant pas que la structure interne du mot, en particulier les diff´erentes flexions*, n’est pas prise en compte. Mais le mot comporte l’avantage d’ˆetre une unit´e relativement facile `a distinguer dans un texte (en tout cas dans les langues fran¸caise et anglaise, qui vont nous int´eresser plus particuli`erement), ce qui n’est pas le cas pour la langue orale.