• Aucun résultat trouvé

Vers une recherche d’information adaptée aux utilisateurs dyslexiques

N/A
N/A
Protected

Academic year: 2022

Partager "Vers une recherche d’information adaptée aux utilisateurs dyslexiques"

Copied!
26
0
0

Texte intégral

(1)

aux utilisateurs dyslexiques

Laurianne Sitbon*,** — Patrice Bellot* — Philippe Blache**

* NICTA, University of Queensland Brisbane St Lucia, QLD 4072, Australia laurianne.sitbon@gmail.com

** Laboratoire d’Informatique d’Avignon (LIA) Université d’Avignon et des Pays de Vaucluse 339, chemin des Meinajaries - Agroparc BP 1228 84911 Avignon cedex 9, France

patrice.bellot@univ-avignon.fr

*** Laboratoire Parole et Langage (LPL) Université de Provence - CNRS

29, avenue Robert Schuman

13621 Aix-en-Provence cedex 1, France blache@lpl-aix.fr

RÉSUMÉ. Nous proposons de prendre en compte des indices non purement informationnels, tels que la lisibilité, en recherche d’information. Nous montrons sur les données des évaluations TREC, CLEF et DUC que cette prise en compte peut être efficace dans un cadre général.

Enfin, nous proposons une estimation automatique de la lisibilité adaptée à des personnes dyslexiques.

ABSTRACT. We propose a new way of estimating relevance that takes some non-informational user needs into account. This is achieved using a linear function which has the advantage of being simple, efficient, and controllable by the user directly. The experiments are conducted on TREC and CLEF ad hoc task data and on DUC data. Lastly, the readability constraints are specifically estimated for dyslexic readers.

MOTS-CLÉS : recherche documentaire, recherche d’information, RI contextuelle, résumé automatique, lisibilité, dyslexie.

KEYWORDS: information retrieval, summarisation, readability, dyslexia, contextual IR.

DOI:10.3166/DN.13.1.161-185 © 2010 Lavoisier, Paris

(2)

1. Introduction

S’il existe de nombreux travaux autour des moteurs de recherche d’information in- teractifs, de grandes lacunes concernent leur adaptation contextuelle à des utilisateurs aux capacités en écriture ou en lecture limitées. Il peut s’agir de personnes atteintes de pathologies (dyslexie, mauvaise vision. . . ) mais aussi, plus simplement, de per- sonnes ne maîtrisant pas suffisamment la langue d’un document en consultation. De manière générale, la prise en compte ducontexteet l’adaptation aux utilisateurs en recherche d’information fait l’objet de nombreuses conférences :Information Retrie- val in Context1 durant SIGIR 2004 (Ingwersenet al., 2004),Adaptive Information Retrieval2 durant la conférence IIiX 2008,NLP for Reading and Writing3 durant la conférence SLTC 2008... Par ailleurs, des groupes d’études ont été formés afin de permettre l’accès au web par des personnes handicapées. C’est le cas de laWeb Ac- cessibility Initiative (W3C, 2001) qui dresse une liste d’utilisations potentielles du web et préconise certaines solutions techniques. Par exemple, une personne atteinte de dyslexie sera aidée si l’on ajoute aux documents des représentations graphiques et si l’on rend immobiles les animations tandis qu’une personne daltonienne souhaitera gérer elle-même les couleurs d’affichage. Une personne ayant des problèmes d’acuité visuelle appréciera l’interfaçage d’un module de synthèse de la parole tandis qu’une autre qui ne peut se servir d’un clavier standard emploiera un outil de reconnaissance de la parole pour saisir ses requêtes (Scottet al.,1998, Fairweatheret al.,2002).

Dans ce cadre, la personnalisation de la recherche d’information et la prise en compte des caractéristiques cognitives individuelles des utilisateurs est l’une des pro- blématiques majeures. Les modèles de recherche d’information usuels permettent d’ordonner des documents en fonction de la quantité d’informations qu’ils véhiculent vis-à-vis de ce que l’utilisateur a exprimé dans sa requête tout en tenant compte, dans le meilleur des cas, du taux de nouveautés apportées par rapport à d’autres documents déjà connus (Allan, 2002). Il s’agit d’une vision purement informationnelle de la per- tinence posant l’hypothèse que plus lenombred’informations nouvelles est grand, plus le document est susceptible d’intéresser l’utilisateur. Cela s’avère exact dans une certaine mesure mais ne tient pas compte du fait que les besoins sont différents sui- vant le niveau d’expertise de l’utilisateur : une personne novice dans un domaine sera certainement plus intéressée par un document de vulgarisation que par une étude ap- profondie au vocabulaire et à la structure complexes. Ainsi, de nombreuses études se sont penchées très tôt sur la notion depertinenceen tentant de la définir en fonction de paramètres le plus souvent extra-linguistiques et contextuels, non explicites dans une requête (Mizzaro, 1997). Cela est vrai à plus forte raison, pour des personnes ayant des difficultés élevées de lecture. Il s’agit alors de définir de nouvelles mesures prenant en compte cet aspect tout en offrant la possibilité de présenter d’abord les documents les plus « simples », les plus « lisibles ». Notons que cette fonctionnalité peut aussi être 1.http://ir.dcs.gla.ac.uk/context/

2.http://www.dcs.gla.ac.uk/workshops/air2008/

3.http://spraakbanken.gu.se/personal/sofie/SLTC_2008/SLTC_2008.html

(3)

profitable pour des adultes ayant des capacités en lecture et écriture normales et pour des enfants en phase d’apprentissage.

Pour ce faire, nous devons dans un premier temps définir ce que nous entendons parlisibilité. Cette notion est étroitement liée à la caractérisation d’un profil utilisa- teur, lui-même fonction de son niveau de connaissance du domaine et de la langue du document ; autrement dit, de ses capacités de lecture. S’il existe uncontinuumévident depuis la personne analphabète ou illettrée jusqu’au lecteur expert qui peut être reflété par les nombreux tests de lecture disponibles, nous avons choisi de travailler sur un handicap courant, la dyslexie. Dans un deuxième temps, les caractérisations des han- dicaps entraînant des déficits en lecture et écriture doivent être exploitées en étudiant comment ils peuvent se traduire au niveau d’implémentations informatiques (Rossi- gnol, 2001, Reyet al.,2001). Celles-ci peuvent être destinées à l’aide à la détection ou à la remédiation des handicaps étudiés mais aussi, plus modestement, à l’adaptation de logiciels basés sur des interactions textuelles, orales ou écrites. Certaines estimations font état qu’entre 3 et 9 % de la population adulte ou en âge d’être scolarisée connaît des difficultés importantes dans l’apprentissage de la lecture (Ducrotet al.,2003) leur rendant d’autant plus complexe la manipulation d’outils informatisés. Un effort parti- culier doit être entrepris afin de faciliter l’accès à « l’information » pour ces personnes et,a fortiori, pour celles présentant un handicap plus important.

À titre d’exemple, l’étude exposée dans (Bruzaet al.,2000) qui mesure l’effort cognitif correspondant à différents modes de recherche d’information ainsi que le lo- giciel de traitement de textes pour dyslexiques décrit par (Dickinson et al.,2002) peuvent servir de points de départ, notamment pour l’assistance dans la formulation de requêtes. Pour des handicaps plus importants, ces dernières peuvent aussi s’expri- mer sous forme de symboles ou d’images tel que cela est réalisé dans les plateformes de communication alternative — voir par exemple les logiciels de la société AEGYS d’aide à la communication verbale et non verbale4(Bellengieret al.,2004, Blacheet al.,2008) ou encore VITIPI (Boissièreet al.,2000) développé à l’institut de recherche en informatique de Toulouse (IRIT-CNRS). Pour un aperçu d’autres propositions dans l’adaptation des systèmes d’informations, se référer par exemple aux actes de l’atelier PeCUSI 2007 et plus particulièrement de (Chevalieret al.,2007) qui discutent de la notion de profil utilisateur pour la recherche d’information.

Nous proposons dans cet article de faire évoluer les systèmes de recherche d’infor- mation en y intégrant une contrainte de lisibilité, celle-ci étant spécifiquement évaluée pour des lecteurs dyslexiques. En effet, si la prise en compte de l’utilisateur dans les systèmes de recherche d’information est en soi déjà une amélioration intéressante, c’est une nécessité dans le cas où l’utilisateur présente certains handicaps langagiers.

En particulier, les difficultés de lecture induites par la dyslexie (Snowling, 2000) créent un fossé informationnel important avec des normo-lecteurs.

La décomposition du besoin de l’utilisateur en un besoin thématique et un be- soin orthogonal (tel que le niveau d’expertise, la langue, le type de document) est

(4)

fréquemment envisagée dans la littérature. Dans ces cas, le besoin orthogonal est gé- néralement une contrainte qui ne s’exprime pas de manière continue. Cette contrainte peut être satisfaite par un filtrage des documents retournés. Pour intégrer la lisibilité, nous envisageons soit une solution de réordonnancement des documents de manière à retourner en priorité les plus lisibles, soit une solution de réduction de la quantité de texte à lire pour obtenir l’information voulue. D’un point de vue expérimental, il est difficile d’obtenir des données en grande quantité sur les facultés de lecture de dys- lexiques, étant donné le temps nécessaire et la difficulté de la tâche. Aucune donnée concernant les retours de tels utilisateurs sur la lisibilité de documents n’étant à ce jour disponible, nous avons choisi d’estimer empiriquement le taux optimal de prise en compte de la lisibilité (évaluée spécifiquement pour des lecteurs dyslexiques) en re- gard de l’évolution de la précision calculéea posterioride la recherche documentaire (selon les référentiels des campagnes d’évaluation TREC et CLEF). Une telle étude est réalisée pour des normo-lecteurs ainsi que pour des dyslexiques.

Afin d’augmenter l’accessibilité des informations retrouvées, une autre solution que l’identification des documents les plus lisibles consiste à réduire la quantité d’in- formations à faire lire à l’utilisateur. Cela est réalisable soit en sélectionnant les parties des documents les plus pertinentes (recherche des passages les plus pertinents et les plus lisibles), soit en réalisant un résumé de tous les documents en fonction de la re- quête. Les contraintes de lisibilité peuvent également être intégrées à ces tâches de sélection de phrases (résumé automatique par extraction) ou de passages.

La section 2 introduit des mesures de lisibilité générales et s’intéresse à leur in- tégration dans un processus de recherche documentaire puis de résumé automatique (section 4). Des tests ont été effectués sur les données des campagnes d’évaluation TRECad hoc, CLEF 2003 et DUC. La section 3 propose une nouvelle mesure adaptée aux utilisateurs dyslexiques et l’évalue sur les données de CLEFad hocen français.

2. Prise en compte de la lisibilité en recherche d’information 2.1. La pertinence en recherche documentaire

L’objectif d’un système de recherche d’information est de fournir les documents pertinents pour l’utilisateur par rapport au besoin exprimé (requête). La notion de pertinence a été largement débattue pour préciser ce qu’elle doit prendre en compte.

Mizzaro (1997) propose un cadre de définition de la pertinence qui permet d’englober toutes les dimensions jusqu’alors évoquées.

La pertinence peut ainsi être définie selon au moins quatre dimensions :

– lebesoin d’information, décomposé en besoin réel, besoin perçu par l’utilisateur, besoin exprimé, et besoin formalisé par un langage de requête ;

– lescomposants: l’information elle-même, la tâche et le contexte ; – letempsrelevé pour retrouver l’information ;

(5)

– lagranularitéde l’information recherchée : document complet, sujet du docu- ment, ou information précise à l’intérieur de ce document.

Les modèles de base mettent en relation les mots de la requête avec ceux des documents, qu’ils soient explicités ou non. Le besoin sous-jacent de l’utilisateur peut s’exprimer soit à travers la sélection d’une tâche précise de recherche d’information (recherche documentaire, questions-réponses...), soit par son opinion sur le résultat de précédentes recherches (retour de pertinence), soit par un profil utilisateur déclaré ou déduit. A l’heure actuelle, les modèles (vectoriel, probabiliste...) ne prennent en compte ce besoin qu’a posteriori.

L’intégration du critère de lisibilité dans un système de recherche documentaire nécessite de reformuler le modèle définissant ce qu’est un document pertinent. Au sein des modèles classiques de recherche documentaire, la pertinence d’un document est évaluée en fonction de sa corrélation thématique estimée selon la requête posée par l’utilisateur. Les mots de la requête sont représentés dans un espace sémantico-lexical plus ou moins vaste (augmenté dans les cas d’expansion de requête, ou réduit à l’aide d’une l’analyse sémantique latente LSA) et les documents les plus similaires au sens de cet espace sont retournés par ordre décroissant de score de similarité. Quelques systèmes prennent en compte des profils utilisateur en tenant compte des historiques de requêtes et de retours de pertinence sur les documents consultés.

Pour prendre en compte les capacités de lecture de l’utilisateur, il faut considérer la lisibilité comme une donnée continue que l’on cherche à maximiser tout en main- tenant une forte similarité. Dans ce cadre, la similarité peut être estimée par le score de similarité d’un système de recherche documentaire, et on peut s’inspirer des tra- vaux réalisés par (Vogtet al.,1999) sur les métamoteurs de recherche pour intégrer linéairement la lisibilité.

2.2. Quelques critères de lisibilité génériques

Nous devons définir les critères objectifs, et éventuellement subjectifs, qui peuvent permettre d’estimer la lisibilité d’un texte (les capacités de lecture nécessaires) en ex- ploitant les modélisations psychocognitives et neurocognitives les plus récentes. De nombreux modèles de la lecture ont été proposés depuis une quarantaine d’années.

Ferrand (2007) en dresse une liste exhaustive depuis le modèle Logogène de (Morton, 1969) dans lequel undétecteurcognitif spécifique est associé à chaque mot dans un lexique mental jusqu’aux récents modèles à double voies en cascade ou connexion- nistes incorporant un codage phonologique (Seidenberget al.,1989, Coltheartet al., 2001) et permettant des simulations informatiques performantes. Historiquement, une des questions soulevées par la compréhension des processus en jeu durant la lecture (silencieuse ou non), concerne le rôle de l’information phonologique et la manière dont celle-ci est utilisée pour accéder à la compréhension du mot et, le cas échéant, à leur prononciation. En ce qui nous concerne, ces modèles sont intéressants car ils per-

(6)

mettent d’envisager des moyens de simuler par ordinateur les processus de la lecture humaine, et de tenter de distinguer ainsi un texte facile d’un texte difficile.

En considérant que la difficulté de lecture d’un mot peut être mise en correspon- dance avec le temps nécessaire à son identification, de nombreux critères, certains corrélés entre eux, ont été jugés plus ou moins significatifs (Sprenger-Charolleset al., 2003, Ferrand, 2007, Dehaene, 2007). Parmi eux l’on trouve le nombre de graphèmes, la cohésion lettres-graphèmes-phonèmes, l’attaque et la rime, le voisinage orthogra- phique, le voisinage phonologique, la longueur des mots, le nombre de syllabes, la fréquence d’occurrence, la familiarité, l’âge d’acquisition, la morphologie, la concré- tude et l’imageabilité, la polysémie et l’homonymie. Par contre d’autres critères ont été écartés, par exemple la forme graphique globale des mots qui n’est pas corrélée au temps de décision lexicale. Pour plus d’informations sur ces différents critères, nous invitons le lecteur à se référer aux articles cités ci-avant mais également, dans le contexte présent, à (Bellot, 2008).

Dans les logiciels grand public5, la mesure la plus souvent utilisée pour l’évalua- tion de la lisibilité d’un texte – au sens de sa facilité de lecture et de compréhension indépendamment des aspects visuels et typographiques – est celle établie par (Flesch, 1948) pour l’anglais puis adaptée par (Kandelet al.,1958) pour le français :

pour l’anglais:LF lesh= 206,835−1,015×ASL−84,6×ASW [1]

pour le français:LKandel= 207−1,015×ASL−73,6×ASW [2]

où ASL est la longueur moyenne des phrases exprimée en nombre de mots et ASW est le nombre moyen de syllabes par mot contenu dans le texte. Cette mesure établit une échelle de lisibilité de 0 à 100, sur laquelle un score de 30 situe un document très difficile à lire, et un score de 70 un document correctement lisible par des adultes.

Les approches plus récentes pour estimer la lisibilité d’un document utilisent des modèles de langage statistiques ainsi que divers algorithmes pour la classification : Expectation Maximization(Siet al.,2001), les arbres de décision (Kaneet al.,2006), l’analyse sémantique latente (LSA) (Wolfeet al.,1998) ou des modèles de catégorisa- tion (Collins-Thompsonet al.,2005). Pour des textes à destination de jeunes lecteurs, les données sur lesquelles s’appuient ces approches peuvent provenir d’annotations manuelles réalisées par des professeurs des écoles sur des pages web (Petersenet al., 2006) ou sur des livres entiers (Lennonet al.,2004). Les principaux paramètres uti- lisés par ces méthodes de catégorisation automatique sont la taille des phrases et des mots, et les caractéristiques syntaxiques et lexicales des mots.

5. Dans MS Word, il faut activer l’optionAfficher la lisibilitédans l’onglet grammaire et ortho- graphe des préférences pour voir les statistiques de lisibilité s’afficher à la fin de la vérification du document.

(7)

2.3. Intégration de la lisibilité dans la pertinence

Les mesures de Flesch et Kandel (formules [1] et [2]) produisent un score pour chaque document trouvé. Pour prendre en compte la lisibilité dans le processus de recherche, ces scores de lisibilité doivent être combinés avec les scores depertinence thématiqueinitiaux ou encore, en fonction des rangs initiaux des documents.

Souhaiter combiner une mesure de lisibilité avec une mesure de similarité du type BM25 est une problématique qui s’apparente à celle de la fusion de résultats et à la mé- tarecherche où doivent être pris en compte différents scores pour un même document : la sélection des seuls documents lisibles ou d’un niveau d’expertise adéquat pourrait aussi s’apparenter à un problème de filtrage (Berrutet al.,2003, Boughanemet al., 2004). À cet effet, la plupart des auteurs ont proposé d’établir de nouvelles fonctions de score, comme par exemple (Ogilvieet al.,2003) à partir d’approches bayésiennes, (Lilliset al.,2006) selon une approche probabiliste entraînée sur les niveaux de per- formance pré-établis de plusieurs systèmes différents et établissant un score à partir des rangs obtenus.

Une autre façon de voir est de faire le parallèle avec la recherche de documents structurés où le score retenu est une combinaison des scores des parties qui composent les documents (Piwowarskiet al.,2003, Lalmaset al.,2007). Pour un document d structuré enKpartiesdk, La forme courante de la fonction de score est :

s(d,q) =X

k

vk·s(dk,q) [3]

avecsla fonction de score sur le document,sla fonction de score sur une partie de d,vkle poids de lakepartie dedtel queP

vk= 1etqla requête.

En ce qui concerne les expériences décrites dans cet article, nous proposons deux fonctions de combinaison,RSV etRSV, qui sont définies ci-après oùq est une re- quête,Rank(d)le rang initial du documentdtel que déterminé initialement par le moteur de recherche documentaire,Sim(d,q)le score initial,N le nombre de docu- ments trouvés,LF une des deux mesures de Flesch (calculée à partir de la moyenne arithmétique des lisibilités de toutes les phrases le contenant) et enfinλun coefficient, dont la valeur optimale sera trouvée empiriquement, tel que06λ61:

RSV(d) = (1−λ)·

1−Rank(d) N

+λ·LF(d)

100 [4]

RSV(d) = (1−λ)·Sim(d, q) +λ·LF(d)

100 [5]

(8)

2.4. Impact sur la tâche de recherche documentaire ad hoc en anglais de TREC Nous avons testé cette combinaison (formules 4 et 5)6sur les données de la tâche ad hocde la campagne TREC-8 qui comprennent 50 requêtes (topics) et un corpus de 530 000 documents. Les documents ont été initialement ordonnés en utilisant le moteur de recherche Lucene à partir des champstitledestopics7.

Figure 1.Précision et lisibilité moyenne pour lesN = 10ouN = 20premiers do- cuments trouvés après réordonnancement en fonction de différentes valeurs du coeffi- cient de pondérationλ(premiers points à gauche :λ = 0; derniers points à droite : λ= 1). Sur les données de TREC-8, le meilleur compromis entre lisibilité et précision est obtenu pour la valeurλ= 0,2(ligne verticale)

L’évaluation d’un processus de recherche documentaire se fait généralement à l’aide des mesures de rappel et précision sur les mille premiers documents retournés.

Dans l’optique où l’utilisateur est en difficulté de lecture, l’évaluation est pertinente si elle concerne les vingt, voire les dix premiers documents retournés. Il est en effet connu que la plupart des utilisateurs du moteur de recherche Google ne dépassent que rarement les 2 premières pages de résultats. La figure 1 indique les taux de précision et de lisibilité moyenne obtenus sur les 10 et 20 premiers documents réordonnés en fonc- tion de différentes valeurs du coefficient de pondérationλ. Jusqu’à la valeurλ= 0,2, la précision ne diminue pas tandis que la lisibilité augmente. Au-delà de cette valeur, la chute de la précision est significative.

6. De façon générale, l’utilisation d’une addition plutôt que d’une multiplication entre les deux scores normalisés permet d’augmenter l’importance accordée à l’un des deux scores lorsque celui-ci est très élevé. Par exemple, si pour un documentd, les scores valent0,9et0,1et pour un autre documentd0,5et0,4, une addition permet de sélectionnerdavantdà l’inverse d’une multiplication.

7. Le moteur de recherche Lucene,http://lucene.apache.orgexploite simultanément le modèle vectoriel et le modèle booléen pour estimer la similarité des documents avec la requête.

(9)

Faisant l’hypothèse que la lisibilité d’un document est indépendante de la requête, il est naturel que sa prise en compte ne puisse pas, sauf dans des cas de pur hasard, entraîner une hausse de la précision : il n’y a pas de raison pour que les documents les plus lisibles soient les plus proches thématiquement de la requête. L’inverse étant également vrai (les documents les moins lisibles ne sont pas nécessairement les plus pertinents), nous nous attendions à ce que le réordonnancement des documents en fonction de la lisibilité reste neutre vis-à-vis de la mesure de précision. Lorsque la lisibilité est pondérée par un coefficientλfaible, le réordonnancement agit, vis-à-vis de la mesure de la précision, comme une redistribution locale et forcément limitée où l’espérance du gain en précision est quasi nul. Si la valeur λ est trop forte, le réordonnancement devient global et aboutit à redistribuer les documents pertinents dans un ensemble où ils sont minoritaires et donc à faire fortement chuter la précision.

L’expérience confirme cette hypothèse, mais au-delà de ces résultats, elle souligne une fois de plus le manque de pertinence... de la mesure de pertinence usuelle dans des conditions réelles : la prise en compte de la lisibilité entraînant de fait une hausse de la lisibilité des premiers documents trouvés (à condition bien sûr d’en accepter son bien- fondé), il est probable que l’utilisateur puisse trouver plus rapidement l’information recherchée, et donc, en ce sens, que les premiers documents soient plus pertinents qu’auparavant. Cela ne peut être pris en compte par la mesure de précision seule et devra être validé par des expériences interactives en conditions réelles. Pour cela, se reporter à la méthodologie expérimentée par les évaluations de la piste HARD durant les campagnes TREC ainsi qu’à (Chaudiron, 2004).

3. Amélioration de la lisibilité par sélection de passages et résumé automatique Une manière d’aider le lecteur est de retourner l’information sous forme plus condensée, en proposant une sélection de passages ou en réalisant un résumé, le plus lisible possible, du contenu des documents trouvés en fonction de la requête.

3.1. Utilisation de méthodes de segmentation thématique pour réduire la taille du texte à lire

En ciblant l’information recherchée à l’intérieur des documents, on peut réduire l’effort de lecture de l’utilisateur. De plus (Callan, 1994) suggère que la réduction des unités de traitement textuelles améliore la qualité des informations retrouvées.

De nombreux algorithmes ont été proposés pour segmenter un texte en segments cohérents de plus petite taille lorsque les démarcations en paragraphes de l’auteur ne sont pas disponibles, ou ne correspondent pas à la taille recherchée (Sitbonet al., 2004). Cependant étant donné l’efficacité relative de ces algorithmes, et vu que les limites de paragraphes sont disponibles dans les données de la campagne CLEF, nous nous sommes appuyés sur les paragraphes existants pour les expériences.

(10)

La première approche proposée est d’indexer les paragraphes comme s’ils étaient des documents à part entière. Les résultats de cette approche dans le tableau 1 montrent que les résultats sont fortement dégradés lorsqu’on réduit de cette façon les unités documentaires indexées. En effet la précision moyenne (MAP) ainsi que la précision des 10 ou 20 premiers documents subissent des dégradations significatives.

Unité de texte MAP P10 P20 Paragraphe 0,19 0,17 0,15 Document 0,31 0,23 0,17

Tableau 1.Précision moyenne (MAP) et précision au10erang (P10) et au20erang (P20) sur les requêtes courtes, avec une indexation par Lucene des documents com- plets ou des paragraphes considérés isolément (CLEF ad hoc français 2003)

Ces résultats suggèrent que l’index des documents est plus performant et donc qu’il serait plus raisonnable de le conserver. Cela n’empêche pas de remplacer les documents par leur paragraphe le plus pertinent (du moins celui ayant le score le plus élevé) dans les cas où l’index des paragraphes en valide la pertinence par rapport à la requête. En effet, on considère que si un paragraphe d’un document est aussi pertinent que le document en entier, c’est que la majorité de l’information pertinente du document est contenue dans ce paragraphe. Cette approche peut être combinée avec une sélection des documents les plus lisibles, en considérant qu’un paragraphe pris au lieu d’un document a une lisibilité supérieure.

Cette approche a été également évaluée sur les données de la campagne CLEF 2003, sans prise en compte de la lisibilité des documents complets (λ = 0) ou avec une prise en compte équivalente à l’intégration optimale calculée pour la recherche documentaire (λ = 0,3). Le tableau 2 contient la précision des 10 ou 20 premiers éléments retournés, leur lisibilité moyenne, ainsi que le nombre d’éléments trouvés se résumant à des paragraphes. Si un élément est un paragraphe, le document dont il est issu est utilisé pour l’évaluation. De plus, on lui confère une lisibilité maximale, qui reflète ici le gain considérable apporté par la réduction de la quantité de texte à lire et non la lisibilité moyenne des phrases.

λ N Précision à N Lisibilité Nombre de paragraphes

0 10 0,23 85,68 6,55

0 20 0,17 86,92 13,6

0,3 10 0,20 93,01 8,2

0,3 20 0,16 93,80 16,65

Tableau 2.Précision, lisibilité moyenne et nombre de paragraphes retournés parmi les N premiers éléments retrouvés, avec différentes valeurs du paramètreλpour la prise en compte de la lisibilité dans le classement des résultats (CLEF 2003)

(11)

Les résultats montrent qu’en remplaçant les documents contenant un segment de similarité supérieure par ce segment, et sans estimer la pertinence en fonction de la lisibilité, on aboutit à une faible perte de précision au regard de celle subie lors de l’indexation pure des segments introduite dans le tableau 1. Dans tous les cas, 50 % des documents contiennent suffisamment d’information pertinente dans un seul segment.

Dans une configuration où l’on prend en compte la lisibilité des documents com- plets (à hauteur de 30 %), on aboutit à 80 % de documents qui peuvent être référés par un segment aussi pertinent. La précision obtenue est à mi-chemin entre celle qui est obtenue en indexant uniquement les segments et celle qui est obtenue en ne prenant pas en compte la lisibilité.

3.2. Sélections des phrases les plus lisibles pour la génération du résumé

La campagne d’évaluation DUC8(Document Understanding Conference) est dé- diée au résumé automatique. Elle comporte une tâche de résumé multidocument orienté requête, ce qui correspond à une synthèse de l’information disponible et dis- tillée dans le corpus. Si cette tâche permet de faire ressortir des informations noyées dans des documents plus vastes, elle présente aussi l’avantage de réduire la quantité de texte à lire pour obtenir des informations. Les méthodes les plus efficaces dans ce domaine effectuent une extraction des phrases les plus pertinentes.

3.2.1. Génération de résumés orientés requête par MMR-LSA

Le système de résumé par extraction sur lequel nous nous appuyons (Favreet al., 2006) sélectionne une par une les phrases selon un critère qui maximise à la fois leur similarité à la requête et leur dissimilarité au résumé en cours d’élaboration et constitué des phrases précédemment sélectionnées. Ceci permet d’éviter une certaine forme de redondance dans les phrases extraites.

La sélection des phrases du résumé se fait en autant d’étapes que nécessaire pour parvenir au nombre de mots souhaités dans le résumé. La méthode MMR (Maximum Marginal Relevance) a été proposée par (Carbonellet al.,1998). A chaque étape, un algorithme glouton sélectionne la phrase qui maximise sa similarité avec la requête tout en minimisant sa similarité avec la moyenne des phrases déjà sélectionnées pour le résumé. L’algorithme 1 détaille le processus de sélection des phrases d’un résumé Rparmi l’ensembleP ={p1, ...pi, ..., pn}des phrases contenues dans les documents pertinents par rapport à la requêteq, préalablement retournés à l’aide d’un système de recherche documentaire. Les valeurs utilisées pourλpeuvent être déterminées de manière empirique. (Murrayet al.,2005) suggèrent de faire évoluerλen fonction du nombre d’itérations de l’algorithme. Nous avons choisi d’utiliser une normalisation de la distribution des similarités à chaque itération en leur imposant une moyenne nulle et une variance unitaire (standardisation des distributions).

8.http://duc.nist.gov/

(12)

Algorithme 1Sélection de phrases parMaximum Marginal Relevance tant que|R|< Kfaire

si|R|= 0alors

ajouter (R,argmaxpi∈Psim(q,pi)) sinon

ajouter (R,argmaxp

i∈PR¯(λsim(q, pi)−(1−λ)maxpj∈Rsim(pj, pi))) fin si

fin tant que

La notion de similarité suggère de placer les phrases dans un espace vectoriel à l’intérieur duquel il est possible de calculer des distances au sens vectoriel. Nous avons choisi de projeter les phrases vers un espace sémantique réduit à l’aide de l’analyse sémantique latente LSA (Deerwesteret al.,1990). Celle-ci permet de créer des classes de mots en fonction de leurs cooccurrences, et s’appuie sur une décomposition en valeurs singulières de la matrice de cooccurrences du corpus.

En employant une similarité de type cosinus, les phrases sont ordonnées au sein du résumé, mais l’on ne dispose pas de score de pertinence associé. En effet, la mesure utilisée à chaque étape par l’algorithme pour sélectionner la phrase la plus pertinente fournit un score uniquement par rapport au résumé existant à cet instant.

3.2.2. Evaluation

La campagne DUC en 2006 consistait à produire automatiquement des résumés d’une taille maximale de 250 mots à partir de thèmes de recherche sur le corpus AQUAINT (articles issus de l’Associated Press, du New York Times et de Xinhua New Agency). Elle s’apparentait ainsi à une tâche de type questions-réponses complexes.

Chaque thème (topic) était constitué d’untitreet d’unedescription. Par exemple le thème D0629B avait pour titreComputer viruseset pour descriptifIdentify computer viruses detected worldwide. Include such details as how they are spread, what ope- rating systems they affect, what damage they inflict, their country of origin, and their creators wherever possible.. Pour produire les résumés, les systèmes pouvaient s’ap- puyer sur une liste, fournie aux participants, de 25 documents pertinents par thème.

Les résumés ont été évalués à l’aide d’une mesure de comparaison entre lesn- grammes des résumés de référence (4 par requête, rédigés manuellement) et ceux pro- duits automatiquement. La mesure ROUGE-2 proposée par (Lin, 2004) se base sur la comparaison des bigrammes et est réputée comme étant la plus fiable parmi les me- sures d’évaluation automatique. Les résumés ont également été évalués manuellement selon leur qualité linguistique. Celle-ci tenait compte de critères de cohérence et de style mais n’avait pas pour objectif de mesurer la lisibilité au sens où nous l’entendons ici. Le système que nous avons fait concourir a été classé 5esur 34 selon la mesure Rouge-2 et 8epour sa qualité linguistique.

Etant donné que les données de DUC sont rédigées en anglais, nous avons choisi

(13)

0 0,02 0,04 0,06 0,08 0,1

0 20 40 60 80 100

Lisibilité (Flesch)

ROUGE-2

MMR-LSA + Lisibilité

meilleur système baseline

résumés manuels

!=0.3

Figure 2.Lisibilité et pertinence selon la mesure ROUGE-2 de résumés produits avec différentes valeurs delambdaentre 0 et 1. Les lignes horizontales correspondent au meilleur système de DUC et au système naïf. La ligne verticale indique la valeur de lisibilité (formule [1]) pour les résumés produits manuellement (évaluation DUC 2006)

n’est pas spécifique à la dyslexie. Et puisque notre système de résumé ne propose pas de score de pertinence au sens d’une mesure de similarité pour chacune des phrases sélectionnées, nous avons utilisé leur rang 4.

Le graphe de la figure 2 montre la corrélation entre les taux de lisibilité (calculés selon la mesure de Flesch) et les valeurs de la mesure ROUGE-2 pour les résumés produits avec différentsλ(4). Les lignes de référence sont les valeurs de ROUGE-2 pour le meilleur système de DUC 2006 d’une part et pour un système naïf d’autre part (résumé obtenu en sélectionnant le document le plus récent du corpus), ainsi que la valeur de Flesch pour les résumés de référence, produits manuellement. La courbe présente un point d’inflexion notable pourλ= 0,3, qui correspond également à la valeur optimale de prise en compte de la lisibilité obtenue précédemment en la recherche documentaire. Le gain de lisibilité est très important, puisqu’il est de près d’un tiers de l’échelle d’évaluation de Flesch. De plus, la lisibilité des résumés obtenus dépasse celle des résumés manuels. La figure 3 montre un exemple de résumé sur le thème des virus informatiquesproduit en prenant la lisibilité en compte avec cette valeur optimale (à droite), et le résumé produit pour le même thème sans prendre en compte la lisibilité (à gauche).

(14)

! = 0.0 - 10 sentences - 240 words - R = 26,9 ! = 0.3 - 19 sentences - 229 words - R = 58,5

The Melissa macro or W 97 M Melissa virus spreads via infected e mail and attacks computers loaded with Microsoft's widely used Word 97 or Word 2000 programs, according to CERT or Computer Emergency Response Team Carnegie Mellon's Department of Defense funded computer security team. Disguised as a list of pornographic Internet sites and allegedly named after a stripper David Smith once knew, Melissa is a macro virus, a document with a malignant computer program built in. When the software was downloaded, computer users infected other files on their hard drive. Zip virus, which enters machines in almost the same way as the recent Melissa virus by disguising itself as a friendly piece of e mail.

Melissa, as the new viral vixen was named by its creator as unknown combines elements of both a computer virus and a worm program. Melissa typically enters a computer hidden in a Microsoft Word 97 or Word 2000 file attached to an electronic mail message. Computer experts used unique identification numbers embedded in Microsoft Word documents to trace Melissa back to a well known virus writer who calls himself VicodinES. No matter how it arrives, Melissa can infect any computer that uses Microsoft Word, including Macintoshes. It generally gets into your computer by way of an attachment to an e mail.

Unlike the recent Melissa scare, which automatically propagated via e mail, this virus doesn't spread as quickly because it requires a person to launch an infected program file to contaminate a computer.

Zip began to spread. The new virus, named W 32 /Kriz. Zip on his computer. As the virus spreads, the file certainly will change. Chen did not come up with an anti virus program. If an infected program was sent in an e mail, the virus was passed on to the recipient. Since both Word and Outlook are so widely used, the Melissa virus spread with shocking speed. Gets in via e mail, floppies or downloaded software. Many were caught off guard by the amount of damage and said it was much worse than the Melissa virus.

Here are some recent viruses; all of them can be blocked by anti virus software. It generally gets into your computer by way of an attachment to an e mail. New viruses are being created all the time.

It is clear that the virus caused much damage. Bc CIR computer virus list NYT. Computer experts said Chen might not be charged because he did not intend to spread the virus. On the screens of infected computers when a user tries to open an MS Word file. The disk from the helpline would detect and remove more than 9400 other computer viruses. Zip is the third major bug to sweep across the Internet since March, when the Melissa virus overwhelmed systems with floods of e mail. A third virus, called Mad Cow Joke has appeared and works like Melissa, sending itself to 20 people in the victim's e mail address book.

Figure 3.Exemples de deux résumés sur le thème des virus informatiques, produits respectivement sans prise en compte de la lisibilité (colonne de gauche), et avec une lisibilité prise en compte avec un facteurλ= 0,3(colonne de droite)

4. Estimation automatique de la lisibilité pour des personnes dyslexiques 4.1. Vers une mesure de lisibilité adaptée aux dyslexies

Jusque dans les années 1970 la dyslexie était considérée comme un trouble visuel associé à la confusion de lettres ou de syllabes. Les recherches en psycholinguistique (Snowling, 2000) ont montré qu’il s’agit en réalité d’un dysfonctionnement des repré- sentations phonologiques qui est à l’origine de la dyslexie. Une des conséquences de cela est que les représentations mentales des liens entre les phonèmes (les sons parlés) et les graphèmes (les lettres ou groupes de lettres correspondants) sont dégradées. Du point de vue de la lisibilité, les correspondances graphèmes-phonèmes les plus com- plexes (comme le son « o » dansmanteauou le son « f » dansamphore) vont présenter une difficulté supplémentaire pour le lecteur. Une haute fréquence de ces difficultés mobilise les ressources attentionnelles du lecteur dyslexique qui perd des capacités de mémorisation à court terme, ce qui rend la compréhension de la phrase et du texte

(15)

plus difficile. Le niveau de complexité dans la correspondance graphèmes-phonèmes est ainsi un facteur important pour l’évaluation de la lisibilité. En réalité, il s’agit aussi de complexité mnésique, puisque ce sont les aspects qui influent sur la mémoire à court terme qui sont impliqués : la difficulté de correspondance, associée parfois à une difficulté de lecture directe (minimisant le rôle du découpage en phonèmes), engendre un risque plus élevé d’oubli des phonèmes précédemment identifiés.

La lisibilité est donc une caractéristique essentielle qu’un système de recherche d’information doit prendre en compte et ceci d’autant plus si l’utilisateur est dys- lexique. Une mesure de lisibilité orientée dyslexies peut s’inspirer de celles définies pour les normo-lecteurs et doit être adaptée à chaque utilisateur.

De nombreux types de dyslexies sont en effet recensés (et parfois contestés, ou du moins, discutés) qui touchent plus ou moins gravement certaines aptitudes de lecture.

Citons, en se référant aux différentes routes de la lecture reprises de (Southwoodet al.,1999) et illustrées par la figure 4 :

–la dyslexie dyseidétique(oudyslexie de surface) : lecture lente sans altération de la qualité de la compréhension au moins pour les mots réguliers (la faculté à lire des mots inconnus est plus ou moins atteinte et en tout cas très ralentie). Elle correspond à une perte de l’accès direct au sens (route A sur la figure 4). La route (C) est alors privilégiée : par exemplefemmeest lufèmet le mot peut alors ne pas être reconnu ;

–la dyslexie dysphonique: lecture à vitesse normale mais certains mots sont sub- stitués par d’autres sans altération profonde du sens (par exempleviandeest lu lorsque jambonest écrit). La route (A) est efficace contrairement à la route (B) ;

–la dyslexie phonologique: incapacité à prononcer de nouveaux mots ou des non- mots. La route (C) est déficiente. Cette forme de dyslexie est parfois associée à une aphasie voire à une difficulté à nommer les objets vus ;

–la dyslexie profonde: il s’agit d’une forme aggravée de dyslexie phonologique qui touche les trois routes (A), (B) et (C) et engendre une incapacité à lire des mots nouveaux (perte de la capacité à convertir des graphèmes en phonèmes), des erreurs sémantiques et phonétiques.

En lien avec les critères de lisibilité mentionnés dans la section 2, énonçons main- tenant quelques remarques autour de la dyslexie :

– si l’effet de fréquence est constaté chez une personne dyslexique comme chez un normo-lecteur,i.e.si les mots fréquents sont plus rapidement lus que les mots rares et ceci indépendamment des autres caractéristiques du mot telles que sa longueur, cela témoigne de la possibilité d’utiliser la voie lexicale (routes B et C) ;

– les effets de régularité graphèmes/phonèmes sont constatés aussi bien chez des personnes atteintes de dyslexie développementale que chez des normo-lecteurs. Au- trement dit, un mot régulier est toujours lu plus rapidement qu’un mot irrégulier ou encore qu’un non-mot. Cela signifie que si déficit phonologique il y a, la lecture peut tout de même se faire selon des voies différentes parmi les routes (A), (B) et (C) ;

(16)

Mot écrit

Lexique

"visuel"

Lexique phonologique

Système phonémique Système

sémantique Route lexicale

Route non lexicale

homophones

A B

C Règles de

conversion graphèmes-

phonèmes

Figure 4.Les différentes routes de la lecture experte permettant de passer du mot écrit à une séquence de phonèmes et à sa compréhension. Le modèle présenté ici est le mo- dèle dual route (A) et (C) étendu avec une troisième route (B). Il permet par exemple d’expliquer pourquoi certaines personnes ayant une voie directe (C) déficiente par- viennent à lire sans difficulté les mots fonctionnels du langage (mots outils) malgré leur représentation sémantique réduite

– la longueur des mots est un facteur plus important pour la personne dyslexique que pour un normo-lecteur ;

– les dyslexiques ditsprofondsont de grandes difficultés à identifier les mots abs- traits alors que les mots concrets sont lus correctement.

4.2. Apprentissage automatique et prédiction de la difficulté de lecture d’un texte 4.2.1. Une fonction de prédiction du temps de lecture

La dyslexie entraînant une capacité réduite à identifier les mots écrits, le nombre de motsdifficilesest augmenté par rapport à celui d’un normo-lecteur. Par ailleurs, la va- riabilité et la complexité des types de dyslexie est telle qu’il est inadapté de prédire la lisibilité d’un texte à partir des seuls critères de longueur moyenne des phrases ou des mots comme cela a été défini précédemment. Cela nous a incité à utiliser d’autres cri- tères tels que le nombre de lettres qui composent un mot, sa rareté dans le langage courant, sa catégorie morpho-syntaxique et sa cohésion graphème-phonème. Nous avons estimé cette dernière par le rapport entre le nombre de phonèmes et le nombre

(17)

de lettres dans le mot9. Elle permet de tenir compte du fait qu’un mot contenant des lettres muettes ou bien des phonèmes de plusieurs lettres (phvis-à-vis def seul) est plus complexe à lire qu’un mot pour lequel la correspondance graphème-phonème est bijective10. À partir de la définition de la complexité d’un mot, celle d’une phrase peut être estimée en fonction de la moyenne des complexités des mots qu’elle contient.

Afin de déterminer les coefficients à appliquer à chacun des critères retenus pour estimer la difficulté d’un mot, nous avons choisi d’entraîner un classifieur à partir des temps de lecture d’un ensemble de phrases lues par des enfants. Ces données ont été recueillies par une équipe de psycholinguistes conduite par S. Ducrot, du Labo- ratoire Parole & Langage (LPL) du CNRS et de l’Université de Provence, dans le cadre d’expérimentations sur le diagnostic de la dyslexie par l’empan perceptif (Lété et al.,2007). Neuf enfants pour lesquels le français est la langue maternelle ont dû lire vingt phrases d’une longueur de douze mots11. L’expérimentation a été conduite par l’intermédiaire d’un logiciel réalisé par des étudiants en Master Informatique sous la supervision de L. Sitbon et de P. Bellot. Les phrases ont été lues mot à mot (le passage d’un mot au suivant se faisant par activation d’une touche au clavier), ce qui a permis de mesurer des temps de lecture globaux et mot à mot. La lecture effective de chaque phrase a été validée par une épreuve visuelle de compréhension (l’enfant, après avoir lu chaque phrase, devait choisir l’image qui la représentait le mieux parmi deux).

En faisant l’hypothèse que le temps de lecture d’un mot ou d’une phrase est relié à sa difficulté, alors mesurer la lisibilité d’une phrase peut se ramener à prédire son temps de lecture. La première approche choisie pour cette évaluation sont les SVM (Support Vector Machines), pour leur capacité à travailler sur des faibles volumes de données. Les SVM projettent les données initiales dans un espace de plus grande di- mension jusqu’à trouver un hyperplan séparateur. La seconde approche est la régres- sion linéaire, choisie pour sa capacité à fournir une mesure transparente : une combi- naison linéaire des paramètres les plus discriminants. L’apprentissage des modèles a été réalisé à l’aide de l’environnement WEKA12(Wittenet al.,1999). Les temps de lecture des mots ont été normalisés pour chaque utilisateur sur une échelle allant de 0 à 100 (0 étant le temps de lecture normalisé du mot le plus vite lu et 100 celui du mot lu le plus longuement). A partir de là, les temps de lecture normalisés des phrases sont les moyennes des temps de lecture normalisés des mots les constituant. Aucune normalisation n’a été effectuée par rapport à la taille des phrases, car elles comportent toutes 12 mots, ni par rapport à la taille des mots eux-mêmes. Les paramètres utilisés sont ceux utilisés pour l’établissement de la lisibilité pour des normo-lecteurs dans le cadre d’autres expériences basées sur l’apprentissage, ainsi que ceux qui sont spéci- 9. Un niveau de consistance graphème-phonème est accessible pour les mots de la base de don- nées lexicales Manulex-Infra constituée de mots issus de manuels scolaires en français (Peere- manet al.,2007).

10. Dans le même ordre d’idées, il serait judicieux de considérer le fait qu’une lettre seule, par exemplec, peut correspondre à différents phonèmes. Cela n’a pas été fait dans les expériences décrites ici, où la cohésion n’est donc qu’une première approximation.

11. Par exempleLe chien de ma grand-mère aime beaucoup jouer avec mes chaussons.

.

(18)

fiques à la lecture de documents par des dyslexiques. La figure 5 illustre l’ensemble des données utilisées pour refléter les différents paramètres d’une phrase, avec des valeurs attribuées à chacun des paramètres.

La fonction de prédiction du temps de lecture que nous avons déterminée par ré- gression à partir des données d’apprentissage est définie par :

T emps(d) = 1,12×ADV −0,69×CON+ 6,48×COH+ 15,58 [6]

oùADV etCONsont le nombre d’adverbes et de conjonctions dansd(un texte), et COHexprime la cohésion graphèmes-phonèmes ded,i.e.le nombre de phonèmes de ddivisé par son nombre de lettres.

0

cohésion

fréquence

taille des mots

nombre de mots

syllabes

verbes adjectifs

adverbes noms communs

noms propres conjonctions

Figure 5.Dimensions paramétriques d’une phrase pour évaluer sa lisibilité 4.2.2. Evaluation de la qualité de la prédiction du temps de lecture

Des modèles sur la base de données communes à tous les utilisateurs ont été réa- lisés et évalués à l’aide d’une validation croisée. Le tableau 3 contient l’écart moyen entre les temps prédits par les classifieurs testés (SVM et régression linéaire) et les temps réels. Une comparaison est effectuée avec un classifieur naïf (l’algorithme Ze- roR affecte la valeur moyenne des données d’entraînement à toutes les données de test), et un classifieur aléatoire (qui affecte des valeurs aléatoires entre 0 et 100). Si l’on considère qu’une phrase est lue en approximativement 20 secondes, un écart de 2 points est de l’ordre du dixième de seconde. Les résultats du classifieur naïf montrent que les données utilisées sont très homogènes et centrées autour de la moyenne. Des résultats similaires avec les deux classifieurs testés suggèrent l’utilisation prioritaire de la régression linéaire étant donné qu’elle fournit une mesure transparente pour des

(19)

SVM Reg, linéaire Naif Aléatoire

mots 9,38 9,74 10,1 37,97

phrases 5,01 5,00 5,07 35,69

Tableau 3.Taux d’erreur dans la prédiction du temps de lecture de mots isolés ou de phrases (obtenus par validation croisée 10 plis) selon les classifieurs SVM ou régres- sion linéaire, un classifieur basé sur la moyenne des données disponibles (naïf) et un classifieur aléatoire

4.2.3. Une nouvelle mesure de lisibilité

Cette définition permet de définir une nouvelle mesure de lisibilitéLconsidérant à la fois les difficultés spécifiques aux personnes dyslexiques (fonctionT emps, formule [6]) et la lisibilité générique de Kandel (formule [2]) :

L(d) =T emps(d) + (100−LF rench(d))

2 [7]

Elle retourne une valeur entre 0 (pour un documentdidéalement lisible) et 100 (pour un documentdillisible). Des expérimentations avec des phrases de taille et de composition variables permettront de valider ou d’affiner ce choix.

4.3. Impact sur la tâche de recherche documentaire ad hoc en français de CLEF La campagne d’évaluation CLEF (Cross Language Evaluation Forum)13 fournit une référence en recherche documentaire francophone pour la tâchead hocmono- lingue. Cette tâche consiste à retrouver les documents pertinents pour 60 requêtes dans une collection d’environ 130 000 documents. La référence est construite par des vali- dations manuelles des résultats de plusieurs moteurs de recherche. Il y a en moyenne 16 documents pertinents par requête posée.

Nos expériences sont réalisées à partir des scores de similarité fournis par Lucene (avec ses paramètres par défaut) pour les données françaises de la campagne d’éva- luation CLEF 2003, en appliquant un score de lisibilité calculé à l’aide de la formule [6] précédemment établie pour des lecteurs dyslexiques.

Les résultats de l’application des deux formules d’intégration du paramètre de li- sibilité (formules 4 et 5) montrent sur les figures 6 et 7 que le calcul de la pertinence en fonction de la similarité permet d’augmenter la lisibilité sans dégrader la précision, jusqu’à un taux d’intégration de 30 % de la lisibilité. En revanche, le calcul de la perti- nence basé sur le rang initial des documents retournés par Lucene fait très rapidement chuter la précision des 10 premiers documents dès lors qu’on prend en compte la li- sibilité. L’augmentation de la lisibilité pourλ= 0,3dans le calcul à partir des scores

(20)

0 0,05 0,1 0,15 0,2 0,25

55 60 65 70 75

Lisibilité à N

Précision à N

N = 10 N = 20

!=0.3

!=0.3

Figure 6.Précision au rang N (10 ou 20) corrélée avec la lisibilité moyenne des N premiers documents, pour des résultats obtenus avec différentes valeurs delambda (formule [5], en utilisant le score fourni par Lucene pour les valeurs de similarité — campagne CLEF ad hoc français 2003)

0 0,05 0,1 0,15 0,2 0,25

55 60 65 70 75

Lisibilité à N

Précision à N

N = 10 N = 20

!=0.3

!=0.3

Figure 7.Précision au rang N (10 ou 20) corrélée avec la lisibilité moyenne des N premiers documents, pour des résultats obtenus avec différentes valeurs delambda

(21)

de similarité est assez faible mais significative. Etant donné que la pertinence n’est pas dégradée, on peut conclure que si elle est contrôlée, l’intégration de la lisibilité apporte une amélioration notable des résultats.

5. Perspectives et conclusion

La raison pour laquelle il est possible de réorganiser les données afin d’optimi- ser un critère orthogonal au besoin thématique est qu’il existe dans les cas étudiés suffisamment d’informations thématiquement pertinentes pour pouvoir sélectionner uniquement les plus lisibles. D’après les expériences menées sur la recherche docu- mentaire et le résumé automatique, nous avons montré qu’il était possible de prendre en compte la lisibilité pour 30% du score de pertinence sans pour autant fortement dégrader les performances.

Les expériences ont été réalisées sur des données en français et en basant l’éva- luation de la lisibilité sur la mesure élaborée pour des enfants dyslexiques. Des ex- périences similaires ont également été réalisées sur des données en anglais, avec la mesure de Flesch pour la lisibilité, en utilisant un outil de segmentation thématique.

Les résultats obtenus sont tout à fait similaires, ce qui tend à valider leur généricité.

De même, des expériences similaires ont été réalisées sur le résumé automatique en évaluant la lisibilité à l’aire de la mesure établie sur le français pour des personnes dyslexiques, ce qui amène des résultats identiques.

Cela dit, les problèmes de lecture (dyslexie) étant souvent couplés à des problèmes d’écriture (dysorthographie), les systèmes de recherche d’information doivent être adaptés en ce sens comme nous avons discuté dans Sitbonet al.(2007, 2008a, 2008b) en implémentant un système de réécriture de questions en langage naturel destiné à améliorer la robustesse des systèmes de RI.

En ce qui concerne les scores proposés, nous avons défini une combinaison li- néaire mais cela peut ne pas être la meilleure solution. D’abord car il a été montré que les différentes stratégies de classement internes peuvent interférer avec un tel choix et que d’autre solutions sont souvent préférables (Savoyet al.,1997). Ensuite, parce que la redondance des indices pris en compte dans chacun des scores peut entraîner une sélection déséquilibrée. Toutefois, les définitions de la lisibilité que nous avons utilisées tiennent compte d’indices qui ne sont pas liés à la fréquence d’apparition des mots dans les documents. Ainsi la combinaison linéaire du score de lisibilité avec une fonction de score BM25 ne fait pas perdre la non-linéarité vis-à-vis de la composante fréquentielle des mots dans les pondérations. Cependant, si l’on considère l’ensemble des critères de lisibilité envisagés (et non uniquement ceux que nous avons utilisés dans nos expériences), et donc la fréquence d’apparition des mots, cette propriété de non-linéarité serait mise à mal. En effet, un mot de la requête qui apparaîtrait plu- sieurs fois dans un document verrait cette quantité prise en compte deux fois dans le calcul du score, une fois pour la lisibilité et une fois pour la similarité BM25. Ainsi, il est possible qu’un document contenant plusieurs fois un même mot de la requête, et

(22)

uniquement celui-ci, soit préféré à un document qui contient deux mots de la requête.

Pour répondre à ce problème précis, (Robertsonet al.,2004) ont modifié la compo- sante fréquentielle plutôt que de combiner des scores qui, indépendamment les uns des autres, utilisent la fréquence réelle des mots. Si l’on estime par exemple qu’un mot qui apparaît 3 fois dans un document est 2 fois plus lisible qu’un mot qui n’appa- raît qu’une seule fois alors on modifie sa fréquence estimée en la multipliant par deux.

Une perspective intéressante réside donc dans la définition de fonctions de score qui préservent l’efficacité des mesures de typeokapitout en tenant compte de la lisibilité.

De manière générale, nous pourrons passer d’un processus qui enchaîne : 1) pondération des mots des documents et de la requête selon une approche type okapi/BM25 ;

2) calcul des scores de pertinence vis-à-vis de la requête des documents de la col- lection ;

3) calcul des scores de lisibilité des documents extraits de la collection à l’étape précédente ;

4) réordonnancement des documents en fonction des scores de pertinence et de lisibilité

vers un nouveau processus, incluant une rétro-action de pertinence améliorant simul- tanément la lisibilité et la pertinence des documents trouvés.

Selon un processus interactif, il serait possible d’associer à des requêtes, et par suite à des thématiques, des listes de documents que l’utilisateur aura trouvés non seulement pertinents mais égalementutilisables(lisibles) et ainsi définir des fonctions de score adaptées à chaque utilisateur.

Remerciements

Ce papier est une version augmentée de celui que nous avons présenté durant le congrès CORIA 2008. Nous tenons à remercier très sincèrement son comité scienti- fique ainsi que la fondation Métivier pour leur soutien apporté à nos travaux.

6. Bibliographie

Allan J.,Topic Detection and Tracking : Event-based Information Organization, vol. 12 ofThe Kluwer International Series on Information Retrieval, Kluwer Academic Publishers, 2002.

Bellengier E., Blache P., Rauzy S., « PCA : Un système de communication alternative évolutif et réversible »,ISAAC’04 (International Society for Augmentative and Alternative Commu- nication), Neuchâtel, Suisse, p. 78-85, 2004.

Bellot P.,Contributions en faveur d’une meilleure personnalisation de la recherche d’informa- tions - Applications à la tâche questions-réponses, à la recherche de documents audio et

(23)

à l’accessibilité pour des personnes dyslexiques, Habilitation à Diriger des Recherches - Université d’Avignon et des Pays de Vaucluse, 2008.

Berrut C., Denos N., « Filtrage collaboratif »,in, E. Gaussier, , M.-H. Stéfanini (eds),Assistance intelligente à la recherche d’informations, Hermès, Paris, p. 255-284, 2003.

Blache P., Rauzy S., « Le moteur de prédiction de mots de la Plateforme de Communication Alternative »,Traitement Automatique des Langues (TAL), vol. 48, num. 2, p. 47-70, 2008.

Boissière P., Dours D., « VITIPI : A universal writing interface for all »,6th ERCIM Workshop

"User Interfaces for All", 2000.

Boughanem M., Tmar M., Tebri H., « Filtrage d’information »,in, M. Ihadjadene (ed.),Mé- thodes avancées pour les systèmes de recherche d’informations, Hermès, Paris, p. 137-162, 2004.

Bruza P., Mc Arthur R., Dennis S., « Interactive Internet search : Keyword, directory and query reformulation mechanisms compared »,ACM-SIGIR 2000, ACM Press, p. 280-288, 2000.

Callan J., « Passage-Level Evidence in Document Retrieval »,Proccedings of the ACM/SIGIR Conference of Research and Development in Information Retrieval, p. 302-310, 1994.

Carbonell J., Goldstein J., « The use of mmr, diversity-based reranking for reordering docu- ments and producing summaries »,Proceedings of the 21st Annual International ACM SI- GIR Conference on Research and Development in Information Retrieval, Melbourne, Aus- tralia, p. 335-336, August, 1998.

Chaudiron S., « La place de l’usager dans l’évaluation des systèmes de recherche d’informa- tions »,in, S. Chaudiron (ed.),Evaluation des systèmes de traitement de l’information, Hermès, Paris, p. 287-310, 2004.

Chevalier M., Julien C., Soulé-Dupuy C., « Prise en compte de l’usager dans la recherche d’in- formation »,PeCUSI (Prise en Compte de l’Utilisateur dans les Systèmes d’Information), atelier de Inforsid 2007, Perros Guirec (France), p. 274-284, 2007.

Collins-Thompson K., Callan J., « Predicting reading difficulty with statistical language mo- dels »,Journal of the American Society for Information Science and Technology, vol. 56, num. 13, p. 1448-1462, November, 2005.

Coltheart M., Rastle K., Perry C., Langdon R., Ziegler J. C., « DRC : A Dual Route Cascaded model of visual word recognition and reading aloud »,Psychological Review, vol. 108, p. 204-256, 2001.

Deerwester S., Dumais S. T., Furnas G. W., Landauer T. K., Harshman R., « Indexing by Latent Semantic Analysis »,Journal of the American Society for Information Science, vol. 41, num. 6, p. 391-407, 1990.

Dehaene S.,Les neurones de la lecture, Odile Jacob, Paris, 2007.

Dickinson A., Gregor P., Newell A. F., « Ongoing investigation of the ways in which some of the problems encountered by some dyslexics can be alleviated using computer techniques », 2002. 638268 97-103.

Ducrot S., Nguyen N., « Special Issue on Language Disorders and Reading Acquisition : In- troductory Remarks »,Current Psychology Letter (CPL), Behaviour, Brain and Cognition, Special Issue on Language Disorders and Reading Acquisition, 2003.

Fairweather P., Hanson V., Detweiler S., Schwerdtfeger R., « From Assistive Technology to a Web Accessibility Service »,ACM-Assets 2002, ACM-Press, Edinburgh, Scotland, p. 4-8, 2002.

(24)

Favre B., Béchet F., Bellot P., Boudin F., El-Bèze M., Gillard L., Lapalme G., Torres-Moreno J.-M., « The LIA-Thales summarization system at DUC-2006 »,Proceedings of Document Understanding Conference (DUC-2006), New York, USA, June, 2006.

Ferrand L.,Psychologie cognitive de la lecture. Reconnaissance des mots écrits chez l’adulte., Ouvertures psychologiques, de Boeck, Bruxelles, Belgique, 2007.

Flesch R., « A new readability yardstick »,Journal of applied psychology, vol. 32, p. 221-233, 1948.

Ingwersen P., Belkin N., « Information retrieval in context - IRiX : workshop at SIGIR 2004 - Sheffield », SIGIR Forum, vol. 38, num. 2, p. 50-52, 2004.

http ://doi.acm.org/10.1145/1041394.1041405 ACM.

Kandel L., Moles A., « Application de l’indice de flesch à la langue française »,The journal of educationnal research, vol. 21, p. 283-287, 1958.

Kane L., Carthy J., Dunnion J., « Readability Applied to Information Retrieval »,Proceedings of the European Conference on Information Retrieval (ECIR), London, England, p. 523-526, 2006.

Lalmas M., Tombros A., « Evaluating XML Retrieval Effectiveness at INEX »,SIGIR Forum (ACM Press), vol. 41, num. 1, p. 40-57, 2007.

Lennon C., Burdick H., « The Lexile Framework as an Approach for Reading Measurement and Success », electronic publication on www.lexile.com, April, 2004.

Lillis D., Toolan F., Collier R., Dunnion J., « ProbFuse : a probabilistic approach to data fu- sion »,Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, ACM, Seattle, Washington, USA, p. 139-146, 2006. 1148197.

Lin C.-Y., « ROUGE : a Package for Automatic Evaluation of Summaries »,Proceedings of WAS, 2004.

Lété B., Ducrot S., « La perception du mot écrit chez l’apprenti lecteur et l’enfant dyslexique : Evaluation en fovea et en parafovea »,in, E. Demont, , J.-E. Gombert, , M. N. Metz-Lutz (eds),Acquisition du langage : approche intégrée, SOLAL, p. 125-172, 2007.

Mizzaro S., « Relevance : the whole history »,Journal of the American Society for Information Science, vol. 48, num. 9, p. 810-832, 1997.

Morton J., « Interaction of information in word recognition »,Psychological Review, vol. 76, p. 165-178, 1969.

Murray G., Renals S., Carletta J., « Extractive summarization of meeting recordings »,Procee- dings of Eurospeech 2005, Lisboa, Portugal, p. 593-596, September, 2005.

Ogilvie P., Callan J., « Combining document representations for known item search »,26th ACM SIGIR Conference on Research and Development in Information Retrieval, ACM, 2003.

Peereman R., Lété B., Sprenger-Charolles L., « Manulex-Infra : Distributional characteristics of grapheme-phoneme mappings, infra-lexical and lexical units in child-directed written material »,Behavior Research Methods, vol. 39, num. 3, p. 579-589, 2007.

Petersen S. E., Ostendorf M., « Assessing the Reading Level of Web Pages »,Proceedings of Interspeech 2006 - ICSLP, Pittsburgh, Pennsylvania, p. 833-836, September, 2006.

(25)

Piwowarski B., Gallinari P., « A machine learning model for information retrieval with struc- tured documents »,in, P. Petner (ed.),Machine Learning and Data Mining in Pattern Recognition (MLDM’03), Springer-Verlag, Leipzig, p. 425-438, 2003.

Rey V., Sabater C., de Cormis C., « Un déficit de la conscience morphologique comme prédic- teur de la dysorthographie chez l’enfant présentant une dyslexie phonologique »,Glossa, num. 78, p. 4-20, 2001.

Robertson S., Zaragoza H., Taylor M., « Simple BM25 extension to multiple weigh- ted fields », Proceedings of the thirteenth ACM international conference on Infor- mation and knowledge management, ACM, Washington, D.C., USA, p. 42-49, 2004.

http ://doi.acm.org/10.1145/1031171.1031181.

Rossignol C.,Inadaptation, Handicap, Invalidation ? Histoire et étude critique des notions, de la terminologie et des pratiques dans le champ professionnel de l’Éducation spéciale., Doc- torat d’état : Université Louis Pasteur - Strasbourg I - Presses Universitaires du Septentrion, 2001.

Savoy J., Calvé A., Vrajitoru D., « Report on the TREC-5 experiment »,TREC-5, NIST Special Publication, p. 489-502, 1997.

Scott N., Galan J., « The Total Access System »,1998 CSUN Conference, 1998.

Seidenberg M., McClelland J., « A distributed developmental model of word recognition and naming »,Psychological Review, vol. 96, p. 523-568, 1989.

Si L., Callan J., « A statistical model for scientific readability »,Proceedings of CIKM’01, Atlanta, USA, p. 574-576, 2001.

Sitbon L., Bellot P., « Adapting and comparing linear segmentation methods for french. », Proceedings RIAO’04, Avignon, France, 2004.

Sitbon L., Bellot P., « How to cope with questions typed by dyslexic users »,Proceedings of the second workshop on Analytics for noisy unstructured text data (AND at SIGIR 2008), ACM, Singapore, 2008a. 1390752 1-8.

Sitbon L., Bellot P., Blache P., « Phonetic based sentence level rewriting of questions typed by dyslexic spellers in an information retrieval context »,Interspeech 2007, Antwerpen (Belgique), 2007.

Sitbon L., Bellot P., Blache P., « Evaluating Robustness of Question Answering System through a Corpus of Real-Life Questions »,6th edition of the Language Resources and Evaluation Conference (LREC 2008), Marrakech (Maroc), 2008b.

Snowling M. J.,Dyslexia, Blackwell, 2000.

Southwood M. H., Chatterjee A., « Simultaneous Activation of Reading Mechanisms : Evidence from a Case of Deep Dyslexia »,Brain and Language, vol. 67, num. 1, p. 1-29, 1999.

Sprenger-Charolles L., Colé P.,Lecture et dyslexie - Approche cognitive, Dunod, Paris, 2003.

Vogt C. C., Cottrell G. W., « Fusion Via a Linear Combination of Scores »,Information Retrie- val, vol. 1, num. 3, p. 151-173, 1999.

W3C, « How People with Disabilities Use the Web », 2001.

Witten I. H., Frank E.,Data Mining : Practical Machine Learning Tools and Techniques, Mor- gan Kaufmann, San Francisco, 1999.

Wolfe M., Schreiner M., Rehder B., Laham D., Kinstch W., Landauer T., « learning from text : matching readers and texts by latent semantic analysis »,Discourse Processes, vol. 25, p. 309-336, 1998.

(26)

Références

Documents relatifs

Le fait que I est engendré par deux éléments ne prouve absolu- ment pas qu’il n’est pas principal.. On peut écrire des représentants sous forme de matrices com- pagnon sur R ou

Même si peu d’élèves y ont eu recours (moins de la moitié des élèves et parfois quelques-uns seulement), on ne peut les ignorer car elles sont des indices du fonctionnement

Score i2 &gt;5 aphtous lesions with normal mucosa between the lesions, or skip areas of larger lesions or lesions confined to the ileocolonic anastomosis (i.e. &lt;1 cm in

www.lutinbazar.fr www.lutinbazar.frwww.lutinbazar.fr.. Mes

On reprend la fonction précédente, en la transformant de manière à tracer n'importe quel polygône régulier, dont le nombre de côtés et la longueur des côtés sont passés

[r]

[r]

[r]