Fragmentation et enrichissement de textes scientifiques sous forme électronique

(1)

scientifiques sous forme électronique

Sylvie Lainé-Cruzel — Eric Guinet

Laboratoire Recodoc – Université Claude Bernard Lyon 1 43, boulevard du 11 Novembre – Bâtiment 721

69 622 Villeurbanne cedex [email protected]

RÉSUMÉ. Les documents scientifiques électroniques sont fortement structurés dans leur organisation discursive par des contraintes rédactionnelles non totalement explicitées. Nous présentons ici une méthode exploratoire visant à développer une expertise dans la reconnaissance d’indices textuels et d’indices de mise en forme caractéristiques d’une revue ou d’un type de support. Cette expertise sera exploitée à des fins d’identification d’éléments utiles pour caractériser le document au travers de métadonnées exploitables par des non- spécialistes du domaine (profession de l’auteur, communauté de l’auteur…) et pour permettre le repérage de fragments caractéristiques du discours scientifique sur des critères non relatifs aux thèmes abordés dans les documents (résumé, objectif du travail, présentation de la méthode, expérimentation…). Le découpage et l’enrichissement sont réalisés par le couplage d’une méthode d’analyse statistique de données textuelles (Alceste) qui identifie des indices textuels et les structures en classes stables, et d’une analyse de la structure logique des documents.

ABSTRACT. Electronic scientific documents are strongly structured in their discursive organization by editorial constraints not completely clarified. We present here an exploratory method aiming at developing an expertise in the recognition of textual indices, and indices incoming from the layout of a review or a type of support. This expertise will be exploited at ends of identification of useful elements to characterize the document through metadata exploitable by non-specialists of the field (profession of the author, community of the author...) and to allow the location of fragments characteristic of the scientific speech, on criteria not relating to the topics of the documents (abstract, objective of work, presentation of the method, experimentation...) Cutting and enrichment are carried out by the coupling of a method of Statistical Analysis of Textual Data (Alceste) which organizes in stable classes the textual indices located, and of an analysis of the logic design of the documents.

MOTS-CLÉS : information scientifique et technique, document électronique, structure logique, découpage, indexation non thématique, métadonnées, analyse de données textuelles.

KEY WORDS : scientific information, electronic document, logic design, non thematic indexing, metadata, textual data analysis.

(2)

1. Introduction : contexte et objectifs du travail

L’objectif de notre réflexion est globalement, dans le contexte actuel de surabondance d’informations scientifiques électroniques disponibles, celui d’une amélioration de la précision des réponses.

Cette amélioration passera, entre autres, par un affinement des réponses réduisant le volume d’informations renvoyées. Lorsqu’un document est pertinent, l’ensemble de son contenu est-il toujours indispensable ? Il est probable, surtout quand le document est volumineux, que l’utilisateur sera souvent satisfait par l’information qu’il trouvera dans un fragment du document, ou du moins qu’un fragment du document lui suffira pour décider s’il souhaite ou non se livrer à une lecture intégrale du document.

Le projet Profildoc mené au sein de l’équipe Recodoc de l’Université Lyon 1 a pour objectif de vérifier l’intérêt et la faisabilité d’un système de recherche d’informations personnalisé, dans lequel on souhaite améliorer la précision des réponses en fonction de caractéristiques propres à l’utilisateur, relatives à ses compétences et à l’activité dans le cadre de laquelle il mène sa recherche d’informations.

Il s’agit d’un projet exploratoire relevant des sciences de l’information, dont la structure générale [LAI 96] est la suivante :

– Composante 1 : Enrichissement des documents. Préalablement à toute recherche, les documents scientifiques seront fragmentés selon leur structure discursive, de manière à tenir compte des modes d’exposition relativement normalisés qu’utilisent les auteurs scientifiques dans la présentation de leurs travaux. Les fragments découpés sont enrichis par des métadonnées décrivant à la fois le contexte de production et de diffusion du document (quel type d’auteur, quel type d’article, etc.) et les caractéristiques de rédaction propres au fragment (modes d’exposition).

– Composante 2 : Prise en compte de la demande de l’utilisateur. Celle-ci est décomposée en deux aspects : la requête, qui est construite classiquement sur des critères thématiques relatifs au sujet de la recherche, et le profil de l’utilisateur, qui décrit ses compétences et les caractéristiques de la tâche qui le conduit à chercher de l’information.

– Composante 3 : Construction d’un processus d’aiguillage mettant en correspondance un faisceau de caractéristiques identifiées dans le profil de l’utilisateur, et un faisceau d’attributs relatifs aux fragments documentaires, décrits dans les métadonnées. L’aiguillage intervient alors en complément de la recherche thématique mise en jeu par la requête.

– Composante 4 : Mise à disposition de l’ensemble des informations retrouvées et des informations connexes potentiellement utiles, au travers d’une interface de navigation.

(3)

Un tel dispositif doit dans un premier temps faire la preuve de sa faisabilité et de son intérêt. De multiples questions préliminaires doivent être éclaircies : quels seront les attributs à associer aux fragments documentaires, qui seront à la fois significatifs pour des recherches personnalisées prenant en compte l’activité en cours, et identifiables dans les documents ? Quels éléments est-il pertinent de prendre en compte dans un profil d’utilisateur, qui soient à la fois faciles à renseigner par l’utilisateur et qui vont efficacement l’orienter vers des fragments significativement différents ? Comment peut-on traiter l’aiguillage, qui fait correspondre des éléments de profils et des caractéristiques de fragments ? etc.

Une des composantes essentielles dans le processus est la composante 1, concernant le pré-traitement et l’enrichissement des documents numériques. Nous avons à l’heure actuelle vérifié la faisabilité des autres composantes, et en particulier que l’ensemble du processus dotait le système de la capacité à réagir de manière personnalisée, avec une puissance de filtrage adaptable à la demande [MIC 99].

Cependant, pour réaliser les tests sur les autres composantes, nous avons jusqu’à présent réalisé manuellement l’étape d’enrichissement des documents.

Cette étape manuelle a été réalisée sur des documents imprimés (indépendamment des formats et des structures de fichiers mis en jeu) par des groupes d’experts du projet suivant leurs principes de traitement des documents.

Une expertise a rapidement été développée au sein du groupe de travail. Elle s’est exprimée par la stabilité inter-individuelle des découpages effectués au sein du groupe, par la stabilité des métadonnées affectées aux différents fragments, et par la rapidité du traitement humain (temps de traitement moyen pour un article : entre 3 et 5 minutes). Nous avons ainsi développé une expertise indépendante des domaines couverts par les documents (dont l’examen reste très superficiel). Cette expertise a confirmé la présence d’éléments réguliers dans les méthodes d’exposition des travaux scientifiques. Elle a d’autre part mis en évidence la possibilité pour un être humain d’identifier des fragments ayant un objectif spécifique, en combinant des informations issues d’indices textuels sans rapport avec le thème abordé dans le document, [BIB 96], et d’indices relatifs à la mise en page du document.

La réalisation de systèmes ayant une telle « philosophie » implique que le travail d’enrichissement des documents puisse être au moins partiellement automatisé, ou, à tout le moins, assisté informatiquement¹.

1. Par ailleurs, dans [LAI 99], nous défendons l’idée que la compétence des professionnels de l’information et de la documentation pourrait progressivement s’orienter dans de nouvelles directions : si pendant longtemps elle a eu trois orientations principales (indexation, catalogage, médiation entre utilisateur et système), les évolutions des systèmes modifient le positionnement des acteurs humains. L’indexation et l’analyse du contenu des textes sont progressivement pris en charge (quoique de façon non totalement satisfaisante) par les systèmes informatiques, le catalogage est partagé et les notices sont accessibles dans des réservoirs d’informations, et la médiation devient moins systématique. Par contre, le besoin d’une valeur ajoutée sur l’information stockée, sous la forme d’une appréciation relative aux

(4)

Le problème que nous avons tenté de traiter et qui est décrit dans le présent article concerne les questions suivantes :

– l’expertise que peut développer un être humain dans l’identification de parties de document caractéristiques de l’exposition d’un travail scientifique (situation du problème, présentation du contexte, présentation de la méthode, expérimentation, résultats, discussion, bibliographie, etc.) peut-elle être acquise par un système informatique, et si oui, par quel type de démarche ?

– l’expertise que peut développer un être humain dans la caractérisation d’un contexte de production et de diffusion de documents (type d’auteur, type d’article, etc.) peut-elle être acquise par un système informatique, et si oui, par quel type de démarche ?

Nous proposons ici une méthode de type exploratoire, visant à valider notre hypothèse d’une faisabilité au moins partielle, et tenterons de voir à quel prix et dans quelles conditions elle pourrait être mise en œuvre.

2. Structure des documents scientifiques électroniques

Les documents scientifiques et techniques sont de plus en plus accessibles sous des formats électroniques qui permettent de leur associer une structure logique.

Mais de quelle structure logique s’agit-il ?

2.1. Production d’un document structuré : le point de vue de l’auteur

Au niveau de la production des textes, la structure logique est celle qui a été déterminée par l’auteur du document. Cette structure logique est contrainte par un certain nombre de principes de lisibilité et de cohérence. Elle se manifeste par des règles de rédaction qui normalisent le discours, et le développent dans une forme arborescente parcourue de manière linéaire. Les documents peuvent être directement élaborés avec des feuilles de style (ou tout autre moyen permettant d’affecter des niveaux de profondeur à chaque partie du texte, habituellement associé aux logiciels de traitement de texte), hiérarchisant le texte en parties, elles-mêmes constituées de sous-parties pouvant elles-mêmes être découpées en sous-sous parties, etc.

A un niveau moins formel mais plus conceptuel, l’auteur sera contraint par des principes de rédaction qui guideront l’exposé de sa démarche. Ces méthodes d’exposition ont été en particulier décrites par les plans-types caractéristiques des travaux en sciences expérimentales, plans OPERA, IMRED… [ROM 96].

futurs usages ou de la synthèse d’une collecte collaborative d’appréciations relatives à des usages déjà réalisés, se fait fortement sentir. C’est là que l’intelligence humaine est encore irremplaçable à l’heure actuelle, et pourrait l’être pour longtemps.

(5)

L’ensemble de ces contraintes rédactionnelles, formelles et conceptuelles, doteront les discours scientifiques « légitimés » (publiés et validés par la communauté scientifique) de caractéristiques très particulières qui les rendront aisément identifiables (l’article parodique de Georges Perec intitulé

« Démonstration expérimentale d’une organisation tomatotopique chez la cantatrice² » en est une excellente illustration.) D’autres discours scientifiques (supports de cours, rapports…) adopteront des caractéristiques similaires ou dérivées [KIR 98], [OUE 99].

2.2. Utilisation directe de la structure : le point de vue éditorial

La structure a actuellement pour objectif principal l’affichage ou l’impression du document, et est rarement utilisée à d’autres fins (sauf en ce qui concerne quelques métadonnées, et l’utilisation de balises de liens logiques pour la navigation). En particulier, dans un environnement internet, elle permettra d’associer à des balises retranscrivant les niveaux de profondeur, des indications de mise en page et de typographie du document. (Avec une telle représentation, le titre d’un fragment textuel sera balisé indépendamment du fragment textuel auquel il se rapporte.)

La fonction d’affichage est d’ailleurs le facteur essentiel qui guidera la production du texte du point de vue de son formatage. Toute portion du texte nécessitant une mise en page ou une typographie particulière, telle que l’affichage d’un mot en italique à l’intérieur d’un paragraphe, sera identifiée par des balises. Le système de balisage décrira ainsi le texte à un niveau de profondeur très variable, souvent peu homogène (d’un texte à l’autre, mais aussi à l’intérieur d’un même texte) et quelquefois extrêmement fin (pouvant descendre parfois jusqu’au niveau du mot).

L’utilisation d’un format tel que XML permettra d’avoir d’autres utilisations de la structure : l’élaboration d’une DTD pourra permettre de décrire de manière significative les caractéristiques générales d’organisation et de positionnement de parties de documents. C’est dans la feuille de style associée que se trouveront l’ensemble des informations permettant la mise en forme du document à l’écran.

2.3. Usage du document et granularité : le point de vue du lecteur/usager

Si nous souhaitons utiliser la structure logique des documents scientifiques électroniques en vue d’une fragmentation du document, d’autres contraintes vont apparaître qui seront liées à l’usage du document. A quel niveau de découpage faut- il descendre pour proposer à l’utilisateur des fragments textuels qui soient à la fois porteurs d’un sens (compréhensibles, donc pas trop courts) et exploitables (donc pas

2. G. Perec, « Cantatrix Sopranica L. et autres écrits scientifiques », Editions du Seuil, La librairie du XXe siècle, 1991.

(6)

trop longs) ? Comment définir une granularité de l’information textuelle, qui permette d’extraire des fragments élémentaires et suffisants ?

La première partie de notre travail a consisté à définir des critères de découpage des documents, dont les principes généraux sont les suivants :

– une unité documentaire doit avoir une autonomie d’usage : elle doit pouvoir être comprise sans recours au cotexte, indépendamment des autres unités documentaires constitutives du document (contrainte d’autonomie) ;

– la taille d’une unité documentaire est comprise dans l’intervalle suivant : au minimum un paragraphe de texte, au maximum quelques pages écran (contrainte ergonomique) ;

– une unité doit être respecter la structuration choisie par l’auteur (parties, chapitres, sous-chapitres, paragraphes…) et donc respecter la structuration thématique que l’auteur aura choisi de mettre en valeur au travers de son plan (contrainte de cohérence).

2.4. Structure logique et organisation physique : le point de vue informatique L’information pourra être répartie physiquement dans un certain nombre de fichiers, à différents formats. Un document scientifique peut ainsi se matérialiser au travers d’un ensemble de fichiers, son intégralité n’étant restituée que par l’image qu’en propose un navigateur qui reconstitue les liens entre fichiers.

Dans la pratique, l’éparpillement de l’information dans des fichiers différents a des raisons multiples :

– le document peut être multimédia : des images, des sons ou des séquences vidéo seront stockés dans des fichiers supportant des formats adaptés ;

– le document peut englober des portions de textes provenant d’autres documents (liens d’incrustation) ;

– le document peut avoir été constitué par l’accumulation d’informations créées à différentes époques, ou provenant de différents auteurs ;

– l’éparpillement peut avoir été adopté par rapport à des choix ergonomiques relatifs aux méthodes navigationnelles (frames, etc.).

Rien ne permet de présumer qu’une information isolée dans un fichier constitue une unité d’information dont la granularité est satisfaisante. Une image stockée dans un fichier ne satisfait pas à la contrainte d’autonomie si elle n’est pas associée à sa légende (nom de la figure) ou, parfois, s’il est présent et isolable dans l’article, à son commentaire. Un fragment d’information peut être isolé parce qu’il a été composé avec un logiciel particulier (par exemple, PréAO) sans constituer pour autant une entrée spécifique dans la table des matières de l’auteur.

(7)

Corps de l’article

Résumé anglais

Références bibliographiques

Figure 1

Tableau 2 Tableau 1

Texte encadré

Figure 1. Exemple d’organisation des fichiers

Il est donc nécessaire, avant tout découpage, de reconstituer le fil de l’information, et en particulier de re-linéariser le texte du document. Nous appellerons « re-linéarisation » l’opération qui consiste à redonner à l’ensemble des informations contenues dans l’article une structure séquentielle telle qu’elle pourra être exploitée par le lecteur. Dans cet article, nous appellerons « fil de texte » le résultat ainsi obtenu.

3. Indexation et découpage

3.1. Pourquoi lier les deux questions

En choisissant le critère de cohérence interne (homogénéité et autonomie) comme fil conducteur de notre processus de découpage (le fragment isolé aborde un aspect particulier caractéristique de l’exposition d’un travail scientifique), nous lions de manière forte la question de l’indexation et celle de la fragmentation. Un fragment significatif est un fragment préservant une unité sémantique (telle que l’auteur du document aura choisi de la mettre en valeur au travers de son plan de présentation), et dont la portée est suffisante pour que l’idée (le concept, l’objet, le processus décrit) y soit examinée complètement, ou, à tout le moins, d’une manière suffisamment approfondie pour que le fragment puisse être autonomisé.

(8)

La question du découpage est donc intimement liée à la question de l’identification des concepts évoqués. Ceux-ci doivent être significatifs (il ne faudrait pas organiser le découpage du texte par rapport à des thèmes qui ne seraient qu’évoqués de manière anecdotique) mais suffisamment précis pour que le découpage permette d’extraire des fragments plus réduits et plus exploitables que le document initial.

Nous exprimerons la condition de cohérence en disant qu’une unité découpée est stable du point de vue de ce dont elle traite, et donc que son indexation sera homogène. Elle sera constituée au minimum d’une unité d’information élémentaire (paragraphe). Dans les autres cas, elle sera constituée :

– soit d’une unité d’information non élémentaire (sous-partie, partie) ;

– soit d’une succession d’unités d’informations consécutives au même niveau de profondeur.

Exemple (extrait de ACM Computing Surveys, June 1998, vol. 30, n° 2, p. 174-179) 1. Introduction (p. 170-172)

2. Organization of spatial data (p. 172-180)

L’unité 2 est trop longue et doit être fragmentée. Examinons sa structure interne :

2. Organization of spatial data

2.1 What is special about spatial ? (p. 172-174) 2.2 Definitions and queries (p. 174-179)

L’unité 2.1 est homogène du point de vue de sa forme. Sa longueur est satisfaisante. L’unité 2.2 est trop longue.

A la lecture, elle est constituée de deux parties distinctes. La première est rédigée dans un style littéraire : elle ne contient ni formules ni langage formel. Constituée d’une succession de paragraphes, elle explicite les concepts associés aux informations spatiales. La deuxième partie comporte une énumération de 9 questions caractéristiques. Chaque question est présentée sur plusieurs paragraphes.

Chaque question commence par « Query », son numéro et un libellé, en italique.

A la suite du même paragraphe, on trouve du texte non italique. Puis un nouveau paragraphe décrit le formalisme syntaxique de la question. Parfois, plusieurs paragraphes textuels, de quelques lignes chacun, suivent, et commentent ou précisent la portée de la question.

Par ailleurs, des figures sont disposées dans la page pour illustrer les questions.

Intuitivement, il est logique de découper le fragment 2.2 en deux parties, l’une concernant des définitions générales, l’autre concernant les 9 exemples de questions caractéristiques. La prise de décision humaine sera fondée sur une cohérence intrinsèque de toute la partie qui concerne l’exposé des 9 questions. Mais aucune

(9)

indication directement repérable (telle qu’un découpage à un niveau 2.2.1, puis 2.2.2) n’est observable.

Une prise de décision sans intervention humaine devra donc se fonder sur la régularité et la cohérence des attributs de forme de la deuxième partie, très différente dans sa présentation de la première.

3.2. Nature et statut de l’expertise que nous souhaitons faire émerger

Nous souhaitons enrichir les documents scientifiques sur support numérique par l’ajout d’informations (fragmentation et caractérisation) que seul un expert humain peut actuellement incorporer. Cette expertise est un savoir-faire qui s’acquiert par la pratique, mais que nul actuellement ne sait expliciter. Notre démarche consiste donc à chercher des traces de surface communes à un ensemble de documents ayant la même origine, puis à formaliser des règles à partir de ces traces de surface.

L’expertise ainsi collectée est généralisable à deux points de vue :

– l’expertise construite sur une revue pourra être appliquée à l’ensemble des articles de cette revue ;

– l’expertise développée sur un certain type d’article (états de l’art, articles primaires, supports de cours…) pourra probablement être au moins partiellement transposée lorsque l’on analysera des articles provenant de sources différentes ou traitant de domaines disciplinaires différents.

4. Indexation : de multiples points de vue sur le contenu 4.1. Définition de l’indexation

Qu’entend-on exactement par indexation ? Le dictionnaire encyclopédique de l’information et de la documentation (Nathan, 1997) l’exprime en disant :

« l’indexation a pour but de faciliter l’accès au contenu d’un document ou d’un ensemble de documents à partir d’un sujet ou d’une combinaison de sujets (ou de tout autre type d’entrée utile à la recherche. »

Cette proposition de définition, ainsi que d’autres tout aussi vastes, rend floue la frontière qui sépare le catalogage et l’indexation. Une notice bibliographique contiendra, outre ses descripteurs, de multiples éléments qui pourront être utilisés comme des critères d’accès à un document ou à un ensemble de documents : le titre de la revue, le nom de l’auteur, la langue du document…

Mais l’idée d’indexation englobe habituellement le principe d’un langage de représentation du contenu adoptant une forme normalisée, et celui d’une sémantique. Il s’agit à la fois d’identifier des sèmes significatifs, et de leur trouver une représentation exploitable lors d’une recherche.

(10)

Un nom d’auteur ne peut plus alors être considéré comme un produit de l’indexation :

– un nom d’auteur n’est porteur en lui-même d’aucune référence sémantique immédiate, consensuelle et symbolique, même si dans l’esprit de ceux qui connaissent l’auteur ou ses écrits, le nom peut être associé à tout un réseau conceptuel individualisé ;

– un nom d’auteur n’appartient pas à un langage documentaire normalisé (au sens où il serait constitué d’une liste close de termes).

Une recherche par nom d’auteur ne peut être effectuée que par quelqu’un pour qui ce nom d’auteur est significatif, cette signification n’ayant pas été définie de manière collaborative. Elle est complètement inutilisable par quelqu’un qui n’est pas expert du domaine.

Cependant, la notion d’indexation pourra être élargie à autre chose que des descripteurs représentant le sujet abordé par les documents. En particulier, dans la mesure où nous découpons le document en fragments logiques correspondant à une organisation du texte relativement stable quel que soit le thème abordé, il devient intéressant de caractériser ces parties de textes, en repérant l’objectif qu’elles remplissent dans la construction d’un texte scientifique.

4.2. Indexation sous forme de propriétés

Nous allons compléter l’indexation traditionnelle par sujets avec une indexation complémentaire non thématique, qui s’exprimera sous forme de propriétés associées aux fragments de documents.

Ces propriétés seront multiples : certaines d’entre elles concerneront l’ensemble du document, d’autres s’appliqueront localement à un fragment particulier [ABD 97].

Seules seront décrites ici les propriétés concernées par l’approche fondée sur les indices typographiques et l’analyse de données textuelles.

4.2.1. Propriétés locales

Nous allons d’abord repérer le type du fragment, en nous inspirant des descriptions des plans-types et de l’analyse d’un ensemble de documents scientifiques dans le domaine des sciences expérimentales. Notre liste des valeurs possibles pour cette propriété est actuellement la suivante :

Propriété Type Résumé

Informations auteurs Table des matières Introduction

(11)

Contexte (Description générale du contexte) Thème (Description du thème)

Méthode (Description de la méthode) Environnement

Développement

Résultats (Présentation des résultats) Discussion

Conclusion Bibliographie

Nous allons par ailleurs repérer des caractéristiques relatives à la forme discursive adoptée dans le fragment, que nous décrirons avec les attributs suivants : Propriété Forme

Descriptif Narratif Argumentatif

Discours rapporté (citation)

4.2.2. Propriétés s’appliquant à l’ensemble du document (et héritées par chacun de ses fragments)

Certains fragments du document scientifique contiennent des informations ayant une fonction très particulière : c’est en particulier le cas du fragment Informations auteurs qui contiendra des renseignements biographiques et bibliographiques à propos du ou des auteurs du document. Ces informations se trouvent habituellement au début d’un article scientifique, ou en quatrième de couverture pour une monographie imprimée.

Dans le but de rendre ces informations directement exploitables lors d’une recherche, nous allons examiner les indices textuels qu’elles manifestent pour instancier des propriétés relatives à l’auteur, sous une forme normalisée et significative. Les propriétés que nous allons renseigner seront alors :

Propriété Profession de l’auteur Etudiant

Spécialiste (du domaine) Journaliste (médiateur) Divers

Propriété Communauté de l’auteur Universitaire

Public ou para-public Industrie ou PME

Individuel (l’auteur ne se réfère d’aucune communauté)

(12)

Propriété Champ disciplinaire de l’auteur Mathématiques

Informatique Physique Biologie Agronomie Sociologie

Information et communication

…

(liste de valeurs en cours d’élaboration)

4.3. Représentation des propriétés

Les propriétés choisies sont incorporées aux fragments documentaires, sous forme de métadonnées dans le format Dublin Core [PER 00] :

– la propriété Type est incorporée dans un champ DC.Type.Unity ; – la propriété Forme est incorporée dans un champ DC.Type.Form ;

– la propriété Profession de l’auteur est incorporée dans un champ DC.Creator.Job ;

– la propriété Communauté de l’auteur est incorporée dans un champ DC.Creator.Community ;

– la propriété Champ disciplinaire de l’auteur est incorporée dans un champ DC.Creator.Discipline.

5. Matériel et méthodes

5.1. Objectifs et indices exploitables

Nous avons deux objectifs liés, mais distincts : d’une part le découpage du texte, d’autre part l’attribution de propriétés aux documents et aux fragments documentaires.

Nous disposons par ailleurs de deux types d’indices pour réaliser ces objectifs : le repérage de balises significatives (traces typographiques et marques de mise en forme), et le repérage d’indices textuels. Ces différents types d’indices pourront être exploités par rapport à chacun des deux objectifs, mais seront plus ou moins significatifs.

Nous réaliserons le découpage en utilisant comme critère principal le balisage logique, certaines prises de décisions pouvant être confirmées par des traces textuelles. Par contre, nous attribuerons les propriétés aux parties en utilisant prioritairement des indices textuels.

(13)

Par exemple : une partie de niveau 1 sera introduite par un titre avec une police et une taille caractéristiques. Le texte du titre nous dira qu’il s’agit d’une conclusion (indice textuel simple), ou bien dans le texte introduit par le titre nous trouverons l’expression « nous conclurons » (indice textuel complexe).

5.2. Identification et extraction de la structure logique

La première phase (phase d’apprentissage) consiste à identifier les marques typographiques utilisées et leur répartition dans un ensemble de documents scientifiques issus d’une même revue (i. e. d’un même périodique). Cette phase permettra d’élaborer un modèle par rapport à chacune des sources d’informations ayant une même origine éditoriale, par exemple par rapport à l’ensemble des articles publiés dans une revue électronique donnée.

La phase d’exploitation (voir 5.4.) appliquera les règles ainsi définies aux nouveaux articles des sources précédemment étudiées.

La structure logique des articles est directement mise en évidence par des éléments typographiques. Les titres de parties ou de sous-parties ont une mise en forme différente du texte courant. Une fois ces marqueurs typographiques identifiés, une partie logique est alors naturellement délimitée entre son titre (pour son commencement) et le prochain titre de niveau logique égal ou supérieur (pour sa fin).

Bloc de niveau 0 Blocs de niveau 1

Figure 2. Aspect visuel d’une page web et des niveaux logiques apparents

(14)

Dans l’exemple de la figure 2, l’article concerné est : « Caractéristiques microbiologiques et organoleptiques du nététu du commerce », Babacar N’Dir et al., in Cahiers Agricultures. Le niveau logique 0 correspond à la page web dans son entier. Des traits horizontaux partagent la feuille web en plusieurs parties de niveau 1 qui ne contiennent pas le même type d’informations : la deuxième partie de niveau 1 contient le titre de l’article ainsi que la liste des auteurs et leurs affiliations respectives, la troisième le sommaire, etc.

L’outil électronique permet généralement d’avoir accès à ces marqueurs typographiques. Les différents formats (HTML, Word, Pdf…) offrent ces possibilités de mises en forme et aussi d’extraction de ces marqueurs : les fichiers HTML sont directement lisibles pour l’extraction du texte et des balises, les fichiers Word utilisent des styles, etc.

Dans la figure 3 nous pouvons voir le même fichier HTML que précédemment sous sa forme HTML balisée et sous une forme mise à plat du codage HTML³. Nous associons alors au fichier original un fil de texte et un tableau des balises HTML utilisées. Le fil de texte correspond à la chaîne de caractères contenant l’ensemble du texte. Le tableau des balises contient des informations de pointage sur le texte balisé (position sur le fil du texte et longueur du texte concerné).

En observant ainsi plusieurs articles provenant de la même revue, nous constatons que les articles sont découpés en fichiers de façon identique (le corps de l’article, le résumé, la bibliographie, un fichier par figure, …) et que la présentation des différentes parties est semblable dans tous les articles.

Nous pouvons alors énoncer des règles, valables pour tous les corps d’articles, qui permettront l’extraction des niveaux logiques des articles :

– un bloc logique de niveau 0 correspond au texte affiché entre la balise de début BODY (<BODY>) et la balise de fin correspondante (</BODY>) ;

– un bloc logique de niveau 1 correspond au texte affiché entre deux balises HR consécutives ;

– un bloc logique de niveau 2 correspond au texte encadré par une balise de début H2 (<H2>) et la première balise de début H2 ou HR rencontrée ;

– un bloc logique de niveau 3 correspond au texte encadré par une balise de début H3 et la première balise de début H3 ou H2 ou HR rencontrée ;

– etc.

3. Dans notre cas l’extraction des balises utilisées dans un fichier au format HTML est effectuée via l’interface DOM (Document Object Model) d’un navigateur internet.

(15)

Niveau 0 Niveau 1

Niveau 1

Figure 3. Source HTML et linéarisation du texte

Durant la phase d’exploration, nous pouvons également constater que certaines valeurs de propriétés pourront être attribuées en identifiant des indices textuels simples. Le texte encadré par une balise peut donner par exemple le type de l’unité documentaire formée par un niveau logique : si dans le fichier source nous trouvons le mot « résumé » comme un titre nous pouvons dès lors attribuer la valeur Résumé à la propriété Type.

Les positions des blocs de niveau logique sont utilisées pour déterminer des propriétés communes à chacun des niveaux logiques : dans les articles de la revue Cahiers Agricultures la catégorie des types d’articles (notes de recherches, méthodes et techniques, synthèses…) sont reprises dans le premier niveau logique 1 du fichier contenant le corps de l’article, le titre de l’article et la liste des auteurs dans le deuxième niveau logique 1.

5.3. Traitement des indices textuels 5.3.1. Choix d’une méthode

Afin d’identifier des éléments textuels permettant l’attribution de propriétés, nous avons besoin d’un outil capable d’effectuer un traitement statistique sur des expressions textuelles.

Il nous faut repérer des expressions et locutions communes à de multiples documents, les organiser en classes d’expressions de même nature, et vérifier qu’elles sont localisées dans les mêmes parties logiques des documents. Les

(16)

méthodes classiques d’analyse des données fournissent en général des résultats peu satisfaisants sur de telles données, notamment à cause des problèmes de stabilité des résultats obtenus, qui rendent la phase d’apprentissage peu fiable. Nous n’avons pas à mesurer le pouvoir discriminant d’une expression, c’est-à-dire la capacité qu’elle a à différencier les documents à l’intérieur d’un corpus (ce critère statistique qui exprime le comportement du mot sur l’ensemble d’un corpus est souvent appelé

« pertinence » et se révèle un critère essentiel lorsque l’on se préoccupe d’indexation thématique, ce qui n’est pas notre cas).

Nos exigences sont autres :

– le système doit pouvoir optimiser avec un minimum d’intervention humaine la granularité des expressions extraites, et ici le choix de la longueur de l’expression à considérer est un critère particulièrement délicat, susceptible de provoquer de grandes instabilités dans les résultats ;

– les expressions extraites doivent être organisées en classes, (classification hiérarchique) et les classes construites doivent être stables.

Ces exigences nous ont conduits à utiliser une méthode assez peu connue qui possède ces deux caractéristiques. Développée dans un laboratoire de recherche, elle se révèle complexe à mettre en œuvre, mais tout à fait originale dans sa démarche.

5.3.2. Alceste : principes généraux

Afin d’étudier le contenu textuel des parties logiques, nous utilisons une méthode issue de l’analyse de données textuelles développée par Max Reinert : Alceste (Analyse des lexèmes co-occurrents dans les énoncés simples d’un texte) [REI 97]. Originellement développée pour étudier les réponses à des questions ouvertes ou à des entretiens, cette méthode a pour but de découvrir les « mondes lexicaux » d’un corpus de textes. Reinert définit les mondes lexicaux comme « la trace lexicale d’un référent ou point de vue particulier utilisé par l’énonciateur pour construire ces énoncés ».

La trace lexicale peut-être représentée par la liste des termes d’un énoncé. La simple lecture de cette liste permet d’appréhender les « objets » dont il est fait référence dans cet énoncé, ainsi que leurs relations. L’introduction de l’outil statistique permet au travers des redondances de mettre en avant les objets et leurs relations les plus usitées. Dans notre contexte d’étude, Alceste nous permet d’identifier ces redondances, de constater si certaines redondances sont caractéristiques de parties identiques de documents, et donc d’estimer les énoncés susceptibles de fournir des valeurs de propriétés.

(17)

Formes

Unité de

Contexte Initiale

26

Unités de Contexte

Elémentaires

5 4 7 5 3 2

Unités de Contexte (critère : 5 formes minimum par UC)

5 11 5 5

Unités de Contexte (critère : 7 formes minimum par UC)

9 7 8 2

Les nombres représentent le nombre de formes de l’unité considérée.

Figure 4. Méthode Alceste : unités de découpage du texte

Les phases de traitement d’Alceste sont les suivantes : 1. Définition des unités de vocabulaire :

– les formes réduites : on extrait du texte les formes graphiques et les locutions.

Ces formes peuvent être lemmatisées à l’aide de dictionnaires (par exemple, les désinences d’un verbe sont réduites au seul infinitif).

2. Définition des unités de contexte :

– les unités de contexte initiales (UCI) : ce sont des unités de texte naturelles définies par l’utilisateur (une réponse ouverte à une question par exemple). Des éléments supplémentaires, au sens statistique, peuvent être attribués aux UCI ;

– les unités de contexte élémentaires (UCE) : ce sont des unités de texte définies de manière heuristique et d’une longueur de quelques lignes, terminées par un signe de ponctuation fort ou faible ;

– les unités de contexte (UC) : ce sont des segments de texte basés sur une suite d’UCE consécutives de la même UCI, dont la longueur est définie par un nombre minimum de formes analysables. Ce paramètre permet de construire des découpages différents d’UC avec pour objectif, en faisant varier leur longueur de « chercher les structures lexicales indépendantes de ces variations ». Généralement deux découpages en UCE sont effectués.

3. Classification des UCE : deux tableaux statistiques basés sur deux découpages différents d’unités de contexte sont construits à partir de la présence ou

(18)

de l’absence des formes dans les UC. Une méthode de classification descendante hiérarchique par rapport aux formes est appliquée sur chacun des deux tableaux. Les classes d’UC sont, par construction transformées, en classes d’UCE. Ces deux classifications sont comparées afin d’extraire des classes stables⁴.

5.3.3. Des indices textuels

Les résultats des classifications d’Alceste se présentent sous deux formes principales : des listes de vocabulaire spécifique aux classes, et des listes d’UCE spécifiques à ces mêmes classes.

Un calcul statistique, basé sur un test du χ² (chi-deux), détermine les formes (réduites et supplémentaires) caractéristiques des classes stables d’UCE. Ces listes permettent, par une lecture flottante, d’appréhender les référents évoqués dans les UCE.

Un autre calcul, basé sur la présence de formes caractéristiques dans l’UCE, permet d’établir une liste d’UCE caractéristiques. Les premiers éléments de cette liste sont alors les plus représentatifs de la classe. L’examen des formes supplémentaires attachées aux classes obtenues permet, dans le cas de la prédominance de l’une d’elles, de préciser notre interprétation : par exemple une catégorie socio-professionnelle caractéristique dans une classe indique une prédominance de ce discours dans cette catégorie.

D’autres aides à l’interprétation nous permettent d’affiner l’interprétation. Les segments répétés (séquences de formes les plus répétées dans les UCE de la classe) nous permettent de retrouver les expressions types. Des cartes factorielles d’une analyse factorielle des correspondances croisant le vocabulaire et leur présence dans les différentes classes permettent de mieux interpréter les oppositions entre le vocabulaire spécifique des classes.

Afin d’illustrer notre propos nous utiliserons des résultats que nous avons obtenus lors d’une expérimentation sur un corpus de textes regroupant les notes sur les auteurs présentes dans des ouvrages et des articles de revues scientifiques et professionnelles [GUI 99].

Le corpus étudié est constitué de 435 notes sur les auteurs issus de livres (235 notes) et de trois revues Documentaliste sciences de l’information (DSI, 111 notes), Technologies de l’information et société (TIS, 25 notes), Techniques et sciences informatiques (TSI, 68 notes).

La figure 5 présente les principaux résultats d’une analyse de l’ensemble des notes. Nous avons obtenu cinq classes. Un premier résultat nous indique que les classes ainsi constituées sont construites presque exclusivement selon l’origine des

4. Le calcul de ces deux classifications est nécessaire pour obtenir des résultats stables car les tableaux construits ont la particularité d’être vides (au moins 90 % de zéros) ce qui entraîne des résultats instables avec la plupart des méthodes d’analyse de données, comme par exemple, l’analyse factorielle des correspondances.

(19)

notes : ainsi la classe A est constituée à partir des unités de contexte des notes de livres ; la classe C provient de la revue TSI ; etc.

Les formes les plus représentatives de la classe A sont : – les verbes : publi+er 5, traduire, consacr+er,

– les noms : ouvrage+, auteur+, livre+, revue+, article+, essai+, collaborat+ion…

– les éditeurs Seuil, Economica et la Découverte.

Ces termes traduisent les activités de publication des auteurs : les livres et les articles précédemment écrits, mais aussi les collaborations avec d’autres auteurs.

Les UCE caractéristiques appuient ces interprétations. A titre d’exemple, voici les deux UCE contenant le vocabulaire statistiquement le plus significatif de la classe⁶ :

264 - #michele MATTELART a #publie de #nombreuses etudes sociologiques en #anglais et en espagnol. en #france elle a #notamment

#collabore A tel quel, les #temps #modernes et le #monde diplomatique

275 - il a #publie une dizaine d’ #ouvrages #fondamentaux et de #nombreux #articles dans des #revues #scientifiques.

Nous pouvons remarquer une typologie plus précise des auteurs autour des valeurs prises par le triplet fonction/domaine/lieu. Ce triplet d’information est présent dans la quasi-totalité des notes, il se présente sous la forme simplifiée mise en évidence dans les notes de DSI :

[nom] est [titre/fonction] en [domaine] à [établissement]

5.4. Présentation de la démarche

Notre démarche de fragmentation et de caractérisation des articles d’une revue donnée se décompose en trois étapes : intégration, extraction de la structure logique, attribution de propriétés aux fragments d’articles. Chacune de ces étapes est préparée au cours d’une phase d’apprentissage sur la revue, qui permet de rassembler une expertise sur les caractéristiques spécifiques des modes de rédaction et de présentation de cette revue.

La phase d’apprentissage s’applique à observer des régularités dans la mise en forme des documents et dans les expressions employées dans ces mêmes documents (repérage d’indices textuels). Les éléments significatifs participeront à la construction de règles d’extraction de la structure logique ou de règles d’attribution de valeur de propriétés. La phase d’exploitation correspond alors à l’application de

5. 90 % (soit 52) des occurrences du verbe publier dans l’ensemble du corpus (57) sont présentes dans les UCE caractéristiques de la classe considérée.

6. le caractère # introduit une forme qui a été prise en compte dans la construction des classes.

(20)

ces règles aux documents électroniques provenant de la même source d’information que celle qui a permis l’établissement des règles.

Classe A Classe B Classe C Classe D Classe E

Livre DSI TSI TSI Livre

publications fonction fonction &

parcours

thèmes de

recherche fonction documentaliste

chef+

conservat+eur directeur responsa<

these+

soutenu+

doctorat ingenieur+

dirig+er

professeur+

agreg+er enseigne+

maitre+

conference+

domaine domaine domaine

document+er informat+ion documentaire+

bibliothe<

educat+ion

projet+

vision+

informat+3 robotique electron<

psycolog+3 sociolog<

lettre+

econom+3 linguis<

lieu d’exercice et

coordonnées lieu d’exercice lieu d’exercice auteur+

journalis<

ouvrages+

livre+

revue+

publi+er edit+ion

… economica seuil

paris mail rue+

cedex montmorency

clermond-ferrand antipolis renne+

nantes nancy

parallel<

systeme+

superscalaires validation architect<

machin+3 memoire+

… principa+l concern+er port+er interet+

universit<

sorbonne dauphine montreal mine+

Figure 5. Récapitulatif des classes Alceste construites à partir des notes sur les auteurs⁷

Dans notre approche, dès la première étape d’intégration des articles électroniques se pose le problème de la diversité des sources d’articles scientifiques.

Deux revues ne fournissent pas nécessairement leurs articles respectifs sous le même format de fichiers, et le contenu des articles peut être organisé en fichiers de façon différente. Ce problème se pose également sous d’autres aspects pour les deux autres étapes : une mise en forme typographique différente et/ou un plan type différent entre les articles de deux revues. C’est pour ces raisons qu’une phase d’apprentissage est nécessaire pour chacune des revues et ce à toutes les étapes.

La figure 6 synthétise les différentes étapes de transformation qui s’appliquent à un article scientifique.

L’étape d’intégration devra permettre l’extraction du texte de l’article en reconstituant une linéarité du texte et l’extraction des informations typographiques, voire structurelles, présentes dans le format original. Les informations extraites seront appelées fil de texte, et nous leur associerons un système de balises et d’attributs décrivant les autres informations du format original. Nous généraliserons cette modélisation en employant toujours le même fil de texte pour un même article, mais un système de balises différent à chacune des étapes. Des règles de

7. Les intitulés en caractères gras ont été choisis lors de l’interprétation des résultats. Ils ne sont pas présents dans le texte des notes.

(21)

transformation définies lors des phases d’apprentissage seront exploitées pour passer d’une étape à la suivante. L’écriture de règles de transformation s’appuie sur l’utilisation des indices repérés lors une expertise humaine (dans l’état actuel de nos travaux).

Format original

Format interne

- fil de texte (texte linéarisé), - marqueurs typographiques originaux et marqueurs de la structure des fichiers.

Article

Fichier 1

Article

intégration

système de règles empiriques

Format interne - fil de texte,

- système de marqueurs de la structure logique apparente.

Article

Format interne - fil de texte,

- système de marqueurs de la structure de découpage et d’étiquetage.

Article

système de règles à traceset indices lexicaux

Ces règles sont établies à partir d’un ensemble conséquent d’articles. Alceste participe à l’élaboration de ces règles.

Ces règles dépendent de la source du document de par : - le format des fichiers, - la mise en page et la

typographie utilisée.

- l’éditeur de la revue.

Elles sont établies à partir de quelques documents d’une même revue.

Des outils informatiques permettent d’extraire le texte et les informations typographiques des différents formats et des différents fichiers.

Figure 6. Etapes de traitement des articles

D’un point de vue technique, nous avons choisi de définir le système de balises à l’aide d’une DTD, afin de rendre ce système le plus cohérent possible et de permettre des exportations au format XML des documents aux différentes phases d’apprentissage et d’exploitation. De même la plupart des règles pourraient alors être écrites sous la forme de feuilles de style XSL⁸.

Nous avons dégagé trois types d’indices permettant le passage d’une étape à l’autre : indices typographiques, indices textuels simples, indices textuels complexes. Les règles de transformation que nous pourrons écrire utilisent actuellement comme critères :

– la présence de balises et d’attributs ;

8. Voir les travaux du W3C sur les feuilles de style,

Extensible Stylesheet Language (XSL) ; Version 1.0; W3C Working Draft 27 March 2000 http://www.w3.org/TR/xsl/

(22)

– l’ordonnancement (position absolue ou relative) de ces balises ;

– le contenu textuel complet encadré par des balises (indice textuel simple) ; – le contenu textuel partiel encadré par des balises (indice textuel complexe).

Le découpage logique est établi par une vision rapide des articles d’une même revue. La mise en page et la typographie fournissent les repères visuels de ce découpage. Si les fichiers sont au format HTML, les régularités observées dans l’utilisation des balises simplifient l’écriture de ces règles.

Ces règles sont de plusieurs types :

– présence de marqueurs typographiques univoques ; – séquentialité des marqueurs employés ;

– occurrences fréquentes de tel ou tel marqueur typographique.

Par exemple, une balise H2 peut indiquer un titre de sous-partie dans le cas d’un fichier HTML. Considérons une structure logique à quatre niveaux trouvée dans les articles de la revue Agriculture⁹ : la figure 7 nous présente les balises qui indiquent les passages d’un niveau logique à l’autre.

En clair, une balise HR indique la fin de la partie logique de niveau 1 précédente, si elle existe, et le début d’une nouvelle partie de texte de niveau logique 1.

L’attribution d’une valeur à la propriété Type d’un fragment nécessite le repérage d’indices textuels contenus dans ce fragment délimité à l’étape précédente.

Nous étudions durant la phase d’apprentissage le contenu textuel des parties logiques avec la méthode Alceste. Afin de rendre cette analyse textuelle significative, nous devons analyser un ensemble d’articles suffisamment important et homogène, donc issus d’une même revue.

Selon les caractéristiques générales de la revue à traiter qui seront dégagées dans la phase d’apprentissage, nous pourrons alors appliquer l’une ou l’autre des stratégies suivantes pour trouver des éléments textuels qui sont suffisamment discriminants pour le découpage, mais aussi pour l’étiquetage des parties de documents. Les résultats obtenus servent alors à l’écriture de règles qui seront appliquées lors de la phase d’exploitation.

Ces analyses nous montreront si des classes obtenues ont comme caractéristique d’appartenir à une partie logique identique dans la plupart des documents (par exemple une phrase comme « dans cette étude nous montrerons… » se retrouvera essentiellement dans l’introduction), et si des parties logiques sont caractéristiques de plusieurs classes ou d’une seule.

9. http://www.aupelf-uref.org/revues/agri/

(23)

Niveau 0

Niveau 1

Niveau 2

Niveau 4

Niveau 3 Niveau A

Niveau Z (texte)

<HR>

</BODY>

<BODY>

<H2>

<HR>

</ADDRESS> <H2>

<HR>

<H3>

<H2>

<H3>

<H4>

<H3>

<H4>

<H2>

Figure 7. Transitions entre niveaux logiques provoquées par la rencontre de balises

Les résultats obtenus par une analyse de ce type sont :

– une liste des expressions caractéristiques de chacune des classes et le(s) type(s) d’informations qu’elles introduisent ;

– lorsqu’une partie logique est caractéristique de plusieurs classes, nous déterminerons s’il s’agit de classes faisant référence à des informations de nature différente, ou si elles peuvent délimiter deux sous-parties distinctes dans la partie logique concernée et ainsi affiner le découpage logique.

Une seconde stratégie s’appuiera sur le même corpus que la précédente stratégie, seuls les traitements différeront. La méthode de classification dans la précédente stratégie est basée sur des calculs, nous adopterons pour celle-ci des classes constituées a priori sur la base des parties logiques des documents. Alceste nous donnera, par une analyse sur chacune des classes a priori, le vocabulaire spécifique de chacune de ces classes.

(24)

Les classes seront construites sur les types de parties logiques : nous aurons par exemple des classes Introduction, Conclusion, Discussion, etc. Nous définirons l’appartenance à un type de partie logique soit par l’intitulé de cette partie, soit de manière manuelle (d’après la place et le contexte dans l’article).

Cette façon d’opérer repose sur une hypothèse très forte d’invariabilité de position dans le texte des lieux des énoncés. Nous ne pourrons appliquer cette méthode que si la première stratégie nous donne des résultats de la forme :

– « toute partie logique est caractéristique d’une et une seule classe » ; et :

– « toute classe est caractérisée par une et une seule partie logique ».

Une hypothèse un peu moins forte consisterait à établir une invariabilité de la

« proportion » des lieux dans chaque type de partie logique (seule la première proposition serait alors conservée).

6. Conclusion

Les résultats actuellement obtenus sont prometteurs, et permettent d’envisager une automatisation (ou au minimum une assistance) au découpage et à l’attribution de propriétés. En effet, une expérimentation sur un certain nombre de revues montre que l’ensemble de la démarche peut être mise en œuvre : il est possible de constituer une expertise sur une revue particulière en rassemblant l’apprentissage nécessaire relativement aux indices textuels significatifs et à leur structuration, et l’apprentissage permettant d’obtenir les marqueurs significatifs dans le fil de texte.

L’expertise acquise sur une revue particulière permet alors de traiter automatiquement de nouveaux articles de la même revue.

L’investissement humain n’est pas réduit de manière significative lorsque l’on travaille sur des volumes de données assez peu importants ; il est en fait reporté en amont, dans d’autres étapes que celles qui concernent l’analyse d’un document particulier :

– lors de l’analyse de la structure logique associée à un ensemble de publications (mais cette analyse préliminaire sera très simplifiée lorsque des formats de représentation plus riches tels que XML seront exploités¹⁰) ;

– lors de l’interprétation des classes d’indices textuels repérés par Alceste, sur un échantillon de documents significatifs (cette phase d’interprétation, qui est en fait une phase d’apprentissage, devra probablement être reprise au moins partiellement chaque fois que l’on abordera le traitement d’un nouveau corpus).

10. A condition que la DTD attachée aux fichiers soit suffisamment riche et que ses potentialités soient pleinement utilisées.

(25)

Lorsque la plupart des apprentissages nécessaires auront été réalisés, l’exploitation de cette chaîne de traitement devrait améliorer de manière significative l’indexation, et donc la précision d’une recherche documentaire.

Actuellement, nos étapes de découpage et d’indexation sont préliminaires à toute recherche d’informations, transformant les documents électroniques bruts avant qu’une requête soit soumise. La demande de l’utilisateur s’exprime par l’envoi simultané d’un profil et d’une requête. Dans l’avenir, on pourrait imaginer que la requête s’adresse aux documents électroniques dans leur forme brute, (non découpée et non enrichie) pour effectuer une première sélection uniquement thématique, et que notre traitement en phase d’exploitation (re-linéarisation – découpage – filtrage des fragments selon le profil de l’utilisateur) soit effectué à la volée, uniquement sur les documents extraits par la requête.

7. Bibliographie

[ABD 97] BEN ABDALLAH N., Analyse et structuration de documents scientifiques pour un accès personnalisé à l’information : vers un système d’information évolué, Thèse de doctorat, Université Claude Bernard Lyon 1, 1997.

[BIB 96] BIBER D., CONRAD S., REPEN R., « Corpus-based Investigations of Language Use », Annual Review of Applied Linguistics, vol. 16, 1996, p. 115-136.

[GUI 99] GUINET E., « Etude du contenu informationnel des notes sur les auteurs d’ouvrages et d’articles scientifiques par la méthode d’analyse de données textuelles Alceste », Actes du Premier colloque international en sciences de l’information, Les bibliothèques à l’ère des réseaux d’information, CISI’99, Tunis, Tunisie, 3-5 mars 1999.

[KIR 98] KIRCZ J.-G., « Modularity : the next form of scientific information presentation ? » Journal of Documentation, vol. 54, n° 2, mars 1998, p. 210-235.

[LAI 96] LAINÉ-CRUZEL S., LAFOUGE T., LARDY J.-P., BEN ABDALLAH N., « Improving information retrieval by combining user profile and document unit », Information Processing and Management, vol. 32, n° 3, 1996, p. 305-315.

[LAI 99] LAINÉ-CRUZEL S., « Profildoc : filtrer une information exploitable », Bulletin des Bibliothèques de France, Tome 44, n° 5, 1999, p. 60-64.

[MIC 99] MICHEL C., Evaluation de systèmes de recherche d’information, comportant une fonctionnalité de filtrage, par des mesures endogènes : réalisation et évaluation d’un prototype de système d’information avec filtre selon les profils d’utilisateurs, Thèse de doctorat, Université Louis Lumière Lyon 2, 1999.

[OUE 99] OUERFELLI T., LALLICH G., « Base textuelle structurée et indexation : l’exemple de la documentation technique », Actes du Premier colloque international en sciences de l’information, Les bibliothèques à l’ère des réseaux d’information, CISI’99, Tunis, Tunisie, 3-5 mars 1999.

(26)

[PER 00] PERENON P., Réalisation d’un prototype de système de recherche d’informations scientifiques : indexation non thématique sous forme de métadonnées et développement d’une interface de consultation prenant en compte les profils d’utilisateurs, Mémoire du DEA Document multimédia, images et systèmes d’informations communicants, Université Claude Bernard Lyon 1, 2000.

[REI 97] REINERT M., « Les “mondes lexicaux” des six numéros “Le surréalisme au service de la révolution” », Mélusine, XVI, 1997, p. 270-303.

[ROM 96] BEN ROMDHANE M., Caractérisation des publications scientifiques en agronomie, Mémoire du DEA Sciences de l’information et de la communication, Université Lyon 2- ENSSIB, 1996.