Article pp.220-240 du Vol.45 n°3 (2004)

(1)

Thomas Beauvisage

Sémantique des parcours des utilisateurs sur le web

Thèse de doctorat en Sciences du Langage, Université de Paris X – Nanterre Jury : François Rastier (directeur), Houssem Assadi (coencadrant), Dominique Boullier (rapporteur), Benoît Habert, Ludovic Lebart, Pierre Zweigenbaum (rapporteur).

La généralisation de l’accès à internet en France entraîne une banalisation et une normalisation des pratiques du web. Pour autant, l’activité de navigation reste mal connue, et peu de travaux rendent compte de la diversité des parcours au sein de l’hypertexte, de leur métrique, des contenus qu’ils mobilisent et des activités dont ils sont le support. Les données de trafic recueillies auprès de l’utilisateur constituent un matériau privilégié pour répondre à cet ensemble de questions ; pour autant, si l’analyse des logs des serveurs web est maintenant bien maîtrisée, celle des traces de navigation recueillies du côté de l’internaute en situation naturelle, demeure rare et complexe. Notre travail de thèse s’appuie sur des données relevant de cette deuxième catégorie : mené au sein du laboratoire Usages, Créativité, Ergonomie de France Télécom R&D, il s’inscrit dans le cadre du projet SensNet, partenariat entre France Télécom R&D, Nielsen/NetRatings, l’Université de Paris III et le LIMSI-CNRS, qui étudie les usages d’internet à domicile sur la base de données recueillies auprès de panels français représentatifs. Nous travaillons ainsi sur une cohorte de 606 personnes suivies durant 34 mois (janvier 2000 - octobre 2002), et un panel de 3 372 internautes durant 10 mois (janvier-octobre 2002) : on dispose alors de la liste horodatée des adresses des pages visitées par chaque internaute, qui constitue le matériau premier de l’étude. Cette position d’observation particulière ainsi que la durée et le volume inédits d’observation nous permettent d’observer finement et fidèlement les pratiques des internautes à domicile et d’en suivre l’évolution. Sur cette base, nous élaborons une description des parcours des internautes de page en page et de site en site centrée sur la session, qui intègre les informations sur les contenus visités d’une part et les territoires personnels sur le web d’autre part, et examine leur articulation dynamique au sein des parcours.

Pour y parvenir, un premier travail consiste, après la mise en forme de ces données brutes, à les enrichir. Sur le plan des contenus, nous proposons une méthode qui exploite les informations fournies par les annuaires du web pour

(2)

qualifier les url visitées. Adossée à un module d’identification des services sur les portails généralistes développé dans le cadre du projet SensNet, CatService, cette description permet d’appréhender l’offre de contenus du web dans sa diversité : informations, mais aussi services, outils, fonctionnalités. Sur le plan de la navigation, nous avons élaboré des indicateurs statistiques simples qui rendent compte de la forme, de la temporalité et du rythme des parcours, à l’échelle de la page et du site. En complément de cette approche macro, nous avons développé des outils de fouille manuelle des sessions permettant de vérifier les résultats de l’approche quantitative et de formuler des hypothèses sur les comportements des internautes. Ainsi dotés, nous disposons des outils nécessaires pour observer, au sein de données volumineuses, les liens entre forme et contenus des parcours, et mettre à jour des régularités dans les pratiques des internautes.

En première analyse, on s’intéressera aux contenus visités : considérées dans leur ensemble, les données de trafic renvoient à une grande diversité de thèmes et de services, reflet de l’hétérogénéité des centres d’intérêt et des activités des internautes observés sur le web. Cette vue globale ne saurait nous satisfaire : chaque site visité prend un sens différent selon qu’il est visité par tel ou tel internaute, qu’il s’inscrit ou non dans les habitudes des utilisateurs, qu’il s’insère dans tel ou tel type de pratique. Pour prendre en compte cet aspect contextuel de l’appréhension des sites web, nous mettons en avant la notion de « territoires personnels », qui renvoie à l’insertion des contenus visités dans les habitudes et les pratiques individuelles. Dans les données de trafic, ces territoires personnels sont repérables en examinant, pour les panélistes observés durant 34 mois, l’ensemble des sites et des thèmes accédés par chacun, la fréquence et la régularité de ces visites. La structure et la dynamique des territoires personnels sur la Toile montrent que cette appropriation des contenus se construit autour d’une poignée de sites : sur cent sites vus par un internaute, les trois quarts n’apparaissent que dans une seule session, 15 % sont visités sur un empan compris entre 1 mois et un an, et seulement 8 % ont une « durée de vie » pour l’internaute de plus d’un an. Ce petit groupe de sites familiers et récurrents structure l’ensemble des pratiques : ils sont présents dans plus de neuf sessions sur dix, et surtout occupent la majorité de la durée des sessions dans deux cas sur trois.

L’analyse des sessions et de leurs contenus en regard de ces territoires personnels sur le web nous amène à distinguer trois types de sessions, auxquelles correspondent trois modes d’appréhension et d’interprétation des contenus, et trois types de territoires pour l’utilisateur.

– Les sessions routinières, qui représentent plus de la moitié des sessions, valorisent les contenus de type « flux », dont le contenu est sans cesse renouvelé : sites d’information (journaux en ligne, rubriques dédiées des grands portails, sites communautaires) ou services de communication (notamment le WebMail), au sein de sessions plutôt courtes où se juxtaposent les différents sites habituels ; ce territoire familier est régulièrement balisé par l’internaute, et sous-tend l’ensemble de sa navigation.

(3)

– Les sessions « contenus occasionnels » correspondent au web marchand ou de service, et à un mode d’usage de type « guichet de renseignements » ; ce contexte, plutôt rare, amène l’utilisateur à visiter un nombre restreint de sites connus mais peu fréquents, qui sont balayés au cours de la session selon un mode de feuilletage orienté vers la comparaison.

– Les sessions exploratoires sont orientées vers la résolution d’un problème ou d’une question particulière : ils font massivement appel aux moteurs de recherche, et amènent à découvrir de nouveaux sites, dont la plupart ne seront jamais revus par l’utilisateur. Dans ce dernier cas, le web n’est pas tant considéré comme un espace documentaire structuré que comme une collection de sources possibles au sein desquelles il convient de trouver la plus complète et la plus fiable pour une interrogation ponctuelle.

Parallèlement à cette première segmentation des sessions sur la base de territoires personnels des internautes, nos indicateurs statistiques représentant la dynamique des parcours permettent de construire une seconde typologie des sessions basée cette fois sur leur forme et leur temporalité : les cinq parcours type mis à jour s’opposent sur le plan de leur durée, de leur forme et de leur rythmique, et montrent la grande diversité des comportements. D’un côté, parcours éclairs (17 %) et parcours ciblés (20 %) forment un groupe homogène de sessions courtes (un à trois sites), linéaires ou quasi linéaires, essentiellement tournées vers les portails généralistes et le WebMail. Les trois autres parcours type suivent une gradation dans la complexité de la navigation, et renvoient à trois contextes d’usage différenciés. Les parcours à détours (21 %) sont liés aux contenus orientés « vie pratique » et vie hors du web, et sont très linéaires. Les parcours à pivots (26 %) sont plus apparentées à l’usage de moteurs pour des recherches ouvertes, où certaines pages servent de pivot à la navigation et l’exploration de la Toile ; les parcours éclatés (15 %), les plus longs et les plus complexes structurellement, sont liés notamment à certains contenus orientés vers les jeux et la communication (WebChat notamment). La répartition chez chaque internaute de ces cinq sessions type montre qu’aucun n’a de profil spécialisé, et que la majorité adopte un profil médian recouvrant les taux de répartition globaux. Corrélativement, ces modes de navigation prototypiques ne sont liés ni à l’ancienneté de la pratique d’internet, ni au type de connexion, ni aux types de pratiques d’internet en général, mais semblent dépendre de contextes particuliers liés à l’activité locale de l’utilisateur.

Le croisement des deux typologies de sessions montre un lien fort entre la dynamique globale des contenus tels qu’ils s’insèrent dans les pratiques, et celle locale de la session. Les sessions orientées vers des contenus nouveaux et éphémères pour l’utilisateur, liées à l’usage massif des moteurs de recherche, sont bien plus complexes que les autres, et sont liées aux parcours à pivots ; à l’inverse, les parcours courts et linéaires (parcours éclairs et ciblés) sont sur-représentés dans les sessions routinières, où l’internaute est en terrain connu. Dans ce contexte familier, la complexification des sessions renvoie surtout à la juxtaposition ou l’entrelacement, au sein du parcours, de différentes activités routinières. Dans les

(4)

autres cas, cette forme de pluriactivité est rare : on est ici très loin de l’idée de surf ou de butinage, et il est frappant de constater que les sessions sont la plupart du temps dédiées à un cours d’action unique.

En définitive, on serait tentés de parler de genres de parcours sur le web, c’est- à-dire de modalités normées de la pratique du web partagées par l’ensemble des individus, et spécifiques dans leur structure et leur contenu. Ces modalités d’usage du web « héritent » de pratiques existantes : au sein des trois modes prototypiques de parcours que nous avons mis à jour, l’appréhension de contenus apparentés à des flux renvoie à la consommation de médias de masse ; les parcours orientés vers les services et les sites de e-commerce rappellent les galeries marchandes ou les guichets de renseignement ; les parcours de recherche évoquent la compulsion de sources diverses sur un problème donné. Ces similitudes sont favorisées par le fait que, souvent, les contenus web sont la transposition en ligne de services préexistants : information, messagerie, courses, bibliothèques. Pour autant, le parallèle s’arrête là : de manière générale, la sociologie des usages nous montre que la situation d’action, le format des outils manipulés, la structure des interfaces importent autant que les fonctionnalités des outils techniques. Dans le détail de l’activité sur le web, la spécificité des interfaces web nous amène à découvrir une métrique particulière de ces modes d’appréhension, que l’on retrouve chez l’ensemble des internautes : les temporalités, les formes spécifiques de parcours, les outils et services particuliers mobilisés dans ces différents contextes permettent de les différencier. A chaque type de pratique, correspond un mode de déplacement particulier au sein de l’hypertexte, et la mobilisation pour chaque individu de territoires spécifiques. Le parcours web apparaît ainsi comme le lieu d’une double dynamique, celle des contenus proposés et celle de l’utilisateur, dont la confrontation induit des modalités d’activité qui dépendent autant des contenus eux- mêmes que de leur appréhension et de leur valorisation par l’utilisateur. A la différence des cartographie du web se basant sur les liens entre pages et entre sites, les traces d’usages nous donnent ainsi à voir le web comme structure vécue : dans cette perspective, la dimension temporelle prime sur la dimension spatiale, et la capacité des sites à proposer des contenus et des services sans cesse renouvelés apparaît comme la condition à leur inscription durable dans les habitudes des internautes.

[email protected]

(5)

Farah Benamara

WEBCOOP : un système de question-réponse coopératif pour le Web Thèse d’informatique, Université Paul Sabatier

Jury : P. Saint Dizier (directeur), P. Marrafa (Rapporteur), J. Véronis (rapporteur), G. Sabbah, F. Sédes.

Cette thèse a pour objectif le développement d’un système question-réponse coopératif en français pour le web, nommé WEBCOOP. Nous nous situons dans le cadre des systèmes question-réponse (QR) avancés tels que présentés dans un roadmap récent (2002). Ce type de système appelé aussi QR à base de connaissances, intègre des procédures de raisonnement qui opèrent sur une collection de bases de connaissances décrivant les connaissances de sens commun ainsi que des connaissances plus spécifiques aux domaines traités.

Dans un premier temps, le projet est réalisé sur un domaine ciblé, celui du tourisme (hébergement et transport). Nous nous situons dans un cadre d’interrogation directe, sans dialogue et sans modèle usager, comme c’est le cas avec les moteurs de recherche standard. Pour cela, il nous faut intégrer à la fois les exigences des utilisateurs et les possibilités techniques et expressives des systèmes informatiques du traitement du langage naturel. Pour définir ce compromis, nous avons constitué et analysé un corpus de QR construit à partir des sections foire aux questions (FAQ) de différents services web aux usagers, afin de caractériser comment les fonctions coopératives essentiellement élaborées par des logiciens de l’intelligence artificielle sont concrètement mises en œuvre par des opérateurs humains. Nous avons aussi relevé des cas nouveaux (questions floues, par l’exemple, avec inférences) ou des procédures nouvelles (relaxation minimale et graduelle). A partir de cette étude, nous avons conçu l’architecture informatique de WEBCOOP qui a pour but :

– l’intégration de procédures de raisonnement avec des connaissances extraites de pages web et une base de connaissances pour produire des réponses intelligentes en langage naturel ;

– la production de réponses courtes, intelligibles, inspirées de situations réelles.

Les réponses produites par le système sont structurées en deux parties. La première est un diagnostic qui fait un rapport des malentendus. C’est un premier niveau de coopérativité, généré en cas d’échec de la question. La deuxième partie est la plus intéressante et la plus originale. Elle permet d’aller au-delà des systèmes actuels de réponses coopératives en proposant un véritable savoir-faire coopératif qui vient compléter la réponse fournie en première partie du générateur. Ce composant inclut la relaxation minimale et graduelle de certaines contraintes de la question (quand l’ensemble des réponses est vide) et la production de réponses intensionnelles ou synthétiques (quand l’ensemble des réponses est trop grand) ;

– la génération en langue d’explications et de justifications de réponses en utilisant des techniques de génération du langage naturel.

(6)

Nous proposons, également, d’évaluer l’intelligibilité linguistique et cognitive des réponses coopératives produites en sortie de WEBCOOP en les confrontant à des utilisateurs potentiels.

[email protected]

Emmanuel Cartier

Repérage automatique des expressions définitoires : modélisation de l’information définitoire, méthode d’exploration contextuelle, méthodologie de développement des ressources linguistiques, description des expressions du français contemporain, mise en œuvre informatique

Thèse en sciences du langage, spécialité linguistique informatique, Université Paris IV Sorbonne

Jury : J.-P. Desclés (directeur), M. Charolles (rapporteur), M. Hassoun (rapporteur), M. El-Bèze, J.-L. Minel

Ce travail a pour sujet le repérage automatique des expressions définitoires du français, et il a trois objectifs principaux : décrire formellement les expressions définitoires du français contemporain et implémenter les règles de repérage correspondantes dans le logiciel e-doc Finder de la société e-doc Labs ; contribuer à l’élaboration d’un modèle pour le repérage d’informations textuelles ; contribuer à l’automatisation de la tâche d’élaboration des ressources linguistiques.

La description des expressions définitoires donne lieu à une modélisation de cette information comme un énoncé dans lequel un locuteur met en relation définitoire un terme et une expression définitoire, eu égard à un domaine d’activité et à une inscription temporelle. Les relations définitoires sont l’identification, la catégorisation, la spécification et l’attribution. Nous décrivons les patrons linguistiques permettant de repérer le terme, la relation définitoire et les composantes de l’expression définitoire pour les patrons basés sur des marqueurs verbaux (être, définir, signifier, dénoter, etc.), conjonctionnels (c’est-à-dire, ou, comme, etc.) et typographiques. Nous décrivons un certain nombre de phénomènes d’intégration textuelle (transformations syntaxiques, négation, coordination, anaphores, cataphores, ellipses) à prendre en compte pour une extraction automatique.

Nous décrivons en second lieu un modèle de repérage d’informations textuelles, inspirée de l’exploration contextuelle, qui comporte trois caractéristiques : externalisation, adaptabilité des ressources linguistiques, fort pouvoir expressif des règles de repérage.

Enfin, dans ce modèle, nous donnons des éléments méthodologiques permettant de développer rapidement et efficacement, en vue d’un apprentissage automatique,

(7)

les ressources linguistiques (dictionnaires et grammaires) liées à une information textuelle donnée.

[email protected]

Hacène Cherfi

Etude et réalisation d’un système d’extraction de connaissances à partir de textes

Thèse d’informatique, Université Henri Poincaré – Nancy 1

Jury : A. Napoli, Y. Toussaint (directeurs), H. Briand (rapporteur), P. Sébillot (rapportrice), M.-C. Haton (présidente de jury), Daniel Kayser

Ce travail de thèse porte sur la problématique d’extraction de connaissances à partir de textes, plus communément appelée la fouille de textes (FdT). Il s’articule autour des problèmes liés à l’analyse des textes, la fouille de textes proprement dite, et l’interprétation des éléments de connaissances extraits. Dans ce cadre, un système d’extraction des connaissances nécessaires pour analyser les textes en fonction de leur contenu est étudié et implanté. Les méthodes de fouille de données appliquées sont la recherche de motifs fréquents (avec l’algorithme « Close ») et l’extraction de règles d’association.

Le mémoire s’attache à définir précisément le processus de fouille de textes et ses principales caractéristiques et propriétés en s’appuyant sur l’extraction de motifs fréquents et de règles d’association. En outre, une étude d’un ensemble donné de mesures de qualité qu’il est possible d’attacher aux règles d’association est menée, toujours dans le cadre de la fouille de textes. Il est montré quel rôle ces mesures peuvent avoir sur la qualité et sur l’interprétation des règles extraites ; comment elles peuvent influer sur la qualité globale du processus de fouille de textes. L’utilisation d’un modèle de connaissances vient appuyer et surtout compléter cette première approche. Il est montré, par la définition d’une mesure de vraisemblance, l’intérêt de découvrir de nouvelles connaissances en écartant les connaissances déjà répertoriées et décrites par un modèle de connaissances du domaine. Les règles d’association peuvent donc être utilisées pour alimenter un modèle de connaissances terminologiques du domaine des textes choisi.

La thèse inclut la réalisation d’un système appelé TAMIS : Text Analysis by Mining Interesting ruleS ainsi qu’une expérimentation et une validation sur des données réelles de résumés de textes en biologie moléculaire.

[email protected]

(8)

Nicolas Hernandez

Description et détection automatique de structures de texte Thèse d’informatique, Université de Paris-Sud XI

Jury : C. Jacquemin (directeur), B. Grau (codirectrice), P. Enjalbert (rapporteur), G. Lapalme (rapporteur), M. Dymetman, M.-P. Péry-Woodley

Lorsqu’une personne recherche une information sur le web, que son intérêt soit clairement défini et spécifié avec des mots-clés précis, ou que son besoin soit vague et exprimé par des mots peu discriminants, les systèmes de RI (recherche d’information) renvoient généralement le même type de résultat : une liste ordonnée de documents, où seuls le titre et parfois un extrait comportant les mots de la requête permettent d’en évaluer la pertinence pour son besoin initial.

Ces types de résultats conduisent irrémédiablement à devoir consulter le contenu des documents pour s’assurer de leur pertinence. Qui plus est, quand on accède à un document, celui-ci n’est souvent qu’une version électronique d’une présentation papier à laquelle on a éventuellement ajouté quelques liens. Or si l’information que l’on cherche se trouve dans une ou plusieurs sous-parties du document ou que son besoin n’est pas assez bien défini ou bien exprimé, l’utilisateur n’a, dans tous les cas, que la barre de défilement et la recherche de mots-clés pour naviguer au sein du document et se faire une idée de son contenu. De ce fait, un utilisateur n’a pas la possibilité d’évaluer rapidement si le document est pertinent ou non et court le risque de devoir le lire dans son intégralité dans le pire des cas.

A partir de cette évaluation des systèmes de recherche d’information nous nous sommes demandé quel serait le système idéal qui permette aisément et rapidement l’accès au contenu d’un document.

Un tel système devrait pouvoir offrir à l’utilisateur la possibilité d’avoir une vision globale du contenu du document, et ce par exemple selon certains aspects sélectionnés. Il devrait permettre de rapidement cibler les parties pertinentes pour un besoin, d’y accéder et éventuellement de passer aussi simplement d’une partie à une autre. Le tout bien entendu sans faire ressentir à aucun moment la sensation d’être perdu dans la masse d’informations. Cet objectif pose de nombreuses questions :

– quelles unités d’information manipuler pour permettre à l’utilisateur à la fois de survoler globalement le document et de s’attarder sur une partie particulière ?

– quelles informations présenter afin de lui permettre de juger de la pertinence d’un passage relativement à son besoin ?

– quelles structures de texte adopter pour soutenir une navigation à différents niveaux de granularité, des rapprochements entre informations ou une mise en contexte d’une information ?

(9)

Notre travail se situe dans une perspective de web sémantique. Notre objectif est d’enrichir les documents pour fournir aux systèmes, voire directement à l’utilisateur, des informations de description et d’organisation du contenu des documents. L’enjeu est de taille et les problématiques qu’il soulève sont aussi centrales pour d’autres activités du domaine du TAL (traitement automatique des langues) telles que les systèmes de question/réponse et le résumé automatique.

Nous ciblons notre étude sur les documents (ou parties de documents) d’une dizaine de pages environ. Nous nous intéressons surtout aux zones de texte ayant peu ou pas d’information apparente sur leur structuration. Dans un document structuré, il peut s’agir du document en lui-même (si celui-ci est mal structuré ou bien que la structure que nous produisons diffère de celle qui est présente) ou bien du contenu d’une section. Le genre de texte que nous avons étudié est de type scientifique ou technique, dits expositifs. Nous avons travaillé sur le français et sur l’anglais en fonction des ressources disponibles.

Le mémoire se compose de six chapitres regroupés selon deux grandes parties : une étude bibliographique (les trois premiers chapitres), et des propositions et expérimentations (les trois chapitres suivants).

L’accès à l’information textuelle

Le premier chapitre pose la problématique de l’accès à l’information pour des tâches orientées vers de la navigation libre à l’intérieur d’un document (lecture, recherche d’information par parcours, etc.).

Nous nous intéressons plus particulièrement à identifier l’information utile à un utilisateur pour un traitement efficace des documents textuels. Pour cela, nous analysons d’une part les types d’information que peuvent fournir un document textuel au format numérique. D’autre part, nous consultons les différents modèles cognitifs décrivant un utilisateur et ses interactions avec un document. Enfin nous observons quelques stratégies d’approche que met en place un utilisateur pour accéder au contenu d’un document en fonction de ses buts et de ses connaissances.

Le chapitre se termine en décrivant les principales approches automatiques (notamment en résumé automatique) qui fournissent des analyses de contenu de documents textuels. Nous concluons en présentant nos recommandations quant à la conception d’un système d’accès à l’information textuelle.

Cohérence et modélisation du discours

Le deuxième chapitre rentre plus précisément dans la problématique de l’analyse du discours. Nous discutons la notion de cohérence d’un texte. Notre analyse combine à la fois des modèles psycho-linguistiques qui nous renseignent sur les processus de compréhension et de mémorisation d’un lecteur, et des modèles linguistiques qui nous informent sur les différentes structures existantes au sein d’un texte, ainsi que leurs propriétés et leurs contraintes structurelles.

(10)

Marques du discours et mécanismes de structuration

Ce chapitre présente aussi une approche des textes en termes de marques discursives, indices de structures. Notre étude est orientée vers la spécification de mécanismes exploitant ces marques afin de détecter automatiquement la structure thématique de textes. Nous présentons une étude préliminaire sur un de ces mécanismes, le parallélisme syntaxicosémantique, afin d’en dégager les principales propriétés pour un repérage automatique du mécanisme. De manière complémentaire, nous présentons une approche de la structuration du discours en termes d’identification des informations sémanticorhétoriques qu’il contient. Enfin, nous proposons un survol des approches du discours qui couvre aussi bien les techniques robustes à gros grain que les techniques de détection de phénomènes discursifs locaux.

Les chapitres suivant traitent tour à tour des aspects majeurs que nous avons retenus des documents (la description thématique, la métadescription et la structuration) et proposent des solutions et leurs implémentations afin de les appréhender.

Descripteurs thématiques

Dans le quatrième chapitre, nous exposons les différentes notions de thèmes considérées dans les approches automatiques, et présentons en détail celles orientées vers l’identification des entités thématiques du discours. Nous rapportons la description de deux mécanismes d’identification de thèmes entités complémentaires : le premier fondé sur une technique de résolution d’anaphores, SRA (système de résolution d’anaphores), et le deuxième fondé sur la construction de chaînes lexicales, CCL (construction de chaînes lexicales). Pour ces deux systèmes, nous montrons leur performance en évaluant manuellement leurs analyses sur un texte. SRA et CCL réalisent des performances similaires aux systèmes existants. CCL montre en plus que la considération des variantes morpho-

Métadescripteurs

Dans ce chapitre nous nous intéressons aux marques linguistiques indicatrices d’énoncés saillants, et descriptives du statut sémantique ou rhétorique des énoncés qui les portent.

Ces marques sont sujettes à des variations syntagmatiques et paradigmatiques qui rendent difficiles l’application de techniques traditionnelles d’extraction terminologique. Notre apport consiste en la proposition de mécanismes de sélection et de filtrage pour une extraction automatiques adaptée à ce type de marques, système M-Ex (« Méta » Extraction). L’extraction est envisagée dans un corpus monogenre monodomaine. Nous abordons les questions d’extraction sur corpus monogenre multidomaines, de portabilité à d’autres genres, ainsi que les problèmes de combinaison automatique de marques pour obtenir des patrons plus complexes.

(11)

Diverses évaluations ont été menées. Une évaluation comparative montre que les marques que nous extrayons sont plus variées que celles qu’une extraction manuelle ou semi-automatique peut produire. Nous montrons d’autre part que notre critère de sélection sur la fréquence interdocumentaire offre un meilleur rappel et précision qu’une sélection sur une fréquence absolue traditionnelle.

Détection automatique de structures de texte

Dans le dernier chapitre, nous présentons deux approches distinctes de l’analyse de la structure du discours. La première, développée au sein du projet REGAL (résumé guidé par les attentes du lecteur - projet Cognitique), décrit un travail de structuration thématique du discours où l’enjeu a consisté à combiner une segmentation par cohésion lexicale de nature robuste et globale avec des marques linguistiques fines et locales que sont les introducteurs de cadres. Une étude en corpus nous permet de discuter certaines limites de cette approche.

La deuxième approche, DST (détection de structures de texte), repose sur une modélisation plus fine du discours. L’enjeu a consisté à repérer à l’aide d’un algorithme d’apprentissage les relations sémanticorhétorique de subordination et de coordination existantes entre les différentes unités informationnelles du discours (phrase). Trois types d’indices discursifs ont été considérés (parallélisme syntaxicosémantique, suivi thématique et connecteurs) ; leur repérage repose sur des heuristiques. Nous montrons que malgré cela, notre système se classe parmi les plus performants.

L’intérêt principal de cette thèse est qu’elle constitue une étude globale présentant différents aspects d’analyse d’un document textuel.

[email protected]

Fabrice Maurel

Transmodalité et multimodalité écrit/oral : modélisation, traitement automatique et évaluation de stratégies de présentation des structures « visuo-architecturales » des textes

Thèse d’informatique, Université Paul Sabatier, Toulouse, IRIT Jury : N. Vigouroux (directrice), J.-L. Nespoulous (directeur), J. Caelen (rapporteur), D. Maurel (rapporteur), R. André-Obrecht, J. Virbel

Actuellement, une valeur de plus en plus grande est donnée à la structure informationnelle des documents qui est prise en charge par la morpho-disposition des textes. Longtemps considérée comme ornementale, cette spécificité du texte écrit est abordée comme un objet d’étude à part entière dans diverses disciplines telles que la linguistique, la psycholinguistique, la psychologie cognitive ou

(12)

l’informatique. Une telle recherche, à caractère fortement pluridisciplinaire, s’avère nécessaire pour que cette composante soit intégrée dans les applications en traitement automatique des langues. En particulier, nous nous intéressons à l’utilité de la structure visuelle des documents et, le cas échéant, à son utilisabilité, dans le cadre de la transposition à l’oral par des systèmes de synthèse de parole à partir de textes (Text-To-Speech ou TTS). Dans l’objectif de fournir des solutions qui permettent de réagir efficacement à cette « inscription morphologique » des textes, nous avons étudié la transmodalité (écrit _Æ oral), à la fois du point de vue de l’obtention d’une équivalence de contenu informationnel mais également du point de vue d’une équivalence en termes d’impact sur le traitement cognitif. De ce travail, a émergé l’architecture d’un système d’oralisation de documents « tout-venants » qui conduit à une représentation du texte interprétable par un TTS. Nous avons modélisé et partiellement réalisé le module spécifique aux stratégies d’oralisation, afin de rendre « articulables » certaines parties signifiantes des textes, souvent

« oubliées » par les systèmes actuels de synthèse de parole. Deux cadres théoriques principaux ont été observés pour soutenir ce modèle d’oralisation par reformulation des textes écrits pour être lus silencieusement (MORTELS). D’une part le modèle d’architecture textuelle (MAT) de Virbel (1989) permet, en exploitant la théorie transformationnelle de Harris (1971), de retrouver le métalangage associé aux structures visuelles des textes et de proposer des versions discursives des objets textuels (titres, structures énumératives…) à oraliser ; d’autre part le modèle de l’intonation pragmatique du français, développé par Mario Rossi (1999), est projeté sur ces versions discursives pour effacer certaines marques lexicosyntaxiques au profit de configurations prosodiques adaptées. Des spécifications formelles ont pu ainsi être précisées et partiellement intégrées par un partenaire industriel. Des hypothèses prédictives quant à l’impact sur la mémorisation et la compréhension de deux stratégies (discursive et prosodique), issues de notre MORTELS, ont été formulées et testées. Ce travail a permis de montrer que certaines fonctions cognitives de la morpho-disposition des textes semblent perdues. Des prototypes, exploitant la notion d’Image De Page (IDP – Luc, 2001), ont été imaginés à travers des interfaces dans lesquelles la multimodalité a pour rôle de combler cette lacune.

[email protected]

Vincent Perlerin

Sémantique légère pour l’exploration de documents – Assistance personnalisée pour l’accès du document et l’exploration de son contenu

Thèse d’informatique, Université de Caen

Jury : A. Nicolle (directrice), B. Habert (rapporteur), I. Kanellos (rapporteur), F. Rastier, P. Sébillot, P. Beust

(13)

Cette thèse met en place les principes d’une sémantique légère pour le traitement automatique des langues qui suppose une limitation à la fois des ressources et des processus utilisés pour proposer des services personnalisés aux utilisateurs. Elle s’inscrit en cela dans le courant des recherches récentes qui tentent de pallier les inconvénients des objectifs maximalistes de l’IA classique pour la compréhension et le calcul du sens des textes.

Les ressources utilisées sont des entités lexicales catégorisées et décrites de façon componentielle et différentielle par un utilisateur ou un groupe d’utilisateurs.

Ces données sont exploitées pour des calculs fondés sur la récurrence et la différence sur le modèle de l’isotopie de la sémantique interprétative. Le modèle proposé permet l’expression de besoins spécifiques dans le cadre de tâches génériques nécessitant l’exploration du contenu de textes. Les ressources du système sont construites en interaction avec la machine ; elles peuvent être en partie acquises à partir d’un corpus. Nos efforts ont ainsi porté à la fois sur la modélisation lexicale et sur les moyens de l’interaction entre l’utilisateur et la machine. Les champs d’évaluation sont la veille documentaire et l’analyse d’un fait de langue (une métaphore conventionnelle).

Cette thèse d’informatique participe aux recherches qui ont pour but de transformer la machine en un média à valeur ajoutée pour l’accès personnalisé aux documents textuels. Elle se situe à l’intersection de trois courants de recherche : celui de la mise en œuvre de la sémantique lexicale de tradition saussurienne (la sémantique interprétative de Rastier), celui de l’exploitation assistée de corpus numériques et enfin, celui de l’interaction homme/machine située.

[email protected]

Mathieu Roche

Intégration de la construction de la terminologie de domaines spécialisés dans un processus global de fouille de textes

Thèse d’informatique, Université Paris-Sud

Jury : Y. Kodratoff (directeur), C. Vrain (Rapportrice), A. Napoli (Rapporteur), Y. Toussaint (Rapporteur avec A. Napoli), C. Froidevaux (Présidente), Pascale Sébillot

L’extraction d’informations à partir de textes spécialisés exige l’application d’un processus complet de fouille de textes. Ce processus comporte une première étape d’acquisition d’un corpus suivie des tâches de normalisation des textes, puis de l’étape d’étiquetage grammatical du corpus normalisé. La tâche suivante, l’extraction de la terminologie, consiste à extraire des groupes de mots appelés

« collocations ». Les collocations vérifiant des patrons syntaxiques simples (Nom-

(14)

Nom, Nom-Préposition-Nom, Adjectif-Nom, etc.) et qui présentent une sémantique pertinente validée par un expert sont appelés des « termes ». Par exemple, la collocation « fouille de données » (de type Nom-Préposition-Nom) est un terme qui est une trace linguistique du concept de « technique informatique ». Les termes étant associés à des concepts déterminés par un expert, l’étape suivante consiste à acquérir des informations, par exemple, sous forme de règles d’association entre concepts.

La tâche d’extraction de la terminologie de domaines de spécialité représente le cœur du travail de thèse présenté. De manière similaire à de nombreux travaux, notre système appelé Exit (extraction itérative de la terminologie) utilise une approche mixte (linguistique et statistique) pour extraire la terminologie. Nous avons mis en relief deux points qui montrent l’importance de la prise en compte d’un processus global de fouille de textes pour extraire la terminologie de domaines spécialisés.

Actions et rétroactions. Les actions et rétroactions permettent d’effectuer un nombre important de corrections au cours du processus de fouille de textes. Par exemple, lors de l’étape d’acquisition de la terminologie, des erreurs commises aux étapes précédentes (étiquetage, normalisation, acquisition du corpus) peuvent être relevées. Chaque étape (action) d’un processus de fouille de textes peut donc nécessiter un retour sur une ou plusieurs étapes précédentes (rétroaction).

Identification des tâches à réaliser. Dans cette thèse, nous avons montré que d’une tâche à l’autre, la qualité des collocations extraites peut être différente. La pertinence des collocations doit donc être déterminée selon une tâche (ou une sous- tâche) à réaliser. Ainsi, avant d’extraire la terminologie, il est crucial de considérer la dernière étape d’un processus global de fouille de textes permettant d’identifier la tâche (ou la sous-tâche) à effectuer.

En fouille de textes, en particulier, dans un système efficace d’extraction de la terminologie, l’intervention de l’expert est essentielle. Nous décrivons ci-dessous notre approche d’extraction de la terminologie et de quelle manière l’expert est placé au centre de ce processus.

Le système Exit mis en œuvre s’appuie sur une stratégie itérative. Par exemple, si Exit extrait, lors d’une première itération, le terme « fouille de données », une seconde itération permet l’extraction du terme « logiciel de fouille de données ».

Cette méthode permet d’extraire des termes complexes (composés de nombreux mots). Nous proposons d’extraire les collocations binaires (ou ternaires pour les collocations prépositionnelles) selon un ordre précis. Par exemple, les collocations Adjectif-Adjectif sont d’abord extraites en suivant le processus itératif décrit, puis ultérieurement les collocations de type Adjectif-Nom sont extraites, etc. Dans ce processus, l’expert a un rôle majeur afin de valider ou non les collocations proposées par le système. L’interface conviviale d’Exit utilise un certain nombre de paramètres permettant de présenter les collocations les plus pertinentes à l’expert.

Dans cette thèse, les paramètres ci-dessous ont été utilisés et expérimentés :

(15)

– choix du taux d’élagage ;

– choix des mesures statistiques pour ordonner les collocations ;

– utilisation d’un paramètre privilégiant les collocations qui apparaissent dans des textes différents;

– utilisation d’un paramètre privilégiant les collocations composées de mots présents dans les collocations valides et absents des collocations non valides analysées lors des itérations précédentes.

Un des paramètres qui influence considérablement l’ordre dans lequel les collocations sont présentées à l’expert est l’utilisation de mesures statistiques. Les expérimentations menées durant cette thèse montrent que les mesures privilégiant l’extraction des collocations fréquentes (rapport de vraisemblance, information mutuelle au cube, etc.) ont un bon comportement afin d’acquérir la terminologie pour une tâche de construction de classifications conceptuelles. Nous avons également expérimenté des mesures issues d’un autre domaine d’étude : les règles d’association. Cette étude a montré que certaines mesures de ce domaine, telle que la J-mesure, ont également un bon comportement. Enfin, dans cette thèse, nous avons introduit une mesure appelée OccRV qui ordonne les collocations selon leur nombre d’occurrences et les collocations ayant le même nombre d’occurrences sont classées avec le rapport de vraisemblance. D’après les expérimentations effectuées, cette mesure semble la plus efficace. Les expérimentations de l’ensemble des mesures statistiques ont été menées sur quatre corpus de tailles, de langues et de spécialités différentes.

La dernière partie de l’étude expérimentale effectuée a consisté à utiliser une méthode d’apprentissage supervisé pour ordonner les collocations. Cette approche s’appuie sur l’utilisation d’un algorithme évolutionnaire pour combiner différentes mesures statistiques. Cette méthode d’apprentissage supervisé adapté à la problématique de la terminologie permet de proposer un classement des collocations plus efficace que les mesures statistiques classiques.

[email protected]

Annie Tartier

Analyse diachronique de l’évolution terminologique : variations et distances Thèse d’informatique, Université de Nantes

Jury : B. Daille (directrice), D. Kayser (rapporteur), P. Zweigenbaum (rapporteur), X. Polanco, A. Dikovsky

L’analyse diachronique de l’attestation terminologique ne peut pas se faire par introspection car l’être humain n’a qu’une perception synchronique de sa langue, même s’il s’agit d’une langue de spécialité. C’est pourquoi il est nécessaire de mettre en place des outils de repérage automatique des phénomènes évolutifs dont

(16)

une empreinte est gardée dans des corpus diachroniques. Cette thèse propose une réflexion conduisant à l’élaboration de méthodes destinées à mesurer l’évolution de terminologies au cours du temps. Elle est centrée sur l’analyse du problème général suivant : comment rendre compte de manière objective, avec peu de connaissances extérieures, de l’évolution des terminologies, en explorant automatiquement des corpus diachroniques de textes techniques ou scientifiques. Un prototype a été mis en place pour valider les méthodes proposées.

Analyser l’évolution c’est mesurer ce qui change au cours du temps et comment cela change. Le déroulement de la thèse suit donc deux axes orthogonaux, celui de la nature des formes terminologiques et de leur variation (ce qui change), et celui des distributions temporelles des occurrences d’événements (comment cela change).

Une étude approfondie des différents travaux sur la variation terminologique passe en revue la manière dont les chercheurs définissent, classifient et traitent les différents types de variation (morphologique, syntaxique, morphosyntaxique,

« sémantique »). L’étude permet d’affirmer que si le phénomène de variation est reconnu par tous, les définitions divergent. La définition de chacun est motivée par le rôle que joue la variation dans la réalisation de son objectif. Les divergences portent sur l’élasticité de l’éloignement sémantique entre terme variant et terme référent, avec, en conséquence, les modifications apportées aux formes linguistiques. Cette étude s’achève sur une présentation de trois logiciels d’acquisition terminologique qui prennent en compte la variation, soit pendant la phase de reconnaissance soit comme moyen de reconnaissance, soit, a posteriori, pour l’exploitation des résultats.

Suit un panorama des recherches et des réalisations en matière de diachronie. Il balaye des domaines très divers, dont l’objet d’étude va du « linguistique » à l’ « extra linguistique », en y observant systématiquement les méthodes d’études diachroniques. Sont examinés successivement des domaines liés à la linguistique (étymologie, linguistique historique, bases posées par F. De Saussure, travaux récents), les activités et outils centrés sur la néologie, quelques exemples en terminologie qui se démarquent de la néologie, les travaux d’exploitation de corpus diachroniques, littéraires ou non, et enfin les méthodes mises en place pour la veille technologique. Il ressort de cet examen que la majorité des travaux exploitent des corpus diachroniques, les segmentent a priori selon différents critères, et utilisent des méthodes de statistique lexicale, en calculant des indicateurs à partir d’occurrences et de cooccurrences de mots simples. Cette thèse se positionne en complément à ces travaux, d’une part en prenant en compte les termes complexes et leurs variations, d’autre part en cherchant des stratégies plus fines et plus souples dans la manière de segmenter par le temps.

La décision de prendre en compte la réalité de la variation terminologique permet d’une part de ne pas considérer comme complètement différentes deux formes terminologiques qui sont des variantes du même terme, d’autre part de suivre les variations au cours du temps en posant comme hypothèse de travail que le

(17)

phénomène macroscopique de l’évolution pourrait résulter des phénomènes microscopiques de variations des formes terminologiques. Partant du constat que pour repérer des changements de manière opératoire, il faut quantifier et mesurer l’objet observé, nous avons cherché à quantifier le phénomène de la variation en définissant une distance entre deux termes complexes. Celle-ci doit refléter le glissement de sens correspondant aux différents types de variations. Une manière d’exprimer la distance entre deux entités complexes consiste à définir un coût de transformation d’une entité vers l’autre. C’est pourquoi la méthode choisie est un aménagement de la distance d’édition entre chaînes de caractères. L’adaptation consiste à faire jouer aux constituants des termes complexes le rôle joué par les caractères dans la distance d’édition, en introduisant dans le calcul des coûts, des connaissances provenant des variations mises en jeu. Après avoir choisi des seuils, cette distance permet de qualifier deux formes terminologiques de formes variantes, parentes ou étrangères. Ces distances sont destinées à établir des mesures, soit au niveau microscopique (celui du terme), soit au niveau macroscopique (celui d’un ensemble de termes structuré par exemple en un graphe complet étiqueté par les distances), puis de suivre ces mesures au cours du temps.

Puis vient la dimension du temps. Après avoir justifié l’utilisation d’un modèle à temps discret, sont définis les éléments sur lesquels s’appuient les calculs. Une période est un ensemble de formes terminologiques attestées dans un même intervalle de temps. Le corpus est segmenté en périodes de largeur paramétrable et les événements (formes stables, disparitions, apparitions) sont des résultats d’opérations sur ces ensembles. C’est cependant insuffisant. En effet, tout changement ne se traduit pas par une évolution, certains changements persistent (il y a donc évolution), alors que d’autres ne « prennent » pas. C’est pourquoi, plusieurs modalités d’examen diachronique (local, consolidé sur le passé, consolidé sur le futur, permanent) sont mises en place, qui vérifient, par exemple, qu’une nouvelle attestation est consolidée à partir d’une certaine date et n’est pas simplement éphémère. La prise en compte de la variation est réalisée en appliquant les mêmes calculs, non plus sur les périodes, mais sur les périodes étendues à leurs variantes.

La construction des données est une opération délicate. Elle s’effectue en trois étapes. La première concerne la tâche sensible de la sélection des textes et la confrontation avec le paradoxe suivant : il faut sélectionner pour obtenir un corpus homogène et représentatif de faits de langues, mais la sélection est une intervention risquée puisqu’elle influe sur les données et sur les résultats qui en découlent. Le corpus d’étude que nous avons construit est constitué de notices bibliographiques (titres et résumés) d’articles de physique (1984 à 1998) provenant de la base PASCAL maintenue par l’INIST¹. La seconde étape décrit toutes les phases de nettoyage, d’annotation grammaticale et de lemmatisation des textes. La troisième présente l’acquisition des candidats-termes à partir du corpus qui a été effectuée

1. Institut de l’information scientifique et technique, CNRS, Vandœuvre-les-Nancy.

(18)

par le logiciel ACABIT et pose le problème de la réutilisation des outils dans le domaine du TALN.

Le prototype qui implante les méthodes présentées ci-dessus est construit autour d’un noyau composé de modules spécialisés. En amont du noyau des modules de prétraitement, programmés en fonction du format des données initiales et des logiciels utilisés pour l’étiquetage grammatical et la lemmatisation, sont chargés de fournir, par l’intermédiaire de filtres, des listes de formes terminologiques datées.

En aval du noyau, un système d’interfaces doit être mis en place pour permettre à l’utilisateur d’exprimer ses requêtes qui sont, pour l’instant, accessibles en ligne de commande. Dans l’état actuel de développement, les modules du noyau sont constitués d’une trentaine de classes Java. Le module central est celui qui implémente les distances en faisant appel à un module sommaire de calcul morphologique. Les autres modules se répartissent en services non diachroniques et services diachroniques et, dans cette catégorie en profils temporels d’une part et suivi de cohortes de termes d’autre part. Tous les résultats sont calculables pour tous les modes d’examen diachronique et sur les formes strictes ou aux variantes près.

Les résultats obtenus sont tributaires du fait qu’il est encore difficile de construire des corpus diachroniques homogènes couvrant une période significative.

Les candidats-termes extraits du corpus d’étude ne permettent pas de mettre à jour une tendance globale à l’évolution. Par contre les outils de calculs mis en place apportent les informations nécessaires au suivi de termes ou d’ensembles de termes, si bien que le système proposé est capable d’apporter une aide dans au moins deux domaines. L’un concerne directement le matériau terminologique et linguistique en se donnant comme tâche de mettre à jour des bases terminologiques. L’autre s’appuie sur la prise de conscience de l’évolution des termes pour mieux appréhender l’évolution des domaines décrits par ces termes.

L’objectif de départ était de mettre à jour des phénomènes évolutifs par la seule observation de données. L’objectif second, au service du précédent était de quantifier la variation pour en déduire une distance. La conclusion est que les résultats obtenus sur le non diachronique (distances et variantes) sont directement utilisables et que les idées introduites sur les découpages temporels et les modalités d’examen diachronique doivent être affinées. Ce travail devra s’enrichir d’autres types de variantes, très importantes dans le cadre de l’évolution, comme les synonymes, les acronymes et abréviations. Enfin le fait que les corpus diachroniques soient en train de se construire permet d’espérer que ce prototype puisse devenir un véritable outil au service de tous les acteurs de la terminologie.

[email protected]

(19)

Maria Zimina-Poirot

Approches quantitatives de l’extraction de ressources traductionnelles à partir de corpus parallèles

Thèse en sciences du langage, Université de la Sorbonne nouvelle – Paris 3 Jury : A. Salem (directeur), B. Habert (rapporteur), M. Slodzian (rapporteur), E.

Gaussier

La croissance spectaculaire des données textuelles multilingues rend toujours plus actuelle la nécessité de disposer d’outils de traitement automatique de corpus dans des langues différentes. Ce travail présente les résultats d’une série de recherches consacrées au développement d’une nouvelle famille d’outils d’exploration textométrique intertextuelle. De nombreuses méthodes de statistique textuelle ont été articulées et adaptées au cadre multilingue : la méthode des segments répétés, les spécificités, la topographie bitextuelle, les cooccurrences multiples, l’analyse factorielle des correspondances, la classification automatique, etc. L’utilisation de chaque méthode dans le contexte multilingue est illustrée par des exemples d’applications, accompagnés d’échantillons de ressources traductionnelles obtenues à partir du corpus parallèle français/anglais de la Convention de sauvegarde des droits de l’homme.

Le travail comporte deux grandes parties. La première décrit les enjeux de l’analyse automatique de corpus multilingues ainsi que les acquis obtenus par les principaux courants de recherche du domaine du traitement automatique des langues (chapitres 1-2).

Le chapitre 1 tente de cerner le concept de parallélisme textuel dans le contexte multilingue. Le lecteur y trouvera des exemples de corpus parallèles composés de textes sources et de leurs traductions (effectuées par des traducteurs humains) ou de textes dont chacun est une traduction de l’autre sans qu’il soit possible de déterminer lequel a servi de source.

Dans la première partie du chapitre 2, sont recensés les problèmes nés dans le contexte de la segmentation de corpus parallèles en équivalences traductionnelles.

Des exemples montrent la difficulté de déterminer des mécanismes formels permettant d’automatiser cette segmentation au niveau lexical. La deuxième partie décrit les principales méthodes d’alignement automatique de corpus. On y trouvera la description et la comparaison de quelques grandes familles d’algorithmes d’alignement automatique développés au cours des vingt dernières années.

La deuxième partie (chapitres 3-7) présente les fondements de l’analyse textométrique des corpus multilingues et décrit les applications textométriques mises au point pour l’extraction de ressources traductionnelles à partir de corpus parallèles.

(20)

Développées dans le contexte monolingue, les pratiques de l’analyse textométrique de corpus se révèlent particulièrement adaptées à la recherche automatique des équivalences du bitexte. Dans le cas des corpus parallèles bilingues, la textométrie aide à mettre en relation différents types d’unités textuelles entre les deux volets. L’approche quantitative permet d’établir des correspondances aussi bien entre les paragraphes et les phrases, qu’au niveau lexical. Grâce à cette approche, on parvient à mettre en relation des formes graphiques isolées, des lexèmes, des structures lexicales récurrentes sur l’axe syntagmatique, etc.

Les méthodes quantitatives convoquées dans ce travail reposent entièrement sur des ressources construites automatiquement à base de corpus. Ces méthodes s’appuient sur des algorithmes qui utilisent les fréquences et les distributions des unités textuelles prises comme points de repère pour l’identification et l’extraction des correspondances.

La comparaison des fréquences des unités textuelles recensées dans les deux volets bilingues du corpus est souvent insuffisante pour détecter les correspondances traductionnelles au niveau lexical. Les différents sens dans lesquels un lexème est employé dans un contexte donné induisent la plupart du temps autant de traductions différentes. Les mots dotés d’un large éventail de sens dans le corpus forment des réseaux de correspondances souvent complexes. Ces facteurs entraînent des écarts entre les fréquences des unités équivalentes prises dans des contextes particuliers.

La notion de résonance textuelle est alors mobilisée pour mieux cerner les rapports de correspondances entre les lexèmes en fonction des variations contextuelles. Le processus de résonance textuelle amorcé par la sélection dans le texte source des sections dans lesquelles les occurrences d’une unité textuelle (forme, segment répété, patron morpho-syntaxique) dépassent un seuil fixé, induit une sélection topographique correspondante dans le texte cible et met en évidence des séquences, liées à l’unité de départ, sur le plan de la traduction. Le processus de résonance textuelle peut être enclenché par localisation topographique de fragments thématiques du bitexte. Cette exploration topographique s’enrichit des résultats de l’alignement des deux volets bilingues du corpus au niveau de la phrase. Une description automatique des relations d’équivalence multiples entre unités bilingues peut être obtenue par le biais d’appariements statistiques lorsque l’exploration du corpus s’appuie sur un alignement des phrases. Cette approche peut être utilisée pour le repérage des équivalences lexicales y compris dans le cas où leurs fréquences dans le corpus sont peu élevées.

L’exploration topographique de ressources traductionnelles peut être complétée par des approches cooccurrentielles et, notamment, par le calcul des réseaux de cooccurrences parallèles (chapitre 6). Les possibilités de navigation intertextuelle ouvertes par cette approche facilitent la mise en évidence de phénomènes traductionnels complexes, relevant de différents niveaux de l’analyse linguistique : la variation des traductions d’un terme en fonction des contextes, le repérage

(21)

thématique d’équivalences lexicales, la découverte de constellations lexicales parallèles, etc. L’observation de ces phénomènes est susceptible d’enrichir la pratique quotidienne des traducteurs, lexicographes, terminologues, enseignants en langues étrangères, spécialistes de l’analyse de discours, etc.

Le dernier chapitre aborde des perspectives de recherche peu explorées jusqu’ici et, en premier lieu, les perspectives d’analyse textométrique de corpus parallèles catégorisés (chapitre 7). L’étiquetage de corpus parallèles offre des points d’appui précieux pour l’extraction de ressources traductionnelles du bitexte.

Cependant, une homogénéisation des jeux d’étiquettes morphosyntaxiques utilisés pour la catégorisation de deux volets bilingues d’un corpus parallèle se révèle nécessaire avant l’exploration bitextuelle.

L’éclairage quantitatif permet de construire des analyses nuancées de ressources textuelles multilingues. Le succès pratique des méthodes d’exploration élaborées au fil de ces recherches, nous a incitée à produire des maquettes de logiciels d’exploration textométrique intertextuelle. Ces maquettes sont fournies sur le cédérom qui accompagne ce travail.

[email protected]