Construire et utiliser un corpus : le point de vue d une sémantique textuelle interprétative

(1)

Construire et utiliser un corpus : le point de vue d’une sémantique textuelle interprétative

Bénédicte Pincemin

INaLF-CNRS, équipe Sémantique des Textes

EDF-DER, dépt. SID, bat. N, 1 av. du Général-de-Gaulle, 92141 Clamart cedex

__________________________________________________________________________________________

Résumé

Un corpus n’est exploitable qu’en se référant à la manière dont on interprète sa constitution. Sa valeur n’est pas déterminée par sa forme, mais relève de son adéquation à une visée interprétative claire. Le codage de textes, à l’intérieur du corpus, est essentiel, puisque la structuration des textes organise les contextes des éléments linguistiques, et que leur délimitation institue l’autonomie relative des segments textuels requise par les traitements effectués sur le corpus. En revanche, un étiquetage détaillé, au niveau du lexique, semble peu conforme au caractère dynamique, contextuel, et généralement plus étendu, des structures sémantiques.

La constitution d’un corpus pour construire la base des profils des destinataires d’une application de diffusion ciblée donne lieu à l’explicitation d’une grille de critères détaillée.

Une étude du corpus retenu (programmes de recherche) permet d’analyser son évolution chronologique et ses facteurs d’homogénéité et d’hétérogénéité. L’interprétation que l’on donne au corpus dans le cadre de la diffusion ciblée est également précisée.

__________________________________________________________________________________________

1. Introduction

L’accès actuel à de vastes ensembles de textes sous forme électronique a été une condition décisive pour le développement d’un courant linguistique récent : la linguistique de corpus (Habert & al. 1997). L’approche à base de corpus revendique d’abord son empirisme, car elle se fonde sur des textes réels, des données attestées. Le corpus est aussi l’apanage d’une linguistique descriptive, qui l’observe pour reconstituer a posteriori des régularités. Du côté des outils informatiques, le corpus appelle des traitements robustes, s’en tenant parfois à des analyses partielles s’avérant suffisantes dans la pratique (Pincemin & al. 1996).

Par ses choix fondamentaux, l’approche à base de corpus se présente comme un bon terrain de mise en œuvre d’une sémantique textuelle interprétative, dans la lignée des travaux de François Rastier et de Théodore Thlivitis. Cet article se propose dans un premier temps d’expliciter la pertinence de l’utilisation de corpus dans un tel cadre. C’est l’occasion d’une lecture renouvelée ou critique de pratiques associées à la constitution et à l’utilisation de corpus. Dans un second temps, nous évoquons une expérience concrète de recours à un corpus, dans le cadre d’une application de diffusion ciblée d’informations (présentée § 3.1).

Ce cas illustre la diversité des critères sollicités pour la définition d’un corpus évolutif, ici celui utilisé pour la construction et la mise à jour pluriannuelle de la base des profils des destinataires. L’exploitation de textes existants, non destinés à devenir les données d’une application de diffusion ciblée, appelle également une réflexion sur la signification des profils obtenus et une étude du genre textuel sous-jacent.

2. Sémantique, textualité et interprétation : éléments pour une linguistique de corpus

2.1. La valeur d’un corpus tient à son interprétabilité

Les critères de bonne constitution d’un corpus sont nombreux :

• Conditions de signifiance : Un corpus est constitué en vue d’une étude déterminée (pertinence), portant sur un objet particulier, une réalité telle qu’elle est perçue sous un certain angle de vue (et non sur plusieurs thèmes ou facettes indépendants, simultanément) (cohérence).

• Conditions d’acceptabilité : Le corpus doit apporter une représentation fidèle (représentativité), sans être parasité par des contraintes externes (régularité). Il doit avoir une ampleur et un niveau de détail adaptés au degré de finesse et à la richesse attendue en résultat de l’analyse (complétude).

• Conditions d’exploitabilité : Les textes qui forment le corpus doivent être commensurables (homogénéité). Le corpus doit apporter suffisamment d’éléments pour pouvoir repérer des comportements significatifs (au sens statistique du terme) (volume).

Ces critères semblent essentiellement envisager le corpus sous l’angle de sa construction en vue d’une étude déterminée, ce qui se justifie pleinement pour pouvoir évaluer sa pertinence en situation. Qu’en est-il cependant du corpus en ce qui concerne son existence propre et ses possibles réutilisations ? En adoptant une perspective interprétative, nous voudrions principalement définir le corpus comme un regroupement de données (textes) correspondant à un choix explicitable et intelligible¹. Un corpus peut alors se prêter à plus ou moins d’utilisations intéressantes en fonction de la signification qui lui est attachée : les critères factuels et généraux pourront être préférés aux critères subjectifs, et les sélections systématiques aux recueils irréguliers. Par exemple, un corpus de l’ensemble des articles entrés dans une grande base bibliographique l’année dernière sous la rubrique linguistique peut fournir des résultats d’une portée plus large qu’un corpus des articles cités en référence d’une thèse donnée. Mais même les corpus les plus subjectifs et les plus irréguliers ont droit à l’existence et peuvent faire l’objet d’études scientifiques, pourvu que leur mode de constitution soit « avoué » et s’accorde à une visée interprétative, et que les résultats que l’on en tire soient situés par rapport à cette visée interprétative. En revanche, un corpus (apparemment) dépourvu de principe de constitution, fût-il volumineux et impeccablement codé, est inutilisable, car il n’y a rien à quoi rapporter les résultats des analyses qui y seraient effectuées.

(Amitay 1997) étudie ainsi un corpus de 155 pages Web personnelles (personal homepages), recueillies suite à un appel sur plusieurs listes électroniques et forums électroniques. Les listes ou forums en question ont en fait tous trait à la recherche en traitements automatiques des langues ou en sciences cognitives. Ce qu’elle observe comme caractéristiques linguistiques sur son corpus, notamment par contraste avec le BNC (British National Corpus), ne doit pas être attribué au genre (tout à fait hypothétique) des pages Web, mais a minima à la catégorie particulière que constituent les pages de présentation personnelle, et peut-être même plus exactement au genre des pages personnelles de chercheurs

1 L’interprétabilité dont il est question ici concerne le mode de rassemblement des textes, sans préjuger de la clarté des textes eux-mêmes (le régime herméneutique dominant n’étant d’ailleurs sans doute pas celui de l’évidence).

(2)

actifs sur les réseaux dans les communautés de la linguistique computationnelle. Certains résultats (comme la spécificité de la locution click here) seraient sans doute effectivement généralisables à de nombreuses familles de pages Web, mais, pour être confirmés, mériteraient d’être examinés dans le cadre d’un corpus élargi. La question du caractère généralisable des résultats obtenus à partir d’un corpus est en effet renvoyée à celle de la représentativité admissible du corpus. La question de leur validité ne serait autre que celle d’un accord sur l’interprétation de leur sens et de leur portée.

D’un point de vue opérationnel, le corpus est pour nous un univers de référence en vue d’une description. Il donne la matière concrète pour représenter un axe de lecture, et de fait à la multiplicité des lectures répond la non moindre multiplicité des corpus possibles. Le corpus des textes des programmes d’activité des chercheurs d’EDF peut par exemple être utilisé pour définir un univers d’unités descriptives², utilisables ensuite pour indexer tout texte sous l’angle des axes de recherche l’entreprise (Bommier-Pincemin 1999). Le corpus devient un véritable outil herméneutique.

Le corpus fournit un référentiel de nature intralinguistique, mais susceptible d’une portée interprétative étendue. Les trois pôles intrinsèques du texte, à savoir l’impression référentielle suscitée par le texte, et les foyers énonciatifs et interprétatifs, tels qu’ils sont représentés dans le texte et situés par les règles du genre textuel, restituent, comme en trace, les trois pôles extrinsèques du texte –l’auteur, le monde, et le destinataire (Rastier 1996).

Le corpus est toujours fini, et relatif au point de vue selon lequel sa constitution est interprétable. En ce sens, il n’existe pas de corpus universel (en raison de l’indétermination de l’ensemble des points de vue possibles), ni de corpus représentatif de la langue générale (puisque tout texte s’inscrit dans une pratique sociale et relève d’un genre, et qu’il n’y a donc pas d’usage neutre ou non spécialisé de la langue). Quant à un corpus ‘tout informe’³, qui collecterait n’importe quel texte rencontré sans restriction ni orientation particulière du recueil, son statut est problématique, et son exploitation linguistique douteuse, car il confronte artificiellement des effets de langues qui ne sont jamais mêlés.

2.2. Structure du corpus et textualité

Compte-tenu de l’exigence d’interprétabilité du corpus, il apparaît essentiel de penser sa composition en termes de textes. Si le corpus est vu comme du texte (et non comme des textes) (Péry-Woodley 1995), il est artificiellement privé de ce qui structure les contextes de ses éléments, et de ce qui fonde la délimitation de ses constituants et leur autonomie.

Une définition trop restrictive de la textualité pourrait faire craindre une limitation trop drastique et puriste des corpus acceptables. La première idée que l’on se fait d’un corpus de textes, c’est celle d’une collection de romans, ou d’un fonds de documents techniques ou d’articles de presse ; mais il y a bien d’autres textes que des œuvres littéraires ou des publications professionnelles. Une collection d’instructions consignées sur des panneaux routiers, ou bien d’étiquettes attribuées à des boutons ou des menus déroulants d’une interface logicielle, peuvent constituer des collections de textes : un texte ne se définit pas d’abord par

2 en quelque sorte un répertoire (univers) de mots-clés (unités descriptives), ces mots-clés prenant la forme de combinaisons structurées de mots du texte : mots simples (ex. corpus), expressions composées plus ou moins figées (ex. linguistique de corpus), mots dont la récurrence locale d’ensemble contribue à la formation d’une isotopie (ex. codage, SGML et balise dans un même paragraphe).

3 constitué selon l’optique « more data is better data », dénoncée par (Péry-Woodley 1995).

sa forme, et en particulier un texte n’est pas obligatoirement long. Par ailleurs, un recueil d’extraits choisis peut devenir un corpus de textes, dans la mesure où chacun des dits extraits devient un texte à part entière, considéré de façon autonome, envisagé comme un tout construit, avec son début, sa fin, sa progression. Ce corpus ne serait pas un « échantillon de la littérature française », mais refléterait une vision conventionnelle et une réécriture pédagogique de cette littérature. Autrement dit, il n’y a pas de textes en soi, et dans lesquels il faudrait (et suffirait de) piocher pour former des corpus. Un texte est toujours défini par un acte interprétatif, et prend sens par rapport à la perspective selon laquelle il est institué.

Du point de vue du codage du corpus, les standards actuels (TEI, ISO 12083) accordent une place essentielle à l’entête, qui précise notamment les choix et conventions de codage, et les sources des documents. Ces informations accompagnant le corpus sont effectivement fondamentales, en ce qu’elles guident son interprétation, et donc ses utilisations possibles.

Mais il s’agit également de rendre compte des structurations significatives qui articulent les textes eux-mêmes, et orientent la lecture⁴. Chaque texte présente une organisation interne : zones de localité, constructions de type listes, rapport titre / partie, etc. Des relations intertextuelles doivent également être exploitables lors des traitements : regroupements et oppositions multiples (en fonction de l’auteur, du genre textuel), ou relations orientées (d’évolution, d’héritage). Le rattachement et la chronologie des programmes d’activités du centre de recherche d’EDF sont ainsi utilisés pour calculer le vocabulaire caractéristique de chaque Département, en tenant compte des effets de récence et de stabilité (Bommier &

Lemesle 1995). Plus généralement, (Bommier-Pincemin 1999, §V) propose un modèle de document SGML (la DTD Corpus) centré sur la description de structures génériques intra- et inter-textuelles. Sa valeur opérationnelle est illustrée notamment par la traduction automatique de pages Web tout-venant (non strictement conformes à la DTD HTML) dans ce format.

2.3. Pièges et opportunités pour la sémantique

Le recours à un corpus dans une étude linguistique est communément assorti à la volonté de travailler sur des données réelles, attestées, et même « grandeur nature » (capacité à embrasser des volumes importants dans leur entier). Toute l’ambiguïté tient alors à la force que l’on accorde au mot même de données, et deux orientations divergentes se dessinent.

La première voit dans ces données tout ce dont on dispose pour une exploitation ultérieure, et s’efforce par conséquent d’enrichir et de préciser cette ressource. Par exemple, un repérage des unités morpho-syntaxiques, ou un codage sémantique, devraient économiser la répétition d’analyses linguistiques, plus ou moins performantes et jamais infaillibles. L’effort investi dans cet étiquetage, unique et définitif, peut donc être plus important : des procédures semi- automatiques permettent d’éliminer les ambiguïtés rencontrées par l’analyse automatique, et de valider les unités et les structures identifiées. Cependant, on reconnaît ici un risque de figement du corpus, qui ne serait lu que selon un seul point de vue statique. De plus, c’est un référentiel externe et peu contextuel qui est projeté sur le corpus, si l’étiquetage une fois effectué est invariant par rapport à la composition et aux frontières du corpus.⁵

4 L’utilisation du Modèle de l’Espace Vectoriel (Salton & McGill 1983) sur des textes représentés comme des « paquets de mots » révèle ses limites dès que les textes font quelques pages ou plus (c’est le problème des « textes longs » ressortant des articles de la conférence américaine TREC) : de fait, la structuration interne des textes est ignorée, alors qu’elle module les interactions s’établissant entre les mots du texte.

5 Notre critique s’adresse à un étiquetage sémantique, par exemple un usage généralisé des balises référentielles dans la TEI (personnes, dates, etc.), ou des projections de catégories

(3)

L’autre orientation est celle de la sémantique interprétative, qui affirme avec force que les unités ne sont pas données mais construites, et que c’est le global (le contexte du texte, du corpus, de la pratique sociale et culturelle dans laquelle le texte s’inscrit) qui détermine le local (la délimitation d’une unité lexicale, le choix de lui reconnaître telle signification). Le volume du corpus est alors un point d’appui nouveau et puissant pour, à l’aide du levier des statistiques, construire et repérer dynamiquement des unités linguistiques et sémantiques, par rapport à un contexte intertextuel motivé. La tactique de l’apprentissage endogène, mise au point par Didier Bourigault pour le logiciel LEXTER d’extraction de terminologie (Bourigault 1994), est un tel exemple d’identification de structures linguistiques s’appuyant sur le contexte d’un corpus construit et homogène.

Une sémantique unifiée montre la présence de structures sémantiques à tous les paliers de l’analyse : mot, phrase, texte. Un codage qui s’en tient à étiqueter des items lexicaux⁶ manque donc la formation d’unités sémantiques des autres ordres (par exemple l’interprétation « en bloc » d’une citation, l’impression diffuse suscitée par une suite de quelques paragraphes). Par nature, il atomise le sens, et ne permet pas de rendre pleinement compte du mécanisme des isotopies sémantiques : en effet, « ce n’est pas la récurrence de sèmes déjà donnés qui constitue l’isotopie, mais à l’inverse la présomption d’isotopie qui permet d’actualiser des sèmes, voire les sèmes » (Rastier 1987, Introduction § II.A, p. 12). Un modèle de caractérisation sémantique d’un corpus, compatible avec la construction dynamique d’unités à différents paliers d’analyse (mot, paragraphe, texte), est décrit dans (Bommier-Pincemin 1999)⁷, et fait l’objet d’une première implémentation.

3. Une expérience de constitution de corpus : la base de profils d’une application de diffusion ciblée

3.1. Présentation de l’application DECID

Le serveur DECID (Diffusion Electronique Ciblée d’Informations et de Documents), opérationnel sur l’Intranet EDF depuis 1995, est utilisé pour repérer les personnes les plus concernées par un document, ou les experts sur un sujet, parmi tous les chercheurs de la Direction des Etudes et Recherches (DER). L’interrogation du système DECID se fait directement au moyen d’un texte : l’utilisateur entre quelques lignes de synthèse au clavier, ou comme présenté dans (Habert & al. 1997, § III). Toutefois, les étiquetages morphosyntaxiques ne sont pas dépourvus de subjectivité, nous en voulons pour preuve les discussions sur les jeux d’étiquettes et sur les options alternatives d’interprétation et de codage qui apparaissent en pratique, par exemple dans le contexte de l’évaluation GRACE (cf. Journée ATALA du 24 octobre 1998, organisée par Patrick Paroubek et Martin Rajman).

6 y compris un étiquetage contextuel comme présenté dans (Habert & al. 1997, § IV.3), qui opère en considérant le voisinage syntagmatique (et quelquefois paradigmatique) de l’item lexical et va ainsi bien au-delà d’une procédure mot-à-mot : même dans ce cas de traitement avancé, l’information sémantique est in fine localisée dans les seuls mots. Par contraste, (Thlivitis 1998) propose par exemple des sèmes attachés aux textes et structurant ceux-ci dans un intertexte, en complément des sèmes distribués au niveau des lexèmes.

7 La tactique consiste à tirer parti des régularités de comportement des unités issues des analyses locales, observées à l’échelle du corpus, pour réélaborer des unités motivées (détermination du local par le global). Certaines de ces nouvelles unités consistent en constellations d’indicateurs sur une zone de localité (période, paragraphe, texte) et ne se forment alors qu’à l’échelle de ces zones et pour caractériser celles-ci.

mieux procède par copier / coller (par exemple depuis son traitement de texte, ou depuis une autre page Web) ou encore indique un fichier. DECID répond par une sélection organisée de personnes ; des informations expliquant chaque rapprochement et une navigation hypertexte aident à l’interprétation des propositions calculées. Une diffusion par courrier électronique peut ensuite être effectuée par DECID, pour les destinataires finalement retenus.

Techniquement, le fonctionnement de DECID repose sur : (i) la construction automatique des profils de l’ensemble des chercheurs, à partir d’un corpus de textes représentatif de leur activité ; (ii) la capacité à calculer une représentation sémantique de tout texte soumis au système ; (iii) la mise au point d’une mesure d’adéquation (similarité) entre le document soumis et chacun des profils.⁸

La question de la constitution et de l’utilisation d’un corpus se pose donc pour la définition des profils des destinataires. En effet, au niveau applicatif, l’ensemble des profils forment une base : ils sont considérés en interrelation les uns avec les autres. Au niveau de la représentation, les textes forment un corpus. Les propriétés attendues chez l’un doivent se retrouver chez l’autre : à l’exhaustivité, la régularité, requises pour la base, répondent la cohésion et l’équilibre du corpus. Le choix des documents pour la représentation des profils se présente comme la construction raisonnée d’un corpus, aux soins du concepteur puis de l’exploitant de DECID.

Rares sont les réalisations de bases de profils à partir de textes constitués en corpus –à la différence d’un mécanisme de relevance feedback où les textes servent de fournisseurs de mots-clés pour alimenter et rectifier le profil, en continu et indépendamment les uns des autres. Non loin de notre approche, (French 1994) imagine un espace de recherche composé de documents et de profils pouvant entrer en relation. (Streeter & Lochbaum 1988) présentent une application analogue à DECID : le corpus servant à définir les profils n’est pas l’objet d’une réflexion théorique ou méthodologique, néanmoins il est bien exploité dans sa dimension d’ensemble grâce à la technique LSI (Latent Semantic Indexing).

La réflexion que nous présentons autour de ce corpus est conduite dans l’esprit d’une sémantique textuelle interprétative. Elle présente également le cas d’un corpus conçu avec une dimension évolutive, se déployant sous forme d’une série chronologique.

3.2. Principe initial : tirer parti des textes

L’automatisation de la chaîne de traitement suppose que l’on n’impose pas comme format d’entrée une structuration particulière, qui pour la plupart des corpus devrait être ajoutée manuellement ou même semi-automatiquement. En effet, le balisage d’un corpus est une charge de travail considérable. Il s’agit donc de pouvoir exploiter automatiquement des informations de structuration existantes, comme de pouvoir se passer d’informations de structuration explicite quand le texte d’entrée est démuni de tout balisage.

Il faut souligner l’importance de recueillir et de se fonder sur des données de qualité, tant en ce qui concerne la propreté des fichiers, d’une part, que sur l’intérêt des informations qui

8 Pour DECID v.1 (en exploitation), un profil est représenté par un vecteur pondéré de mots, à la manière du Modèle de l’Espace Vectoriel (Salton & McGill 1983) ; les rapprochements sont calculés à l’aide d’un cosinus sur l’angle entre vecteurs représentatifs. DECID v.2 (en développement) allie la robustesse et la souplesse du Modèle de l’Espace Vectoriel avec une meilleure gestion de la contextualité, grâce à des réaménagements significatifs : redéfinition des unités d’indexation, contrôle de la combinatoire des dimensions de l’espace vectoriel (Bommier-Pincemin 1999).

(4)

sont représentées, d’autre part. Si les données pèchent par de nombreuses irrégularités ou lacunes, les traitements automatiques ne peuvent opérer que des caractérisations confuses et des rapprochements décevants. Si derrière les profils, il n’y a pas des données de valeur, nul n’a envie d’utiliser le système. Faute de se baser sur des textes de qualité, l’application est alors doublement inutile –inutilisable et inutilisée.

3.3. Critères d’adéquation d’un corpus à l’application DECID

Pour avoir une description des profils sans mobiliser les agents, les textes utilisés doivent faire partie des documents courants, donner un écho de l’activité des agents, et faire l’objet d’une collecte centralisée sous forme électronique. D’un point de vue méthodologique, une grille de critères a été établie, qui conduit à examiner la présence des éléments suivants :

• Une indication de date (année) : les profils sont repérés dans le temps, et chaque année forme une base de profils. Le profil actuel d’une personne traduit ses centres d’intérêt alors que ses profils des années passées reflètent plutôt ses compétences acquises (cf. § 3.5).

• Le statut éventuel du document : il s’agit de faire la part entre d’une part les documents provisoires, projets en discussion, et d’autre part ce qui reflète une activité effective.

• Des données textuelles suffisamment riches : un titre ou un libellé seul est insuffisant ; un résumé (résumé descriptif en quelques lignes) est souvent trop synthétique et superficiel ; une synthèse (résumé informatif de l’ordre d’une page) ou / et le texte intégral sont ce qui convient le mieux. L’idéal est de disposer d’un texte structuré.

• Une indication permettant le rattachement du document à une personne ou à une structure (Groupe, etc.) : l’exploitation automatique des noms propres est délicate, notamment s’il y a plusieurs personnes (il faut isoler chaque nom), s’il existe des homonymes ou au contraire si la personne change d’état-civil (passage du nom de jeune fille au nom d’épouse), si le nom se prête à des confusions entre nom et prénom, à des variantes d’orthographe ou de saisie (parce que composé, ou d’origine étrangère, par exemple). Expérimentalement, ces difficultés entraînent un taux d’erreur de l’ordre de 1 %.

• La pérennité de la source qui fournit la version électronique : la définition des profils doit pouvoir être actualisée périodiquement. On se fonde donc sur des documents dont le circuit prévoit l’enregistrement d’une version électronique. A la DER, la base de données SPHERE centralise les données textuelles concernant l’activité.

• Une répartition régulière sur toute la DER : dans l’idéal, chaque entité doit être

« équitablement » décrite ; il faut éviter qu’une partie de la DER ait une représentation très détaillés, et qu’une autre n’ait que très peu d’éléments pour la construction de ses profils.

• Une couverture aussi fine que possible : toutes choses égales par ailleurs, les documents correspondant à l’activité d’une personne ou d’une petite équipe sont plus utiles que ceux faisant la synthèse de l’activité d’un Département. En effet, on peut construire une représentation de l’activité du Département connaissant l’activité de ses membres, alors que l’inverse n’est pas vrai.

• Une dynamique de renouvellement : les données très liées à un référentiel, comme les noms des équipes, ou les contrats sur lesquels elles se fondent, ont nécessairement une certaine inertie, par opposition à d’autres documents directement liés à l’activité en cours. L’image que doit donner DECID se veut suivre au plus près l’évolution des activités.

• La fiabilité du codage, sa fidélité par rapport à la version papier si elle existe : cela est moins crucial pour ce qui est du texte proprement dit (pour lequel une erreur devrait

souvent être corrigée par le contexte, ou par d’autres occurrences correctes), que pour les autres renseignements et la structuration du fichier (ne serait-ce que la séparation d’un texte à l’autre).

• L’accessibilité du document : DECID protège l’accès aux documents ayant servi à la définition des profils, et prévoit d’autres modes d’explication et de guidage pour une bonne exploitation des résultats sans la visualisation de ces textes. Cependant, l’utilisation des documents les plus confidentiels est d’autant plus délicate que l’on envisage une collection complète ; pour DECID, on préférera donc se baser sur des corpus pas trop sensibles. Il est clair cependant qu’avoir une bonne représentation de l’ensemble des activités actuelles de la DER est une information stratégique, jamais anodine.

D’autres critères, moins déterminants, peuvent intervenir de façon subsidiaire :

• La langue du document sur lequel est basé le profil détermine la langue des documents qui pourront en être rapprochés. L’essentiel des textes ici sont en français. Les données en anglais sont rares, peu développées (surtout traduction de titres, de résumés, mais pas de textes), et lacunaires. En l’état actuel, elles ne permettent pas la construction de profils, sinon peut-être de profils très généraux et sans doute incomplets au niveau des équipes (Groupes, Départements).

• Le format de codage des textes est variable selon les documents. En général, on a soit de l’ASCII (fichier texte standard), soit du SGML (fichier structuré). L’intérêt du codage SGML dépend du modèle que codent les balises et de sa pertinence pour l’application. Les autres facteurs importants sont la propreté du codage (taux d’erreurs de la version électronique) et sa richesse (conservation des accents, du découpage en paragraphes, etc.).

• Encore rarement reprises par une structuration SGML, les régularités de structure induites par un plan-type, ou les régularités relatives à un genre bien cerné, donnent accès à un traitement plus fin du document. En ce sens, l’existence de consignes de rédaction, qui instituent un cadre de référence, peut guider la modélisation, sachant toutefois que tout rédacteur n’a pas nécessairement une bonne connaissance des consignes, et que chacun se fait une idée, a son interprétation, de la forme qui est demandée.

• Le fait de disposer d’archives sur plusieurs années est un plus, car on peut construire immédiatement plusieurs bases de profils (avec la nuance entre profils d’intérêts -actuels- et profils de compétences), et l’on a aussi tout de suite des informations sur la stabilité et la nouveauté des activités.

Dans cette liste de critères ne figurent pas la présence d’attributs de classification (axe de recherche, thème de recherche,...), car (i) les grilles utilisées à la DER sont relativement peu détaillées, (ii) elles ne peuvent suivre de près l’évolution des thèmes de recherche, (iii) l’opération de classification, à savoir l’affectation à telle classe plutôt qu’à telle autre, est délicate et peut toujours être sujette à caution, (iv) l’affectation à un thème donné fige une vision univoque et a priori du texte, alors que DECID, en se fondant directement sur les textes, vise à s’affranchir d’un passage obligé par les cadres descriptifs connus (qu’il s’agisse de l’organigramme ou de disciplines instituées) et à favoriser le décloisonnement.

3.4. Choix d’un corpus : les textes d’Action

Les corpus accessibles recensés dans l’entreprise, au nombre d’une dizaine, sont confrontés méthodiquement à l’ensemble des critères retenus, à l’aide d’un tableau. Il en ressort que les Actions (ARD/AID) sont les plus aptes à fonder la définition des profils.

(5)

La DER, pour assurer un pilotage précis de son programme de travail, le découpe chaque année en Actions de recherche élémentaires (environ 2 000 Actions, soit un fichier SGML de l’ordre de 10 Méga-octets). Un texte d’Action est une description générale, en une à deux pages, d’un projet de recherche scientifique et technique, rédigée par le chercheur à l’intention de sa hiérarchie, et ayant un rôle décisif pour la détermination du contenu de son travail et des moyens qui lui sont accordés. On perçoit déjà que tout cela a une incidence sur le choix du vocabulaire (technique mais pas trop spécialisé), les types d’informations attendues (justifications, calendrier,...), la forme (longueur « convenable » (suffisante) mais

« raisonnable » (limitée) du document, articulation systématique par points de certaines parties), le point de vue porté sur le sujet (positif, engageant) et le « ton » de l’exposé (rapport hiérarchique)⁹. Du point de vue de sa forme, un texte d’Action comprend un entête, consignant les informations administratives et budgétaires, et une partie textuelle libre, de l’ordre d’une à deux pages. C’est cette partie rédigée, et l’intitulé de l’Action, qui sont utilisés pour le calcul des profils dans DECID.

Or, sur les années 1991-1999, on voit évoluer la forme de la partie rédigée (texte) des Actions. Il ressort très nettement qu’au début de cette période, il y a peu de prescriptions sur la manière d’organiser les informations, voire même sur le type de contenu attendu. Le document de doctrine paru en 1990 est centré sur le circuit de relecture et de validation de l’ordonnancement, l’unique indication sur le contenu est qu’y est défini « le programme de travail ». En revanche, trois autres facteurs contribuent dès le début à homogénéiser ces écrits.

Tout d’abord, le rédacteur s’inspire des Actions existantes, de son entourage (collègues, prédécesseur). Ensuite, le secrétariat de l’équipe, qui rassemble les textes et transmet le fichier aux instances pour relecture, a une vue d’ensemble des textes et peut intervenir sur leur mise en forme pour faire ressortir leur cohérence. Enfin, un modèle de structure est quelquefois utilisé (avec plus ou moins de variantes) par tous les membres d’une entité, sans doute en application d’une consigne à l’initiative du chef de Groupe ou de Département. L’ensemble des Actions comporte alors des textes de longueur et de structure variées, avec des petits groupes homogènes de textes analogues reflétant de fait l’organisation structurelle de la DER.

L’idée se fait jour de donner un plan-type de référence, suivi dans toute la DER : un tel plan est prescrit dans le document de doctrine diffusé en septembre 1995, pour entrer en vigueur dès 1996. Tel qu’il est conçu, ce plan opère une synthèse équilibrée des pratiques précédentes : il reprend les idées d’organisation les plus intéressantes qui figuraient déjà ici ou là : une introduction présentant le contexte de l’Action, une partie explicitant l’objectif général du projet, une partie détaillant les étapes planifiées pour l’année, etc. Dans les faits, la formalisation du cadre rédactionnel des Actions ne dissout pas les variations de style, ni les différentes manières de comprendre le rôle de chaque partie prévue et de la réaliser. La tendance est toutefois celle d’une homogénéisation¹⁰ progressive des textes à l’échelle de la DER, et à l’intérieur de chaque texte d’une spécialisation de chaque partie. Cela se traduit par des contrastes linguistiques : phrases construites vs structure énumérative (avec dominance des formes substantivées et infinitives), usage des temps et modes, etc. (Bommier-Pincemin 1999, Annexe V.1).

9 En filigrane on retrouve les quatre composantes sémantiques du texte proposées par François Rastier (Rastier, Cavazza, Abeillé 1994, § VII.4) : le vocabulaire renvoie à la thématique, la chronologie (explicite dans un calendrier d’étapes) à la dialectique, le point de vue et le ton à la dialogique, la forme à la tactique.

10 Notamment : longueur des textes, réduction de la gamme des variantes des intertitres utilisés pour organiser le contenu, généralisation de l’emploi de certaines tournures.

3.5. Dimensions d’un profil et rôle d’un texte : interprétation du corpus dans le cadre de la diffusion ciblée

Le profil d’une personne dans DECID a deux faces : la personne peut être recherchée soit comme destinataire, soit comme source d’information. Dans le premier cas, on parle du profil d’intérêts de la personne, et dans le second de son profil de compétences.

Les documents sous-jacents, pouvant servir à la caractérisation, alimentent l’un ou l’autre de ces profils. Il n’est pas anodin de remarquer que les documents rédigés par une personne ne ressemblent qu’accessoirement aux documents dont elle se sert dans son travail ; ou que les documents cités dans une bibliographie sont toujours en léger décalage par rapport à l’ouvrage ou l’article qui les cite. L’information qui retient l’attention est celle que l’on n’aurait pas su retranscrire avant de la rencontrer. Cette forme d’hystérésis se retrouve dans les deux faces du profil. Le profil d’intérêt correspond aux documents consultés, étudiés, acquis, dans le cadre d’un projet actuel. Le profil de compétence ressort des compte-rendus, des rapports produits, des documents reçus pour relecture et avis ; il reflète souvent l’expérience acquise lors de projets relativement récents et menés à bien.

La teneur du profil se déplace donc, selon que l’on considère des documents écrits ou bien lus par la personne. Et un même document peut, avec le temps, glisser d’un profil d’intérêts à un profil de compétences. Dans DECID, l’interrogation rétrospective sur les textes d’Action des années passées est ainsi interprété comme une recherche d’expertise, l’interrogation sur l’année courante ou sur les prévisions pour l’année à venir vise des profils d’intérêt.

Enfin, l’organisation du travail fait que certains documents qui définissent ou reflètent l’activité d’une personne ne sont pas nécessairement écrits par elle : programme de travail établi par un supérieur hiérarchique, document de synthèse réalisé par un proche collaborateur. « Dans plusieurs cas, le nom de la personne n’apparaît pas sur le document qu’elle présente comme caractéristique de son activité […]. [Ou inversement,] le texte parle des activités [de l’auteur], mais on n’y perçoit pas le rôle de l’auteur dans l’activité décrite »¹¹. En bref, la relation de l’auteur à son texte n’est pas la seule possible pour construire un profil ; et cette relation se charge d’interprétations différentes notamment au fil du temps.

~ ~ ~

Un corpus présente pour un traitement des textes existants, réunis selon une visée interprétative. Son ancrage au réel est ce qui fonde les résultats qui en sont tirés, et leur donne valeur. Mais aussi, par son existence propre, le corpus se révèle une force potentielle vive de déplacement et de renouvellement des problématiques auxquelles on le confronte : il est source et objet d’une interprétation jamais définitive.

Ainsi, l’application de diffusion ciblée est née à EDF de l’opportunité d’exploiter des collections de textes électroniques disponibles. Pourtant, une réflexion sur la composition d’un corpus à partir de ces ressources a été nécessaire pour que l’application prenne sens, non sans nuances imprévues initialement, et qu’elle acquière une valeur opératoire dans les pratiques des utilisateurs. Cette expérience a également clairement ravivé la pertinence des concepts de textualité et d’intertextualité au plan de la mise en œuvre, notamment par rapport aux régularités effectives mais non systématiques liées aux genres textuels.

11 MERLE Thierry, FRADIN Marie-Agnès, SOINARD Xavier (1994) - Etude PUBE sur les profils utilisateurs de la bibliothèque électronique : résultats des groupes d’animation, Rapport d’étape n°3, HN-46/94/073, décembre 1994, acc. restreinte, Clamart : EDF-DER, pp. 68-69.

(6)

Remerciements

Je tiens à remercier les trois relecteurs anonymes de cette contribution, dont les critiques et suggestions ont permis d’améliorer sensiblement la qualité de ces pages.

Références

AMITAY Einat (1997) - Hypertext : The Importance of being Different, Master of Science Dissertation, Centre for Cognitive Science, The University of Edinburgh, sept. 1997, 61 p.

BOMMIER Bénédicte, LEMESLE Xavier (1995) - Caractérisation automatique des termes de métier et des termes généraux non discriminants pour la diffusion ciblée à la DER d’EDF, Note interne EDF-DER, HN-46/95/029, juill. 1995, acc. libre, Clamart : EDF-DER, 91 p.

BOMMIER-PINCEMIN Bénédicte (1999) - Diffusion ciblée automatique d’informations : conception et mise en œuvre d’une linguistique textuelle pour la caractérisation des destinataires et des documents, Thèse de doctorat, linguistique, Université Paris IV (Sorbonne), 6 avril 1999, n°99PA040027.

BOURIGAULT Didier (1994) - LEXTER, un Logiciel d'EXtraction de TERminologie – Application à l'acquisition de connaissances à partir de textes, Thèse de doctorat, École des Hautes Études en Sciences Sociales, Paris.

FRENCH James C. (1994) - « DIRE : An approach to improving informal scientific communication », Information and Decision Technologies 19, pp. 527-541.

HABERT Benoît, NAZARENKO Adeline, SALEM André (1997) - Les linguistiques de corpus, Paris : Armand Colin, 240 p.

PERY-WOODLEY Marie-Paule (1995) - « Quels corpus pour quels traitements automatiques ? », Traitement Automatique des Langues, 36 (1-2), pp. 213-232.

PINCEMIN Bénédicte, ASSADI Houssem, LEMESLE Xavier (1996) - ECAI’96 - Workshop Corpus-based semantic analysis : Compte-rendu, Note Interne EDF-DER, HN-46/96/038, HI-23/96/014, déc. 1996, acc. libre, Clamart : EDF-DER, 44 p.

RASTIER François (1987) - Sémantique interprétative, Presses Universitaires de France, 277 p.

RASTIER François (1996) - « Pour une sémantique des textes -questions d’épistémologie », in Textes & Sens, François RASTIER (dir.), Paris : Didier Erudition, pp. 9-35.

RASTIER François (1998) - « Le problème épistémologique du contexte et le problème de l’interprétation dans les sciences du langage », Langages, 129, pp. 97-111.

RASTIER François, CAVAZZA Marc, ABEILLE Anne (1994) - Sémantique pour l’analyse –De la linguistique à l’informatique, Paris : Masson, coll. Sciences cognitives, 252 p.

SALTON Gerard, MCGILL Michael J. (1983) - Introduction to Modern Information Retrieval, McGraw-Hill.

STREETER Lynn A., LOCHBAUM Karen E. (1988) - « Who knows : a system based on automatic representation of semantic structure », RIAO’88 « User-Oriented Content-Based Text and Image Handling », Cambridge MA, 21-24 mars 1988, pp. 380-388.

THLIVITIS Théodore (1998) - Sémantique Interprétative Intertextuelle : assistance informatique anthropocentrée à la compréhension de textes, Thèse de Doctorat, Informatique, Université de Rennes 1, 29 juin 1998, 218 p.