Mise à jour de règles de reformulation

(1)

HAL Id: dumas-01712979

https://dumas.ccsd.cnrs.fr/dumas-01712979

Submitted on 20 Feb 2018

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Mise à jour de règles de reformulation

Carole Luczak

To cite this version:

Carole Luczak. Mise à jour de règles de reformulation. Sciences de l’information et de la communica-tion. 1997. �dumas-01712979�

(2)

Commissariat

à

_{VEnergie Atomique}

Carole

Luczak

Tuteur de

_stage

_:

_{Christian Fluhr}

Mise

à

_jour

_de

_règles

_de

reformulation

27

_{juin 1997}

_-

_{26 septembre}

₁₉₉₇

Maîtrise

Sciences de

_Vlnformation

_et

_{de la}

Documentation

(3)

Université Charles de Gaulle - Lille III

Je remerciechaleureusement Christian Fluhr pour

l'accueil qu'il

m'a réservé au sein de son laboratoire et_pour

_{les conseils qu'il}

m'a

_prodigués.

Je souhaite aussi

_faire

_part

_de

_ma reconnaissance à Karine Gurtner_pour l'aide

_qu'elle

_m'a

_apporté

_{dans la}

connaissance de SPIRIT.

Un

_{grand merci également à}

_Frank

Legrand

pour

l'aide

qu'il m'a

apporté

surlareformulation et la

_gestion

_des

dictionnaires.

Je souhaite

_{également exprimer}

_ma reconnaissance àJean-Luc Simoni

_qui

m'a

_longuement

_{parlé de la linguistique}

pour

l'informatique.

Et

_{enfin, merci à}

_toutes

_les

_personnes

_{du S.I.I.A.}

qui

m'ont apporté

leur aide d'une manière

ou

(4)

SOMMAIRE

1.INTRODUCTION 5

2.PRÉSENTATIONDE L'ENTREPRISE ET DU SERVICE 7

2.1.LeCommissariatàl'EnergieAtomique 7

2.2.La Directiondel'Information_ScientifiqueetTechnique 9

3.PRÉSENTATIONDULOGICIEL SPIRIT 11

3.1. Principesgénéraux 11

3.1.1. Mécanismesd'accèsetde recherche deSPIRIT 11 3.1.2. Rechercheparinterrogation 12 3.2.Architecturegénérale 13

3.2.1.lesdifférentsmodules deSPIRIT 14

3.2.2. Lesdifférentesphases del'analyselinguistique(ouanalysemorpho¬

syntaxique) 15

4. LAREFORMULATION 19

4.1._{Ce qui est}_à_l'origine_{de la reformulation} 19

4.1.1. Encequiconcernelareformulationmonolingue 19

4.1.2. Encequiconcernelareformulationmultilingue 21

4.2.Structuredesrèglesde reformulation 21

4.2.1. Lescatégoriesgrammaticales 22 4.2.2. Lesrelations_sémantiques ₂₃

5. MISEÀ.TOUR DESRÈGLES DE REFORMULATION. 25

5.1. Lesdomainesconcernéspar labase despublications duC.E.A. 25

(5)

6. LESDIFFÉRENTS PROBLÈMES RENCONTRÉS 28

6.1.Problèmesliés àlatraduction dansune autre langue: rapprochement avec

laterminologie. 28

6.2.Lesproblèmesliésausystèmedocumentaireautomatisé 30

6.2.1.Lanormalisation 30

6.2.2. Lasymétrie 31

6.2.3.Larecherche documentaire avanttout 31

7. CONCLUSION 32

ANNEXE A: GLOSSAIRE DES TERMES SPIRIT 33

(6)

1. Introduction

Mon _stage _s'est _{déroulé dans le} _département _{de la Section Méthodes} _et _{Technologies de}

l'Information au sein de la Direction de l'Information _Scientifique _et _{Technique du} Commissariat à _{l'Energie Atomique (CEA) de Saclay. La DIST étant} _en _cours _de

restructuration, l'organisation ainsi que l'appellation de ses différents services est amenée à changer prochainement. Le sujet du stage était «mise à jour des règles de reformulation

multilingues dans le cadre de la mise en place sur Internet de la base des publications du CEA », Monsieur Fluhr Christian en était le tuteur. Ce stagea durétrois mois de début août à fin_septembre.

Le C.E.A.adoncle_{projet de} _mettre _sa_{base de publications} _sur_Internet_par _{l'intermédiaire de} SPIRIT W3. Internet étant un réseau international il s'est avéré nécessaire de _permettre _une

interrogation multilingue, ce qui implique alors l'existence de règles de reformulation multilingues. L'interrogation de la base des publications du C.E.A. sera bilingue. On devra pouvoir interrogeraussi bien enfrançais qu'en anglais.

Mon travail a doncconsisté en la traduction _{anglais-français} _et_{français-anglais de} _mots _qu'il

fallait ensuite _organiser _sous _{la forme stricte des règles de reformulation. Dans} _ces_{règles de}

traduction doivent _apparaître _aussi _{bien les différents} _sens _du _mot _en _entrée _que _les

synonymes.

Avantdecommencerletravail_{précisément il}_a_fallu_que_{j'étudie le fonctionnement général de} SPIRITet_plus_{particulièrement celui des règles de reformulation.} _{Pour effectuer le travail,}_j'ai

(7)

Dans ce_rapport_je_présenterai _tout_d'abord _l'entreprise _et_le _{service dans lesquels}_{j'ai effectué} mon _stage. _Je _{m'intéresserai ensuite}_au _{fonctionnement général du système SPERIT} _et _à _celui des _{règles de reformulation. Je présenterai enfin de façon plus détaillée le travail} _effectué _lors dece_stage.

(8)

2. Présentation de l'entreprise et du service

2.1. Le Commissariat à

_l'Energie

_Atomique

Le Commissariat à _{l'Energie Atomique (CEA) créé} _en ₁₉₄₅ _sous _{l'influence du Général De}

Gaulle etde FrédéricJoliotestun_{organisme public de recherche chargé de donner à la France} la maîtrise de l'atome dans les secteurs de _{l'énergie, de l'industrie} , de la recherche, de la

santé, del'environnementetde la défense.

Le CEA est une force de proposition, d'expertise _et _{de conseil} _pour _{les pouvoirs} publics. _Il

prépare l'avenir et apporte son soutien à l'industrie nucléaire. Il étudie des palettes de

solutions _{scientifiques} _et _{techniques afin} _que _{les décideurs} , pouvoirs publics et industriels,

soienten mesure de_prendre, _en_toute _{connaissance de} _cause _,_les _{solutions les mieux adaptées} pourle présentetpourl'avenir.

Les_projets_nucléaires _du_CEA _sont_:

• _La contribution à la _{prolongation de la} _{durée de vie du}

parc électronucléaire actuel, au _{développement} des réacteurs à _eau _sous _{pression de nouvelle génération} _et _à l'accroissement des _{performances des combustibles,} _en _{étroite collaboration} _avec _EdF, Framatomeet_Cogema _{(Compagnie générale des matières nucléaires).}

• L'étude de _nouveaux _{procédés d'enrichissement} _{de l'uranium}

avec COGEMA, le

(9)

ceux de haute activité et à vie _longue, _avec _Cogema _et _{Andra ( Agence} _nationale _pour _la

gestion des déchetsradioactifs). • _Les _recherches _et

l'expertise en sûreté nucléaire notamment pour le compte de la

Direction de la sûreté et des installations nucléaires _{(DSIN), la} _protection _contre _les

rayonnements ionisants dont la radiobiologie est l'une des composantes principales et la médecine nucléaire.

• _La_{métrologie des}

rayonnementsionisants etl'application desradioéléments. • _La_fusion_{thermonucléaire} _contrôlée.

• _Le

développement du programme de simulation destiné à maintenir la crédibilité et

lafiabilité de la_capacité_de_{la dissuasion}_{nucléaire française.}

Le CEA a _également _pour_mission, _en _utilisant _{les compétences qu'il} _a _{développées} _pour _le nucléaireeten_coopération _avec_les _autres _{organismes de recherche, d'apporter}_sa_contribution

spécifiqueaux autresgrandes priorités nationales dans différents domaines telsque :

• _La recherche fondamentale : _physique _des _particules, _physique _nucléaire,

astrophysique, structures et architectures moléculaires, interaction rayonnement matière, climatologie, biologiecellulaireet ingénierie des protéines.

• _Les

développements technologiques : micro-électronique, optronique, génie des

matériaux, ingénierie des protéines, technologies de l'environnement, instruments pour la recherche_scientifique _et_la_{diffusion technologique}_notamment_au _{bénéfice des PME-PMI.}

• _La _{transmission du savoir} _{et notamment}

l'enseignement et la formation par la recherche.

Depuis 1983, l'ensemble des participations industrielles du CEA est détenu par sa filiale à

96%, la holdingCEA-Industrie.

Son_organisation_est_simple_et_{décentralisée} _:

•Ladirection_générale

• neufdirections fonctionnelles

• _Sept_{directions opérationnelles (dont la DIST)} • Deux instituts

(10)

Le _{siège du} _CEA _est _{situé à} _{Paris (XVème).} _Les _activités _de _recherche _et _de _{développement}

sont_réparties _{sur onze}_sites.

2.2. La Direction de l'Information

_Scientifique

_et

_Technique

La Direction de l'Information _Scientifique _et _{Technique (DIST)} _est _une _des _sept _directions opérationnelles du CEA. Créée le premier mai 1995, la DIST a succédé à

la

Mission d'Information _Scientifique _et_{technique (MIST). Elle} _{a pour}_{missions essentielles de collecter,} gérer, élaborer et diffuserl'information scientifique ettechnique. Elle en assure lapertinence

et en garantit le meilleur accès. Elle sensibilise les chercheurs _etles ingénieurs du CEA _aux méthodes etaux outils modernesdansce domaineenévolutiontrès _rapide.

Implantée surles sites de Cadarache, Saclay etValrho, la DISTest, enpriorité, au servicedes unités du CEA. La_politique_qu'elle _{se propose}_{de développer}_a_deux_objectifs _:

1. _répondre_aux_besoins_{exprimés, c'est-à-dire} _:

♦ _repérer, _rendre_explicite_et_analyser_ces_besoins _en_information _{en y}_associant

étroitementles _{utilisateurs,}

♦ maîtriser les outils et les méthodes au service de l'IST _{(BD, CD-ROMs,} serveurs, réseaux, méthodes _pour _{la recherche} _{bibliographique, veille, gestion}

de_documents,_{gestion des connaissances),}

♦ aiderles unités àmettreen_{place des}_moyens _{adaptés à leurs besoins.}

2. _développer_la_culture_{d'information} _scientifique_et_{technique, c'est-à-dire} _:

♦ sensibiliser les chercheurs et les _{ingénieurs du CEA à l'importance} croissante de l'IST, parexemple en rendant la recherche d'informations plus

simple,plus rapideetplus pertinente,

♦ _développer_les _{flux d'information élaborée}_afin _de_{valoriser les compétences}

et le savoir des _{équipes du} _{CEA à l'intérieur (mieux} _{exploiter la}

pluridisciplinarité)età l'extérieur (offres de service, publications).

(11)

La DIST de _Saclay _est _actuellement _{en cours} _de _{restructuration} _et _aucun _{des changements}

n'ayantété rendu officielnousprésenterons l'anciennestructure :

=> l'Echelon de Direction

=>la Section des_{Bibliothèques (SBi)}

=>la Section Collected'InformationetBases de Données _(SCIBD)

=>la Section RechercheetElaboration del'Information _(SREI)

=>laSection Méthodes et_Technologies_de_{l'Information} _(SMTI)

LaSection Méthodeet_{Technologies de}_{l'Information}_:

Elle a _pour mission d'étudier _et de _gérer les _{techniques de documentation électronique. Le}

service est ainsi _chargé _{de développer} _et _{d'analyser de nouvelles techniques documentaires}

comme l'hypertexte (liens dynamiques _entre _différents _textes), _{l'interrogation documentaire}

en_langage_naturel.

Dans _{l'organisation à} _venir _{la SMTI} _et _{la SREI fusionneraient} _pour _former _{le Service}

(12)

3. Présentation du logiciel SP1R1T

SPIRITestun _{logiciel de gestion} _documentaire _{issu des} _travaux _{de recherche} _conduits _par _A.

Andreewsky, F.Debili etC. Fluhr.

Comme tout_système _documentaire _son_rôle _principal _est_{de satisfaire le besoin d'information}

expriméparl'utilisateur.

3.1. _Principes

_généraux

SPIRIT est un _{logiciel existant} _en _{deux versions} _: _une _version _monoposte _{ou une} _version client/serveur. Les serveurs SPIRIT fonctionnent sous deux _types _{d'environnement}_: l'environnement UNIXou celui de Windows NT.

3.1.1. Mécanismes d'accès et de recherche de SPIRIT

Nous allons décrire les différents modes d'accès aux documents stockés dans une base SPIRIT.

On_{distingue les trois modes suivants, disponibles dans SPIRIT} Laconsultation :

C'estle fait d'accéder àun document dans la_base, _au _moyen_de _{la référence de}_ce_document.

L'interrogation :

C'est la recherche _proprement _{dite. Le} _{résultat de la} _{recherche, effectuée à} _{partir d'une}

question entrée par l'utilisateur, se compose d'un certain nombre de classes de documents .

(13)

Ces classes sont triées _par _{ordre décroissant de pertinence} _et _{contiennent chacune} _{un ou} plusieursdocuments-réponse.

L'accès hypertexte :

H _permet_{d'accéder directement}_à_un_{document à partir d'un}_autre _document, _{à l'aide d'un lien}

hypertexteappelé renvoiinterne.

3.1.2. _{Recherche par}

_{interrogation}

Dansce_type_{de recherche,}_{l'utilisateur saisit}_une_question _comportant_{un ou} _plusieurs _critères de _type _factuel _et/ou _{textuel. Chacune des} _zones _de _saisie _d'une _grille _permet _d'interroger simultanément le contenu d'un ou _{plusieurs champs de la base SPIRIT correspondante,} _et_qui

sont _toujours _{de même} _type. _Le _type _du _ou _{des champs détermine ainsi le} _type _de _la _zone

correspondante.

Pour chacun des critères entrés dans les différentes zones de saisie de la _grille _courante,

SPIRIT examine les _{portions des index de la base qui correspondent à} _ces _{champs. Les} opérations d'indexationeffectuées sur le contenu des zones textuelles des documents, lors de

leur_{intégration,} _sont_également_exécutées _sur_{les critères des questions.}

Chacun des critères entrés fait donc _{l'objet d'un traitement qui dépend de} _son _{type, et} _qui

permetd'obtenir :

Laliste des documents _qui_y_répondent,_{pour un} _{critère factuel donné.}

La liste des classes de documents _qui _y _{répondent (plus} _ou _{moins précisément), triée}

parordre depertinencedécroissante,pourun critère textuel donné.

Toutes les listes ainsi obtenues sont _analysées _{pour en} _{extraire la liste des}

documents-réponses.

Traitementdes critères factuels

plusieurs opérations sont effectuées successivement par le service d'analyse factuelle de SPIRIT:

Décomposition ducritère enconditions élémentaires.

Pourchacune des conditions élémentaires , déterminationde laliste des documents qui

répondentàcette condition. Cette liste estétablie à partir des listes d'index du ou des champs correspondant à lazonede saisiedu critère.

Intersection des listes de documents _qui _{répondent à chacune des conditions} élémentaires.

(14)

traitementdes critèrestextuels

Le traitement de _{l'interrogation} _en _{langage naturel} _est _constitué _de _{plusieurs étapes qui} _ont

une forte similitude avec les _{opérations d'indexation du} _contenu _d'un _{champ textuel. Nous} allonsdétaillerces différentes_étapes _au_{chapitre suivant.}

3.2. Architecture_générale

Le _système _SPIRIT _permet _{de rechercher de l'information} _{à partir} _de _requêtes _en _langage naturel dans du texte _{intégral. Il existe deux traitements} : le_premier estdestiné à l'indexation

de la base _{textuelle, le} _deuxième est destiné à l'interrogation en langage naturel. Les deux traitements utilisent la même _{analyse morpho-syntaxique soit} _pour _{l'extraction des} _mots significatifs du texteintégral lors de l'indexation, soitpourl'analyse de la requête enlangage naturel.

Le schéma ci-dessous nous montre de _{façon plus détaillée les deux traitements du système}

(15)

Figure 1 : Schéma de fonctionnement

3.2.1. les différents modules de SPIRIT

Avant denous intéresseren détail au module _{principal qu'est l'analyse} _{linguistique,} _passons brièvementenrevuelesautresmodules.

Les _analyses _statistiques _se _{font après} _{l'analyse linguistique lors} _de _l'indexation _de _{la base} textuelle. Al'aide d'unmodèle _statistique_{elles attribuent}_un_poids_pour _chaque_mot _simple_ou composé à partir de l'ensembledes motssignificatifs. La pondération dans le système SPIRIT

est fondée sur le principe selon lequel, plus les _mots _se _trouvent _{dans de nombreux}

(16)

Contrairementaux _systèmes_de_{recherche documentaire booléens, SPIRIT}

préfère

_renvoyer

les

réponsesles plus prochesplutôt quedenepasfournir de réponses

(notion de silence).

Les _poids _{ainsi calculés} _par _les _{analyses statistiques} _sont _utilisés _{lors de}

_{l'interrogation,}

précisément pour lemodule de comparaison question-documents (ou module comparateur ), pour calculer la proximité sémantique et trier les documents pertinents selon un

ordre

décroissant de_pertinence.

Le fichier inverse sert à mettre en _{correspondance les différents} _mots _{de la base} _avec _les

différents textes. Sans ce fichier le _système _{serait obligé de balayer}_tous _les _textes _{à chaque}

interrogation.

La reformulation _quant _{à elle} _sert _{à améliorer} _les _{résultats de} _la _{recherche documentaire} _en

favorisant le _{rapprochement} _des _concepts _exprimés _dans _{la requête à} _ceux _{exprimés dans la} base. L'action de lareformulationestainsi destinée à la diminution dusilence. Pour_{parvenir à}

cet _{objectif, il faut} _{enrichir les} _concepts _{exprimés dans la requête. La méthode}

_adoptée

_par

SPIRITest orientéevers l'utilisation des _{règles de reformulation. La}_{partie gauche de la}_règle contient lemot de la_requête, _{la partie droite contient les} _mots_reformulés. _Nous _retrouverons

des relations comme les _synonymes, _les _termes associés. La reformulation _sera l'objet d'un

développementplusgrand auchapitre

suivant.

3.2.2. Les différentes _phases _de _l'analyse

_linguistique

_(ou

_analyse

morpho-syntaxique )

L'analyse linguistique estutilisée lors des deux traitements : L'indexation de la base textuelle

et_{l'interrogation}_en_langage_{naturel. Les différentes phases s'articulent}_ainsi _:

Le_découpeur

Le _premier _problème _qui _{se pose} _est _{celui du découpage} _du _texte _en _mots. _Ce _travail _est réalisé par un automatecapable de prendreen comptediversessituations spécifiques. Le point

parexemple, qui normalementestuncaractère séparateurnedoitpasl'être lorsqu'il fait office

de _séparateur _décimal _{à l'intérieur d'un nombre.} _{Le résultat de} _ce _découpage _est _ensuite

envoyé àl'analyseurmorphologique. L'analyseurmorphologique

Le rôle decette _{phase du}_traitement_est_{de rechercher dans} _un_{dictionnaire,} _pour_{chaque forme}

isolée lorsdu _découpage, _tout_un _ensemble_{d'informations qui s'y}_rapporte. _{H existe} _pour_cela

undictionnaire de formes_{complètes (full form dictionary}_). _{Parmi les} _{informations associées à} chacune des formes _figurent _: _{la VG (valeur grammaticale ), le GN (genre nombre} ₎ _pour _les

(17)

adjectifs et les substantifs, le TMP (temps mode personne) et les CVB ( caractéristiques

verbales ₎_pour_les _verbes.

C'est à ce _{stade que se} _{fait l'identification} _des _{noms propres,} _des _mots _{significatifs} _et _des

mots _grammaticaux _ou _mots _vides. _{On reconnaît alors aussi les locutions} _ou _expressions

idiomatiques. Chaquelocution estconsidérée comme un seul motinsécable dans SPIRIT dans

lamesure où lesens de cette locution ne _peut_{pas se}_{déduire simplement de} _toutes _ses_parties. Du_{point de}_vue _{documentaire, les}_locutions _sont_des _mots _{dont il n'est}_pas _souhaitable _que_les

parties soient un critère de recherche, exemples : «ornoir», « chemin de fer », «pomme de

terre». Leslocutions sontmises dans lelexique des expressions idiomatiques.

Pour les mots _{significatifs, les informations relatives à la normalisation} _sont _également

extraites àce stade. Ainsi les adjectifs _sontnormalisés dans leur forme masculin singulier, les substantif dans leur forme _singulier _et _{les verbes dans leur forme infinitive. Le dictionnaire}

full form_qui_contient_toutes _ces_informations _{constitue la base de connaissance du système.} La constitution d'un tel dictionnaire, comportant une entrée pour chaque forme dérivée

(450000entrées en français, 150000 en anglais) et contenant autant d'informations grammaticales, représenteuntravail considérable ; Elle n'estpasdépendante du domaine. Les informationsdu dictionnaire full formsontdenature suivante :

Exemples :

Pour lemot« maison» : VG : S (substantif)

GN :FS _(féminin _singulier)

NO : maison (normalisé_{par «} _maison _»₎

Pourlemot«_magnifiques_» _:

VG : ADJP ou ADJAouAT _(peut_{être adjectif postérieur, adjectif antérieur}_ou _attribut) GN : M ouf, _P_(peut_{aussi bien être masculin}_que_féminin,_est_pluriel)

NO : _magnifique _(normalisé_{par «}_{magnifique »)}

Il fautnoter _que _{lorsque le système traite des} _textes _en _typographie_non _{accentuée, c'est lors}

de cette _phase _que _les _{mots sont} _{réaccentués.} _{H convient de} _{remarquer que} _cette _opération

n'est pas aussi bénigne qu'il pourrait sembler : l'absence d'accents constituant en fait un

(18)

système d'analyse morphologique proposera diverses accentuations possibles . Il sera ensuite

duressortde _l'analyseur_{syntaxique de lever l'ambiguïté dans les} _cas _où_cela _est_possible.

Les _homographies _sont _courantes _dans _{la langue,} _et _la _conséquence _est _un _{grand nombre de} formes _{ambiguës. Ce} _sera _autant _de _termes _{possédant plusieurs} _{séries d'informations,} chacune _{correspondant} _à _une _catégorie _grammaticale _possible. _Il _faut _noter _que _{le faible} nombre de dérivation des mots dans une _langue _comme _l'anglais _a _{tendance à} _favoriser

l'abondance de ce _type _{d'ambiguïté. C'est la} _phase _{d'analyse syntaxique qui} _va devoir _se

charger, sinon de leséliminer, du moins d'en réduire considérablement le nombre.

L'analysesyntaxique

La _phase _d'analyse _syntaxique _est _{plus précisément} _une _{phase de} _{désambiguïsation}

grammaticale. Elle repose sur le principe de compatibilité entre valeurs

grammaticales

se

succédant. _L'analyseur _{utilise dans} _un _premier _temps _{des matrices} _de _{compatibilité} _de successions ternaires de _{catégories grammaticales. Son travail consiste donc à vérifier} _que _les

successions trois à trois des valeurs _{grammaticales} _sont _{acceptables dans} _la _syntaxe _{de la} langue. Ungrand nombred'ambiguïtés peutêtre levé àce stade.

L'élaboration des matrices est effectuée par apprentissage lors d'une phase préliminaire à l'exploitation. Celles-ci sont dépendantes des textes d'apprentissage en ce sens que l'on ne

peut s'assurer que tous les cas de figure pouvant exister dans la langue y soient présents. La conséquence est qu'il peut se produire des ruptures de séquence au niveau des matrices

ternaires. Afinde_pallier _ce _problème, _et_de _pouvoir_effectuer _la _{désambiguïsation, le système} utilise alorsdes matrices de_{compatibilité binaire}_pour_{rétablir la}_continuité.

Ces matricessont_{dépendantes de la langue traitée.}

Exemple:

Soit la_phrase _«_{il ferme}_le_robinet_».

Ici_{l'ambiguïté} _sur_«_ferme _»_qui_peut _être _substantif_ou _verbe_est_levée _par_{la compatibilité de} succession car «il » estun _pronom _sujet, _{or un} _substantif_ne_peut _pas _{succéder à}_un _pronom. C'est donc l'indicatif _qui _sera _retenu _comme _valeur _{grammaticale de} _«_ferme_» _et _sa

normalisationsera «fermer».

En _sortie, _{après l'analyse} _syntaxique,_pour_{la plupart des}_mots _du _texte_{correspond de manière} sure une forme normalisée. A cette forme sont associées les informations _{grammaticales}

(19)

concernant le mot sous sa forme dans le texte et relativement au contexte _{syntaxique. Les}

ambiguïtésrésiduelles sontconservées associéesaux différentes solutionspossibles.

C'est aussi à ce stade _que _le _{système procède à l'élimination des} _mots _{vides à l'aide des} critères _syntaxiques _et _{à la reconnaissance des} _mots _{composés. Les} _mots _composés _ou multitermes sont les termes _qui _sont _en _{relation de dépendance syntaxique. Le} _mot _composé

est _significatif_pour _la _{recherche documentaire toutefois,} _{la relation} _entre _le _mot _composé _et

ses _{parties étant} _une _relation sémantique _pouvant _présenter _un _intérêt _pour _{la recherche} documentaire, il y a souvent généralisation. Par exemple, «traduction automatique » est

(20)

4. La reformulation

H existe deux sortes de reformulation. La reformulation _{monolingue qui} _{ne concerne} _qu'une seule_{langue à la fois} _et_dont _{le rôle}_est _{d'améliorer les résultats de la recherche documentaire} enfavorisant le _{rapprochement des} _concepts _{exprimés dans la requête de} _ceux _{exprimés dans} la base. La deuxième reformulation est celle _{multilingue dont il existe plusieurs définitions.} Nous _{garderons celle} _{appliquée dans SPIRIT. La reformulation multilingue} _permet _{de traiter} une collection de documents _{monolingues dont la question} _peut _être _{écrite dans différentes}

langues. Cela permet aux utilisateurs d'exprimer leur besoin d'information dans leur langue maternelle pourinterroger unebase documentaire écrite dans une autre langue qu'ils peuvent

lire.

4.1. Ce _qui_est_à

_l'origine

_{de la reformulation}

4.1.1. En ce _qui _concerne _la _{reformulation monolingue}

C'est la _{complexité du langage naturel qui} _est _{à l'origine de la reformulation.} _Nous _pouvons citer les _{principaux phénomènes du langage naturel qui} _posent _{problème lors du traitement}

automatique.

Lasynonymie

Définition : «sont_appelés _synonymes_{les unités lexicales} _{de même}_contenu _{sémantique mais}

de forme différente».

(21)

La relation de _synonymie _est _une _relation _{sémantique liant} _deux _mots _{lexicaux à} _un _même sens. Cette relation de _synonymie _est _{dans la plupart des} _{cas non} _{symétrique. H existe deux} sortesde _synonymie _:

♦ La _{synonymie absolue} _: _les _synonymes _absolus _sont_{interchangeables quelque soit la}

phrase utilisée et sans changement de sens. La relation est alors symétrique. C'est le cas des

termes _{scientifiques,}_en_médecine_par_exemple _: «lithiase »= «calcul rénal» ;

♦ La _{synonymie relative}_: _{la synonymie relative n'est} _pas _{transitive. Elle} _peut

dépendre du contenu sémantique du texte comme elle peut dépendre de la connaissance pragmatique ducontexted'énonciation.

La_paraphrase

La _paraphrase _est _{un cas} _{particulier de la synonymie. Elle consiste à exprimer} _une _{idée de}

plusieurs manières. La paraphrase est plus difficile à cerner car c'est un phénomène de

discours alors que la synonymie estun fait de la langue qu'il estpossible de répertorier dans

les dictionnaires.

Exemple :

Ilcherchait la solution.

Il_{essayait de} _trouver_{la solution.}

La_polysémie

Définition : «la polysémie _est la propriété d'une unité lexicale de posséder plusieurs

acceptions».

Exemple : le verbe visiterpossède plusieurs acceptions :

1. serendre _{auprès de}_quelqu'un_pour_{le réconforter}_(•visiter_les_malades).

2. Se rendreen unlieu etle_parcourir_en_l'examinant_(visiter_un_pays)

3. Examiner minutieusement_{(la douane}_visite _les_bagages).

Le sens du verbe «visiter» _{dépend donc du} _contexte _{d'énonciation.} _La_paraphrase _engendre

(22)

Commenous l'avonsvu au _chapitre_précédent_certains _types_de_{reformulation} _sont

_résolus

_par le module _d'analyse _linguistique _du _{système documentaire. Ce} _module _permet _en

_{effet de}

dégager les mots significatifs les plus importantscontenus dans letexte sous une

forme

moins

ambiguë. Cette nouvelle formepermet

de réaliser

unemeilleure

comparaison

entre

le

contenu

de la _question _et _le _contenu _{des documents.}

_Cependant

_la

_{reformulation}

_effectuée

_par

_les

différentes _phases_de_l'analyse_linguistique _ne_permet_que_{le contrôle des}_mots _de

_la

_langue

_du

point de vue

morphologique

et

syntaxique. H faut

pourtant

ajouter

un

certain

nombre de

considérations _sémantiques_qui _permettent _de_{réaliser le} _lien_entre_les _{mots et}_les _sens. _{C'est à} ce moment _que _sont_mis _{en œuvre}_les

_différents

_{mécanismes de}

_{reformulation de}

_la

_question

de l'utilisateur. Cesmécanismes _permettent_{de représenter les} _concepts _contenus_dans _le _texte

et dans la_langue _en _général_pour_{réaliser le rapprochement}_entre_la _{sémantique de la}

_question

etcellecontenuedans la collection de documents.

4.1.2. En ce _qui _concerne _{la reformulation multilingue}

A _{l'origine de} _la

_{reformulation multilingue il}

_{y a} _la

_{mondialisation du réseau Internet}

_qui

permet la circulation de

l'information dans plusieurs langues

et

l'accroissement du

nombre

d'utilisateurs _pratiquants _{des langues} _{différentes. Ceci} _pose _le _{problème d'accès à} _une collection de documents écrits dans une _{langue étrangère.} _Même _si _{les utilisateurs} _peuvent

comprendre le contenu des documents

écrits

dans une langue étrangère,

il

leur estplus

facile

d'exprimer leur besoin d'information

dans

leur langue maternelle.

C'est

à ce

besoin

que

correspond lareformulation multilingue dans SPIRIT.

4.2. Structure des

_{règles de reformulation}

Nous avons vu _que _les _mots _{normalisés de} _la _question _peuvent _subir _une _{reformulation}

monolingue ou multilingue. La reformulation monolingue permet de réduire le silence du

système enrajoutant les termes synonymes ou les termes associés aux mots de la question. La

reformulation _multilingue _permet, _quant _{à elle,} _{la traduction des} _termes _{exprimant le} _concept de la _{question d'une langue} _{source vers une} _langue _{cible. Ceci} _permet _{donc de} _retrouver_des documentsécrits dansune_{langue différente de celle de la question.}

(23)

Pour réaliserces inférences, le _{système utilise des} _{dictionnaires de reformulation} monolingue

etdesdictionnaires dereformulation_multilingue _contenant_{les règles}_{d'inférence.}

Les_règles _de_{reformulation} _sont_divisées_en_deux_parties:

• _La_{partie gauche} _{contient le terme-clé à inférer;} • _La

partie droite contientunensemble d'inférences représentant tous les sens que peut

prendre le terme-clé.

Lesdifférentes _{parties de}_la_règle_de_{reformulation:}

Lemot-clé

Le _séparateur_de_{mot-clé: "!"}_{ou une}_tabulation La _catégorie_grammaticale

Le _signe_"#"

Le_type _{de relation}_sémantique Un espace

La liste des sens: les sens des mots sont _séparés _par _des _{pour une} _relation

sémantique donnée et une catégorie grammaticale donnée. Pour chaque mot suit la catégorie

grammaticale, le séparateurde catégorie grammaticaleest

"$".

Exemple:

chien S#T_dog$S;

4.2.1. Les _{catégories grammaticales}

Les _catégories _{grammaticales utilisées} _pour _les _{règles de reformulation} _ne _sont_pas _celles _qui

sont utilisées dans _{l'analyse morpho-syntaxique du système SPIRIT. Ce} _sont _des _macro¬ catégories qui sont utilisées regroupant les catégories fines utilisées dans l'analyse linguistique.

Liste des_{catégories utilisées}_pour_les_{règles de reformulation}

Catégories: S_(classe_{des substantifs)} V_(classe_{des verbes)} D _(classe_{des adverbes)}

(24)

J_{(classe des} _adjectifs) N_{(classe des} _noms_propres)

4.2.2. Les relations _sémantiques

Relation_multilingue:

• _(T) Traduction: c'est_une relation

sémantique qui nous permetde traduire un terme

d'une _langue _source _{vers une} _{langue cible dans} _tous _les _sens _{possibles. Les} _sens _sont _séparés parle .

Relations_monolingues

• _(S) _{Synonymie: c'est} _une _relation _qui _permet _{de reformuler}

un terme par ses synonymes dans la mêmelangue. Un termepolysémiquesera reformuléparles différents sens possibles séparéspar

• _(A) _Associé: _c'est_une _relation

quinous permetde reformuleruntermeparles termes

de même famille ou _{par une} _{relation d'association. Cette association} _est _assez _large, _nous pouvons ainsi associer pêche etmer.

Famille de mots: c'est un ensemble de mots issus de la même racine _qui _sont _en relation _{sémantique. C'est le} _cas _{d'un verbe, d'un substantif} _ou _{d'un adjectif qui} _en _dérive, commedans _{expérimenter,}_{expérimentation}_et_{expérimental.}

Les termes inférés se trouvant dans la_{partie droite} _{de la}_règle _peuvent_être _des _mots _simples, des mots _composés _ou _des _{locutions. Pour reformuler} _un _mot _{simple, il suffit d'extraire les}

termes contenus dans la _{partie droite des règles de reformulation} _et_{de les associer} _au _mot_de

la_{question. En}_{revanche, la reformulation des}_mots_composés _se _fait_en_{deux étapes:}

• Unereformulation _{globale similaire à l'inférence des}_mots _simples;

• Une reformulation _par _{partie qui tient} _compte _{des inférences des} _mots _simples _que

contient leterme_composé.

(25)

Pour la _question _{"radiation protection",} _{l'analyseur linguistique de SPIRIT présente} _{ceci à} _la sortie:

radiation_(S);

protection (S);

radiation_{protection (S).}

Acestermes sontassociées les_{règles de traduction suivantes:} radiation => irradiation$S;rayonnement$S;radiation$S;

protection =>

protection$S;sauvegarde$S;

radiation_protection _=>_{radioprotection$S;}

Une seule _{règle de} _{reformulation} _est _{associée à} _un _terme _qui _peut_{prendre plusieurs valeurs}

syntaxiques. Parexemple leterme"absent"peutêtre soit adjectif, soitsubstantif.

Exemple de règlede transfert du françaisversl'anglais:

absent J#T

_{absent$J,away$J;missing$J;absent-minded$J,inattentive$J;IS#T}

absentee$S,missingperson$S;

C'est le _signe _{"I" qui} _sert _{à séparer les différentes valeurs syntaxiques ici adjectif (J)} _et substantif_(S).

(26)

5. Mise à jour des règles de reformulation.

Le C.E.A. a le _{projet de} _mettre _sur _Internet _sa _{base de publications} _par _{l'intermédiaire de} SPIRIT W3. SPIRTT W3 estune _passerelle _entre_{un serveur} _SPIRIT _et_{un serveur}_{HTTP. Elle}

permet de se connecter à une base, d'effectuer une interrogation, de consulter la liste des

documents-réponses etenfin de consulter les documents. Ainsi, à partir du réseau Internet les

utilisateurs _peuvent_{interroger la base des publications du CEA}_par_{l'intermédiaire du système} SPIRIT. Internet étant un réseau international il s'est avéré nécessaire de _permettre _une

interrogation multilingue, ce qui implique alors l'existence de règles de reformulation

multilingues. Celles-ci étantencore incomplètesmon travail a consistéenl'ajout d'un certain

nombre de _{règles. L'interrogation de la base des publications du C.E.A.} _sera _{bilingue. On} devra_pouvoir_{interroger aussi bien}_en_{français qu'en anglais.}

Ainsi, j'ai eu deux listes. Une liste de mots en français pour lesquels je devais trouver des règles de traduction en anglais etune liste de mots en _anglais pourlesquels je devais trouver

des _{règles de traduction} _en _{français. Le travail} _a _{donc consisté} _en _{la traduction de} _mots _qu'il fallait ensuite _organiser _sous _{la forme stricte} _des _{règles de reformulation afin qu'elles soient}

acceptées parle système SPIRIT.

5.1. _{Les domaines concernés par}_{la base des publications du C.E.A.}

Le C.E.A. s'intéresse à des domainesassez _{variés tels que :}

(27)

L'instrumentation ;

Les sciences et_{techniques nucléaires}_;

Les sciences_appliquées _; La_physique _;

Lesmatériaux ;

L'énergie; Lachimie ;

Ainsi, lesmots contenus dans les listesappartiennent généralement à des domaines spécialisés

etles mots relèvent donc duvocabulaire _{technique. Cependant,} _on _trouve_{également des} _mots

appartenants au vocabulaire général de la langue. L'étude du domaine auquel chaque mot

appartient apparaîtnécessaire afin d'aller chercher l'information dans les ouvragesappropriés.

5.2. Lesoutils utilisés

Les outils utiliséssont_{principalement les dictionnaires.}

Pourla traduction _{anglais-français} _et_{français-anglais} _:

LeWebster: c'estun dictionnaire_{d'anglais monolingue. Il} _a_{été précieux}_{non pas pour} la traduction directement mais _plutôt _pour _{vérifier si les formes} _{existaient bien} _en _anglais _et

aussi pourvérifier leur catégorie grammaticale.

Le Robert: c'est un dictionnaire de _{français monolingue. Il} _sert _{à vérifier} _que _les formes existent bienen_français_et_il _sert_{aussi à vérifier les catégories grammaticales.}

Le _{Harrap's shorter}_: _c'est_un _{dictionnaire bilingue (anglais-français} _; _{français-anglais)}

qui a donc été utile pour la traduction directement. Il n'est valable que pour les mots appartenantau vocabulaire général de la langue.

Le Ernst : c'est un dictionnaire _{bilingue qui} _est _{plus spécialisé, puisqu'il s'intitule}

«dictionnaire _{général de}_{la technique industrielle}

». Il a été très utile. En effet, suffisamment

(28)

aborder de nombreux _domaines, _ce _qui _est_{fort pratique. Il existe}_en_version _{anglais-français} _et

égalementenversion français-anglais.

Le dictionnaire des sciences et _{techniques nucléaires du C.E.A.} _: _{dictionnaire de}

français avec une traduction en anglais. Il a été assez peu utilisé caril est tout de même trop

spécialisépourla baseenquestion.

Le _{lexique Framatome} _: _c'est _un _{lexique bilingue (français-anglais} _; _{anglais-français)}

qui est très spécialisé. En effet, s'intéressant au nucléaire, il répertorie plus précisément le vocabulaire relatifaux « réacteurs àeau sous _pression_». _{Utile dans le cadre du C.E.A., il n'a} pasété beaucoupconsulté à causedesaforte spécialisation.

Les dictionnaires multilingues INIS de l'Agence Internationale de l'Energie Atomique : les deux dictionnaires faisantentre autre la traduction anglais-français et français-anglaisontété intéressantsà consulter.

Autres ouvrages plus ou moins consultés : _{le glossaire français de l'O.C.D.E.} ; Le

(29)

6. Les différents problèmes rencontrés

6.1. Problèmes liés à la traduction dans une autre

_langue:

rapprochement

avec

la terminologie.

Avant de _parler _{de la} _{terminologie,} _nous _{allons définir} _{ce que} _c'est _à

_l'aide

_d'un

_certain

nombre de définitions.

Définition de la _terminologie _par _l'ISO_: _«_étude _{scientifique des} _notions _et _des _termes _en

usagedansles langues de spécialités ».

Dans sonétatactuel, la terminologie_est fondée _{sur un} modèle tripartite dont les trois points-clés sont_{l'objet, la}_notion _et_{le signe.}

La_plupart_des _{terminologues} _{fondent leur travail} _sur_la_{référence à}_une_abstraction

_{mentale de}

l'ordre du _{concept et} _{dénommée notion. Voici les définitions du} _terme, _{de la} _notion _et _de

l'objet telles qu'elles figurent dans

la

dernière norme ISO 1087

(1990) consacrée

au

vocabulaire de la_{terminologie.}

«Notion: Unité de _{pensée constituée} _par _{abstraction à partir des propriétés} _communes à _un ensemble_d'objets.

NOTE- Les notions ne sont _pas _liées _aux _{langues individuelles. Elles} _sont _cependant

influencées parle contextesocioculturel. »

«_Objet _: _{Elément de la}_{réalité qui}_peut_être_{perçu ou conçu.}

NOTE- Les _objets _peuvent _être _matériels _{(par exemple}_: _moteur) _ou _immatériels _(par

exemple : magnétisme). »

(30)

«Terme : _Désignation _au _moyen _d'une unité linguistique d'une notion

définie dans

_une

langue de spécialité.

NOTE- Un terme _peut _{être constitué d'un} _ou _plusieurs _mots _(terme _simple _ou _terme

complexe) etmême desymboles. »

Leterme a_pour_principal _avantage_la_non_{ambiguïté dans} _un_domaine

particulier.

Il ne faut pas _négliger _en

terminologie

_{l'importance d'une}

prise

_en _compte

des

liens de

_sens

qui unissent les notions entre elles. Ces liens dénommés liens

notionnels

ou

relations

notionnelles, sontdenatureà éclairersurla notion :

«Undomaine _(ou_une sous-section de domaine) n'estaccessible mentalement _quesi le champ

notionnel est _structuré, _{c'est-à-dire s'il constitue} ce que l'on appelle un système de notions.

Danscet_ensemble, _chaque_{notion révèle} _ses_rapports _avec_les _autres_notions. _»_{(Felder 1987)}

Le _{travail que} _j'ai _effectué _se _{rapproche de la} _{terminologie. En effet, les} _mots _que

_{j'ai traité}

appartenaient pour

la plupart à des langues de

spécialités. Cependant, SPIRTT

étant

un

système documentaire àvocation générale, il afallu ajouter aussi les sens

généraux, quand

ils

existaient, aux mots à traiter. Par la méthode, le travail effectué diverge de celui d'un

terminologue. Eneffet, ladémarche en terminologieestditeonomasiologique

c'est-à-dire

que

l'on _part _des _concepts _pour _aller _vers _les _termes. _Elle _implique _une _étude

_{systématique des}

concepts. Ma démarche est inverse. Ayant une liste préétablie de mots, je suis

partie

des

termes _pour _{envisager les} _{concepts et trouver} _{ensuite le} _terme _{correspondant}

_{dans la langue}

cible. Ceci _correspond _{davantage à la méthode dite sémasiologique qui} _part _{du signe} _pour allerversladétermination des _concepts. Cette démarche_est _celle_employée _en lexicologie_qui

est l'étude des unités lexicales. Ainsi, touten s'en démarquant, le travail effectué a aussi des

pointscommuns aveclaterminologieetlalexicologie.

Le_{problème lié à}_{l'équivalence}_des_{concepts reste} _similaire.

En _terminologie_multilingue _{comme pour} _toute _{traduction bilingue} _ou _multilingue _{se pose} _le

problème de l'équivalence des concepts lorsque l'on change de langue. En effet, la linguistiqueadepuis longtemps montré que toutesles langues n'approchentpas laréalité de la

même _façon _et _que _{de nombreux problèmes} _se _posent _{lors de l'établissement} _{d'équivalences.} Par_exemple _en_{français le} _mot _{"mouton" désigne à la fois l'animal} _et_la _{viande de} _cet _animal que l'on peut manger. En anglais, en revanche, il existe deux mots distincts: "sheep" pour l'animalet"mutton" dans le contexteculinaire.

(31)

De _même,_{il n'existe}_pas_{nécessairement d'équivalence syntaxique. Ainsi,} _un_{adjectif dans telle}

langue n'aurapasforcement d'équivalent sémantique sous unemêmecatégorie grammaticale.

6.2. Les

_{problèmes liés}

_au

_système

_{documentaire automatisé}

6.2.1. La normalisation

Les _{règles de reformulation interviennent après le traitement linguistique} _et _donc _sur _des

termes _déjà _{normalisés. Il} _est _nécessaire _en _{partie gauche} _{comme en} _{partie droite des règles}

que les mots soient normalisés lors de la construction des règles puisqu'il n'y a aucun traitement _linguistique _sur _{les règles. Par exemple, les adjectifs} _seront _au _{masculin-singulier} comme nousl'avonsvu_{précédemment}_:

Dutch J#Thollandais$J ;

En cequi _concerne_lessubstantifs, leféminin_est_{conservé bien sûr} _:

Dutchman S#T_{hollandais$S,néerlandais$S} ;

Dutchwoman S#T_{hollandaise$S,néerlandaise$S} ;

Lorsde la constructiondes_{règles, il faut donc garder à l'esprit}_cette_{normalisation.}

Tousles mots _grammaticaux _ou _mots _vides _sont_{aussi à exclure des règles. Ceci complique}_en

général latraduction. Par exemple :

combining S#T récolte moissonneuse batteuse$S ; au lieu de «récolte à la

moissonneuse batteuse ».

Ce _qui _pose _problème _{aussi, c'est lorsqu'un} _mot _se _traduit _{en un} _mot _{composé. En effet, le}

système SPIRITeffectuant sarecherche en texte intégral, il fautêtre sûr de pouvoir retrouver

les différents motsd'une traduction côte à côte. Par_exemple _:

eigenvalue S#T valeurpropre$S ;

Pourunerecherche _efficace, _{il faut être sûr de} trouverles deux mots _{significatifs} «valeur»et

«_propre_»_côte _à_côte_tout_en_sachant_que _{les éventuels} _mots _grammaticaux _auront_{été enlevés}

précédemment.

Si l'on pense que seul l'ensemble du groupe de mots fait sens et que le sens séparé des

différentes _{parties n'apporte rien de valable, il faut alors} _rentrer _le _groupe _de _mots _dans SPIRIT comme une locution. Il existe en effet un dictionnaire _{particulier qui contient} _toutes les locutions. _{Exemple de locution} _{: pomme}_de _terre.

(32)

6.2.2. La _symétrie

Il existe _plusieurs _{dictionnaires dans SPIRIT, les} _{différents dictionnaires}

_monolingues(

français et anglais pour ceux qui nous intéressent) et les

dictionnaires de règles

de

reformulation. H estnécessaire _{qu'il existe} _une _symétrie _entre _ces _différents _{dictionnaires. Si,}

par exemple, pour le dictionnaire monolingue français, on choisit comme forme

normalisée

l'abréviation C.E.A. et _que _{l'on fasse donc pointer Commissariat à l'Energie} _Atomique _vers C.E.A., il faudra s'assurer que dans le dictionnaire des règles de reformulation ce sera bien

l'abréviation _qui _sera _conservée _comme_{forme normalisée. En effet, quand il}

_existe

_plusieurs

graphies possiblespour un motet quele sens estidentique, il faut faire pointer les

différentes

graphies vers une forme choisie. Par exemple, le mot français «alcoyle»

qui

peut aussi

s'écrire«_alcoyl _»_et_« _alkyle_».

6.2.3. La recherche documentaire avant tout

SPIRIT traite la _langue _de _façon _{automatique. Cependant, le but de SPIRIT} _n'est _pas _de prendrepour modèle la langue académique de façon systématique. En effet, le

système

prend aussi en _compte _{l'utilisateur,} _ce _qui _peut _{créer des divergences} _avec _{la langue} académique. Prenons_{l'exemple des} _noms_{propres :}

Le « _Français _»_est_{un nom propre,} _{cependant la plupart des} _gens le considère _comme un nom commun et l'écrivent sans _{majuscule. C'est pourquoi il} _a _été _décidé _pour _{SPIRIT de} le considérer comme un substantif. Comme dans tout _système _{documentaire,} _il _est _important

de _prendre _en _compte _{l'utilisateur} _{potentiel. De} _toute _{façon SPIRIT} _restitue _ou _enlève

systématiquementlesmajuscules afin deretrouverla formecorrecte.

Même si la base des_{publications fait référence} _{à des domaines spécialisés, les règles}_que_j'ai dû _{compléter doivent}_{aussi être}_{valables dans} _un_contexte _{général. Pour}_le_moment _SPIRIT_ne fait pas la différence entre les différents domaines. Cependant, dans le but d'une utilisation

ultérieure,un_procédéatoutde même été misenplace.il estdéjà présentdans la structuredes règles de reformulation. Ainsi, chaque domaine

différent

dans la partie droite de la règle est

séparé par un « ; ». Ce sera ensuite à l'utilisateur de choisir le domaine qui l'intéresse. En

(33)

7. Conclusion

Ainsi, le travail effectué sur les règles de reformulation m'a permis de mieux connaître le

fonctionnement _{général du système SPIRTT. La mise à jour des règles de reformulation} _tout commelamise à_{jour du} _{dictionnaire full form}_est_un_{travail long à gérer manuellement. C'est}

pourquoi des essais de traitement automatique sont mis en place. Pour les règles de reformulation de _traduction, un système d'appariement semi-automatique est essayé. Les

méthodes _{d'appariement} _se _fondent _sur _des _corpus _multilingues _en _entrée _et _produisent _en sortie des _{correspondances} _entre _des _segments _de_texte _qui _sont _en _{relation de traduction dans} l'ensemble du corpus. Un segmentreprésenteuneunité textuelle pouvantrelever de différents

niveaux allant du _chapitre _au _mot. _{Les appariements les plus intéressants} _sont _{l'appariement} fin des mots et des _{expressions afin de} _permettre _un _{apprentissage des dictionnaires de} transfert.

Le traitement de la _langue _est _{tellement lourd qu'il} _est _{préférable, dès} _que _cela _est_possible, d'utiliseruntraitementautomatique _ou_{semi-automatique.}

(34)

♦ Annexe A : glossaire destermesSPIRIT

Administrateur : Personne _{chargée de} _{définir les paramètres de configuration du} _serveur

SPIRIT, ainsique les droits d'accès des utilisateursauxbases SPIRIT.

Application client/serveur : Application fonctionnant selon_une_{architecture client/serveur.}

Architecture client/serveur : Architecture matérielle et _{logicielle, dans laquelle les}

traitements _{demandés par un} _poste _client _sont _exécutés _{sur un} _poste _serveur, _qui _retourne _au

posteclient lerésultat decesrequêtes.

Base de données textuelles : Se dit de bases de données dont les constituants essentiels sont

textuels,c'est-à-dire destextesécritsen_{langue naturelle (français, anglais, etc.)}

Base SPIRIT : Une base de données SPIRIT estune base de données textuelles etfactuelles

groupées en documents, eux-mêmes organisés en champs (Voir Base de données textuelles,

Document,Champ).

Champ : Dans la définition de la structure d'une base SPIRIT, élément permettant la segmentation homogène des données contenues dans tous les documents de cette base.

Chaque champest associé àune entité documentaire, comme parexemple le sujet, le résumé,

lenomde l'auteurou letexte_proprement_{dit du document.}

Tout _{champ possède} _{un nom} _et _un _type, _qui _permettent _{de l'identifier} _et _{de spécifier les} traitements effectués surles données_qui _y _sont_stockées.

Champ factuel : _Champd'une base SPIRIT, destiné à _{contenir des données de taille variable}

et denature factuelle _{(généralement de} _type _{numérique, alphanumérique} _ou _{date), qui}_ne _sont pas nécessairement décrites par un texte en langue naturelle. Son contenu n'est pas traité par

l'analyselinguistique.

Le résultat d'une _{interrogation effectuée} _sur_{des champs de} _ce _{type est}_une _liste _non _ordonnée de documents_{qui répondent}_aux _{critères saisis.}