• Aucun résultat trouvé

Cette annexe apporte des précisions sur la façon de prétraiter les textes de notre corpus de biologie moléculaire donné en entrée de l’outil TAMIS. Le prétraitement se fait à l’aide d’outils de traitement automatique des langues (TAL). Il s’agit de l’étiqueteur de Brill qui associe la catégorie morpho-syntaxique à chaque mot des textes et de l’analyseur syntaxique FASTER qui indexe les textes par des termes-clés du domaine. les étiquettes pour l’anglais et le français sont données en annexe A.1 ; puis quelques exemples de variations terminologiques, repérées par FASTER, entre les termes présents dans les textes et les termes-index sont présentées en annexe A.2 ; enfin, le format des textes en entrée du processus de FdT est donné en annexe A.3.

A.1 Étiquettes de Brill

Nous donnons les étiquettes de l’outil développé par E. Brill [Brill et Pop, 1999] et que nous avons utilisé pour affecter une catégorie morpho-syntaxique (nom, verbe, etc.) à tous les mots des



résumés de notre corpus de biologie moléculaire28.

L’étiqueteur de Brill intègre des lexiques issus de différents corpus (Wall Street Journal, The Brown Corpus, Switchboard, etc.), des règles lexicales et contextuelles – appelées patrons lexi-caux –, ce qui rend cet étiqueteur adaptable à un nouveau domaine scientifique pour lequel le vocabulaire est plus spécifique car il suffit d’adapter les règles lexicales.

28

Ce travail a été fait en collaboration avec l’URI : Unité Recherche et Innovation de l’INIST : INstitut de l’Infor-mation Scientifique et Technique.

TAB. A.1 – Étiquettes pour corpus spécialisés (à gauche) et pour les textes d’anglais général (à droite) N Étiquette Signification 1 CC Coordinating conjunction 2 CD Cardinal number 3 DT Determiner 4 EX Existential “there” 5 FW Foreign word

6 IN Preposition or subordinating conj. 7 JJ Adjective

8 JJR Adjective, comparative 9 JJS Adjective, superlative 10 LS List item marker 11 MD Modal

12 NN Noun, singular or mass 13 NNS Noun, plural

14 NP Proper noun, singular 15 NPS Proper noun, plural 16 PDT Predeterminer 17 POS Possessive ending 18 PP Personal pronoun 19 PP$ Possessive pronoun 20 RB Adverb 21 RBR Adverb, comparative 22 RBS Adverb, superlative 23 RP Particle 24 SYM Symbol 25 TO “to” 26 UH Interjection 27 VB Verb, base form 28 VBD Verb, past tense

29 VBG Verb, gerund or present participle 30 VBN Verb, past participle

31 VBP Verb, non-3rd person singular present 32 VBZ Verb, 3rd person singular present 33 WDT Wh-determiner

34 WP Wh-pronoun

35 WP$ Possessive wh-pronoun 36 WRB Wh-adverb

N Étiquette Signification

1 AN Auxiliary Verb (untensed) 2 AT Auxiliary Verb (tensed) 3 CC Coordinating conjunction 4 CO Complementizer 5 DT Determiner 6 JJ Adjective 7 NE Negation 8 NN Noun 9 PDT Predeterminer 10 PN Pronoun

11 PR Preposition and subordinat. conjunc. 12 RB Adverb 13 RP Particle 14 TO To 15 UH Exclamation 16 VBG Present Participle 17 VBN Past Participle 18 VN Main Verb (untensed) 19 VT Main Verb (tensed)

Les étiquettes sont empruntées, et donc compatibles, avec celles utilisées par l’étiqueteur plus général du projet Penn Treebank [Marcus et al., 1994] et d’autres étiquettes de l’anglais classique Old English.

A.1.1 Étiquettes de Brill pour l’anglais

Nous reprenons l’exemple en anglais de (§ L’étiquetage morpho-syntaxique 2.4.1.2). La phrase (1) est étiquetée en (2).

(1) Two resistant strains were isolated after four rounds of selection.

(2) Two/CD resistant/JJ strains/NNS :pl were/VBD isolated/VBN after/IN four/CD rounds/NNS :pl of/IN selection/NN ./.

La liste non exhaustive des étiquettes pour l’anglais apprises à partir de corpus spécialisés et celles issues de l’anglais classique est donnée TAB. A.1.

A.1.2 Étiquettes de Brill spécifiques au français

Nous reprenons l’exemple en français de (§ 2.4.1.2). La phrase (a) est étiquetée en (b). (a) Les fractions pectiques contiennent des proportions hautement estérifiées

(b) Les/DTN :pl fractions/SBC :pl pectiques/ADJ :pl contiennent/VCJ :pl des/PREP :pl propor-tions/SBC :pl hautement/ADV estérifiées/ADJ2PAR :pl ./.

La liste non exhaustive des étiquettes du français pour l’outil WINBRILLdéveloppé à l’INALF/CNRS est donnée TAB. A.2.

TAB. A.2 – Étiquettes de Brill pour le français

Étiq. Signification ABR abréviation

ADJsg adjectif (sauf Participe passé) au singulier ADJpl adjectif (sauf Participe Passé) au pluriel ADV adverbe

CAR cardinal (en chiffres ou en lettres) COO coordonnant

DTNsg dét. de groupe nominal, sing., non contracté DTNpl dét. de groupe nominal, plur., non contracté DTCsg dét. de groupe nominal, sing., contracté DTCpl dét. de groupe nominal, plur., contracté FGW mot étranger

INJ interjection, onomatopée, etc. PFX préfixe détaché

PREP préposition

PRVsg pronom supporté par verbe (conjoint, clitique) PRVpl pronom supporté par verbe (conjoint, clitique) PRV++ pronom supporté par verbe (clitique, réfléchi) PROsg autre pronom, singulier

PROpl autre pronom, pluriel

PRO++ autre pronom, genre indéterminé PUL particule non indépendante REL relatif (pronom, adjectif ou adverbe) SUB subordonnant

SUB$ subordonnant possible = Code défaut de « que »

Étiq. Signification

SBCsg substantif, nom commun singulier SBCpl substantif, nom commun pluriel

SBPsg substantif, nom propre ou à majuscule, singulier SBPpl substantif, nom propre ou à majuscule, pluriel SYM symbole ou signe mathématique

ACJsg verbe « avoir », conjugué, singulier ACJpl verbe « avoir », conjugué, pluriel ANCFF verbe « avoir », non conjugué, infinitif

ANCNT verbe « avoir », non conj., gérond. / part. présent APARsg verbe « avoir »,non conj., part. passé, singulier APARpl verbe « avoir »,non conj., part. passé, pluriel ECJsg verbe « être », conjugué, singulier

ECJpl verbe « être », conjugué, pluriel ENCFF verbe « être », non conj., infinitif

ENCNT verbe « être », non conj., gérond. ou part. présent EPARsg verbe « être », non conj., part. passé, sing. VCJsg autre Verbe, conjugué, singulier

VCJ plautre Verbe, conjugué, pluriel VNCFF autre Verbe, non conj., infinitif

VNCNT autre Verbe, non conj., gérond. ou part. présent VPARsg autre Verbe, non conj., part. passé apr. « avoir » VPARpl autre Verbe, non conj., part. passé apr. « avoir » ADJ1PAR part. passé apr « être », adjectival ou verbal, ADJ2PAR Part. passé adjectival, sing./plu. (non apr. auxil.)

A.2 Variations repérées par l’outil FASTER

Nous illustrons, dans TAB. A.3, certaines variations repérées entre le terme dans le texte et le terme d’indexation ainsi qu’un commentaire sur la variation opérée par le système d’indexation automatique FASTER. Nous utilisons ce système durant notre processus de FdT pour représenter le contenu des textes de notre corpus (cf. § 2.4.2.3).

TAB. A.3 – Variations dans l’indexation entre la graphie du terme trouvée dans le texte et la graphie d’indexation

Terme d’origine Terme d’indexation Variation

amoxicillin Amoxicillin changement de graphie after treatment After-Treatment composition du terme

Aftercare synonymie

model Models terme attesté est au pluriel

mice Mouse

numbers Number terme simple mis au singulier colonies Colony

sensitivities Sensitivity

antibiotic resistant strains antibiotic resistant strain terme composé mis au singulier

sensitive helicobacter pylori strain sensitive strain terme composé mis au singulier et suppression de mots (XX,16,Ins)

isolated Isolate verbe mis à l’infinitf conjugué Isolate ou la forme progressif

started Starting verbe mis à la forme progressive “ing” higher dosage high dosage remplacement de l’adjectif

inoculation Vaccination synonymie

dosage dosage terme simple inchangé treatment group treatment group terme composé inchangé

treatment failure failure of treatment terme de trois mots permutation et insertion de “of” (XXX,10,Perm)

strains were tested tested strain nominalisation verbe conjugué + sujet

mouse were treated treat mouse nominalisation verbe infinitif + sujet (XX,31,Perm) not not gene introduction de l’ambiguïté : transformation négation en

nom de gène

A.3 Codage X

ML

d’un texte du corpus

Nous donnons ici le format de codage d’une notice bibliographique (correspondant à un texte de notre corpus d’expérimentation). Par exemple en FIG. A.1, la notice     est composée : du titre  , du texte qui est un résumé d’article scientifique   , de la liste des termes d’indexation produits par l’outil FASTR . 

 , de la liste des auteurs 

 , de leur affiliation & , de la base de textes dont est issu le texte 

,  , de l’année de la publication   , du pays de la publication    et de la langue utilisée   .

<record>

<TI>Appearance of a metronidazole-resistant Helicobacter pylori strain in an infected-ICR-mouse model and diffe-rence in eradication of metronidazole-resistant and -sensitive strains</TI>

<AB>The numbers of colonies isolated from 56 ICR mice 2 weeks after 4 days of treatment with metronidazole (3.2, 10, or 32 mglkg of body weight) or amoxicillin (1, 3.2 or 10 mg/kg), with treatment started 4 days after H. pylori CPY2052 inoculation, were counted, and the isolated strains were tested for their sensitivities to two antibiotics to rule out the presence of antibiotic-resistant strains. We tested whether antibiotic-resistant strains appeared in vivo after the

failure of treatment using the Helicobacter pylori-infected euthymic mouse model. The numbers of colonies isolated

from 56 ICR mice 2 weeks after 4 days of treatment with metronidazole (3.2, 10, or 32 mglkg of body weight) or amoxicillin (1, 3.2 or 10 mg/kg), with treatment started 4 days after H. pylori CPY2052 inoculation, were counted, and the isolated strains were tested for their sensitivities to two antibiotics to rule out the presence of antibiotic-resistant strains. One metronidazole-antibiotic-resistant strain was detected in a mouse treated with 10 mg of metronidazole per kg, and the MICof metronidazole for this strain was 25 g/ml, compared to a MICof 1.56 g/ml for the original strain. However, no resistant strain was detected in the amoxicillin treatment group. After the examination described above, mice challenged with a metronidazole-resistant or -sensitive strain isolated from the stomach of a mouse were treated with metronidazole or amoxicillin. The metronidazole-resistant strain was more difficult to eradicate in vivo than the sensitive strain after treatment with metronidazole but not after treatment with amoxicillin. Thus, a metronidazole-resistant H. pylori strain was selected by insufficient treatment, but no resistant strain was selected with amoxicillin. Eradication of a metronidazole-resistant H. pylori strain in vivo required a higher dosage than eradication of a metronidazole-sensitive H. pylori strain. These results may explain one of the reasons for H. pylori treatment

failure. </AB> <MC> <terme><mot>failure of treatment</mot> <var><st>failure of treatment</st><tr>0</tr></var> <var><st>treatment failure</st><tr>XXX,10,Perm</tr></var></terme> <terme><mot>detect strain</mot>

<var><st>strain was detected</st><tr>XX,31,Perm</tr></var></terme>

<terme><mot>aftercare</mot><sy>after-treatment</sy> <var><st>after treatment</st><tr>0</tr></var></terme> <terme><mot>NOT gene</mot><sy>NOT</sy> <var><st>not</st><tr>0</tr></var></terme> <terme><mot>treatment failure</mot> <var><st>failure of treatment</st><tr>XX,37,Perm</tr></var> <var><st>treatment failure</st><tr>0</tr></var></terme> </MC>

<PA>Matsumoto-S ; Washizuka-Y ; Matsumoto-Y ; Tawara-S ; Ikeda-F ; Yokota-Y ; Karita-M</PA>

<AF>Division of Chemotherapy, New Drug Research Laboratories, Fujisawa Pharmaceutical Co., Ltd., 2-1-6, Ka-shima, Yodogawa-ku, Osaka, Japan ; Hofuonsen Hospital, 1640, Daidou, Houfu, Yamaguchi, Japan</AF>

<SO>Antimicrobial-agents-and-chemotherapy. 1997 ;41 (12) :2602-2605</SO> <IS>0066-4804</IS> <PY>1997</PY> <CP>United-States</CP> <LA>English</LA> </record>

Justifications mathématiques et

démonstrations

Sommaire

B.1 Nombre maximal de règles générable . . . 131 B.2 Probabilité conditionnelle . . . 132 B.3 Règles redondantes . . . 133

B.1 Nombre maximal de règles générable

Nous montrons que le nombre maximal*

de règles que nous pouvons engendrer à partir des données est égal à :*

       . Soit    ,*

est le nombre total de règles sur . Une règle

=      ,  et    < et     < . Nous cherchons à trouver*

? Soit



 avec    .

Le nombre de règles générables pas : Il y en a autant que de sous-ensembles  de tels que   < et   , c’est-à-dire :

 



 .

Or, pour une règle   donnée, il existe un motif unique tel que     . Donc : *  )     ' "     $ *   )  "    $        2      2      *   )  "    $   % *   )   % Œ   Œ  )   % 131

Or  )    %   )    %    %   %     Donc  )   % Π   )     % Π  Π  %   %   )    % Π  !  De plus  )    % Π "  !$  

Car par le principe du triangle de Pascal :

"    $   )            D’où *         "     !$

Après simplification, nous obtenons :

*