• Aucun résultat trouvé

difficile. La question du choix des filtres syntaxiques selon le texte reste ouverte, mais on peut raisonnablement espérer que cet outil se révèle efficace pour explorer de nouveaux textes. Dans aucune de nos expériences la fouille sémantique n’est apparue très sélective. Ceci n’exclut pas son emploi, mais indique qu’elle serait surtout utile en complément : soit pour raffiner sur la fouille syntaxique, soit en interaction avec l’expert.

VII.3 Tests de la méthodologie de normalisation

Il s’agit, à partir des premières versions des règles, supposées maintenant identifiées dans l’étape précédente, de les soumettre au processus de normalisation chargé de réduire les com-plexités de la langue naturelle. Nous analysons ici le comportement des opérations de norma-lisation lexicale, contextuelle, et syntaxique sur les corpus AAdvantage et Audi. Nous n’avons pas pris en compte dans nos expériences la normalisation sémantique qui enrichit le domaine en créant de nouveaux termes métier.

Les tableaux VII.10, VII.9, VII.11, VII.12, VII.13 montrent les résultats des opérations de normalisation effectuées sur les deux corpus. Le premier récapitule le nombre de règles candidates initiales (obtenues à l’étape d’identification) et son évolution après normalisation. Le deuxième tableau décrit les proportions d’utilisation de chaque type de normalisation (lexicale, contextuelle ou syntaxique) par rapport d’une part (α) à l’ensemble des règles et d’autre part

mot-clé # de règles sélectionnées

mots-clés co-occurrents # règles où il apparaît each 12 for (2), need not (1), and (4), or (1), shall

(10)

12 (92%) for 28 and (18), or (6), if (3), then (2), may (2),

shall (25)

30 (66%)

can 1 shall (1) 1

and 16 or (3), if (1), then (2), shall (13) 38 (82%)

or 6 if (2), must (1), shall (5) 16 (84%)

if 2 shall (2) 8 (100%)

shall 35 91 (95%)

need not 1

then 4

may 2

must 1

Total 100 204

Tableau VII.8Audi – Fouille des mots-clés sur les règles candidates.

Chapitre VII. Expérimentations

(β) au total des opérations, tout type confondu, appliquées sur toutes ces règles. Et enfin les trois derniers qui décrivent quantitativement l’impact relatif de chacun des types d’opération sur les mots et les phrases

Nous analysons ci-dessous, au regard de ces tableaux, le fonctionnement du processus de normalisation sur les règles candidates des corpus AAdvantage et Audi. Dans nos tests, nous appliquons successivement les normalisations lexicale, contextuelle et syntaxique.

Corpus règles candidates initiales règles candidates finales

AAdvantage 95 134

Audi 100 120

Tableau VII.9Nombre de règles candidates obtenues après normalisation.

Type de Normalisation AAdvantage α AAdvantage β Audi α Audi β

Lexicale 65,3% (62/95) 28,4% 61% (61/100) 27,9%

Contextuelle 64,2% (61/95) 27,9% 57% (57/100) 26,2%

Syntaxique (structuration) 68,4% (65/95) 29,9% 58% (58/100) 26,6%

Syntaxique (décomposition) 31,6% (30/95) 13,8% 42% (42/100) 19,3%

Tableau VII.10α= Nbr de transformations d’un type donné / Nbr total de CR initiales ;β = Nbr de transformations d’un type donné / Nbr total de transformations.

VII.3.1 Corpus AAdvantage

En ce qui concerne le corpus AAdvantage, on constate que :

• Au niveau lexical, la normalisation concerne 65,3% des règles candidates soit 62 règles sur les 95 initialement identifiées dans AAdvantage. Elle a permis de remplacer dans toutes les règles candidates chacune des occurrences d’un terme métier qui n’est pas le terme préféré associé au concept (relation ou instance) annotateur, par une occurrence de ce dernier terme. Le tableauVII.11 montre que 80 occurrences de termes métier sont dans ce cas, soit une moyenne de 1,26 occurrences par règle candidate concernée. Cette moyenne s’explique par le fait que plus de 77% de ces règles (47) ne contiennent qu’une seule occurrence de termes à remplacer, seules quelques unes (14) en contiennent 2 ou 3.

• Au niveau contextuel, la normalisation concerne 64,2% des règles. Elle a porté sur 70 mots. Ce sont essentiellement des mots grammaticaux (”you” et ”your”, ”this”, ”that”,

”other”) renvoyant à des termes métier très précis comme AAdvantage member pour le

VII.3 Tests de la méthodologie de normalisation

Corpus # règles concernées # Occurrences termes remplacées

# de règles dont 1, 2, 3 termes sont remplacés

AAdvantage 62 80 48, 10, 4

Audi 61 77 47, 12, 2

Tableau VII.11Normalisation lexicale.

Corpus # règles concernées # occurrences mots à contextualiser

AAdvantage 61 70 (you (29), your (28), this (3), that (2), mi-leage credit (5), other (3))

Audi 57 109(it (7), this (15), 14 (that), sample (16), the test (29), Annex (11), paragraph (17))

Tableau VII.12Normalisation contextuelle.

Corpus Structuration Décomposition

# règles concernées (type) # règles concernées (type) AAdvantage 65 (B if A ; B, A ; B when A ;

B for each A)

29 (or ; and ; neither nor ; which ; who) Audi 30 (B if A ; B, A) 42 (or ; and ; which ; beetween)

Tableau VII.13Normalisation syntaxique.

”you”, et rarement des relations cachées, en fait seulement celles qui dépendent du terme

”mileage credit”. On a une moyenne de 1,2 mots par règle concernée dont il faut rétablir le contexte.

• Au niveau syntaxique, la normalisation concerne la totalité des règles. Elle permet de restructurer syntaxiquement une règle candidate ou de la décomposer en plusieurs autres règles candidates. La structuration est plus représentée dans ce corpus dans la mesure où elle concerne 68,4% des règles ; la décomposition n’a été effectuée que sur 30,6% des règles mais le nombre de règles augmente toutefois de 39 règles. Les cas de structuration sont le plus souvent décrits dans ce corpus par des formules du genre B if A ; B, A ; B when A ; B for each A qui peuvent devenir If A then B ; When A then B ; For each A then B.

La décomposition quant à elle est justifiée par la présence d’opérateurs logiques “and” et

“or” ou alors de conjonctions comme ”which”, ”who”, ”neither nor”.

Nous pouvons aussi remarquer que, en nombre d’opérations, la normalisation syntaxique a une plus grande part (38,5%) que les normalisations lexicale (32,8%) et contextuelle (28,7%) dans ce corpus mais tout de même chaque type de normalisation concerne au moins 60% des règles et donc nous pouvons dire que ce processus est utile pour réduire les complexités du langage naturel.

Chapitre VII. Expérimentations

VII.3.2 Corpus Audi

Pour le corpus Audi nous avons une utilisation des opérations de normalisation à peu près similaire à AAdvantage. La normalisation syntaxique y est aussi plus représentée (45% des transformations) que les autres et elles couvrent chacune plus de 55% des règles. On peut ainsi constater que :

• au niveau lexical, la normalisation porte sur 61% des règles initiales et 77 occurrences de termes ont fait l’objet de remplacement par des termes préférés, soit une moyenne de 1,3 occurrences par règle candidate ;

• au niveau contextuel, la normalisation concerne 57% des règles et porte sur plus de mots contextuels que dans AAdvantage, soit une moyenne importante : 1,9 termes par règle à remplacer. Parmi ces mots nous avons des mots grammaticaux (36), les termes génériques à spécifier (”test” (29) et ”sample” (16)) mais aussi des clés de références du genre ”Annex”

(11) et ”paragraph”(17) ;

• au niveau syntaxique, la normalisation concerne aussi la totalité des règles. Sur ce corpus la décomposition est la plus représentée (42%) par rapport à la structuration qui s’applique sur 30% des règles. Cette dernière permet de structurer essentiellement des règles sous forme (B if A ou B, A) alors que la décomposition ne porte que sur les mots ”and”, ”or”,

”which”, et ”between”.