Le corpus de l’évaluation - Compression automatique ou semi-automatique de textes par élagage d

5.4 L’expérimentation

5.4.1 Le corpus de l’évaluation

5.4.1.1 Présentation

Nous avons constitué notre corpus en prenant en compte les différentes contraintes de cohérence, genre et taille spécifiées en section5.3.2.1. Nous avons sélectionné 5 textes d’environ 400 mots, pour chaque genre choisi : journalistique, narratif et scientifique (des extraits sont disponibles en annexes). Le tableau 5.2 détaille la répartition des paragraphes, phrases et mots de ces 15 documents.

Nous pouvons observer une répartition homogène des paragraphes dans les documents, ainsi que des phrases dans les paragraphes et des mots dans les phrases.

Le corpus journalistique est composé d’articles du quotidien d’information francophone « Le Monde »80_{. Chaque article a été coupé à environ 400 mots, au paragraphe le plus}

proche. Le corpus narratif est composé de chapitres du roman « Vingt mille lieues sous 80

Journalistique Narratif Scientifique Moyenne

Comptage des paragraphes

Moyenne par document 4,2 6 4,8 5

Maximum par document 5 7 6 -

Minimum par document 3 4 4 -

Comptage des phrases

Moyenne par document 14,8 17,2 15,4 15,8

Maximum par document 25 22 16 -

Minimum par document 11 10 13 -

Moyenne par paragraphe 3,87 3,04 3,28 3,4

Comptage des mots

Moyenne par document 389,8 376,6 372 379,47

Moyenne par phrase 28,21 23,36 24,43 25,33

Tab. 5.2 – Répartition du texte dans le corpus.

les mers »81_{. Nous avons sélectionné les 5 premiers chapitres, et conservés environ les 400}

premiers mots de chacun, comme pour le corpus journalistique. Enfin le corpus scientifique est composé d’extraits du corpus du même genre de la conférence DEFT’0682. Les sciences

abordées sont les mathématiques et l’informatique.

5.4.1.2 Prétraitement à l’évaluation

Comme discuté dans le précédent chapitre, section4.3.2.2, la couverture syntaxique de SYGFRAN n’est pas complète, et même pour les phrases correctement analysées d’après sa grammaire, les attachements de certains compléments ne sont pas toujours corrects vis- à-vis de notre grammaire. Afin de disposer, en entrée à notre compresseur, d’une donnée syntaxique au plus juste, nous avons réalisé plusieurs prétraitements à l’évaluation, sur le corpus, COLIN et SYGFRAN.

Intégration des cas syntaxiques des phrases du corpus. La première initiative a

été de fournir le corpus au concepteur de SYGFRAN, Jacques Chauché, afin qu’il intègre, à sa grammaire TELESI, les différents cas de syntaxe présents dans les phrases du corpus. Cette tâche, assez fastidieuse, compte tenu du nombre de règles à manipuler, n’a pas pu aboutir complètement dans le temps que nous nous étions fixé pour cette tâche. Toutefois, les corpus journalistiques et narratifs ont pu être analysés correctement à l’issue du travail effectué sur SYGFRAN.

81_{Disponible en version intégrale sur le site Wikisource, http://fr.wikisource.org/wiki/Jules_} Verne

Étiquetage morphologique du corpus. Lorsque SYGFRAN ne reconnaît pas un mot du texte, il est possible d’ajouter une balise devant le mot pour en spécifier sa catégorie grammaticale. Nous avons donc étiqueté le corpus de telles balises, pour les mots inconnus, ce qui a permis de corriger certaines analyses restées partielles.

Balises de sous-analyse syntaxique. Lors de nos tests de correction d’analyse, nous

nous sommes rendu compte que certaines parties mal analysées de certaines phrases pou- vaient être correctement analysées lorsqu’elles étaient extraites puis fournies seules à l’ana- lyseur syntaxique. Cela nous a incité à demander à J. Chauché d’ajouter à SYGFRAN un mécanisme d’analyse indépendante de sous-parties de la phrase. Avec cette fonctionnalité, il nous est maintenant possible d’encadrer un constituant de la phrase par deux balises spécifiques, ce qui a pour conséquence de forcer SYGFRAN à d’abord analyser cette partie, puis d’intégrer le résultat à l’analyse complète. Ce système fonctionne aussi pour les inclusions de balises, permettant alors une grande manipulation de la phrase, pour en améliorer la qualité de son analyse. Ainsi, ces balises nous ont permis de corriger environ 50 % des phrases analysées partiellement.

Règles transformationnelles ad hoc. Pour tous les autres cas d’analyses partielles

et de mauvais attachement, nous avons décidé créer des règles ad hoc, pour chaque phrase problématique, afin d’obtenir une qualité d’analyse du corpus satisfaisante dans un bon délai de temps.

Créer une règle ad hoc pour une phrase donnée du corpus se fait facilement en identi- fiant une partie de sa structure, dont celle que nous souhaitons modifier, ainsi que quelques mots spécifiques à la phrase, de telle sorte que seule cette phrase vérifie ces contraintes.

La correction des analyses partielles a consisté à transformer les phrases concernées par une suppression du nœud racine de la phrase, étiqueté ULFRA, puis un attachement correct des constituants, et enfin un renseignement des variables de fonction syntaxique. La correction des analyses complètes mais avec un attachement de certains complé- ments incorrect a été réalisée de manière plus générique lorsque cela été possible. Nous avons pour cela créé un ensemble de règles reconnaissant les têtes lexicales impliquées, plutôt que les phrases complètes. L’exemple de code source TELESI présenté dans le chapitre précédent, section 4.3.1.3, illustre de telles règles, toutefois simplifiées pour la présentation de SYGFRAN. Nos règles complètes, accessibles en annexe, tiennent compte de la présence de prépositions et ponctuations, et gèrent précisément le déplacement des branches, vis-à-vis des nœuds déjà existants. Ainsi nous avons créé 1 règle pour un nom, 1 règle pour un adjectif, 1 règle pour une préposition et 41 règles pour des verbes. Par exemple, certaines règles des verbes recherchent les constructions du type accéder à A, agir comme A, distinguer A de B, être aimable de/pour A, se changer en A. Les deux

informations les plus utilisées pour identifier les compléments des verbes sont le type de circonstant et le lemme de la préposition.

Ces règles de correction de l’attachement des compléments ne sont cependant pas fiables en toute circonstance, car de nombreux cas particuliers de la langue peuvent les mettre en échec. Nous nous sommes assuré qu’elles fonctionnaient correctement pour notre corpus d’évaluation, ce pour quoi elles ont été spécifiquement créées.

Dans le document Compression automatique ou semi-automatique de textes par élagage des constituants effaçables : une approche interactive et indépendante des corpus (Page 168-171)