• Aucun résultat trouvé

Vers la segmentation automatique multilingue

Dans le document The DART-Europe E-theses Portal (Page 44-50)

Segmentation discursive pour la compression de phrases

2.7 Vers la segmentation automatique multilingue

FIGURE2.4 – Architecture d’un segmenteur discursif pour des phrases compressées en espagnol : CoSeg.

règles de manière progressive. La première colonne présente en noir la proportion des EDUs reconnues en supprimant la restriction verbale. La deuxième présente la propor-tion conjointe de la suppression de la restricpropor-tion verbale et l’ajout des nouveaux mar-queurs. La dernière colonne correspond à la totalité des modifications qui conforment CoSeg : la suppression de la restriction verbale, l’ajout des nouveaux marqueurs et l’ajout des signes de ponctuation. On peut observer que le volume des fragments élimi-nés couverts par CoSeg augmente jusqu’à 80%.

2.7 Vers la segmentation automatique multilingue

Après la transformation du segmenteur DiSeg en CoSeg, nous nous sommes interro-gés sur la possibilité de créer un segmenteur utilisant peu de ressources linguistiques, basé uniquement sur une liste de marqueurs discursifs et un étiqueteur grammatical

sans marqueurs avec marqueurs discursifs avec marqueurs ou ponctuation volume total(%) 020406080100

FIGURE2.5 – Couverture du segmenteur CoSeg pour 675 fragments (2 651 mots) non reconnus par DiSeg.

(part-of-speech tagger) (Saksik et al.,2013). Ces deux ressources linguistiques existent pour de nombreuses langues. Nous avons conçu une architecture où les listes de mar-queurs, en différentes langues, sont des ressources externes (du typeplug-in) au sys-tème de segmentation.

L’architecture d’un segmenteur discursif multi-langue est présentée dans la figure 2.6. Afin d’améliorer la version de base, qui utilise uniquement ces listes, nous avons décidé de combiner la liste avec les étiquettes grammaticales. Pour l’étiquettage, nous avons utilisé l’outil TreeTagger8, disponible en plusieurs langues : allemand, anglais, français, italien, hollandais, espagnol, bulgare, russe, grec, portugais, galicien, chinois, swahili, latin, estonien et vieux français.

Dans une expérience pilote, nous avons réalisé des tests en Français en utilisant le corpus Annodis (projet ANR ANNOtation DIScursive) issu de la collaboration de trois laboratoires français CLLE-ERSS, IRIT et GREYC. Ce corpus est un ensemble de docu-ments en français segmentés manuellement en unités discursives. Les docudocu-ments de ce corpus proviennent de quatre sources : l’Est Républicain (39 articles, 10 000 mots) ; Wikipédia (30 articles + 30 extraits, 242 000 mots) ; Actes du Congrès Mondial de Lin-guistique Française 2008 (25 articles, 169 000 mots) ; Rapports de l’Institut Français de Relations Internationales (32 rapports, 266 000 mots).

Afin de déterminer les capacités de la segmentation discursive en utilisant unique-ment la liste des marqueurs et accessoireunique-ment l’étiquetage grammatical, nous avons développé trois stratégies décrites ci-dessous.

Le SEGMENTEURµ : segmentation par marqueur explicite. Un système de base qui s’appuie uniquement sur une liste de marqueurs discursifs pour réaliser la segmenta-tion. Il remplace l’apparition d’un marqueur dans la liste pour un symbole spécial, par exempleµ, qui indique une frontière entre le segment droit et le segment gauche.

8. http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

2.7. Vers la segmentation automatique multilingue

FIGURE 2.6 – Architecture d’un segmenteur discursif multilingue utilisant peu de ressources linguistiques.

Le segmenteur de base SEGMENTEURµ a été amélioré en suivant deux stratégies différentes.

– SEGMENTEURµ+V : il s’appuie uniquement sur la présence de verbes à droite et à gauche du marqueur discursif. Les deux règles de cette stratégie sont : S’il n’y a pas de verbes dans les segments droits ou gauches, alors ils sont regroupés en un seul segment. S’il y a au moins un verbe à droite ou à gauche du marqueur, les segments sont séparés.

– SEGMENTEURµ+(VN): il s’appuie sur la présence de verbes et de substantifs. On utilise les mêmes règles que pour le segmenteur précédent mais en considérant la présence des verbes et des substantifs.

En ce qui concerne les évaluations des systèmes, nous utilisons les 78 documents du sous-corpus expert pris comme référence. Nous obtenons pour nos trois systèmes les résultats du tableau2.5:

Système F-score P R SEGMENTEURµ 0.515 0.649 0.435 SEGMENTEURµ+V 0.511 0.609 0.448 SEGMENTEURµ+(VN) 0.504 0.611 0.437 TABLE2.5 –Performances des segmenteurs automatiques

Le SEGMENTEURµ+V présente des performances très proches du système de base (SEGMENTEURµ) en précision et F-score qui dépassent la baseline en rappel. Tout en étant aussi proche de la version verbale, le SEGMENTEURµ+(VN) arrive à obtenir une meilleure précision.

Les résultats montrent que l’on peut construire une version de base très simple, qui emploie uniquement une liste de marqueurs, tout en ayant des performances consi-dérables. La qualité de la liste de marqueurs est un facteur prépondérant pour une segmentation correcte. Nous avons vérifié que même la version de base a donné des résultats intéressants en rappel et F-score.

Les résultats pour le deux sous-corpus d’Annodis (expert et naïf) sont présentés dans le tableau2.6. Nous constatons qu’ils sont sensiblement les mêmes. Ceci est inté-ressant, car nous nous attendions à des écarts plus importants. Quoi qu’il en soit, nous pouvons en déduire qu’au moins dans ce corpus il n’est pas nécessaire d’être un expert en linguistique pour segmenter discursivement les documents.

Référence F-score P R Experts 0.960 0.983 0.941

Naïfs 0.961 0.971 0.952 TABLE2.6 –Performances des segmentations manuelles.

Ces résultats sont intéressants pour la tâche de compression de phrases car ils nous offrent la possibilité de reproduire les expériences dans d’autres langues. Dans tous les cas, il suffirait uniquement d’avoir à disposition une liste de marqueurs dans chaque langue.

2.8 Conclusions du chapitre

Dans ce chapitre nous avons présenté des travaux récents sur la compression de phrases qui proposent l’élimination de fragments au lieu de mots. Grâce à cet état de l’art et aux résultats du chapitre 1, nous avons remarqué l’utilité de la théorie de la structure rhétorique. Nous avons exploré cette théorie notamment dans la première étape, dans la segmentation discursive.

Nous avons détaillé l’utilité de la segmentation intra-phrase pour la détection des segments éliminables. Nous avons vérifié expérimentalement, en faisant des analyses qualitatives et quantitatives, que les segments discursifs sont très propices à l’élimina-tion. Dans cette perspective, nous avons fait appel au segmenteur discursif pour l’espa-gnol DiSeg. Pour tester l’efficacité de DiSeg, nous avons fourni un corpus à des anno-tateurs en leur demandant d’éliminer des fragments textuels. Les résultats ont montré que la moitié des fragments étaient des segments discursifs identifiés automatiquement par DiSeg.

Pour l’autre moitié, celle composée de fragments éliminés mais non identifiés par

2.8. Conclusions du chapitre

DiSeg, nous avons conclu qu’elle se composait essentiellement des fragments ayant les caractéristiques suivantes :

– ils commencent par un participe ; – ils commencent par un pronom relatif ;

– ils contiennent un marqueur discursif sans inclure un verbe ; – ils sont entourés par des signes de ponctuation.

Après une analyse approfondie, nous avons proposé une modification du système DiSeg pour couvrir les EDUs qu’il ne reconnaît pas. Nous avons donc créé un segmen-teur basé sur DiSeg mais orienté vers la compression de phrases : CoSeg.

Chapitre 3

Pondération de la grammaticalité

Dans le document The DART-Europe E-theses Portal (Page 44-50)