• Aucun résultat trouvé

Analyse qualitative des fragments éliminés

Dans le document The DART-Europe E-theses Portal (Page 40-43)

Segmentation discursive pour la compression de phrases

2.5 Analyse qualitative des fragments éliminés

05101520 CAUSE CIRCUMSTANCE JOINT RESULT ELABORATION ANTITHESIS OTHERS CONDITION PURPOSE MEANS GRANT UNLESS

FIGURE2.3 – Fréquences des relations RST identifiées par DiSeg.

Genre Noyaux Satellites Wikipédia 8 (29 %) 20 (71 %) Nouvelles 9 (13 %) 58 (87 %) Scientifique 0 (0 %) 8 (100 %) Littéraire 4 (40 %) 6 (60 %)

TABLE2.4 –Proportion des EDUs éliminées correspondant à des noyaux ou à des satellites.

Les fréquences des EDUs dans la classe 1 divisées par rapport au type de relation RST sont présentées dans la figure 2.3. Nous observons qu’il y a des relations plus susceptibles à élimination que d’autres. Dans nos expériences, nous avons identifié les relations les plus éliminées : les satellites de CAUSE(27.85%), les satellites de CIRCONS

-TANCE(25.32%), les noyaux de JONCTION(20.25%), les satellites de RÉSULTAT(13.92%) et les satellites d’ÉLABORATION(12.66%).

2.5 Analyse qualitative des fragments éliminés

Après l’analyse quantitative des fragments éliminés, nous avons réalisé une ana-lyse qualitative afin de comprendre quels éléments ont eu tendance à être éliminés du-rant la compression de phrases. Nous présentons ici les résultats de cette analyse. Les exemples que nous utilisons sont extraits de notre corpus en espagnol. Nous proposons donc une traduction mot-à-mot en français, parfois forcée afin de mettre en évidence

les phénomènes en question6.

Nous commençons par analyser les différentes régularités que nous avons trouvées pour les segments DiSeg (classe 1). Tous les fragments éliminés que nous montrons par la suite ont été efficacement détectés par DiSeg.

La première remarque intéressante provient du fait qu’il est possible de déterminer la nucléarité, c’est-à-dire, si une EDUs est un noyau ou un satellite, uniquement en regardant le marqueur discursif explicite qu’elle contient. Autrement dit, il n’est pas nécessaire d’analyser la phrase entière pour ce faire. L’exemple 1 illustre cette situation.

Nous voyons clairement qu’avec une seule EDUs, il est possible d’identifier un satellite de CAUSE.

Exemple 1. [ya quese reducirían las interacciones entre fármacos, sus efectos adversos, y favo-recería el cumplimiento de unos tratamientos que cada vez incluyen más pastillas.]

Exemple 1. [étant donné queles interactions entre les médicaments et leurs effets indésirables seraient réduits en favorisant l’accomplissement des traitements qui incluent de plus en plus de pilules.]

Dans certains cas, le marqueur discursif est ambigu. Il pourrait indiquer plusieurs types de relations rhétoriques. Dans l’exemple 2, le marqueur discursifcuando(quand) peut autant indiquer une relation de CIRCONSTANCEqu’une relation de CONDITION. Dans ce cas, il est nécessaire de lire la phrase entière afin de déterminer le type de relation rhétorique correct.

Exemple 2. [Sin embargo, el uso de Internet a edades cada vez más tempranas representa no solamente una herramienta educativa útil,][sino también puede constituir grandes peligros]

[cuandosu uso está relacionado con contenidos inapropiados para su adecuado desarrollo.]

Exemple 2. [Cependant, l’utilisation d’Internet par les plus jeunes représente non seulement un outil éducatif important,] [mais aussi, elle peut constituer de grands risques] [quandson emploi est lié à des contenus inappropriés.]

Dans d’autres cas, le marqueur est un gérondif, situation également ambiguë. Les exemples 3, 4 et 5 montrent des EDUs contenant un gérondif mais qui indiquent trois différents types de relations rhétoriques : RÉSULTAT (ex. 3), ÉLABORATION (ex. 4) et MÉTHODE(ex. 5).

Exemple 3. [limitándosea reducir el factor de comportamiento sísmico que controla las resis-tencias de diseño.]

Exemple 3. [en se limitantà réduire le facteur du comportement sismique qui contrôle les résis-tances du design.]

Exemple 4. [diseñandomejoras para el equipo eléctrico traído del otro lado del océano gracias a las ideas de Edison.]

Exemple 4. [en prévoyantdes améliorations pour l’équipement électronique importé de l’autre côté de l’océan grâce aux idées d’Edison.]

6. Ceci est valable pour toutes les traductions que nous utilisons dorénavant.

2.5. Analyse qualitative des fragments éliminés

Exemple 5. [hablandoacerca de la prevención necesaria.]

Exemple 5. [en parlantsur la prévention nécessaire.]

La majorité des EDUs éliminées ont un marqueur discursif explicite, tels queya que (étant donné que) dans l’exemple 1 oucuando(quand) dans l’exemple 2. Cependant, il y a aussi quelques EDUs qui ne contiennent pas de marqueurs. Dans ces cas là, il est plus difficile de leur assigner un type de relation rhétorique. L’exemple 6 illustre cette situation.

Exemple 6. [se incluyeron además corredores entre las plantas hechos con tepujal, un material que ayuda a conservar la humedad en la tierra]

Exemple 6. [de plus, des couloirs faits en tepujal ont été inclus, ce matériau aide à conserver l’humidité de la terre]

Dans la majorité des cas, les EDUs éliminées correspondent à des satellites (exemples 1 à 5), mais parfois elles correspondent à des noyaux (exemple 6). Ceci veut dire que le satellite ne peut pas toujours être éliminé sans une perte importante d’information. De plus, quelquefois le noyau n’est pas essentiel à la compréhension du texte, comme il a été argumenté dans d’autres travaux (Marcu,2000).

Nous analysons à présent les éléments de la classe 2, c’est-à-dire les paragraphes éliminés par les annotateurs experts qui ne correspondent pas aux EDUs détectées par DiSeg. Nous identifions deux cas : (a) unités avec sens discursif et (b) unités sans sens discursif.

Pour les unités avec sens discursif (a), nous détectons trois régularités : des frag-ments qui commencent par un participe ; des fragfrag-ments qui correspondent à des propo-sitions relatives et des fragments qui ne contiennent pas de verbe. L’exemple 7 présente le cas d’un fragment éliminé qui commence par un participe.

Exemple 7. [valorado en 40 000 dólares.]

Exemple 7. [estimée en 40 000 dollars .]

L’exemple 8 montre un cas où le fragment éliminé correspond à une proposition relative.

Exemple 8. [que agrupaba los vídeos más vendidos.]

Exemple 8. [qui regroupait les vidéos les plus vendues.]

L’exemple 9 montre un fragment éliminé qui ne contient pas de verbe.

Exemple 9. [a causa de la malnutrición durante la ocupación alemana.]

Exemple 9. [à cause de la malnutrition durant l’occupation allemande.]

Le critère de segmentation de DiSeg ne détecte pas les fragments exposés dans le cas (a) comme étant des EDUs. Néanmoins, beaucoup de ces fragments ont été éliminés.

Nous considérons que la détection de ces unités serait utile à la tâche de compression automatique des phrases. Pour le cas (b), dans la section suivante nous montrons une analyse plus approfondie. Ainsi, en considérant les observations de ces deux cas, nous présentons une adaptation de DiSeg.

Dans le document The DART-Europe E-theses Portal (Page 40-43)