• Aucun résultat trouvé

Détermination de l’arbre RST le plus descriptif

4.3 Étapes de la méthode d’annotation rhétorique

4.3.4 Détermination de l’arbre RST le plus descriptif

Cette phase consiste à créer l’arbre RST le plus descriptif qui décrit l’organisation struc-turelle du texte source, et cela en prenant en considération les différentes contraintes des liens entre unités minimales du texte. Ainsi, l’arbre RST se caractérise par sa capacité de connecter récursivement, par le biais d’une relation de discours qui ne peut relier que des segments de texte adjacents, les unités minimales et les segments de texte plus larges ainsi construits selon un ordre cohérent et informatif.

Il est à signaler que cette phase de création et de détermination de l’arbre RST le plus descriptif a fait l’objet de plusieurs travaux de recherche. Parmi ces travaux nous pouvons citer les recherches de Marcu. Selon Marcu et suite à ces études empiriques, l’arbre RST le descriptif est celui le plus équilibré à droite et à gauche [Marcu 2000b].

Toutefois, l’approche de la sélection de l’arbre le plus descriptif au texte reste au niveau théorique car une telle représentation ne peut pas être obtenue généralement de manière automatique [Marcu 2000b].

Ainsi, nous proposons l’utilisation d’une technique qui fait appel à un certain nombre de règles et de schémas rhétoriques afin de décrire l’organisation structurelle d’un texte, quel que soit son niveau hiérarchique.

Les règles rhétoriques sont utilisées afin d’hiérarchiser et d’affiner l’arbre RST. Elles utilisent des heuristiques, adoptées après observation des résultats. Nous donnons ici à titre représentatif une règle rhétorique [Maaloul 2010a].

Algorithme 8 Exemple de règle rhétorique utilisée pour la construction de l’arbre RST

1: if (Un indicateur déclencheur se trouve audébut de phrase)then

2: La phrase annotée est en relation avec le passage qui la précède.

Pour les schémas rhétoriques, ils se présentent sous la forme de cinq modèles de schémas et qui peuvent être utilisés récursivement quel que soit le niveau hiérarchique de ce dernier. Ils permettent , ainsi, de lier un noyau et un satellite, deux ou plusieurs noyaux entre eux, et un noyau avec plusieurs satellites [Marcu 2000b] afin décrire une structure rhétorique finale d’un texte, de taille arbitraire, et strictement hiérarchique et se présente sous la forme d’un arbre RST.

L’exemple suivant présente une interprétation RST (voir figure4.2) déduite à partir des modèles de schémas présentés précédemment relatifs au paragraphe suivant.

,  ¯A ®“

(O) t$thr mdynp SfAqs btqdym OTbAq vmAr AlbHr ElY OnwAEhA. (b) EndmA yrtAd zwAr mdynp SfAqs, fInhm yTlbwn bAstmrAr OTbAq vmAr AlbHr (t) wxASp Tbq AlmHAr wAlIxTbwT Alm$wy ElY AlfHm.

(A) La ville de Sfax est connue par la présentation des plats de fruits de mer de tout type. (B) Lorsque les visiteurs se rendent à la ville de Sfax, ils demandent régulièrement les plats de fruits de mer (C)et surtout le plat d’huître et de poulpe grillé sur le charbon.

Il est à noter que le jugement d’appartenance à la relation rhétorique "Évidence -

èY«A ¯

" est

attribué aux unités minimales "(A) -

(

@)

" et "(B) -

(H.)

". Cette attribution est faite en se basant sur le frame rhétorique suivant :

Tableau 4.9 – Exemple de frame utilisé pour la détection de la relation rhétorique "Évidence -

èY«A ¯

"

Relation: "Évidence -

èY«A ¯

"

Contrainte sur "(A) -

(

@)

" :

-Contrainte sur "(B) -

(H.)

": contient l’indice déclencheur "Lorsque-

A ÓY J«

".

Position de l’indicateur déclencheur: Début Unité minimale retenue: "(A) -

(

@)

"

Alors que la relation rhétorique "Condition-

 Qå…

" est attribuée aux unités minimales "(B)

-(H.)

" et "(C)-

H

".

Cette attribution est faite en se basant sur le frame rhétorique composé d’un indicateur déclencheur de recherche "et surtout-

é“A gð

" et l’indice complémentaire "ils-

Ñî EA ¯

".

Tableau4.10 – Exemple de frame utilisé pour la détection de la relation rhétorique "Condition -

 Qå…

"

Relation: "Condition -

 Qå…

"

Contrainte sur "(B) -

(H.)

" : contient l’indice complémentaire "ils -

Ñî EA ¯

".

Contrainte sur "(C) -

H

": contient l’indice déclencheur "et surtout-

é“A gð

".

Position de l’indicateur déclencheur: Début Unité minimale retenue: "(B) -

(H.)

"

La RST va réagir à cet exemple comme suit en appliquant la règle 8 et nous aurons comme résultat l’arbre suivant :

Figure4.2 – Arbre RST

Dans le reste de ce travail, nous nous appuyons principalement sur la distinction Noyau/Satellite prônée par la RST et qui, selon nous, instaure une relation de dépendance entre deux unités minimales.

4.4 Conclusion

Dans le présent chapitre, nous avons explicité les améliorations que nous avons proposées au niveau de la théorie de la structure rhétorique (RST) classique définie par [Mann 1988]. Nous avons, ainsi, intégré deux phases d’enrichissement et de correction afin de déterminer un seul arbre descriptif.

Au niveau de l’enrichissement des relations rhétoriques, nous avons proposé l’utilisation des frames rhétoriques. Ces frames se basent sur des indicateurs déclencheurs de relations et un ensemble de critères morphologiques permettent de lever l’ambiguïté dans certains cas où on trouve un indicateur déclencheur de recherche sans indices de validation.

Au niveau de la correction, notre contribution s’est manifestée par la proposition d’un ensemble de règles de correction en vue de réduire le nombre de relations rhétoriques. Cette correction se base sur des règles de type relation-relation et indice-relation.

Pour générer l’arbre final d’un texte, nous nous sommes basés sur les cinq schémas définis par Mann et Thompson [Mann 1988] et vingt-cinq frames rhétoriques [Maaloul 2010a].

Dans le chapitre suivant, nous allons, détailler les étapes de notre proposition qui consiste à générer un extrait par une approche hybride, à savoir : la segmentation, l’étiquetage morpho-logique, l’analyse rhétorique et le classement et sélection des phrases selon le type du résumé.

Génération d’extrait par une approche hybride

Sommaire

5.1 Introduction . . . 79 5.2 Notre proposition : étapes de l’approche proposée. . . 80 5.2.1 Segmentation du document source . . . 81 5.2.2 Étiquetage morphologique . . . 82 5.2.3 Analyse rhétorique . . . 83 5.2.4 Phase d’apprentissage . . . 84 5.2.4.1 Corpus d’apprentissage . . . 85 5.2.4.2 Apprentissage basé sur l’algorithme SVM . . . 87 5.2.4.3 Vecteur d’extraction SVM. . . 88 5.2.4.4 L’algorithme SMO . . . 89 5.2.4.5 Scénario d’application de l’algorithme SVM . . . 90 5.2.5 Sélection et classement des phrases selon le type du résumé . . . 90 5.2.5.1 Classement et sélection des phrases . . . 90 5.2.5.2 Vers un résumé dynamique . . . 91 5.3 Conclusion. . . 92

5.1 Introduction

Dans le chapitre précédent, nous avons présenté l’élément de base dans notre processus de génération d’extrait qui est l’annotation rhétorique. Cette annotation se distingue par sa ca-pacité de produire un seul arbre RST qui connecte récursivement les unités minimales et les segments de texte plus larges ainsi construits selon un ordre cohérent et informatif.

Selon cette vision, notre proposition pour la génération d’extrait opère par l’utilisation d’une approche hybride qui combine une analyse purement symbolique avec une sélection purement numérique. Pour illustrer cet aspect hybride, nous proposons d’utiliser une analyse rhétorique

pour déterminer les relations rhétoriques et une technique d’apprentissage afin de sélectionner des unités textuelles (phrases) formant l’extrait final. Cependant, la technique d’apprentissage tient en compte les relations rhétoriques mentionnées par l’arbre RST, le type de résumé choisi et les besoins potentiels d’un utilisateur.

dans à cet ordre d’idée, nous mentionnons dans ce chapitre qu’une information n’est pas im-portante en soi, mais doit correspondre aux besoins d’un utilisateur. Ainsi, l’approche hybride, que nous proposons, aborde la question des besoins des utilisateurs. En effet, notre recherche s’oriente de plus en plus vers la production de résumés dynamiques [Maâloul 2008].

Nous allons aussi détailler les étapes de l’approche hybride proposée et pour mener au mieux cet aspect d’hybridation nous commençons par décrire globalement notre proposition, puis nous détaillons chacune de ses étapes : la segmentation, l’étiquetage morphologique, l’analyse rhétorique, l’apprentissage, le classement et la sélection des phrases selon le type de résumé.