• Aucun résultat trouvé

2.3 Approche symbolique

2.3.2 La théorie de la structure rhétorique

Cette technique repose sur une analyse rhétorique, c’est-à-dire une vision linguistique de la structuration des textes, afin de détecter les relations sémantiques et les relations intentionnelles qui existent entre les segments d’un document. En effet, cette analyse rhétorique a comme but d’établir les relations et les dépendances ainsi que l’importance relative des phrases ou propo-sitions les unes par rapport aux autres [Teufel 1998].

En 1988, Mann et Thompson [Mann 1988]ont réalisé une étude analytique et ils ont pu dé-duire, suite à leurs observations empiriques, qu’il est possible d’analyser la majorité des types des texte en termes d’arbre hiérarchique des relations rhétoriques (les relations sémantiques et les relations intentionnelles) qui existent entre les propositions d’un document.

Les résultats de cette étude ont permis à ces deux chercheurs de définir une théorie descriptive et fonctionnelle sur l’organisation des textes qu’ils ont nommé la RST (Théorie des Structures Rhétoriques).

Les auteurs de cette théorie posent une vingtaine de relations rhétoriques permettant de lier deux segments de texte adjacents entre eux, dont l’un possède le statut de noyau – segment de texte primordial pour la cohérence – et l’autre celui de satellite – segment optionnel [Luc 2001].

En effet, le but de cette théorie consiste en premier lieu à faire la distinction entre les deux types de segments : noyau, et satellite [Marcu 1997]. Les auteurs de la RST définissent les unités minimales comme des unités fonctionnellement indépendantes : elles correspondent générale-ment aux propositions [Luc 2001]. En deuxième lieu, le but de l’RST se concentre à faire la reconnaissance des relations qui relient le segment minimal avec celui composé : la

reconnais-sance repose sur une interprétation. Cette interprétation se base sur une analyse syntaxique du contenu des segments du texte afin de repérer les différents marqueurs lexicaux indicateurs de relations rhétoriques, c’est-à-dire décrire les relations qui lient deux parties du texte dont l’un est noyau et l’autre satellite. Ainsi, les relations peuvent être repérées via des signaux linguistiques. Des exemples de relations et de marques associées sont donnés dans le tableau suivant :

Tableau 2.2 – Exemples de relations rhétoriques et de marques associées [Ono 1996]

Relation Expressions

Serial <SR> Thus Summarization <SM> After all Negative <NG> But

Example <EG> For example Especial <ES> Particularly Reason <RS> Because

Chaque relation est définie par des contraintes sur le noyau, sur le satellite et sur la combinai-son de la paire noyau et satellite. Ainsi, pour déduire la relation entre deux propositions il faut appliquer des jugements de plausibilité (par exemple le lecteur ne croit pas N mais si on lui dit S alors il croit N avec une certaine certitude) [Saggion 2000].

L’autre élément qui s’ajoute à la théorie, c’est les schémas qui spécifient la composition structu-rale du texte. Ces schémas rhétoriques décrivant l’organisation structurelle d’un texte, quelque soit le niveau hiérarchique de ce dernier, permettent de lier un noyau et un satellite, deux ou plusieurs noyaux entre eux, et un noyau avec plusieurs satellites [Luc 2001].

Ainsi, les schémas rhétoriques se présentent sous la forme de cinq modèles de schémas (figure 2.3) qui peuvent être utilisés récursivement pour décrire des textes de taille arbitraire. En plus, un schéma indique comment co-occurrent les blocs textuels arguments d’une relation rhéto-rique.

S N

CIRCONSTANCE

S

S N

MOTIVATION ENABLEMEN N N

JOIN

N N N

SEQUENCE SEQUENCE

N N

CONTRASTE

Figure2.3 – Cinq modèles de schémas rhétoriques [Mann 1988]

Le schéma le plus fréquent est celui liant un satellite unique à un noyau unique [Saggion 2000].

La structure du texte est donc définie en termes de compositions d’applications de schémas, et ce de manière réitérative. La structure rhétorique finale d’un texte est strictement hiérarchique et se présente sous la forme d’un arbre RST.

Pour analyser un texte selon la RST, il doit d’abord être segmenté en unités textuelles. En général, ce sont des propositions et représentent les nœud terminaux de l’arbre RST qui est obtenu à partir de l’application d’un certain nombre de schémas. Dans la Figure2.4, on présente une interprétation RST des textes suivants.

Exemple 1 :

(O) t$thr mdynp SfAqs btqdym OTbAq vmAr AlbHr ElY OnwAEhA. (b) SfAqs mdynp sAHlyp.

(A) La ville de Sfax est connue par la présentation des plats de fruits de mer de tout type. (B) Sfax est une ville littorale.

La RST va réagir avec cet exemple comme suit (Figure 2.4) :

Figure 2.4 – Arbres RST de l’exemple 1 Exemple 2 :

(O) t$thr mdynp SfAqs btqdym OTbAq vmAr AlbHr ElY OnwAEhA. (b) EndmA yrtAd zwAr mdynp SfAqs (t) yTlbwn bAstmrAr OTbAq vmAr AlbHr wxASp Tbq AlmHAr wAlIxTbwT Alm$wy ElY AlfHm.

(A) La ville de Sfax est connue par la présentation des plats de fruits de mer de tout type. (B) Lorsque les visiteurs se rendent à la ville de Sfax, (C) ils demandent régulièrement les plats de fruits de mer et surtout le plat d’huître et de poulpe grillé sur le charbon.

. dAr Al.hyAT . . dAr Al.hyAT .

La RST va se réagir avec cet exemple comme suit (Figure 2.5) :

Figure 2.5 – Arbres RST de l’exemple 2

Dans ces approches, l’objectif du processus d’interprétation est d’obtenir l’arbre rhétorique du texte original.

Selon Marcu [Marcu 2000b], et suite à ces études empiriques, le meilleur arbre RST le plus descriptif est celui le plus équilibré à droite et à gauche.

Ainsi, ces propos offrent un milieu d’investigation assez intéressant pour le domaine d’extraction automatique. En effet, lors de l’étape de sélection des unités importantes, on peut profiter des relations entre les structures de discours pour décider le degré de leur importance. L’étape de réduction peut éventuellement exploiter les relations de cohérence et de cohésion pour garder l’unité textuelle de l’extrait et pour éviter les ruptures de séquences.

Les expériences avec l’utilisation de RST montrent que l’arbre rhétorique permet de prédire assez bien les unités qu’un juge humain aurait sélectionnées. Mais tel qu’a affirmé Marcu, d’autres éléments doivent être ajoutés pour obtenir de bons résultats. En effet, les informations sémantiques véhiculées dans les phrases ne sont pas prises en considération pour la sélection d’éléments (elles n’apparaissent pas dans la représentation).