• Aucun résultat trouvé

Pour une représentation de l’organisation textuelle

Filtrage sémantique de textes en Sciences Humaines

4.2. Pour une représentation de l’organisation textuelle

La construction d’un modèle de représentation d’un texte constitue l’étape préalable à tout traitement textuel dans les sciences humaines. Jusqu’à ces dernières années, les linguistes, essentiellement pour des raisons théoriques, s’étaient tenus à distance de cette problématique et les propositions sont plutôt issues des disciplines de l’analyse du discours [MAN 88] ou de la psycholinguistique [RUM 75]. Ce constat a été maintes fois souligné dans les années précédentes par différents linguistes comme en témoignent les extraits suivants :

©$XVVLYDXWLOPLHX[LFLFRPPHDLOOHXUVVHGpWDFKHUGHFHVSKUDVHVLVROpHVGH WRXW FRQWH[WH TXH O¶RQ YD MXVTXj IDEULTXHU VRLPrPH 5pIOpFKLVVRQV SOXW{W VXU FH TX¶HVW YpULWDEOHPHQW XQ WH[WH &¶HVW PDQLIHVWHPHQW XQH WRWDOLWp R FKDTXH pOpPHQW HQWUHWLHQW DYHF OHV DXWUHV GHV UHODWLRQV G¶LQWHUGpSHQGDQFH &HV pOpPHQWV HW JURXSHV G¶pOpPHQWVVHVXLYHQWHQRUGUHFRKpUHQWHWFRQVLVWDQWFKDTXHVHJPHQWWH[WXHOFRPSULV FRQWULEXDQWjO¶LQWHOOLJLELOLWpGHFHOXLTXLVXLW&HGHUQLHUjVRQWRXUXQHIRLVGpFRGp YLHQWpFODLUHUUpWURVSHFWLYHPHQWOHSUpFpGHQWRQFRQVWDWHVLO¶RQV¶\UHSRUWHTXHOD

FRPSUpKHQVLRQ V¶HQ HVW HQFRUH HQULFKLH $LQVL SURFpGRQVQRXV SRXU FRPSUHQGUH XQ WH[WH WRXWH SKUDVH HW SHX LPSRUWH FH TXH O¶RQ HQWHQG H[DFWHPHQW SDU Oj  HVW VXERUGRQQpH j FKDFXQH GHV DXWUHV GDQV OD PHVXUH R HOOH Q¶HVW SDV VLPSOHPHQW GpFKLIIUpHHQHOOHPrPHPDLVSDUWLFLSHjODFRPSUpKHQVLRQGHO¶HQVHPEOHGHVDXWUHV &HOD SURXYH VHXOHPHQW OD VROLGDULWp GH WRXV OHV pOpPHQWV GDQV FH UpVHDX GH GpWHUPLQDWLRQVTX¶HVWXQWH[WHªWeinrich H/DJUDPPDLUHGXWH[WH

©-XVTX¶jSUpVHQWOHVOLQJXLVWHVQ¶RQWJXqUHSURJUHVVpGDQVFHWWHpWXGHHWVRQW SRXUO¶HVVHQWLHOUHVWpVGDQVOHVOLPLWHVGHODSKUDVH&DUO¶$QDO\VHGX'LVFRXUVVDQV rWUH HQ VRL XQ GRPDLQH YLHUJH O¶HVW DX PRLQV GX SRLQW GH YXH WHFKQLTXH HQ FH VHQV TX¶DXFXQHGHVHVSDUWLHVIRQGDPHQWDOHVQ¶DHQFRUHpWpVpULHXVHPHQWSpQpWUpH&HUWHV LO \ D O¶RXYUDJH ELHQ FRQQX GH +DUULV 'LVFRXUVH $QDO\VLV 5HSULQWV   PDLV VRQ REMHW UpHO OHV UpDUUDQJHPHQWV VWUXFWXUHOV DX QLYHDX GH OD SKUDVH OH UHQG WRXW j IDLW pWUDQJHU DX[ SUREOqPHV TXL QRXV LQWpUHVVHQW LFLªLabov W. /H SDUOHU RUGLQDLUH 9RO(GLWLRQVGH0LQXLW

©/HWH[WHpFULWQRXVIRUFHGHIDoRQH[HPSODLUHjFRPSUHQGUHTXHO¶RQQHSHXW SDVSDVVHUGHODSKUDVH KRUVSURVRGLHKRUVFRQWH[WHKRUVVLWXDWLRQ jO¶pQRQFpSDU XQHSURFpGXUHG¶H[WHQVLRQ,OV¶DJLWHQIDLWG¶XQHUXSWXUHWKpRULTXHDX[FRQVpTXHQFHV LQFRQWRXUQDEOHVªCulioliA /D ODQJXH DX UDV GX WH[WH 3UpIDFH DX[ (GLWLRQV 8QLYHUVLWDLUHVGH/LOOH .

©2Q VDLW TXH OH WH[WH Q¶D JXqUH pWp pWXGLp SRXU OXLPrPH SDU OHV OLQJXLVWHV &¶HVW OD SKUDVH TXH OHV WKpRULHV OLQJXLVWLTXHV RQW SRXU OD SOXSDUW DGRSWpH FRPPH XQLWp G¶DQDO\VH HW OHV pWXGHV PHQpHV VXU O¶DPELJXwWp HW OD SDUDSKUDVH UHIOqWHQW WUqV ODUJHPHQW FHWWH WHQGDQFH RQ V¶\ LQWpUHVVH DX[ DPELJXwWpV GH SKUDVHV LVROpHV HW DX[ UHODWLRQV GH V\QRQ\PLH HQWUH SKUDVHV SULVHV GHX[ j GHX[ VDQV FRQVLGpUDWLRQ GH FRQWH[WH SOXV YDVWHªFuchsC $VSHFWV GH O¶DPELJXwWp HW GH OD SDUDSKUDVH GDQV OHV ODQJXHVQDWXUHOOHV(GLWLRQ3HWHU/DQJ

De son côté, l’informatique, sous la pression des besoins du marché, notamment de celui de l’édition et dernièrement de celui du Web, a proposé des modèles de description qui se limitent à la prise en compte d’informations structurelles, comme la section, le paragraphe, le titre, la phrase, etc. Ces travaux ont ainsi donné lieu à la production de langages de description comme SGML puis XML et de leurs analyseurs associés (SAX, DOM) [XML 98] ; un important travail de standardisation est actuellement en cours, en vue de proposer des standards de description [BON 00]. Remarquons, néanmoins, que ces langages présentent une limitation importante dans leur pouvoir d’expression puisqu’ils ne permettent de décrire que des structures emboîtées et qu’ils restent très marqués par leur origine, à savoir les pratiques éditoriales. Les questions essentielles, qui concernent autant les

linguistes que les informaticiens sont : que décrire dans un texte ? Quelles organisations textuelles faut-il décrire ? Existe-t-il des unités textuelles élémentaires, et comment celles-ci sont elles organisées ? Comme le fait remarquer M.P. Péry-Woodley [PER 01] à la suite de J. Virbel [VIR 85], « les actes textuels peuvent soit être réalisés par la présence dans le texte de performatifs, par exemple,

M¶RUJDQLVH OH FKDSLWUH  HQ WURLV SDUWLHV, soit être inférables à partir de traces de l’effacement du performatif, traces qui constituent la mise en forme matérielle et recouvrent des marques lexico-syntaxiques, typographiques, dispositionnnelles et ponctuationnelles (par exemple blancs verticaux, titres et numération pour l’organisation d’un chapitre en trois parties). »

Nous pensons, en nous fondant sur l’expérience accumulée dans le filtrage d’informations et au regard des divers modèles proposés par la communauté, que les représentations textuelles à construire doivent l’être dynamiquement en fonction des finalités de la tâche. En effet, il existe potentiellement une multiplicité d’organisations textuelles (cf. 4.3).

Conceptuellement, la représentation d’un texte sur laquelle nous travaillons est, au départ, analogue à celle utilisée dans le modèle d’« hypertexte ». Rappelons que dans ce modèle, un texte est considéré comme un graphe ; chaque nœud du graphe représente une unité textuelle 8 et deux nœuds 8¿ et8À

peuvent être reliés par un lien hyper-texte. Les navigateurs (« browsers ») exploitent ces liens en offrant à l’utilisateur la possibilité de ce déplacer directement de 8¿ vers8À (ou inversement) ainsi que deux opérations, « DYDQFHU » et « UHFXOHU ».

Nous proposons de remplacer cette notion de lien hyper-texte par celle de « composant ». Un composant encapsule41 la description des propriétés du lien avec les opérations qu’il est possible d’effectuer sur ce type de lien.

Prenons l’exemple des énumérations qui sont introduites par une amorce puis marquées par des marqueurs d’intégration linéaire comme dans l’extrait suivant :

Ce rebondissement s’explique par la convergence d’au moins trois facteurs. En premier lieu, ...

En second lieu. ... Enfin, ....

Les propriétés du composant décrivent sa structure, c’est-à-dire la phrase amorce marquée par «&H UHERQGLVVHPHQWª et ses trois phrases introductrices marquées par  ©(QSUHPLHUOLHXª ©(Q VHFRQG OLHXª ©(QILQªLesopérations du composant sont « ,QLWLDO », pour se positionner sur la phrase amorce, et « DYDQFHU » et « UHFXOHU », pour parcourir les éléments de l’énumération.

Notre deuxième exemple prend appui sur les travaux relatifs à la citation de G. Mourad [MOU 01]. Dans son travail, G. Mourad propose une classification des verbes de citation avec des classes comme « aveu », « dénonciation », « déclaration », etc. Dans ce cas, les unités textuelles sont les « citations »

________________

41 Dans la modélisation objet, l’encapsulation implique que les propriétés qui décrivent l’objet sont uniquement modifiables par les opérations définies pour cet objet.

et les opérations exploiteront cette typologie, de telle manière qu’il soit possible de se déplacer d’une « déclaration » à un « aveu », d’une « anticipation » à une « proposition ».

En résumé, dans notre modèle de représentation, une unité textuelle 8¿ d’un texte est liée à une autre unité textuelle par un lien étiqueté OÁ¿ÁÀ

C

& est un ensemble de composants logiciels muni de propriétés et d’opérations. Ces opérations peuvent viser au repérage et à la gestion de structures physiques (paragraphes, titres, etc.) ou discursives (énumérations, cadres temporels, cadres thématiques, etc.). Un texte est ainsi représenté comme un graphe dont les arcs sont « décorés » par des composants. Pour éviter une explosion combinatoire du nombre de liens à représenter, nous proposons de ne décorer le graphe qu’avec un certain type de composants. En effet, s’il est pertinent d’utiliser les composants qui gèrent les introducteurs de cadres thématiques (FI. 4.3) pour la tâche de résumé automatique, ceux-ci ne présentent pas d’intérêt dans le cas du repérage de la politisation de la parole, présenté précédemment.

On peut alors en s’inspirant des technologies de la modélisation objet, construire des composants abstraits d’analyse textuelle42 qui seront ensuite instanciés et enrichis par des applications particulières. Les travaux de S. Ben Hazez [BEN 02] constituent à ce titre une expérimentation intéressante.