• Aucun résultat trouvé

Filtrage sémantique de textes en Sciences Humaines

4.4. Pour des outils de navigation textuelle

Comme nous l’avons dit précédemment, nous ne disposons pas actuellement des concepts et des outils nécessaires à la construction d’un modèle cognitif de l’utilisateur, et rien ne laisse présager que cette situation puisse changer à court terme. Or les deux exemples présentés ci-dessus montrent que la gestion des inter-actions entre l’utilisateur et le système, qui se limitent aux opérations de navigation dans un texte, est une réponse possible. Moins ambitieuse conceptuellement, cette approche se heurte tout de même à de sérieuses difficultés qui sont liées d’ailleurs au problème de la représentation d’un texte et à celui de la modélisation des connaissances linguistiques que nous venons d’évoquer .

Quand un système de résumé automatique affiche un extrait de textes construit à partir de phrases extraites du texte source, la perte d’information dans les domaines de l’organisation thématique du texte, de l’argumentation, de la prise en charge, HWF., est considérable44. Il faut donc compenser cette perte d’information textuelle par des présentations iconiques (comme celles décrites au § 3.3.2), mais également en offrant au lecteur des stratégies de parcours du texte qui se fondent sur le repérage de certaines relations organisations textuelles et sur l’identification de notions sémantiques. Il faut pallier l’absence de compréhension par l’exploitation des données structurelles et discursives.

________________

Nous allons illustrer notre propos en nous appuyant sur deux exemples issus des expérimentations effectuées avec le système ContextO. Le premier exemple nous est fourni par un article scientifique de la revue « Pour la Science » (texte n° 3 de l’annexe) intitulé « Pivée d’émotions, la mémoire flanche ». Le repérage des marqueurs d’intégration linéaire45 permet dans un premier temps de construire un extrait de texte plus cohérent en plaçant dans celui-ci toutes les phrases qui sont liées, comme le montre l’extrait de texte produit par ContextO.

[...] En premier lieu, l'essor des neurosciences cognitives, tout au long du XXe siècle, a considérablement accru notre savoir sur le cerveau, fournissant ainsi les bases indispensables pour aborder la complexité des phénomènes affectifs. En second lieu, des perspectives entièrement nouvelles ont émergé grâce à de récents progrès techniques. [...] Enfin, plusieurs chercheurs contemporains, ouvrant la voie des neurosciences affectives, ont su réactualiser l'idée ancienne selon laquelle les émotions sont en réalité la cheville ouvrière du bon fonctionnement de nombre de nos facultés, adaptation sociale, raisonnement, prise de décision, ou mémoire.

Dans un deuxième temps, un outil de navigation textuelle permet à l’utilisateur de visualiser rapidement la phrase amorce de cette énumération et de proposer l’extrait suivant 46:

Ce rebondissement s’explique par la convergence d’au moins trois facteurs. En premier lieu, l’essor des neurosciences cognitives, tout au long du XXe siècle, a considérablement accru notre savoir sur le cerveau, fournissant ainsi les bases indispensables pour aborder la complexité des phénomènes affectifs. En second lieu, des perspectives entièrement nouvelles ont émergé grâce à de récents progrès techniques. [...] Enfin, plusieurs chercheurs contemporains, ouvrant la voie des neurosciences affectives, ont su réactualiser l'idée ancienne selon laquelle les émotions sont en réalité la cheville ouvrière du bon fonctionnement de nombre de nos facultés, adaptation sociale, raisonnement, prise de décision, ou mémoire.

Le repérage dans l’amorce du marqueur anaphorique « ce » apporte une nouvelle possibilité de navigation qui se traduit par la visualisation de la phrase d’un nouvel extrait :

Les émotions sont aujourd'hui l'objet d'un intérêt grandissant en neurosciences, comme en témoigne la croissance exponentielle des publications dans ce domaine depuis la fin des années 1990. Ce rebondissement s'explique par la convergence d'au moins trois facteurs. En premier lieu, l'essor des neurosciences cognitives, tout au long du XXe siècle, a considérablement accru notre savoir sur le cerveau, fournissant ainsi les bases indispensables pour aborder la complexité des phénomènes affectifs. En second lieu, des perspectives entièrement nouvelles ont émergé grâce à de récents progrès techniques. [...] Enfin, plusieurs chercheurs contemporains, ouvrant la voie des neurosciences affectives, ont su réactualiser l'idée ancienne selon laquelle les émotions sont en réalité la cheville ouvrière du bon fonctionnement de nombre de nos facultés, adaptation sociale, raisonnement, prise de décision, ou mémoire..

Comme on le voit, l’exploitation de ces types d’organisations textuelles, très fréquentes dans les articles scientifiques, ouvre la voie à des possibilités nouvelles dans l’étude des textes.

Le deuxième exemple montre que les possibilités de parcours dynamique sont en fait multiples. Dans le texte présenté au paragraphe on peut faire l’hypothèse quela phrase suivante :

________________

45 Ecrit en caravtère gras pour illustrer notre propos.

46 En se fondant soit sur le repérage de marqueurs linguistiques comme « trois facteurs », qui peut être rapproché du nombre de marqueurs d’intégration linéaire employé par le rédacteur, soit sur une heuristique qui exploite la position de cette phrase, car la phrase amorce est généralement la phrase qui précède le premier élément de l’énumération.

 &HWWHVLWXDWLRQDGHV FRQVpTXHQFHVGpFLVLYHV SDUWLFXOLqUHPHQWVXUWURLV YDULDEOHVVWUDWpJLTXHV GX SURFHVVXV GH GpYHORSSHPHQW  ODOORFDWLRQ GHV UHVVRXUFHV OH PRGqOH GH FRQVRPPDWLRQ HW OLQWpJUDWLRQHQDPRQWGHODFWLYLWpLQGXVWULHOOH

est placée dans l’extrait présenté au lecteur47. L’identification des introducteurs de cadre thématique [CHA 97] associés à un repérage des groupes nominaux permettrait d’offrir à l’utilisateur les moyens d’afficher l’extrait suivant :

&HWWH VLWXDWLRQ D GHV FRQVpTXHQFHV GpFLVLYHV SDUWLFXOLqUHPHQW VXU WURLV YDULDEOHV VWUDWpJLTXHV GX SURFHVVXVGHGpYHORSSHPHQWODOORFDWLRQGHVUHVVRXUFHVOHPRGqOHGHFRQVRPPDWLRQHWOLQWpJUDWLRQ HQDPRQWGHODFWLYLWpLQGXVWULHOOH

(Q FH TXL FRQFHUQH ODOORFDWLRQ GHV UHVVRXUFHV HQ &{WHG,YRLUH OH[FpGHQW SUpOHYp SDU O(WDW HW FRQVDFUp j OH[SDQVLRQ GX PDUFKp LQWpULHXU WUDQVLWH QpFHVVDLUHPHQW SDU OHV ILUPHV PXOWLQDWLRQDOHV ILQDQoDQWHQJUDQGHSDUWLHOHXULPSODQWDWLRQRXOpODUJLVVHPHQWGHOHXUFDSDFLWpSURGXFWLYH [...]

48$17 DX PRGqOH GH FRQVRPPDWLRQ HQ &{WHG,YRLUH OD SURGXFWLRQ GH ELHQV UHOqYH GH OD VWUDWpJLH SURSUH j OD ILUPH PXOWLQDWLRQDOH VDQV UDSSRUW DYHF OH QLYHDX PR\HQ GHV UHYHQXV HW OHV KDELWXGHVWUDGLWLRQQHOOHVGHFRQVRPPDWLRQ [...]

(QILQSRXUFHTXLFRQFHUQHOLQWpJUDWLRQHQDPRQWGHODFWLYLWpLQGXVWULHOOHGDQVXQSD\VFRPPH OD&{WHG,YRLUHROHVHFWHXULQGXVWULHOHVWFRQWU{OpSDUOHVILUPHVpWUDQJqUHVODWDLOOHGXPDUFKpD FRQVWLWXpOREVWDFOHLQVXUPRQWDEOHjODGLYHUVLILFDWLRQGHODVWUXFWXUHSURGXFWLYH [...]

Mais la lecture du texte source montre bien la part d’arbitraire qu’il y a, pour un lecteur donné, dans cette sélection ; un autre lecteur pourrait vouloir plutôt rechercher les présentations contrastées que fait le rédacteur en utilisant les introducteurs de cadre spatiaux que sont HQ &RUpH GX 6XG et HQ &{WHG¶,YRLUH, pour obtenir ce type d’extrait48 :

(Q &{WHG,YRLUH OHV ILUPHV FRQWU{OHQW SUDWLTXHPHQW OHQVHPEOH GH OLQGXVWULH SURGXLVDQW SRXU OH PDUFKp LQWHUQH $X FRQWUDLUH ODFFqV j FH GHUQLHU OHXU HVW LQWHUGLW GDQV OD SOXSDUW GHV EUDQFKHV HQ &RUpHGX6XG[...]

(Q FH TXL FRQFHUQH ODOORFDWLRQ GHV UHVVRXUFHV HQ &{WHG,YRLUH OH[FpGHQW SUpOHYp SDU O(WDW HW FRQVDFUp j OH[SDQVLRQ GX PDUFKp LQWpULHXU WUDQVLWH QpFHVVDLUHPHQW SDU OHV ILUPHV PXOWLQDWLRQDOHV ILQDQoDQWHQJUDQGHSDUWLHOHXULPSODQWDWLRQRXOpODUJLVVHPHQWGHOHXUFDSDFLWpSURGXFWLYH(Q&RUpH GX6XGOHVILUPHVPXOWLQDWLRQDOHVVRQWH[FOXVLYHPHQWFRQFHQWUpHVGDQVOHVEUDQFKHVH[SRUWDWULFHVFH TXLSHUPHWjO(WDWGHSUpOHYHUGHVUHVVRXUFHVH[WHUQHVDGGLWLRQQHOOHVTXHOHVHQWUHSULVHVSXEOLTXHVRX SULYpHV FRUpHQQHV XWLOLVHQW VHORQ OHV RULHQWDWLRQV SUpFLVHV GX SODQ GDQV OH FDGUH GXQH VWUDWpJLH GLQWpJUDWLRQLQGXVWULHOOHRULHQWpHYHUVOHPDUFKpLQWpULHXU

QUANT au modèle de consommation, en Côte-d'Ivoire, la production de biens relève de la stratégie propre à la firme multinationale, sans rapport avec le niveau moyen des revenus et les habitudes traditionnelles de consommation.

[...] (Q &RUpH GX 6XG OD GLYHUVLILFDWLRQ GHV ELHQV RIIHUWV DX[ FRQVRPPDWHXUV HVW XQ SURFHVVXV SURJUHVVLIHWFRQWU{OpHQUHODWLRQpWURLWHDYHFODFDSDFLWpGDFKDWGHODSRSXODWLRQ

[...] (Q &RUpH GX 6XG OD PDvWULVH DEVROXH GH O(WDW VXU OD GpFLVLRQ pFRQRPLTXH DX QLYHDX GX PDUFKp LQWHUQH D SHUPLV FH TXH ORQ DSSHOOH OD UHPRQWpH GHV ILOLqUHV YHUV OHV LQGXVWULHV ORXUGHV  VLGpUXUJLHFKLPLHHWLQGXVWULHVGHELHQVGpTXLSHPHQWHWDVVXUpXQHDXWRQRPLHQRWDEOHGXSURFHVVXV GLQGXVWULDOLVDWLRQ PrPH VL GDQV FHUWDLQV VHFWHXUV OD GLPHQVLRQ GX PDUFKp pWDLW PDQLIHVWHPHQW LQVXIILVDQWH

________________

47 Compte tenu de la présence, dans une énumération, des marqueurs « conséquences décisives » et « variables stratégiques ».

48 On remarquera que ce repérage échouera pour la phrase « Enfin, pour ce qui concerne l'intégration en amont de l'activité industrielle, GDQVXQSD\VFRPPHOD&{WHG,YRLUH, où le secteur industriel ... ».

Il faut que ces fonctionnalités de parcours du texte soit dynamiquement proposées. Par exemple, après que le système ait extrait la phrase (1), c’est l’utilisateur qui doit pouvoir déclencher l’identification des groupes nominaux «DOORFDWLRQ GHV UHVVRXUFHVª©PRGqOH GH FRQVRPPDWLRQªet ©LQWpJUDWLRQ HQ DPRQW GH ODFWLYLWp LQGXVWULHOOH » et la recherche, dans la suite du texte, des introducteurs de cadre qui introduisent ces groupes nominaux.

Les stratégies de parcours s’appuient sur les représentations textuelles présentées précédemment et sont dépendantes de la tâche ; dans l’exemple du repérage de la politisation de la parole, les stratégies à mettre en œuvre se focaliseront sur d’autres organisations discursives comme les enchaînements entre « clivage » et « montée en généralité ». Par ailleurs, les structures textuelles comme les paragraphes, les sections ou même les phrases n’ont aucune pertinence pour le sociologue qui cherche à explorer un entretien ; dans ce cas, il faut plutôt repérer les structures textuelles comme les questions et les réponses.

Il existe donc une profonde corrélation (cf. fig. 36) entre les stratégies de parcours et le modèle hypertexte construit. La modélisation des connaissances qui sont mises en jeu dans ces stratégies et leur inscription dans des outils d’interaction relèvent de la construction de ce que nous avons appelé (cf. 3.3.1) des « agents spécialisés ».

)LJXUH. Projet de recherche pour le filtrage sémantique en Sciences Humaines

2XWLOVGH QDYLJDWLRQWH[WXHOOH 5HSUpVHQWDWLRQGHV RUJDQLVDWLRQVWH[WXHOOHV $FTXLVLWLRQGHV FRQQDLVVDQFHVOLQJXLVWLTXHV )LOWUDJHVpPDQWLTXHHW6FLHQFHV+XPDLQHV

Jusqu’à présent les travaux sur la représentation textuelle [BAE 99]se sont surtout intéressés aux problèmes de la représentation de données agrégées et à l’élaboration de langages de requêtes spécialisés. Notre approche vise plutôt à étudier finement comment le repérage des organisations textuelles se combinent avec des stratégies de parcours spécifiques à une tâche, en vue de nous permettre de produire de nouveaux instruments d’études des textes. Bien que nous nous soyons appuyé sur des exemples de tâches dans le domaine de la linguistique et de la sociologie, nous pensons que d’autres disciplines des Sciences Humaines sont concernées.

Par cette démarche, à la fois exploratoire et effective, nous cherchons à illustrer le fait qu’un problème très pratique, résumer des documents textuels, peut conduire à entreprendre de nouvelles descriptions linguistiques, à initier des collaborations que nous espérons fécondes et à orienter la linguistique textuelle vers de nouvelles perspectives théoriques.

  

&KDSLWUH