• Aucun résultat trouvé

  &KDSLWUH

Plate-forme FilText

3.1. Objectifs

Historiquement, on peut considérer que la notion de plate-forme d’ingénierie linguistique trouve son origine dans les Langages Spécialisés pour la Programmation Linguistique [VAU 85] . Le système INTEXT [SIL 93] qui intègre un langage fondé sur les automates à états finis et d’importantes ressources linguistiques illustre parfaitement, de notre point de vue, l’approche des langages spécialisés. La nécessité d’enrichir cette approche avec les notions de « modèle de texte » et de « représentation des données linguistiques » a fait émerger le concept de plate-forme d’ingénierie linguistique dédiée au traitement textuel. Celle-ci est conçue comme « une boîte à outils » qui vise à fournir à l’utilisateur des moyens d’intégrer ses propres outils et ses propres modèles de représentation dans des outils génériques.

L’atelier KES (« Knowledge Extracting and Structuring »), développé dans le cadre du projet GRAAL par l’Aérospatiale, GSI-Erli et la DER (Direction des Etudes et de la Recherche) de l’EDF, est une des premières réalisations qui ait proposé un modèle conceptuel de représentation des connaissances linguistiques. Elle visait à fournir les outils nécessaires en vue de permettre à l’utilisateur de passer de textes bruts à un ensemble structuré des données. Il était ainsi possible de bâtir des applications KES de constitution de terminologies, ou encore d'aide à l'interprétation sociologique Nous reprenons ci-après la présentation faite par [HER 96].

©8QH SKDVH LQLWLDOH GH SUpSDUDWLRQ GHV WH[WHV >@ HQ IRXUQLW XQH UHSUpVHQWDWLRQVRXVIRUPHGHOLVWHGHPRWVHWGHJURXSHVV\QWDJPDWLTXHV&HWWH UHSUpVHQWDWLRQ HVW HQVXLWH JpUpH VRXV IRUPH GH EDVH GH GRQQpHV REMHW SXLV XWLOLVpH GDQV XQH SKDVH LQWHUDFWLYH VRXV IRUPH GHFNV pOpPHQW GH

FRQQDLVVDQFH .(6  'HV DWWULEXWV GpILQLV SDU OXWLOLVDWHXU  VRQW DWWDFKpV DX[ HFNV  FDWpJRULH ODQJXH IUpTXHQFH  6L OXVDJH SULYLOpJLp GH OHFN HVW GH PRGpOLVHU XQ WHUPH RQ Q\ HVW SDV GX WRXW FRQWUDLQW8Q HFN SHXW SDU H[HPSOH UHSUpVHQWHU XQ WH[WH RX XQH FODVVH GH WHUPHV LO SHXW DXVVL rWUH XQH QRWLRQ XQ GRPDLQHXQUHSUpVHQWDQWOLQJXLVWLTXH 8QH LQWHUIDFHSHUPHWODYLVXDOLVDWLRQHWODPLVH jMRXUGHVGRQQpHV(OOHVH FRPSRVHGHPDWULFHVDSSHOpHVYXHVGHWUDYDLO FIILJ SDUDPpWUDEOHVSDU OXWLOLVDWHXUTXLSUpVHQWHQWOHVHFNVGDQVGHVFRORQQHV/HVHFNVVRQWpGLWDEOHV RQSHXWQDYLJXHUGXQHFNjXQDXWUHRXELHQG¶XQHFNYHUVVHVFRQWH[WHVGDQV OHVWH[WHVDQDO\VpVSDUGHVOLHQVK\SHUWH[WHV

(Q RXWUH XQH ELEOLRWKqTXH GH UqJOHV pFULWHV GDQV XQ ODQJDJH SURFKH GH 64/ SHUPHWGHIIHFWXHUGHVRSpUDWLRQVDXWRPDWLTXHVVXUOHVGRQQpHVILOWUDJH FRPSWDJH PLVH j MRXU FUpDWLRQ GH OLHQV RX HQFRUH FUpDWLRQ GH QRXYHOOHV YXHV GH WUDYDLO SRXU SUpVHQWHU DXWUHPHQW OHV GRQQpHV 1RXV H[SORLWRQV HQ SDUWLFXOLHU GDQV ODSSOLFDWLRQ SUpVHQWpH OD SRVVLELOLWp GXWLOLVHU OHV FRORQQHV FRPPH GHV FRQWHQHXUV GH WHUPHV 'HV RSpUDWLRQV FRXUDQWHV GH YDOLGDWLRQ RX pOLPLQDWLRQ GHV WHUPHV SHXYHQW DLQVL VH[pFXWHU VXU GHV OLVWHV HQWLqUHV GpILQLHV SDUO¶DSSDUWHQDQFHjXQHFRORQQH8QHUqJOHSRXYDQWHQDSSHOHUXQHDXWUHRQ SHXW EkWLU GHV VFpQDULRV GXWLOLVDWLRQ TXL GpILQLVVHQW XQH PpWKRGH GH WUDYDLO SRXUXQXWLOLVDWHXUSDUWLFXOLHUª [HER 96].

L’atelier KES a été implémenté en C++ sur station Unix puis testé par des utilisateurs de l’EDF. Des problèmes de performance, notamment lors du traitement de textes de grande taille, et des modifications dans la stratégie de la politique de recherche et développement de la DER de l’EDF ont entraîné l’abandon de cet atelier.

De son côté, Jean Guy Meunier dans [MEU 98] a proposé de définir un modèle conceptuel puis de développer des tâches spécialisées qui coopèrent entre elles :

©8Q ORJLFLHO TXL GDQV O¶DFFqV j O¶LQIRUPDWLRQ WH[WXHOOH QH UpDOLVH TX¶XQ VHXOW\SHGHWkFKHGHYLHQWYLWHLQVDWLVIDLVDQWSDUFHTX¶LOQHFRUUHVSRQGSDVjOD QDWXUH FRJQLWLYH GH FH TXH IRQW OHV OHFWHXUV HW OHV DQDO\VWHV GH WH[WHV &HX[FL RQW GHV OHFWXUHV PXOWLSOHV GHV WH[WHV HW LOV YHXOHQW SDUFRXULU XQ WH[WH GDQV GLYHUVHVSHUVSHFWLYHVª[MEU 98] p. 6.

La plate-forme ALADIN, projet de l’équipe de J-G. Meunier, devait implémenter ces concepts, mais diverses difficultés tant techniques que financières n’ont pas permis sa mise en œuvre.

)LJXUH Une interface utilisateur de la plate-forme KES [HER 96]

La plate-forme FilText [CRI 99a, BEN 00, BEN01, BEN 02, CRI 02, MIN 01] reprend en partie ce paradigme, mais elle se veut à la fois plus réaliste dans ses ambitions et plus ouverte techniquement. Plus réaliste, au sens ou le modèle de représentation des connaissances linguistiques est relativement figé puisqu’il s’appuie sur la méthode d’exploration contextuelle [DES 91, 97a, 97b] présentée précédemment ; plus ouverte techniquement, puisqu’elle privilégie la notion de composants dotés d’interfaces logicielles (API).

L’expérience acquise lors du développement des systèmes dédiés précédents [JOU 93, BER 96a, BER 96b, GAR 98, JAC 98] nous a orienté vers une plate-forme qui offre d’une part, des fonctionnalités propres au processus d’acquisition des connaissances linguistiques et des fonctionnalités propres au processus de fouille de textes. La figure 19 illustre les différents cas d’utilisation de la plate-forme Filtext et identifie trois types d’acteurs 33: le linguiste, l’architecte et l’utilisateur. Comme nous l’avons indiqué précédemment un modèle conceptuel sous-tend un langage

de description de ces données linguistiques. Ce modèle est enrichi par les différentes recherches en cours et il revient au linguiste et à l’architecte informaticien d’implémenter ces modèles dans la plate-forme.

)LJXUH Cas d’utilisation de la plate-forme FilText

L’architecte spécifie le modèle conceptuel, langage de description des données linguistiques et construit les vues de travail nécessaires au linguiste et à l’utilisateur final.

Le linguiste, dans la phase d’acquisition des connaissances, doit disposer d’outils flexibles de gestion des marqueurs, indicateurs et indices. En effet, pendant cette phase les connaissances accumulées sont volatiles et les classes qui sont construites doivent pouvoir être facilement modifiées. De même, les règles sont dans un premier temps simplement ébauchées, puis enrichies au fil du processus. Remarquons que des outils de fouilles de corpus, extérieurs à la plate-forme, peuvent être utilisés et qu’il convient alors de proposer des formats d’échange standard.

L’utilisateur final doit disposer de fonctionnalités qui lui permettent d’interpréter les résultats de la fouille des textes ; ce qui signifie que des connaissances spécifiques à la tâche et à la présentation de

ces résultats doivent pouvoir venir enrichir plate-forme FilText. Ce point est très important en TAL, car il n’est pas possible d’envisager de développer une plate-forme qui réponde à tous les besoins. Il est nécessaire de concevoir celle-ci de telle manière qu’elle puisse accueillir des développements spécifiques ou que réciproquement, les résultats produits par la plate-forme puissent être exploités par ceux-ci. C’est donc l’inverse du concept de boîte noire.

3.2. Architecture de FilText

Conceptuellement, la plate-forme FilText s’organise en plusieurs systèmes (cf. fig. 20) qui coopèrent :

• un système de gestion des connaissances linguistiques qui a pour charge d’accueillir les connaissances linguistiques dans un modèle conforme à la méthode d’exploration contextuelle. Il est donc doté d’un interpréteur du langage de description de ces connaissances linguistiques ; • un moteur d’exploration contextuelle qui a pour charge d’appliquer sur un ou plusieurs textes

les connaissances linguistiques d’une ou plusieurs tâches de fouille textuelle ;

• un ensemble d’agents spécialisés, munis de connaissances et de modèles de présentation des résultats produits par le moteur d’exploration contextuelle.

Segment Textuel