• Aucun résultat trouvé

coucher /kuSe/ 1 I vtr

5. Enrichissement des documents

5.5. Exploitation de la dérivation morphologique

• Enrichissement de commander et légion par expression

synonymi-que :

Nouvel énoncé (théorique) :« Il exercer son autorité sur les unité

militaire de Germanie. » Dépendances enrichies : SUBJ(exercer,il) VARG[DIR](exercer,autorité) VARG[INDIR](exercer,sur,unité) NMOD[ADJ](unité,militaire) NMOD[INDIR](unité,de,Germanie)

Figure 5.15. Combinaison des enrichissements par expressions synonymiques dans un

seul énoncé.

ce qui permet de contourner les problèmes d’analyse syntaxique liés à une analyse morphologique erronée ou à une mauvaise désambiguïsation catégorielle.

De cette manière, dans l’exemple précédent (figure5.15), exercer est considéré comme un verbe à l’indicatif présent, troisième personne du singulier dès avant son analyse morphologique, ce qui permet de lui donner une dépendance de type sujet qui n’apparaîtrait pas si le même énoncé était analysé avec la forme infinitive décelée par l’analyse morphologique. Après avoir résolu les différents problèmes rencontrés au cours des tests, nous sommes maintenant en mesure d’effectuer correctement un enrichissement à l’aide des synonymes. D’autres enrichissements peuvent dès lors être envisagés.

5.5. Exploitation de la dérivation morphologique

Lors de notre examen des ressources lexico-sémantiques, nous avons signalé di-verses informations qui nous paraissaient aptes à apporter un enrichissement à des énoncés textuels. Parmi des données d’enrichissement textuel, nous avons déjà traité les divers traits sémantiques (domaines, classes et catégories) en élargis-sant le contenu du lexique morphologique, ainsi que l’information synonymique dont nous venons de décrire la méthodologie d’adjonction à la structure syntaxico-sémantique de la base documentaire.

Nous avons par ailleurs fait mention des indications de dérivation morpholo-gique contenues dans le dictionnaire Dubois. De plus, nous avons été confronté au

5. Enrichissement des documents

problème de la génération des dérivés, que nous avons résolue grâce à un outil de morphologie relationnelle déjà existant (Gaussier,1999) (cf. section3.3 page 100). Enfin, nous avons étudié l’évolution du sens des différentes dérivations pour en déduire des tables de correspondances syntaxiques permettant de faire coïncider avec une forme originelle dans un texte une forme dérivée dans ce même texte (cf. section4.2.2 page 118). Il nous reste à étudier la manière dont nous allons exploiter ces dérivés que nous avons générés et ces tables de correspondance pour enrichir la structure syntaxico-sémantique.

Énoncé présenté à l'analyse syntaxique : Pline le Jeune protégea Suétone. Forme dérivée :

protecteur

Correspondance syntaxique : VARG[DIR](verbe,X)

==> NMOD[INDIR](nom dérivé, PREP, X)

Évolution syntaxique de l'énoncé : VARG[DIR](protéger, Suétone)

==> NMOD[INDIR](protecteur, PREP, Suétone)

Figure 5.16. Application d’une correspondance syntaxique pour un dérivé de protéger.

L’exemple5.16illustre le fonctionnement d’un schéma syntaxique extrait des tables de correspondances. Ainsi, dans la phrase Pline le Jeune protégea Suétone, le mot protecteur peut être proposé comme dérivation du verbe protéger. L’étude des dépendances obtenues lors de l’analyse de cet énoncé par XIP permet d’identifier dans les tables la correspondance entre une relation syntaxique de type objet direct entre un verbe et une autre unité lexicale, et une relation prépositionnelle entre le dérivé de ce verbe et l’autre unité lexicale. Cette correspondance syntaxique per-met d’établir une conformité sémantique entre protéger Suétone et protecteur [de]

Suétone¹⁵. Toutefois, une telle conformité syntaxique ne s’exprime pas au niveau d’un énoncé, mais seulement dans la dépendances NMOD[INDIR](protecteur, PREP, Suétone).

15. Ou bien protecteur pour Suétone, ou encore protecteur envers Suétone, le lemme de la préposition n’étant pas spécifié.

5.5. Exploitation de la dérivation morphologique

Iciencore,l’informationindicativedespossibilitésdedérivationmorphologique est distribuée non en fonction du mot-vedette, mais suivant les acceptions de ce mot-vedette. Toute la procédure qui vise à un enrichissement par les dérivés est donc soumise une fois de plus au bon déroulement de la désambiguïsation séman-tique. Par ailleurs, on a vu que l’intégration d’une forme dérivée à la structure syn-taxico-sémantique ne peut se faire la plupart du temps que via une transformation du contexte syntaxique de la forme originale lorsque intervient le dérivé. Dès lors, l’application d’un enrichissement par dérivation à une unité lexicale est soumise à deux conditions : la sélection d’un sens de ce lexème qui préconise une dérivation, et la détection d’un des schémas syntaxiques permettant une adaptation corres-pondante de l’énoncé.

Une fois vérifiée la validité de la génération d’une forme dérivée pour le sens sé-lectionné de l’unité lexicale à enrichir, ainsi que la conformité du contexte syntaxi-que original de cette unité lexicale avec la table des correspondances syntaxisyntaxi-ques propre à ce type de dérivé, la procédure d’enrichissement par forme dérivée con-siste à construire le schéma syntaxique correspondant à partir de ce contexte syn-taxique original. Les dépendances synsyn-taxiques correspondant au schéma initial et celles qui en sont issues suivant les indications de la table des correspondances constituent l’ossature de deux expressions de même sens.

Le schéma syntaxique dérivé correspond dès lors à un enrichissement plus ou moins paraphrastique apporté à l’énoncé de départ, qui sera versé dans la structure syntaxico-sémantique au même titre que les résultats de l’analyse du même énoncé original ou que les informations provenant des autres enrichissements. Un trait identifiant le type de cet enrichissement est toutefois assigné aux dépendances créées suivant les directives de la table des correspondances syntaxiques.

Le système de base de données dans lequel sont stockées les informations issues de l’analyse des textes et de l’enrichissement occupe un espace bien plus important que celui des textes originaux. Le tableau5.2 page suivantedonne les détails de l’espace occupé par les données issues de 50 articles de l’Encyclopédie Hachette

Mul-timédia utilisés au chapitre7 page 185pour effectuer l’évaluation du système. Ces textes occupent 0,2 Mo.

La ligne données langagières du tableau représente l’index de l’ensemble des don-nées extraites des documents, c’est-à-dire les unités lexicales, les dépendances et les traits. Les structures hiérarchiques sont les index de chaque dépendance ex-traite avec ses traits, ses arguments et les traits des arguments tels qu’ils appa-raissent lors de l’analyse du texte ou lors d’une phase d’enrichissement. Les struc-tures plates représentent ces informations qui apparaissent au niveau de la phrase,

5. Enrichissement des documents

Analyse syntaxique Tous enrichissements Volume # lignes Volume # lignes

Données langagières 2,8 Mo 9 132 l. 4 Mo 13 719 l. Structures hiérarchiques 6 Mo 172 218 l. 10 Mo 324 314 l. Structures plates 2,8 Mo 54 382 l. 4,5 Mo 90 720 l. Niveau phrase 1,6 Mo 31 546 l. 2,49 Mo 50 079 l. Niveau paragraphe 0,9 Mo 16 929 l. 1,45 Mo 29 272 l. Niveau document 0,3 Mo 5 907 l. 0,56 Mo 11 369 l. Total 11,6 Mo 235 732 l. 18.5 Mo 428 753 l.

Tableau 5.2. Espace relatif occupé par la structure informationnelle d’une base

documentaire.

du paragraphe ou du document après analyse ou après enrichissement, mais sans que les données soient structurées les unes vis-à-vis des autres. Les structures pla-tes sont de simples lispla-tes des données contenues dans une phrase, dans un para-graphe ou dans un document (cf. section6.2.2 page 174et l’annexeA page 239). Le volume des données est indiqué après une simple analyse syntaxique et après tous les traitements d’analyse et d’enrichissement.

La grande importance de l’espace occupé par la structure informationnelle par rapport à la base documentaire provient de trois facteurs :

• un grand nombre de données sont ajoutées tant au cours de l’analyse que pendant l’enrichissement. Il est d’ailleurs possible que beaucoup de ces don-nées ne soient pas utiles dans une structure de l’information (par exemple certains traits morphologiques peuvent être supprimés) ;

• l’architecture du système de base de données répond plus à des besoins im-médiats de test qu’à des impératifs d’optimisation. Nous ne sommes pas en mesure de juger les possibilités de compactage des index ;

• les besoins de distinguer chaque type d’information et la provenance de cha-que enrichissement nous a imposé de distinguer souvent des données iden-tiques simplement parce que leur provenance était différente. Les tests ef-fectués par Claude Roux sur des informations non distinguées montrent que, selon les corpus, l’espace utilisé pouvait se réduire de plus de dix fois.

5.6. Conclusion

5.6. Conclusion

Après avoir effectué une analyse morpho-syntaxique du texte qui s’est prolon-gée par une identification sémantique des unités lexicales, puis avoir procédé à un enrichissement lexical, syntaxico-sémantique et sémantique, nous avons emma-gasiné une information considérable dans une structure qui constitue l’architec-ture informative de la base textuelle traitée. Cette strucl’architec-ture syntaxico-sémantique présente la particularité de contenir une même information sous plusieurs formu-lations différentes en fonction de l’enrichissement qui a pu en être fait. En outre, l’assignation, sous forme de traits sémantiques, de caractéristiques plus abstraites telles que domaines, classes et catégories sémantiques permet dans une certaine mesure un détachement de la forme de surface.

Cette structure syntaxico-sémantique très riche nous met donc à même de ma-nipuler l’information textuelle au niveau de son sens. Dès lors, nous pouvons abor-der la phase de manipulation de cette information. Une des tâches les plus exi-geantes dans ce domaine est celle de question-réponse. C’est au travers d’une ap-plication de type question-réponse que nous allons tester la qualité de la structure informationnelle que nous avons créée.