• Aucun résultat trouvé

Analyse qualitative : préférences sémantico-lexicales des verbes 109

3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme

3.6.2 Analyse des collocations verbe-terme

3.6.2.2 Analyse qualitative : préférences sémantico-lexicales des verbes 109

À partir des données statistiques obtenues grâce à l’analyse quantitative, on étudie la distribution

en corpus des termes qui jouent les rôles decodetcoides verbes, en relation avec les catégories

sémantiques Snomed. En effet, les calculs effectués à l’étape précédente sur la base des fréquences

mettent en évidence les préférences sélectionnelles des verbes dans chaque sous-corpus, en ce

qui concerne les catégories sémantiques Snomed des compléments et les unités lexicales qui

illustrent ces catégories. Ainsi, pour chaque verbe, on peut détecter les catégories sémantiques

associées aux termes qui fonctionnent en tant que objets directs ou indirects, de même que les

unités lexicales qui ont tendance à porter le plus souvent ces catégories sémantiques. Toutes

ces informations correspondent aux deux niveaux d’analyse mentionnés précédemment :

• niveau sémantique : pour un verbe donné, les catégories sémantiques dominantes identifiées

dans chaque sous-corpus à l’étape précédente sont enregistrées et comparées à celles des

autres corpus. Les résultats obtenus font transparaître les similitudes et les spécificités

entre les différents sous-corpus, en termes de choix de types sémantiques d’arguments,

sur la base des catégories Snomed. Par exemple, d’après les données extraites et les

calculs effectués, dans le corpus des experts, le verbe subir s’associe très régulièrement

aux termes de la catégorie p (procédure) qui occupe la tête de liste, tandis que dans le

corpus des forums, ce verbe a tendance à s’associer fréquemment aux compléments de

type d (maladie).

• niveau lexical : une démarche similaire est appliquée pour la comparaison des corpus

dans le but d’identifier des préférences des verbes dans le choix des unités lexicales qui

jouent le rôle de compléments. Toutefois, contrairement aux préférences sémantiques

des verbes, les collocations lexicales ne sont pas systématiquement identifiées sur la base

de la fréquence des catégories sémantiques auxquelles elles correspondent. En effet, il

a été constaté que certaines collocations lexicales sont très fréquentes au détriment de

la faible fréquence (en corpus) d’association entre le verbe et les termes de la catégorie

Snomed concernée. C’est le cas de la collocation suivre un patient qui est fréquente dans

le corpus des experts, pourtant l’association entre le verbe suivre et les compléments de

type statutsocialne fait pas partie des plus fréquentes dans ce corpus. Ce résultat

nous pousse à déduire que les préférences lexicales des verbes (verbe-terme) ne sont pas

déterminées par leurs attirances sémantiques (verbe-catégorie sémantique).

3.7 Bilan

Dans ce chapitre, nous avons présenté la méthode semi-automatique implémentée dans ce

travail de thèse pour la création d’une ressource alignant les patrons syntaxico-sémantiques

spécialisés des verbes avec leurs équivalents non spécialisés. Cette méthode s’applique sur des

données tirées d’un corpus constitué de quatre types de textes médicaux ayant des auteurs et

publics cibles différents. L’étiquetage syntaxique des corpus est effectué grâce à l’analyseur

syntaxique Cordial, tandis que l’acquisition des patrons sémantiques est basée sur les catégories

sémantiques de la terminologie médicale Snomed International. Notre méthode se distingue des

approches existantes sur différents aspects : tout d’abord, dans le domaine de la simplification

de textes, il n’existe pas d’approches autant focalisées sur le verbe que la nôtre. Ce constat

signale le caractère novateur de la méthode proposée dans ce travail de thèse. De surcroît, le

principal résultat visé (la création d’une ressource de simplification alignant les patrons verbaux

spécialisés vs. non spécialisés) est une innovation dans le domaine de la simplification des textes

où la plupart des ressources similaires portent sur les entités nominales. Sur le plan linguistique,

l’annotation sémantique des corpus à partir des catégories de la terminologie Snomed remplace

la phase traditionnelle d’annotation des corpus en rôles sémantiques. Les patrons sémantiques

des verbes sont acquis grâce aux catégories sémantiques Snomed qui sont propres au domaine

médical. Notre méthode permet également d’analyser les propriétés sémantiques des verbes à

travers la comparaison des collocations verbe-terme observées dans les différents corpus (cf.

chapitre 4). Dans cette démarche, les catégories Snomed fréquemment associées aux arguments

des verbes permettent de détecter les choix préférentiels des verbes sur les plans sémantique et

lexical. Les résultats de cette analyse contrastive seront présentés dans le chapitre suivant.

En ce qui concerne son positionnement par rapport aux travaux de l’état de l’art, certains

aspects de notre méthode rejoignent les approches existantes dans le domaine de l’annotation

des rôles sémantiques (Semantic Role Labelling) et en WSD, mais se démarque sur certains

aspects. Dans la section 1.3.4 du chapitre 1, nous avons établi un parallélisme entre la méthode

FrameNet et la nôtre, tout en mettant l’accent sur certains éléments qui distinguent ces deux

approches. La description détaillée de la méthode appliquée dans ce travail de thèse a permis

de comparer la méthodologie de FrameNet et la nôtre d’un point de vue global. C’est ce que

décrit la figure 3.9 :

Fig. 3.9 – Méthode FN vs. notre méthode.

Comme le montre la figure 3.9, la principale différence se situe au niveau de la démarche

d’annotation sémantique des textes. Notre chaîne de travail passe par un processus automatique

d’attribution des catégories sémantiques aux arguments des verbes. Dans le projet FrameNet

(désormais FN) par contre, l’annotation sémantique des arguments des verbes est entièrement

effectuée par des annotateurs humains. Comme l’illustre la figure 3.9, notre méthode de travail

et celle de FN présentent des similitudes, mais se distinguent au niveau de l’intervention humaine,

qui dans notre méthodologie se fait en guise de correction, après l’attribution automatique

des catégories sémantiques. Par contre, dans la démarche FrameNet, l’annotation sémantique

des corpus est faite manuellement, tandis que la phase d’acquisition des frames est réalisée

automatiquement. Ces deux approches, qui relèvent de choix méthodologiques différents,

produisent les résultats souhaités. Toutefois, la démarche que nous proposons a pour avantage

de réduire la charge de travail manuel des annotateurs, favorisant ainsi le gain de temps sur

l’ensemble de la chaîne de travail. De surcroît, notre méthode de travail peut être exploitée pour

la création d’un FrameNet médical (cf. figure 3.9). En effet, la méthode d’annotation de corpus

que nous implémentons aboutit à l’extraction des pss qui sont des formes de frames. La mise

en relation de ces frames peut se faire après la phase d’extraction automatique des groupes de

verbes instanciant un mêmepss. Les verbes ainsi extraits partagent un type varié de relations

entre eux. La phase de tri manuel des différents groupes de verbes permet de former des classes

plus restreintes et sémantiquement homogènes ; à ce niveau il est possible de regrouper les pss

selon les relations utilisées dans la méthode FN, à savoir les relations inheritage, subframe et

using afin de générer un FrameNet médical.

La méthode décrite dans ce troisième chapitre de la thèse implique également une technique

de désambiguïsation du sens des termes médicaux qui rejoint les pratiques caractérisant l’état

de l’art dans ce domaine. Toutefois, contrairement à la plupart des travaux existants, notre

méthode n’est pas basée sur les techniques de l’apprentissage automatique (supervisées et non

supervisées). Cette démarche a pour avantage d’éviter les contraintes qu’impose la constitution

d’un corpus d’entraînement manuellement annotés. De surcroît, la majorité des méthodes

statistiques appliquées dans le domaine de la désambiguïsation des noms se basent sur les

cooccurrences nominales du terme ambigu afin de distinguer ses différents sens. Notre démarche

de désambiguïsation du sens des termes ambigus se base plutôt sur la cooccurrence verbale

(verbe-terme) et d’autres paramètres contextuels pour la distinction des sens. Les différents

sens à distinguer sont identifiées grâces aux catégories sémantiques de la terminologie Snomed.

La coocurrence verbe-terme est parfois exploitée dans le domaine de la WSD, mais très souvent

dans un but qui se distingue du nôtre. Certains travaux comme celui Wagner et al.(2009) y

ont recours pour la désambiguïsation du sens des verbes, or nous appliquons cette technique

pour la désambiguïsation du sens des termes susceptibles de porter plusieurs catégories dans la

Snomed.

Chapitre

4

Dans le chapitre précédent, nous avons décrit les étapes de la chaîne de travail qui constitue

la méthode appliquée dans ce travail de thèse. Ce chapitre est consacré à la présentation des

résultats obtenus au terme de chaque étape. Ces résultats sont accompagnés d’une discussion

qui permet de mettre en évidence les différentes observations faites. La figure 4.1 rappelle les

principales phases qui constituent la méthode, avec à chaque fois une mise en exergue de l’étape

qui est décrite dans la section concernée.

4.1 Résultats de l’annotation des corpus et acquisition

des pss