3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme
3.6.2 Analyse des collocations verbe-terme
3.6.2.2 Analyse qualitative : préférences sémantico-lexicales des verbes 109
À partir des données statistiques obtenues grâce à l’analyse quantitative, on étudie la distribution
en corpus des termes qui jouent les rôles decodetcoides verbes, en relation avec les catégories
sémantiques Snomed. En effet, les calculs effectués à l’étape précédente sur la base des fréquences
mettent en évidence les préférences sélectionnelles des verbes dans chaque sous-corpus, en ce
qui concerne les catégories sémantiques Snomed des compléments et les unités lexicales qui
illustrent ces catégories. Ainsi, pour chaque verbe, on peut détecter les catégories sémantiques
associées aux termes qui fonctionnent en tant que objets directs ou indirects, de même que les
unités lexicales qui ont tendance à porter le plus souvent ces catégories sémantiques. Toutes
ces informations correspondent aux deux niveaux d’analyse mentionnés précédemment :
• niveau sémantique : pour un verbe donné, les catégories sémantiques dominantes identifiées
dans chaque sous-corpus à l’étape précédente sont enregistrées et comparées à celles des
autres corpus. Les résultats obtenus font transparaître les similitudes et les spécificités
entre les différents sous-corpus, en termes de choix de types sémantiques d’arguments,
sur la base des catégories Snomed. Par exemple, d’après les données extraites et les
calculs effectués, dans le corpus des experts, le verbe subir s’associe très régulièrement
aux termes de la catégorie p (procédure) qui occupe la tête de liste, tandis que dans le
corpus des forums, ce verbe a tendance à s’associer fréquemment aux compléments de
type d (maladie).
• niveau lexical : une démarche similaire est appliquée pour la comparaison des corpus
dans le but d’identifier des préférences des verbes dans le choix des unités lexicales qui
jouent le rôle de compléments. Toutefois, contrairement aux préférences sémantiques
des verbes, les collocations lexicales ne sont pas systématiquement identifiées sur la base
de la fréquence des catégories sémantiques auxquelles elles correspondent. En effet, il
a été constaté que certaines collocations lexicales sont très fréquentes au détriment de
la faible fréquence (en corpus) d’association entre le verbe et les termes de la catégorie
Snomed concernée. C’est le cas de la collocation suivre un patient qui est fréquente dans
le corpus des experts, pourtant l’association entre le verbe suivre et les compléments de
type statutsocialne fait pas partie des plus fréquentes dans ce corpus. Ce résultat
nous pousse à déduire que les préférences lexicales des verbes (verbe-terme) ne sont pas
déterminées par leurs attirances sémantiques (verbe-catégorie sémantique).
3.7 Bilan
Dans ce chapitre, nous avons présenté la méthode semi-automatique implémentée dans ce
travail de thèse pour la création d’une ressource alignant les patrons syntaxico-sémantiques
spécialisés des verbes avec leurs équivalents non spécialisés. Cette méthode s’applique sur des
données tirées d’un corpus constitué de quatre types de textes médicaux ayant des auteurs et
publics cibles différents. L’étiquetage syntaxique des corpus est effectué grâce à l’analyseur
syntaxique Cordial, tandis que l’acquisition des patrons sémantiques est basée sur les catégories
sémantiques de la terminologie médicale Snomed International. Notre méthode se distingue des
approches existantes sur différents aspects : tout d’abord, dans le domaine de la simplification
de textes, il n’existe pas d’approches autant focalisées sur le verbe que la nôtre. Ce constat
signale le caractère novateur de la méthode proposée dans ce travail de thèse. De surcroît, le
principal résultat visé (la création d’une ressource de simplification alignant les patrons verbaux
spécialisés vs. non spécialisés) est une innovation dans le domaine de la simplification des textes
où la plupart des ressources similaires portent sur les entités nominales. Sur le plan linguistique,
l’annotation sémantique des corpus à partir des catégories de la terminologie Snomed remplace
la phase traditionnelle d’annotation des corpus en rôles sémantiques. Les patrons sémantiques
des verbes sont acquis grâce aux catégories sémantiques Snomed qui sont propres au domaine
médical. Notre méthode permet également d’analyser les propriétés sémantiques des verbes à
travers la comparaison des collocations verbe-terme observées dans les différents corpus (cf.
chapitre 4). Dans cette démarche, les catégories Snomed fréquemment associées aux arguments
des verbes permettent de détecter les choix préférentiels des verbes sur les plans sémantique et
lexical. Les résultats de cette analyse contrastive seront présentés dans le chapitre suivant.
En ce qui concerne son positionnement par rapport aux travaux de l’état de l’art, certains
aspects de notre méthode rejoignent les approches existantes dans le domaine de l’annotation
des rôles sémantiques (Semantic Role Labelling) et en WSD, mais se démarque sur certains
aspects. Dans la section 1.3.4 du chapitre 1, nous avons établi un parallélisme entre la méthode
FrameNet et la nôtre, tout en mettant l’accent sur certains éléments qui distinguent ces deux
approches. La description détaillée de la méthode appliquée dans ce travail de thèse a permis
de comparer la méthodologie de FrameNet et la nôtre d’un point de vue global. C’est ce que
décrit la figure 3.9 :
Fig. 3.9 – Méthode FN vs. notre méthode.
Comme le montre la figure 3.9, la principale différence se situe au niveau de la démarche
d’annotation sémantique des textes. Notre chaîne de travail passe par un processus automatique
d’attribution des catégories sémantiques aux arguments des verbes. Dans le projet FrameNet
(désormais FN) par contre, l’annotation sémantique des arguments des verbes est entièrement
effectuée par des annotateurs humains. Comme l’illustre la figure 3.9, notre méthode de travail
et celle de FN présentent des similitudes, mais se distinguent au niveau de l’intervention humaine,
qui dans notre méthodologie se fait en guise de correction, après l’attribution automatique
des catégories sémantiques. Par contre, dans la démarche FrameNet, l’annotation sémantique
des corpus est faite manuellement, tandis que la phase d’acquisition des frames est réalisée
automatiquement. Ces deux approches, qui relèvent de choix méthodologiques différents,
produisent les résultats souhaités. Toutefois, la démarche que nous proposons a pour avantage
de réduire la charge de travail manuel des annotateurs, favorisant ainsi le gain de temps sur
l’ensemble de la chaîne de travail. De surcroît, notre méthode de travail peut être exploitée pour
la création d’un FrameNet médical (cf. figure 3.9). En effet, la méthode d’annotation de corpus
que nous implémentons aboutit à l’extraction des pss qui sont des formes de frames. La mise
en relation de ces frames peut se faire après la phase d’extraction automatique des groupes de
verbes instanciant un mêmepss. Les verbes ainsi extraits partagent un type varié de relations
entre eux. La phase de tri manuel des différents groupes de verbes permet de former des classes
plus restreintes et sémantiquement homogènes ; à ce niveau il est possible de regrouper les pss
selon les relations utilisées dans la méthode FN, à savoir les relations inheritage, subframe et
using afin de générer un FrameNet médical.
La méthode décrite dans ce troisième chapitre de la thèse implique également une technique
de désambiguïsation du sens des termes médicaux qui rejoint les pratiques caractérisant l’état
de l’art dans ce domaine. Toutefois, contrairement à la plupart des travaux existants, notre
méthode n’est pas basée sur les techniques de l’apprentissage automatique (supervisées et non
supervisées). Cette démarche a pour avantage d’éviter les contraintes qu’impose la constitution
d’un corpus d’entraînement manuellement annotés. De surcroît, la majorité des méthodes
statistiques appliquées dans le domaine de la désambiguïsation des noms se basent sur les
cooccurrences nominales du terme ambigu afin de distinguer ses différents sens. Notre démarche
de désambiguïsation du sens des termes ambigus se base plutôt sur la cooccurrence verbale
(verbe-terme) et d’autres paramètres contextuels pour la distinction des sens. Les différents
sens à distinguer sont identifiées grâces aux catégories sémantiques de la terminologie Snomed.
La coocurrence verbe-terme est parfois exploitée dans le domaine de la WSD, mais très souvent
dans un but qui se distingue du nôtre. Certains travaux comme celui Wagner et al.(2009) y
ont recours pour la désambiguïsation du sens des verbes, or nous appliquons cette technique
pour la désambiguïsation du sens des termes susceptibles de porter plusieurs catégories dans la
Snomed.
Chapitre
4
Dans le chapitre précédent, nous avons décrit les étapes de la chaîne de travail qui constitue
la méthode appliquée dans ce travail de thèse. Ce chapitre est consacré à la présentation des
résultats obtenus au terme de chaque étape. Ces résultats sont accompagnés d’une discussion
qui permet de mettre en évidence les différentes observations faites. La figure 4.1 rappelle les
principales phases qui constituent la méthode, avec à chaque fois une mise en exergue de l’étape
qui est décrite dans la section concernée.
4.1 Résultats de l’annotation des corpus et acquisition
des pss
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 126-132)