3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme
4.1.2 Annotation sémantique et acquisition des pss
4.1.2.1 Approche quantitative
Dans cette sous-section, nous présentons les résultats de l’annotation sémantique en termes de
nombre. Cette quantification des données permettra de décrire et d’analyser les résultats tirés
des corpus d’un point de vue numérique.
Dans un premier temps, nous allons analyser l’association terme-catégorie Snomed (désormais
pendant le processus d’annotation ? Combien de termes n’ont pas de catégorie Snomed ? Les
chiffres obtenus sont-ils similaires dans les quatre corpus ?
Le tableau 4.8 offre une présentation sommaire des résultats de l’annotation sémantique des
termes jouant le rôle d’arguments des verbes. Pour chaque corpus, il propose le nombre total
d’occurrences de ces termes-arguments, le nombre d’occurrences des termes ayant été associés
à une catégorie sémantique (termes annotés, c’est-à-dire figurant dans la Snomed), ainsi que le
nombre d’occurrences de ceux n’ayant pas été associés à une catégorie sémantique (termes
non annotés, c’est-à-dire ne figurant pas dans la Snomed). Pour chaque valeur obtenue, la
proportion (en pourcentage) par rapport au nombre d’arguments nominaux (unités nominales)
de chaque corpus a été calculée. Ce tableau fournit également le nombre d’occurrences des
termes portant une tête multicatégorielle de la Snomed (Occ. term. annot.) et sa proportion par
rapport au nombre d’occurrences des termes annotés. Ces informations permettront d’évaluer
le résultat obtenu grâce aux méthodes de traitement des têtes multicatégorielles implémentées
dans le chapitre précédent (cf. chapitre 3, section 3.2.3). Les données de ce tableau n’impliquent
pas les arguments pronominaux, qui ont été mis à l’écart pour une meilleure évaluation de
l’annotation sémantique des unités nominales.
Tab. 4.8 – Résultat de l’annotation des termes-arguments.
corp. occ. term. pourcent occ. term. pourcent occ. term. annot. tot
annot. non annot. avec tête
pro 62 852 62,85 37 137 37,14 31 845 (50%) 99 989
etu 79 510 61,05 50 726 38,94 35 898 (45%) 130 236
vul 86 900 58,56 61 476 41,43 38 531 (44%) 148 376
for 69 419 46,00 81 484 53,99 29 877 (43%) 150 903
La première remarque faite à la lecture du tableau 4.8 est que de façon générale, les scores
de l’association terme-catsnomed sur l’ensemble du corpus sont raisonnables, le plus petit
pourcentage de termes annotés s’élevant à 46,00% et appartenant au corpus des forums. Ces
résultats évoquent une courbe qui évolue comme suit : plus on avance vers les textes des
non-experts, moins on rencontre de termes Snomed.
En effet, les corpus pro, etuet vulenregistrent plus de termes annotés que de termes non
annotés, contrairement au corpus des forums qui fonctionne autrement, avec une prédominance
d’unités nominales (arguments) non annotées. Autrement dit, les corpus des experts, étudiants
et du grand public couvrent une plus grande portion de termes de la terminologie Snomed
par rapport au corpus des forums qui, d’après les résultats, compte moins de termes Snomed.
La similarité qu’exposent ces résultats permet de déduire que les trois premiers corpus sont
plus riches en termes médicaux que le corpus des forums. Cette interprétation est tout à fait
logique et a du sens, dans la mesure où ces trois corpus regroupent des textes rédigés par
des experts en médecine qui sont censés maîtriser la terminologie médicale, ce qui transparaît
dans leurs écrits. Les non-experts, par contre, optent très souvent pour des noms qui leur sont
familiers et qui appartiennent à la langue générale, ainsi que des expressions qui relèvent de leur
parler journalier. Les deux phrases ci-dessous fournissent des exemples à travers les éléments
soulignés :
7) je tiens à dire que j’ai été un bon sportif et qu’en famille personne n’a jamais eu des
problèmes de coeur mais [...] je vais ajouter que je souffrais des problèmes de digestion.
8) j’ai changé de cardio (et j’ai bien fait) car je voyais très bien qu’il ne m’écoutait plus et
j’avais perdu confiance.
Le constat qu’illustre ces exemples se confirme grâce au pourcentage de termes non annotés
(53,99%) qu’enregistre le corpusfor. C’est le seul corpus à avoir une telle proportion d’unités
nominales non annotées, une proportion qui marque une grande distance par rapport au corpus
des experts.
Les données du tableau 4.8 permettent de constater que selon le corpus, 43 à 50% des
termes portant une catégorie Snomed sont des unités nominales ayant une tête
multicatégo-rielle. Ce résultat montre que nos différentes techniques de traitement des termes avec tête
multicatégorielle ont permis d’améliorer les résultats de l’annotation sémantique des corpus.
La présence d’unités nominales sans catégorie Snomed, au terme du processus d’annotation,
a pour conséquence de favoriser la génération des pss que nous caractérisons de partiels,
c’est-à-dire despss dont certains termes-arguments demeurent sans catégories sémantiques, à
l’instar de s détecte cod_d. Cepss a un argument qui ne porte pas de catégorie sémantique,
en l’occurrence le sujet. Plusieurs raisons peuvent expliquer l’absence de catégorie sémantique :
soit le syntagme nominal ne fait pas partie de la nomenclature Snomed, parce qu’il ne s’agit
pas d’un terme médical ou du fait de n’y avoir pas été inclus ; soit le terme apparaît dans la
Snomed, mais avec une différence morphologique.
En plus de l’association terme-catsnomed, l’annotation sémantique a également débouché
sur l’acquisition des patrons syntaxico-sémantiques. Ces pss ont été extraits automatiquement
(cf. section 3.2.4), au moyen d’un programme qui transforme des chaînes terme-catsnomed
(constituant les schémas valenciels des verbes) en patrons syntaxico-sémantiques bien structurés.
Suite aux transformations effectuées à la section 3.2.4, deux ensembles correspondant à deux
types depssont été acquis : les pssspécifiques (s_daffecte cod_s) et lespssgénériques (s_d
cod_s). Un pss générique renvoie à la forme non instanciée d’un patron syntaxico-sémantique.
Il laisse la possibilité à différents verbes d’y figurer, d’où le termegénérique, tandis qu’un pss
est dit spécifique lorsque la position réservée au verbe est instanciée. Le tableau 4.9 fournit les
résultats obtenus pour chaque catégorie. Afin de normaliser les chiffres obtenus pour qu’ils soient
comparables, nous avons calculé la proportion de pss spécifiques par rapport au nombre de
phrases verbales de chaque corpus (cf. tableau 4.1), ainsi que la proportion des pss génériques
par rapport au nombre depss spécifiques dans chaque corpus. Ces valeurs sont exprimées en
termes de ppm :
Tab. 4.9 – Types et nombres de pss selon les corpus.
nb pss spéc. proportion nb pss gén. proportion
(en ppm) gen (en ppm)
pro 12775 237131,77 603 47201,56
etu 13803 198675,78 559 40498,44
vul 16366 196185,61 655 40021,99
for 15210 150133,25 432 28402,36
Au total, 836pss ont été extraits à partir des 4 corpus. Parmi cespss, 243 ont été sélectionnés
pour être validés par les experts (cf. section 3.4). D’après les données (en valeurs absolues) du
tableau 4.9, le corpus des experts et celui des textes de vulgarisation comptent plus de pss que
les deux autres. Par contre, les chiffres normalisés révèlent que dans ce classement, le corpus des
experts est plutôt suivi par le corpus des étudiants. Cette prédominance depss dans les textes
des experts transparaît également à travers les proportions que représente le nombre de pss
spécifiques dans chacun des corpus concernés. Le corpus des experts contient près du double du
nombre de pssdu corpus des forums. Il est intéressant de remarquer que ce constat frappant
entre un contraste avec les résultats de l’annotation syntaxique des corpus, qui signalent que
les corpusvul et forcomptent le plus grand nombre de prédicats verbaux (cf. tableau 4.1).
Ces résultats, qui de prime abord pourraient sembler contradictoires, traduisent le fait que les
experts disposent d’un large panel de constructions verbales diversifiées que symbolisent nos
pss génériques, tandis que les non-experts sont limités en termes d’emplois verbaux, ceci en
dépit de la grande variété de verbes qu’ils utilisent dans leurs écrits.
En outre, les résultats de l’annotation sémantique ont permis d’étudier le rapport entre,
d’une part, les verbes et les types de pss et, d’autre part, les corpus et les pss. Le tableau
4.10 présente, pour chaque verbe, le nombre de pss dans chacun des quatre corpus (nbPSS),
ainsi qu’une valeur normalisée de ce nombre (prop), à savoir la proportion (sur 10 000) qu’il
représente par rapport au nombre total de pss du corpus entier. Cette proportion va permettre
de comparer et d’étudier le rapport entre les types de corpus et le nombre de pss par verbe.
Les verbes enregistrent un nombre de pss variable, allant de 1 à plus de 100 pour les verbes
les plus récurrents dans les corpus. Les données du tableau 4.10 sont un extrait représentatif
(sur le plan qualitatif) des résultats. À partir de ces données, les principales observations faites
sur les corpus seront présentées.
À la lecture de ce tableau, nous pouvons tout d’abord constater que de façon générale, les
verbes tendent à avoir un nombre de pss élevé dans l’ensemble du corpus. Le verbe causer par
exemple a en moyenne 20pss par corpus. La présence de structures argumentales partiellement
annotées (décrites à la section cf. 4.1.2.1) a certes un impact sur les chiffres que fournit le
Tab. 4.10 – Quelques verbes avec leurs nombres de pss.
pro etu vul for
verbes nbPSS prop. nbPSS prop. nbPSS prop. nbPSS prop.
admettre 30 23,48 21 15,21 8 4,89 14 9,2
analyser 49 38,36 44 31,88 28 17,11 19 12,49
associer 116 90,8 137 99,25 67 40,94 17 11,18
augmenter 55 43,05 64 46,37 75 45,83 41 26,96
baisser 7 5,48 8 5,8 22 13,44 38 24,98
causer 27 21,14 20 14,49 59 36,05 44 28,93
conseiller 29 22,7 27 19,56 46 28,11 63 41,42
consulter 31 24,27 22 15,94 42 25,66 27 17,75
contrôler 33 25,83 27 19,56 27 16,5 22 14,46
créer 26 20,35 29 21,01 30 18,33 25 16,44
diagnostiquer 18 14,09 19 13,77 25 15,28 25 16,44
donner 67 52,45 86 62,31 116 70,88 107 70,35
déceler 13 10,18 10 7,24 7 4,28 16 10,52
découvrir 14 10,96 20 14,49 39 23,83 28 18,41
définir 54 42,27 47 34,05 27 16,5 6 3,94
dépister 8 6,26 14 10,14 5 3,06 1 0,66
développer 38 29,75 38 27,53 65 39,72 18 11,83
envisager 35 27,4 32 23,18 20 12,22 17 11,18
faire 114 89,24 133 96,36 159 97,15 189 124,26
hospitaliser 9 7,05 10 7,24 5 3,06 11 7,23
impliquer 35 27,4 30 21,73 29 17,72 6 3,94
imposer 26 20,35 46 33,33 21 12,83 15 9,86
inclure 48 37,57 23 16,66 29 17,72 5 3,29
indiquer 61 47,75 48 34,78 40 24,44 22 14,46
induire 22 17,22 28 20,29 14 8,55 9 5,92
mettre 86 67,32 87 63,03 109 66,6 94 61,8
montrer 48 37,57 43 31,15 37 22,61 34 22,35
nécessiter 38 29,75 46 33,33 27 16,5 12 7,89
observer 65 50,88 47 34,05 27 16,5 8 5,26
prescrire 23 18 30 21,73 37 22,61 46 30,24
produire 22 17,22 17 12,32 35 21,39 28 18,41
proposer 48 37,57 61 44,19 51 31,16 31 20,38
provoquer 12 9,39 33 23,91 51 31,16 37 24,33
préconiser 16 12,52 8 5,8 5 3,06 6 3,94
présenter 82 64,19 59 42,74 63 38,49 26 17,09
relever 22 17,22 19 13,77 12 7,33 20 13,14
souffrir 16 12,52 10 7,24 27 16,5 34 22,35
soulager 4 3,13 2 1,45 12 7,33 14 9,2
subir 19 14,87 16 11,59 21 12,83 22 14,46
évaluer 54 42,27 24 17,39 15 9,17 6 3,94
tableau 4.10, mais la multiplicité des pss provient en grande partie du degré de granularité de
la classification que propose la terminologie Snomed.
Lors de la description de la Snomed (cf. section 2.2.2), nous avons vu que cette ressource
compte 11 classes sémantiques distinctes grâce auxquelles les termes des corpus sont catégorisés
selon leurs natures. Pendant le processus d’annotation sémantique, ces catégories sémantiques
ont la possibilité de se combiner à au moins 4 rôles syntaxiques différents (sujet, cod, coi,
complément d’agent), ce qui débouche sur de nombreuses combinaisons sémantiques possibles
pour un seul verbe. Prenons par exemple le patron valencielsujet provoque cod. Nous allons
ci-dessous énumérer les différentes combinaisons de catégories sémantiques obtenues à partir
des catégories Snomed et des fonctions syntaxiques sujet et cod uniquement. Les exemples
proposés proviennent des corpus :
1. dprovoquer D :Les troubles de digestion et les brûlures à l’oesophage peuvent provoquer
des douleurs.
2. d provoquer F : Cette maladie peut provoquer l’élévation de la température du patient.
3. fprovoquer D : L’activité électrique du coeur provoque les contractions cardiaques.
4. fprovoquer F :La stimulation nociceptive provoque une vasoconstriction intense
musculo-cutanée et une hypertension artérielle.
5. p provoquer D : Le sondage au stylet provoque un écoulement purulent [...].
6. p provoquer F : Une ablation par inadvertance de tissu cardiaque ou vasculaire peut
provoquer des saignements [...].
7. l provoquer D : Ce virus peut provoquer une maladie grave.
8. l provoquer F : Le pollen provoque des allergies chez certains sujets.
9. cprovoquer F :Ce médicament peut provoquer des étourdissements.
10. cprovoquer D :Le dorzolamide provoque des anomalies vertébrales et sternales chez le
lapin.
11. a provoquer D : Les objets rouillés peuvent provoquer un tétanos.
12. aprovoquer F : Une seringue non stérilisée peut provoquer des réactions chez le patient.
13. jprovoquer F :Le médecin a dû provoquer l’accouchement.
14. s provoquer cod : Cet homme me provoque sans cesse.
15. p provoquer A: Le test de 1 millivolt que l’on envoie dans l’appareil doit provoquer un
signal rectangulaire [...].
16. f est provoqué par j :L’accouchement est provoqué par la sage-femme en cas de risque
de décès de l’enfant.
Au total, on compte jusqu’à 16 pss acquis à partir de 6/11 catégories Snomed (a, c, d, f,
p, s) et 2 fonctions syntaxiques seulement. Remarquons également que les exemples proposés
illustrent une seule structure syntaxique parmi plusieurs constructions possibles : il s’agit de
la construction transitive directe. Ces chiffres reflètent bien la forte propension despss à se
multiplier autour d’un seul verbe. Cet exemple permet également de mieux cerner le phénomène
d’abondance depss(cf. tableau 4.10) qui, comme l’on peut le constater, est en grande partie la
conséquence de la forte granularité de la classification Snomed. Cette particularité des catégories
Snomed est d’un apport déterminant dans notre étude. Elle offre la possibilité de fournir une
description profonde des sens des verbes du corpus, à travers l’étiquetage sémantique de leurs
arguments.
La granularité de la Snomed nous a ainsi permis de capturer les subtilités qui font la différence
entre des pss syntaxiquement identiques, régis par le même verbe, comme le montrent les
exemples suivants :
9) Mon mari a subi quatre opérations.
10) Le patient a subi un AVC.
Les phrases 9 et 10 ont la même structure syntaxique (sujet-verbe-cod). Sur le plan sémantique,
les termes qui instancient la position de sujet ont les mêmes propriétés. Il s’agit de sujets
animés, plus précisément humains. Les termes qui jouent le rôle de cod, notamment opération
etavc partagent également les mêmes propriétés sémantiques : non humains, non animés. En
se basant sur toutes ces informations, il est impossible de différencier le sens du verbe entre les
phrases 9 et 10. En revanche, l’association de catégories Snomed aux arguments du verbe fait
transparaître la différence :
— Mon mari_s a subi quatre opération_p.
statut social (c.-à-d. patient) subit procédure → ‘passer’
— Le patient_s a subi un AVC_d.
statut social subit maladie →‘souffrir’
D’après la Snomed,opération appartient à la classe procédure, tandis que avccorrespond
à la catégorie maladie. Cette distinction permet de discriminer le sens du verbe. Dans la
phrase 9,subir signifie ‘passer’, tandis que dans la phrase 10, il signifie ‘souffrir’. Ainsi, les pss
résultant de cette étude (cf. tableau 4.13), acquis à partir des catégories Snomed, peuvent
fonctionner comme des règles décrivant le sémantisme des verbes. D’ailleurs, c’est de cette
façon que nous avons procédé afin d’identifier les emplois verbaux spécialisés candidats pour
la simplification. Grâce à cette méthode, plus de 200 pss ont ainsi été sélectionnés pour la
simplification (cf. section 4.5).
Par ailleurs, la multiplicité des pss reflète la richesse des corpus. Lespss mettent en relation
les concepts médicaux illustrés par les termes du corpus. Si les textes d’un corpus sont riches,
alors, logiquement, il devrait en ressortir divers types de patrons qui témoignent de cette richesse.
Dans l’exemple proposé ci-dessus, 16 combinaisons différentes ont été effectuées entre des
concepts médicaux grâce à un seul verbe, provoquer.
Au-delà de l’abondance de pss, les données du tableau 4.10 montrent une forte variation du
nombre de pss des verbes selon les corpus. Autrement dit, pour certains verbes, le nombre de
pss est similaire entre le corpus des experts et celui des forums (déceler, hospitaliser, mettre),
tandis que d’autres verbes enregistrent plus depss dans un certain type de corpus par rapport
aux autres (faire, donner, associer, présenter, indiquer). Dans certains cas, l’écart entre les
corpus est réellement important. Cette tendance est particulièrement marquante dans le corpus
pro qui occupe la tête du classement avec plus de 130 prédicats verbaux dont le nombre de
pss enregistrés présente un écart de plus de 10 pss par rapport au corpus des forums.
Les verbes augmenter, associer, observer, présenter, évaluer illustrent bien ce phénomène.
Associer est un cas extrême, ses pss représentant une proportion importante (90,8) dans le
corpus pro, tandis que dans le corpus for, ils représentent une faible proportion (11,18) sur
l’ensemble du corpus.
Si l’on considère que lespssdécrivent le langage de la médecine de par leur aptitude à mettre
en relation des termes désignant différents types de concepts médicaux grâce aux verbes, alors
l’abondance des pssdans le corpus des experts pourrait être perçue comme un indicateur du
haut niveau de connaissances des médecins, en ce qui concerne le domaine médical. Le langage
médical étant en constante évolution, de nouvelles constructions verbales voient le jour et sont
utilisées au sein de la communauté des professionnels de la santé. Dans un état de l’art sur
l’évolution du langage médical anglais entre le XIX
eet le XX
esiècle, Brunt (2008) décrit un
ensemble d’expressions nominales et verbales très spécialisées qui naissent des échanges entre
les membres d’une même équipe médicale. Au fil du temps, ces expressions, qui étaient au
départ utilisées pour des besoins de communication spécifiques, se propagent et intègrent le
discours médical, ce qui contribue au développement et à l’expansion du langage des experts.
Au-delà de tout ce qui a été présenté dans cette partie de notre travail, si l’on aborde
les résultats de l’annotation sémantique d’un autre point de vue, force sera de réaliser que
l’abondance despssdans un texte peut également fournir des renseignements sur le sémantisme
des verbes en emploi. Cet argument fera l’objet de la section suivante.
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 147-154)