• Aucun résultat trouvé

3.6 Comparaison des corpus : fonctionnement des collocations verbe-terme

4.1.2 Annotation sémantique et acquisition des pss

4.1.2.1 Approche quantitative

Dans cette sous-section, nous présentons les résultats de l’annotation sémantique en termes de

nombre. Cette quantification des données permettra de décrire et d’analyser les résultats tirés

des corpus d’un point de vue numérique.

Dans un premier temps, nous allons analyser l’association terme-catégorie Snomed (désormais

pendant le processus d’annotation ? Combien de termes n’ont pas de catégorie Snomed ? Les

chiffres obtenus sont-ils similaires dans les quatre corpus ?

Le tableau 4.8 offre une présentation sommaire des résultats de l’annotation sémantique des

termes jouant le rôle d’arguments des verbes. Pour chaque corpus, il propose le nombre total

d’occurrences de ces termes-arguments, le nombre d’occurrences des termes ayant été associés

à une catégorie sémantique (termes annotés, c’est-à-dire figurant dans la Snomed), ainsi que le

nombre d’occurrences de ceux n’ayant pas été associés à une catégorie sémantique (termes

non annotés, c’est-à-dire ne figurant pas dans la Snomed). Pour chaque valeur obtenue, la

proportion (en pourcentage) par rapport au nombre d’arguments nominaux (unités nominales)

de chaque corpus a été calculée. Ce tableau fournit également le nombre d’occurrences des

termes portant une tête multicatégorielle de la Snomed (Occ. term. annot.) et sa proportion par

rapport au nombre d’occurrences des termes annotés. Ces informations permettront d’évaluer

le résultat obtenu grâce aux méthodes de traitement des têtes multicatégorielles implémentées

dans le chapitre précédent (cf. chapitre 3, section 3.2.3). Les données de ce tableau n’impliquent

pas les arguments pronominaux, qui ont été mis à l’écart pour une meilleure évaluation de

l’annotation sémantique des unités nominales.

Tab. 4.8 – Résultat de l’annotation des termes-arguments.

corp. occ. term. pourcent occ. term. pourcent occ. term. annot. tot

annot. non annot. avec tête

pro 62 852 62,85 37 137 37,14 31 845 (50%) 99 989

etu 79 510 61,05 50 726 38,94 35 898 (45%) 130 236

vul 86 900 58,56 61 476 41,43 38 531 (44%) 148 376

for 69 419 46,00 81 484 53,99 29 877 (43%) 150 903

La première remarque faite à la lecture du tableau 4.8 est que de façon générale, les scores

de l’association terme-catsnomed sur l’ensemble du corpus sont raisonnables, le plus petit

pourcentage de termes annotés s’élevant à 46,00% et appartenant au corpus des forums. Ces

résultats évoquent une courbe qui évolue comme suit : plus on avance vers les textes des

non-experts, moins on rencontre de termes Snomed.

En effet, les corpus pro, etuet vulenregistrent plus de termes annotés que de termes non

annotés, contrairement au corpus des forums qui fonctionne autrement, avec une prédominance

d’unités nominales (arguments) non annotées. Autrement dit, les corpus des experts, étudiants

et du grand public couvrent une plus grande portion de termes de la terminologie Snomed

par rapport au corpus des forums qui, d’après les résultats, compte moins de termes Snomed.

La similarité qu’exposent ces résultats permet de déduire que les trois premiers corpus sont

plus riches en termes médicaux que le corpus des forums. Cette interprétation est tout à fait

logique et a du sens, dans la mesure où ces trois corpus regroupent des textes rédigés par

des experts en médecine qui sont censés maîtriser la terminologie médicale, ce qui transparaît

dans leurs écrits. Les non-experts, par contre, optent très souvent pour des noms qui leur sont

familiers et qui appartiennent à la langue générale, ainsi que des expressions qui relèvent de leur

parler journalier. Les deux phrases ci-dessous fournissent des exemples à travers les éléments

soulignés :

7) je tiens à dire que j’ai été un bon sportif et qu’en famille personne n’a jamais eu des

problèmes de coeur mais [...] je vais ajouter que je souffrais des problèmes de digestion.

8) j’ai changé de cardio (et j’ai bien fait) car je voyais très bien qu’il ne m’écoutait plus et

j’avais perdu confiance.

Le constat qu’illustre ces exemples se confirme grâce au pourcentage de termes non annotés

(53,99%) qu’enregistre le corpusfor. C’est le seul corpus à avoir une telle proportion d’unités

nominales non annotées, une proportion qui marque une grande distance par rapport au corpus

des experts.

Les données du tableau 4.8 permettent de constater que selon le corpus, 43 à 50% des

termes portant une catégorie Snomed sont des unités nominales ayant une tête

multicatégo-rielle. Ce résultat montre que nos différentes techniques de traitement des termes avec tête

multicatégorielle ont permis d’améliorer les résultats de l’annotation sémantique des corpus.

La présence d’unités nominales sans catégorie Snomed, au terme du processus d’annotation,

a pour conséquence de favoriser la génération des pss que nous caractérisons de partiels,

c’est-à-dire despss dont certains termes-arguments demeurent sans catégories sémantiques, à

l’instar de s détecte cod_d. Cepss a un argument qui ne porte pas de catégorie sémantique,

en l’occurrence le sujet. Plusieurs raisons peuvent expliquer l’absence de catégorie sémantique :

soit le syntagme nominal ne fait pas partie de la nomenclature Snomed, parce qu’il ne s’agit

pas d’un terme médical ou du fait de n’y avoir pas été inclus ; soit le terme apparaît dans la

Snomed, mais avec une différence morphologique.

En plus de l’association terme-catsnomed, l’annotation sémantique a également débouché

sur l’acquisition des patrons syntaxico-sémantiques. Ces pss ont été extraits automatiquement

(cf. section 3.2.4), au moyen d’un programme qui transforme des chaînes terme-catsnomed

(constituant les schémas valenciels des verbes) en patrons syntaxico-sémantiques bien structurés.

Suite aux transformations effectuées à la section 3.2.4, deux ensembles correspondant à deux

types depssont été acquis : les pssspécifiques (s_daffecte cod_s) et lespssgénériques (s_d

cod_s). Un pss générique renvoie à la forme non instanciée d’un patron syntaxico-sémantique.

Il laisse la possibilité à différents verbes d’y figurer, d’où le termegénérique, tandis qu’un pss

est dit spécifique lorsque la position réservée au verbe est instanciée. Le tableau 4.9 fournit les

résultats obtenus pour chaque catégorie. Afin de normaliser les chiffres obtenus pour qu’ils soient

comparables, nous avons calculé la proportion de pss spécifiques par rapport au nombre de

phrases verbales de chaque corpus (cf. tableau 4.1), ainsi que la proportion des pss génériques

par rapport au nombre depss spécifiques dans chaque corpus. Ces valeurs sont exprimées en

termes de ppm :

Tab. 4.9 – Types et nombres de pss selon les corpus.

nb pss spéc. proportion nb pss gén. proportion

(en ppm) gen (en ppm)

pro 12775 237131,77 603 47201,56

etu 13803 198675,78 559 40498,44

vul 16366 196185,61 655 40021,99

for 15210 150133,25 432 28402,36

Au total, 836pss ont été extraits à partir des 4 corpus. Parmi cespss, 243 ont été sélectionnés

pour être validés par les experts (cf. section 3.4). D’après les données (en valeurs absolues) du

tableau 4.9, le corpus des experts et celui des textes de vulgarisation comptent plus de pss que

les deux autres. Par contre, les chiffres normalisés révèlent que dans ce classement, le corpus des

experts est plutôt suivi par le corpus des étudiants. Cette prédominance depss dans les textes

des experts transparaît également à travers les proportions que représente le nombre de pss

spécifiques dans chacun des corpus concernés. Le corpus des experts contient près du double du

nombre de pssdu corpus des forums. Il est intéressant de remarquer que ce constat frappant

entre un contraste avec les résultats de l’annotation syntaxique des corpus, qui signalent que

les corpusvul et forcomptent le plus grand nombre de prédicats verbaux (cf. tableau 4.1).

Ces résultats, qui de prime abord pourraient sembler contradictoires, traduisent le fait que les

experts disposent d’un large panel de constructions verbales diversifiées que symbolisent nos

pss génériques, tandis que les non-experts sont limités en termes d’emplois verbaux, ceci en

dépit de la grande variété de verbes qu’ils utilisent dans leurs écrits.

En outre, les résultats de l’annotation sémantique ont permis d’étudier le rapport entre,

d’une part, les verbes et les types de pss et, d’autre part, les corpus et les pss. Le tableau

4.10 présente, pour chaque verbe, le nombre de pss dans chacun des quatre corpus (nbPSS),

ainsi qu’une valeur normalisée de ce nombre (prop), à savoir la proportion (sur 10 000) qu’il

représente par rapport au nombre total de pss du corpus entier. Cette proportion va permettre

de comparer et d’étudier le rapport entre les types de corpus et le nombre de pss par verbe.

Les verbes enregistrent un nombre de pss variable, allant de 1 à plus de 100 pour les verbes

les plus récurrents dans les corpus. Les données du tableau 4.10 sont un extrait représentatif

(sur le plan qualitatif) des résultats. À partir de ces données, les principales observations faites

sur les corpus seront présentées.

À la lecture de ce tableau, nous pouvons tout d’abord constater que de façon générale, les

verbes tendent à avoir un nombre de pss élevé dans l’ensemble du corpus. Le verbe causer par

exemple a en moyenne 20pss par corpus. La présence de structures argumentales partiellement

annotées (décrites à la section cf. 4.1.2.1) a certes un impact sur les chiffres que fournit le

Tab. 4.10 – Quelques verbes avec leurs nombres de pss.

pro etu vul for

verbes nbPSS prop. nbPSS prop. nbPSS prop. nbPSS prop.

admettre 30 23,48 21 15,21 8 4,89 14 9,2

analyser 49 38,36 44 31,88 28 17,11 19 12,49

associer 116 90,8 137 99,25 67 40,94 17 11,18

augmenter 55 43,05 64 46,37 75 45,83 41 26,96

baisser 7 5,48 8 5,8 22 13,44 38 24,98

causer 27 21,14 20 14,49 59 36,05 44 28,93

conseiller 29 22,7 27 19,56 46 28,11 63 41,42

consulter 31 24,27 22 15,94 42 25,66 27 17,75

contrôler 33 25,83 27 19,56 27 16,5 22 14,46

créer 26 20,35 29 21,01 30 18,33 25 16,44

diagnostiquer 18 14,09 19 13,77 25 15,28 25 16,44

donner 67 52,45 86 62,31 116 70,88 107 70,35

déceler 13 10,18 10 7,24 7 4,28 16 10,52

découvrir 14 10,96 20 14,49 39 23,83 28 18,41

définir 54 42,27 47 34,05 27 16,5 6 3,94

dépister 8 6,26 14 10,14 5 3,06 1 0,66

développer 38 29,75 38 27,53 65 39,72 18 11,83

envisager 35 27,4 32 23,18 20 12,22 17 11,18

faire 114 89,24 133 96,36 159 97,15 189 124,26

hospitaliser 9 7,05 10 7,24 5 3,06 11 7,23

impliquer 35 27,4 30 21,73 29 17,72 6 3,94

imposer 26 20,35 46 33,33 21 12,83 15 9,86

inclure 48 37,57 23 16,66 29 17,72 5 3,29

indiquer 61 47,75 48 34,78 40 24,44 22 14,46

induire 22 17,22 28 20,29 14 8,55 9 5,92

mettre 86 67,32 87 63,03 109 66,6 94 61,8

montrer 48 37,57 43 31,15 37 22,61 34 22,35

nécessiter 38 29,75 46 33,33 27 16,5 12 7,89

observer 65 50,88 47 34,05 27 16,5 8 5,26

prescrire 23 18 30 21,73 37 22,61 46 30,24

produire 22 17,22 17 12,32 35 21,39 28 18,41

proposer 48 37,57 61 44,19 51 31,16 31 20,38

provoquer 12 9,39 33 23,91 51 31,16 37 24,33

préconiser 16 12,52 8 5,8 5 3,06 6 3,94

présenter 82 64,19 59 42,74 63 38,49 26 17,09

relever 22 17,22 19 13,77 12 7,33 20 13,14

souffrir 16 12,52 10 7,24 27 16,5 34 22,35

soulager 4 3,13 2 1,45 12 7,33 14 9,2

subir 19 14,87 16 11,59 21 12,83 22 14,46

évaluer 54 42,27 24 17,39 15 9,17 6 3,94

tableau 4.10, mais la multiplicité des pss provient en grande partie du degré de granularité de

la classification que propose la terminologie Snomed.

Lors de la description de la Snomed (cf. section 2.2.2), nous avons vu que cette ressource

compte 11 classes sémantiques distinctes grâce auxquelles les termes des corpus sont catégorisés

selon leurs natures. Pendant le processus d’annotation sémantique, ces catégories sémantiques

ont la possibilité de se combiner à au moins 4 rôles syntaxiques différents (sujet, cod, coi,

complément d’agent), ce qui débouche sur de nombreuses combinaisons sémantiques possibles

pour un seul verbe. Prenons par exemple le patron valencielsujet provoque cod. Nous allons

ci-dessous énumérer les différentes combinaisons de catégories sémantiques obtenues à partir

des catégories Snomed et des fonctions syntaxiques sujet et cod uniquement. Les exemples

proposés proviennent des corpus :

1. dprovoquer D :Les troubles de digestion et les brûlures à l’oesophage peuvent provoquer

des douleurs.

2. d provoquer F : Cette maladie peut provoquer l’élévation de la température du patient.

3. fprovoquer D : L’activité électrique du coeur provoque les contractions cardiaques.

4. fprovoquer F :La stimulation nociceptive provoque une vasoconstriction intense

musculo-cutanée et une hypertension artérielle.

5. p provoquer D : Le sondage au stylet provoque un écoulement purulent [...].

6. p provoquer F : Une ablation par inadvertance de tissu cardiaque ou vasculaire peut

provoquer des saignements [...].

7. l provoquer D : Ce virus peut provoquer une maladie grave.

8. l provoquer F : Le pollen provoque des allergies chez certains sujets.

9. cprovoquer F :Ce médicament peut provoquer des étourdissements.

10. cprovoquer D :Le dorzolamide provoque des anomalies vertébrales et sternales chez le

lapin.

11. a provoquer D : Les objets rouillés peuvent provoquer un tétanos.

12. aprovoquer F : Une seringue non stérilisée peut provoquer des réactions chez le patient.

13. jprovoquer F :Le médecin a dû provoquer l’accouchement.

14. s provoquer cod : Cet homme me provoque sans cesse.

15. p provoquer A: Le test de 1 millivolt que l’on envoie dans l’appareil doit provoquer un

signal rectangulaire [...].

16. f est provoqué par j :L’accouchement est provoqué par la sage-femme en cas de risque

de décès de l’enfant.

Au total, on compte jusqu’à 16 pss acquis à partir de 6/11 catégories Snomed (a, c, d, f,

p, s) et 2 fonctions syntaxiques seulement. Remarquons également que les exemples proposés

illustrent une seule structure syntaxique parmi plusieurs constructions possibles : il s’agit de

la construction transitive directe. Ces chiffres reflètent bien la forte propension despss à se

multiplier autour d’un seul verbe. Cet exemple permet également de mieux cerner le phénomène

d’abondance depss(cf. tableau 4.10) qui, comme l’on peut le constater, est en grande partie la

conséquence de la forte granularité de la classification Snomed. Cette particularité des catégories

Snomed est d’un apport déterminant dans notre étude. Elle offre la possibilité de fournir une

description profonde des sens des verbes du corpus, à travers l’étiquetage sémantique de leurs

arguments.

La granularité de la Snomed nous a ainsi permis de capturer les subtilités qui font la différence

entre des pss syntaxiquement identiques, régis par le même verbe, comme le montrent les

exemples suivants :

9) Mon mari a subi quatre opérations.

10) Le patient a subi un AVC.

Les phrases 9 et 10 ont la même structure syntaxique (sujet-verbe-cod). Sur le plan sémantique,

les termes qui instancient la position de sujet ont les mêmes propriétés. Il s’agit de sujets

animés, plus précisément humains. Les termes qui jouent le rôle de cod, notamment opération

etavc partagent également les mêmes propriétés sémantiques : non humains, non animés. En

se basant sur toutes ces informations, il est impossible de différencier le sens du verbe entre les

phrases 9 et 10. En revanche, l’association de catégories Snomed aux arguments du verbe fait

transparaître la différence :

Mon mari_s a subi quatre opération_p.

statut social (c.-à-d. patient) subit procédure → ‘passer’

Le patient_s a subi un AVC_d.

statut social subit maladie →‘souffrir’

D’après la Snomed,opération appartient à la classe procédure, tandis que avccorrespond

à la catégorie maladie. Cette distinction permet de discriminer le sens du verbe. Dans la

phrase 9,subir signifie ‘passer’, tandis que dans la phrase 10, il signifie ‘souffrir’. Ainsi, les pss

résultant de cette étude (cf. tableau 4.13), acquis à partir des catégories Snomed, peuvent

fonctionner comme des règles décrivant le sémantisme des verbes. D’ailleurs, c’est de cette

façon que nous avons procédé afin d’identifier les emplois verbaux spécialisés candidats pour

la simplification. Grâce à cette méthode, plus de 200 pss ont ainsi été sélectionnés pour la

simplification (cf. section 4.5).

Par ailleurs, la multiplicité des pss reflète la richesse des corpus. Lespss mettent en relation

les concepts médicaux illustrés par les termes du corpus. Si les textes d’un corpus sont riches,

alors, logiquement, il devrait en ressortir divers types de patrons qui témoignent de cette richesse.

Dans l’exemple proposé ci-dessus, 16 combinaisons différentes ont été effectuées entre des

concepts médicaux grâce à un seul verbe, provoquer.

Au-delà de l’abondance de pss, les données du tableau 4.10 montrent une forte variation du

nombre de pss des verbes selon les corpus. Autrement dit, pour certains verbes, le nombre de

pss est similaire entre le corpus des experts et celui des forums (déceler, hospitaliser, mettre),

tandis que d’autres verbes enregistrent plus depss dans un certain type de corpus par rapport

aux autres (faire, donner, associer, présenter, indiquer). Dans certains cas, l’écart entre les

corpus est réellement important. Cette tendance est particulièrement marquante dans le corpus

pro qui occupe la tête du classement avec plus de 130 prédicats verbaux dont le nombre de

pss enregistrés présente un écart de plus de 10 pss par rapport au corpus des forums.

Les verbes augmenter, associer, observer, présenter, évaluer illustrent bien ce phénomène.

Associer est un cas extrême, ses pss représentant une proportion importante (90,8) dans le

corpus pro, tandis que dans le corpus for, ils représentent une faible proportion (11,18) sur

l’ensemble du corpus.

Si l’on considère que lespssdécrivent le langage de la médecine de par leur aptitude à mettre

en relation des termes désignant différents types de concepts médicaux grâce aux verbes, alors

l’abondance des pssdans le corpus des experts pourrait être perçue comme un indicateur du

haut niveau de connaissances des médecins, en ce qui concerne le domaine médical. Le langage

médical étant en constante évolution, de nouvelles constructions verbales voient le jour et sont

utilisées au sein de la communauté des professionnels de la santé. Dans un état de l’art sur

l’évolution du langage médical anglais entre le XIX

e

et le XX

e

siècle, Brunt (2008) décrit un

ensemble d’expressions nominales et verbales très spécialisées qui naissent des échanges entre

les membres d’une même équipe médicale. Au fil du temps, ces expressions, qui étaient au

départ utilisées pour des besoins de communication spécifiques, se propagent et intègrent le

discours médical, ce qui contribue au développement et à l’expansion du langage des experts.

Au-delà de tout ce qui a été présenté dans cette partie de notre travail, si l’on aborde

les résultats de l’annotation sémantique d’un autre point de vue, force sera de réaliser que

l’abondance despssdans un texte peut également fournir des renseignements sur le sémantisme

des verbes en emploi. Cet argument fera l’objet de la section suivante.