1.4 La simplification de textes
2.1.3 Taille et Contenu
2.1.3.1 Corpus des experts
En tant que pôles extrêmes du continuum que constitue notre corpus, le corpus des experts et
le corpus des forums jouent un rôle déterminant dans cette étude. En effet, ils représentent les
deux principaux niveaux d’expertise qui s’opposent, et ainsi, constituent des sources de données
par excellence à exploiter pour la conception de la ressource de simplification. Pour cette raison,
dans cette section, les corpus C
1et C
4bénéficieront d’une description relativement détaillée,
en comparaison aux deux autres corpus qui sont considérés comme des corpus intermediaires.
Encore appelé C
1, le corpus des experts contient des textes écrits par des experts en médecine
pour des experts en médecine. D’après la classification de Pearson (1998), ce type de corpus
appartiendrait à la catégorie de textes qu’elle caractérise dehighly specialised texts, c.-à-d. des
textes fort spécialisés ou encore des textes relevant du discours scientifique primaire (Jacobi,
1993). Ce corpus regroupe des textes de rapports des organisations nationales et internationales
de la santé (Haute Autorité de Santé, Organisation Mondiale de la Santé, Santé Canada, etc.) ;
des recommandations et règlementations adressées aux professionnels de la santé ; des textes
provenant de publications scientifiques telles que des articles, ainsi que des textes informatifs
par rapport aux maladies, et procédures médicales.
Les textes du corpus des experts sont caractérisés par un niveau de langue soutenu et une
très forte fréquence des termes médicaux spécialisés. L’abondance des termes spécialisés dans
les textes de spécialité est une question bien connue dans la littérature, depuis les débuts de la
terminologie, comme le démontrent les travaux de Jacobi (1993), qui se focalisent sur l’étude
des termes que l’auteur appelleles terminologies. En effet, les unités terminologiques font partie
des propriétés intrinsèques d’un texte spécialisé, étant donné que l’étude du terme, de ses
fonctions et de sa relation avec le concept, constitue un principe fondamental de la terminologie
de Wüster (Wüster, 1981 ; Wüster, 1985) (cf. chapitre 1, section 1.3.2). Ce caractère est
d’autant plus connu que l’on a pendant longtemps pensé que les difficultés de lecture des textes
scientifiques spécialisés tenaient exclusivement (ou presque) à l’usage d’un vocabulaire spécialisé
(Guilbert, 1973).
Le corpus des experts est aussi marqué par la prédominance des unités complexes (Collet,
1997 ; Portelance, 1991) qui d’après Jacques (2003) représentent 80% des éléments constituant
les textes de spécialité. En effet, le corpus des experts est caractérisé par l’abondance de termes
ayant une structure complexe. Ils se caractérisent par le nombre d’unités linguistiques qu’ils
mettent en jeu :
— source d’aggravation de l’état clinique des infections urinaires, inhibiteur de l’enzyme
de conversion d’une fréquence plus élevée d’hypotension artérielle ; augmentation de la
concentration de la créatinine sérique, hypertension artérielle contemporaine de la phase
aigüe d’un AVC ischémique ;
— bloc atrioventriculaire du deuxième ou du troisième degré ou un syndrome de
dysfonc-tionnement sinusal ;
— nausée ou vomissement d’une thrombocytopénie ou d’une perturbation des tests
hépa-tiques.
La variation terminologique (au niveau des entités nominales) fait également partie des
phé-nomènes qui décrivent les textes du corpus des experts. Elle peut désigner différents types de
transformations (morphologique, lexicale, sémantique, syntaxique, etc.) qui caractérisent les
textes en langues de spécialités et porter sur différents types d’unités de la langue : les entités
nominales (Grabar, 2004), les collocations (Giacomini, 2015), etc. Cependant, dans cette étude,
nous nous intéressons uniquement à la variation morpho-lexicale observée au niveau des termes
nominaux. Ce type de variation pourrait être définie comme phénomène par lequel certains
termes complexes se réalisent sous des formes diverses, que l’on appellevariantes. C’est ce que
Haralambous & Lavagnino (2011) appellent lapolymorphie :
— ischémie cérébrale - ischémie focale cérébrale - ischémie focale cérébrale ou rétinienne ;
— ischémie myocardique - ischémie du myocarde.
La variation terminologique est une question bien connue dans le domaine de la terminologie,
et elle fait l’objet de nombreuses études (Jacquemin, 1997 ; Grabar, 2004 ; Tartier, 2006).
Giacomini (2015) souligne, avec illustrations à l’appui, deux exemples de situations dans
lesquelles la variation terminologique est susceptible d’intervenir : lorsque différents niveaux
de spécialisation sont exprimés, comme dans l’interaction médecin (pneumologue) vs. patient
(spécialiste pulmonaire) ; et lorsque des emprunts avec ou sans adaptation coexistent dans le
même domaine (dans le langage médicalECG vs EKG). Dans le domaine du TAL, la variation
terminologique constitue la base de la tâche que Grabar et al. (2002) définissent comme
l’identification d’expressions différentes de notions identiques ou proches, c.-à-d. la détection de
différentes variantes de termes exprimant une même notion (McCray et al., 1994 ; Lovis et al.,
1995 ; Hamon et al., 1998 ; Jacquemin & Tzoukermann, 1999 ; Lovis & Baud, 2000 ; Pouliquen,
2002).
Le sous-corpus des experts est également caractérisé par une grande fréquence des phrases
longues et complexes (cf. exemples 1 et 2), et par l’emploi des tournures de langage très
spécifiques, avec une forte préférence pour les formes verbales impersonnelles (passif,
pronomi-nalisation) :
1) Dans l’ensemble, on considère que les données indiquent une efficacité et une innocuité
acceptables de Multaq dans le traitement de patients ayant des antécédents ou présentant
un épisode de fibrillation auriculaire, dans le but de réduire leur risque d’hospitalisation
pour une affection cardiovasculaire due à une fibrillation auriculaire, à condition qu’il soit
utilisé conformément aux conditions mentionnées dans la monographie de produit.
2) La présente lettre a pour but de vous faire part de renseignements importants en matière
de sécurité d’emploi concernant la possibilité de perte de l’électrothérapie, pour cause
de dégradation de la composante hermétique d’étanchéité, de deux sous-ensembles de
stimulateurs cardiaques PULSAR MAX, PULSAR, DISCOVERY, MERIDIAN, PULSAR
MAX II, DISCOVERY II, VIRTUS Plus II, INTELIS II et CONTAK TR.
Le tableau 2.1 indique que le corpus des experts est en tête de liste avec une longueur moyenne
des phrases égale à 28,39 mots. Dans la littérature, les corpus spécialisés, et les corpus médicaux
en particulier, sont bien connus pour la longueur et la complexité de leurs phrases, ainsi que
pour leur tendance à contenir des tournures de langage relevant de la discipline dont ils traitent.
Ce phénomène est d’autant plus important que lors de la dernière campagne d’évaluation des
analyseurs syntaxiques du français (passage, 2007), les différents analyseurs syntaxiques
en compétition étaient également testés par rapport à leurs performances sur les textes de
spécialité, en l’occurrence les textes médicaux et les textes littéraires (Laurentet al., 2009). Les
résultats de cette tâche ont démontré que la longueur et la complexité des phrases des textes
spécialisés engendrent des erreurs d’annotation chez la plupart des analyseurs, y compris les
meilleurs (Paroubek et al., 2007).
En ce qui concerne l’emploi du passif (avec omission de l’agent), différents travaux de recherche
le décrivent comme une technique de rédaction très sollicitée dans les écrits scientifiques, et
qui a pour effet de cacher ou d’écarter volontairement le/les auteur(s), ôtant ainsi le caractère
subjectif de l’énoncé (Heslot, 1983 ; Candel, 1984 ; Mortureux, 1991 ; Fleischman, 2003 ; Pecman,
2004) :
3) L’amiodarone est également indiquée en cas de tachycardie jonctionnelle, après avoir
éliminé une cause médicamenteuse.
4) 26% des hospitalisations s’observent chez les personnes de plus de 15 ans.
5) En cas de patient polyimmunisé, on choisira un produit d’un donneur le plus proche du
HLA du patient et on pratiquera un cross-match.
Dans notre corpus, le passif est fréquemment utilisé et très souvent marqué par l’absence
de l’agent de l’action (cf. exemple 3). Paralèllement, on observe la récurrence d’autres formes
impersonnelles telles que la forme pronominale (cf. exemple 4), et l’emploi du pronom indéfini
on (cf. exemple 5), qui est régulièrement utilisé dans le corpus des experts. Ces procédés font
aussi partie des caractéristiques de la langue scientifique générale (cf. chapitre 1, section 1.1.2).
Dans le domaine médical, et donc dans notre corpus d’experts, cette technique de rédaction
pourrait avoir pour fonction d’exprimer des savoir-faire qui relèvent de ce que nous pouvons
appeler la norme, c.-à-d. des connaissances, traitements, pratiques, procédures standardisées et
donc connues et partagées par toute la communauté médicale. En procédant ainsi, l’accent est
davantage mis sur la procédure décrite au détriment de la personne qui l’applique.
Dans le document
Analyse contrastive des verbes dans des corpus médicaux et création d’une ressource verbale de simplification de textes
(Page 69-72)