• Aucun résultat trouvé

1.4 La simplification de textes

2.1.3 Taille et Contenu

2.1.3.1 Corpus des experts

En tant que pôles extrêmes du continuum que constitue notre corpus, le corpus des experts et

le corpus des forums jouent un rôle déterminant dans cette étude. En effet, ils représentent les

deux principaux niveaux d’expertise qui s’opposent, et ainsi, constituent des sources de données

par excellence à exploiter pour la conception de la ressource de simplification. Pour cette raison,

dans cette section, les corpus C

1

et C

4

bénéficieront d’une description relativement détaillée,

en comparaison aux deux autres corpus qui sont considérés comme des corpus intermediaires.

Encore appelé C

1

, le corpus des experts contient des textes écrits par des experts en médecine

pour des experts en médecine. D’après la classification de Pearson (1998), ce type de corpus

appartiendrait à la catégorie de textes qu’elle caractérise dehighly specialised texts, c.-à-d. des

textes fort spécialisés ou encore des textes relevant du discours scientifique primaire (Jacobi,

1993). Ce corpus regroupe des textes de rapports des organisations nationales et internationales

de la santé (Haute Autorité de Santé, Organisation Mondiale de la Santé, Santé Canada, etc.) ;

des recommandations et règlementations adressées aux professionnels de la santé ; des textes

provenant de publications scientifiques telles que des articles, ainsi que des textes informatifs

par rapport aux maladies, et procédures médicales.

Les textes du corpus des experts sont caractérisés par un niveau de langue soutenu et une

très forte fréquence des termes médicaux spécialisés. L’abondance des termes spécialisés dans

les textes de spécialité est une question bien connue dans la littérature, depuis les débuts de la

terminologie, comme le démontrent les travaux de Jacobi (1993), qui se focalisent sur l’étude

des termes que l’auteur appelleles terminologies. En effet, les unités terminologiques font partie

des propriétés intrinsèques d’un texte spécialisé, étant donné que l’étude du terme, de ses

fonctions et de sa relation avec le concept, constitue un principe fondamental de la terminologie

de Wüster (Wüster, 1981 ; Wüster, 1985) (cf. chapitre 1, section 1.3.2). Ce caractère est

d’autant plus connu que l’on a pendant longtemps pensé que les difficultés de lecture des textes

scientifiques spécialisés tenaient exclusivement (ou presque) à l’usage d’un vocabulaire spécialisé

(Guilbert, 1973).

Le corpus des experts est aussi marqué par la prédominance des unités complexes (Collet,

1997 ; Portelance, 1991) qui d’après Jacques (2003) représentent 80% des éléments constituant

les textes de spécialité. En effet, le corpus des experts est caractérisé par l’abondance de termes

ayant une structure complexe. Ils se caractérisent par le nombre d’unités linguistiques qu’ils

mettent en jeu :

source d’aggravation de l’état clinique des infections urinaires, inhibiteur de l’enzyme

de conversion d’une fréquence plus élevée d’hypotension artérielle ; augmentation de la

concentration de la créatinine sérique, hypertension artérielle contemporaine de la phase

aigüe d’un AVC ischémique ;

bloc atrioventriculaire du deuxième ou du troisième degré ou un syndrome de

dysfonc-tionnement sinusal ;

nausée ou vomissement d’une thrombocytopénie ou d’une perturbation des tests

hépa-tiques.

La variation terminologique (au niveau des entités nominales) fait également partie des

phé-nomènes qui décrivent les textes du corpus des experts. Elle peut désigner différents types de

transformations (morphologique, lexicale, sémantique, syntaxique, etc.) qui caractérisent les

textes en langues de spécialités et porter sur différents types d’unités de la langue : les entités

nominales (Grabar, 2004), les collocations (Giacomini, 2015), etc. Cependant, dans cette étude,

nous nous intéressons uniquement à la variation morpho-lexicale observée au niveau des termes

nominaux. Ce type de variation pourrait être définie comme phénomène par lequel certains

termes complexes se réalisent sous des formes diverses, que l’on appellevariantes. C’est ce que

Haralambous & Lavagnino (2011) appellent lapolymorphie :

ischémie cérébrale - ischémie focale cérébrale - ischémie focale cérébrale ou rétinienne ;

ischémie myocardique - ischémie du myocarde.

La variation terminologique est une question bien connue dans le domaine de la terminologie,

et elle fait l’objet de nombreuses études (Jacquemin, 1997 ; Grabar, 2004 ; Tartier, 2006).

Giacomini (2015) souligne, avec illustrations à l’appui, deux exemples de situations dans

lesquelles la variation terminologique est susceptible d’intervenir : lorsque différents niveaux

de spécialisation sont exprimés, comme dans l’interaction médecin (pneumologue) vs. patient

(spécialiste pulmonaire) ; et lorsque des emprunts avec ou sans adaptation coexistent dans le

même domaine (dans le langage médicalECG vs EKG). Dans le domaine du TAL, la variation

terminologique constitue la base de la tâche que Grabar et al. (2002) définissent comme

l’identification d’expressions différentes de notions identiques ou proches, c.-à-d. la détection de

différentes variantes de termes exprimant une même notion (McCray et al., 1994 ; Lovis et al.,

1995 ; Hamon et al., 1998 ; Jacquemin & Tzoukermann, 1999 ; Lovis & Baud, 2000 ; Pouliquen,

2002).

Le sous-corpus des experts est également caractérisé par une grande fréquence des phrases

longues et complexes (cf. exemples 1 et 2), et par l’emploi des tournures de langage très

spécifiques, avec une forte préférence pour les formes verbales impersonnelles (passif,

pronomi-nalisation) :

1) Dans l’ensemble, on considère que les données indiquent une efficacité et une innocuité

acceptables de Multaq dans le traitement de patients ayant des antécédents ou présentant

un épisode de fibrillation auriculaire, dans le but de réduire leur risque d’hospitalisation

pour une affection cardiovasculaire due à une fibrillation auriculaire, à condition qu’il soit

utilisé conformément aux conditions mentionnées dans la monographie de produit.

2) La présente lettre a pour but de vous faire part de renseignements importants en matière

de sécurité d’emploi concernant la possibilité de perte de l’électrothérapie, pour cause

de dégradation de la composante hermétique d’étanchéité, de deux sous-ensembles de

stimulateurs cardiaques PULSAR MAX, PULSAR, DISCOVERY, MERIDIAN, PULSAR

MAX II, DISCOVERY II, VIRTUS Plus II, INTELIS II et CONTAK TR.

Le tableau 2.1 indique que le corpus des experts est en tête de liste avec une longueur moyenne

des phrases égale à 28,39 mots. Dans la littérature, les corpus spécialisés, et les corpus médicaux

en particulier, sont bien connus pour la longueur et la complexité de leurs phrases, ainsi que

pour leur tendance à contenir des tournures de langage relevant de la discipline dont ils traitent.

Ce phénomène est d’autant plus important que lors de la dernière campagne d’évaluation des

analyseurs syntaxiques du français (passage, 2007), les différents analyseurs syntaxiques

en compétition étaient également testés par rapport à leurs performances sur les textes de

spécialité, en l’occurrence les textes médicaux et les textes littéraires (Laurentet al., 2009). Les

résultats de cette tâche ont démontré que la longueur et la complexité des phrases des textes

spécialisés engendrent des erreurs d’annotation chez la plupart des analyseurs, y compris les

meilleurs (Paroubek et al., 2007).

En ce qui concerne l’emploi du passif (avec omission de l’agent), différents travaux de recherche

le décrivent comme une technique de rédaction très sollicitée dans les écrits scientifiques, et

qui a pour effet de cacher ou d’écarter volontairement le/les auteur(s), ôtant ainsi le caractère

subjectif de l’énoncé (Heslot, 1983 ; Candel, 1984 ; Mortureux, 1991 ; Fleischman, 2003 ; Pecman,

2004) :

3) L’amiodarone est également indiquée en cas de tachycardie jonctionnelle, après avoir

éliminé une cause médicamenteuse.

4) 26% des hospitalisations s’observent chez les personnes de plus de 15 ans.

5) En cas de patient polyimmunisé, on choisira un produit d’un donneur le plus proche du

HLA du patient et on pratiquera un cross-match.

Dans notre corpus, le passif est fréquemment utilisé et très souvent marqué par l’absence

de l’agent de l’action (cf. exemple 3). Paralèllement, on observe la récurrence d’autres formes

impersonnelles telles que la forme pronominale (cf. exemple 4), et l’emploi du pronom indéfini

on (cf. exemple 5), qui est régulièrement utilisé dans le corpus des experts. Ces procédés font

aussi partie des caractéristiques de la langue scientifique générale (cf. chapitre 1, section 1.1.2).

Dans le domaine médical, et donc dans notre corpus d’experts, cette technique de rédaction

pourrait avoir pour fonction d’exprimer des savoir-faire qui relèvent de ce que nous pouvons

appeler la norme, c.-à-d. des connaissances, traitements, pratiques, procédures standardisées et

donc connues et partagées par toute la communauté médicale. En procédant ainsi, l’accent est

davantage mis sur la procédure décrite au détriment de la personne qui l’applique.