• Aucun résultat trouvé

Les 33 questions portaient essentiellement sur les problématiques liées à la langue et

4.1.3 Principes de conception

Même si, selon les répondants, rien ne remplacera le rédacteur humain dans le processus de rédaction75, nous avons pu décider des directions à donner au logiciel d’aide à la rédaction.

Choix de l’approche monolingue

L’approche monolingue (anglais) a été choisie en concertation avec les médecins,

s’appuyant sur le fait que la grande majorité des articles scientifiques dans le domaine biomédical sont directement écrits en anglais, sans passer par le français.

Choix de « sous-ensemble » de la langue

Nous avons défini des sous-ensembles de la langue à traiter lors de la rédaction des articles scientifiques : langue scientifique transdisciplinaire, langue scientifique médicale,

terminologie médicale. La langue scientifique transdisciplinaire a été déjà beaucoup traitée

et a abouti à différents types de projets et ressources : ARTES, Scientext, Academic Phrasebank développé par John Morley à l’Université de Manchester76, Academic Word List développé par A. COXHEAD (2000).

En ce qui concerne les deux autres propositions (langue scientifique médicale,

terminologie médicale), nous nous proposons de mener des travaux en parallèle sur ces deux

aspects. Par contre, puisque ces deux notions ne sont pas assez explicites, nous les redéfinissons de la manière suivante.

75 Ce qui a été commenté de façon très drôle par un des enquêtés : « Le meilleur outil trouvé à ce jour est Fiona Ecarnot

(traductrice médicale IT), c’est le top du top ». 76 http://www.phrasebank.manchester.ac.uk/.

96

Langue scientifique trans-biomédicale

Nous avons renommé la langue scientifique médicale en langue scientifique

trans-biomédicale pour appuyer sur son caractère transversal. Nous la définissons comme un

ensemble du lexique médical et des collocations autour de ce lexique, présents dans plusieurs sous-domaines du biomédical sous ses formes utilisées/utilisables dans des documents scientifiques. Concrètement, cela veut dire que l’on peut retrouver ce lexique dans n’importe quel sous-domaine du biomédical, puisqu’il n’est pas spécifique à un sous-domaine en particulier.

Exemples Lexique :

health, medicines, patient, syndrome, disease, to suffer from, side effects, etc. Collocations :

to deal with the syndrome, suffer from a syndrome, to relieve symptoms of, etc. Les premiers résultats de ces travaux sont décrits dans le & 4.1.4.1.

Terminologies des sous-domaines biomédicaux

Plutôt que de parler de la terminologie médicale, nous proposons le terme de

terminologies des sous-domaines biomédicaux, cette fois-ci pour appuyer sur le caractère

spécifique au sous-domaine de chaque terminologie.

La terminologie d’un sous-domaine biomédical diffère du lexique trans-biomédical en ce qu’elle est caractéristique d’un sous-domaine précis (et non commune à l’ensemble des sous-domaines du biomédical).

Nous avons distingué 3 types de problématiques concernant la terminologie :

 Recherche de termes simples (composés d’un mot) :

hyperglycemia, cardiomyopathy, immunosuppression

 Recherche de termes complexes (composés de plusieurs mots) :

bicuspid aortic valve, alveolar echinococcosis, chronic inflammatory diseases

 Contextualisation de termes simples et complexes (Termes en contexte) :

to contract echinococcosis, alveolar echinococcosis in animals, diagnosis and treatment of alveolar echinococcosis

Selon l’enquête, la problématique la plus répandue concerne la contextualisation de termes. Lorsqu’il s’agit de trouver le mot exact que l’on doit utiliser avec un terme, 57% des répondants déclarent avoir ‘souvent’ un problème à trouver le mot exact qui va avec un terme et 13% ‘toujours’. Parallèlement, les répondants préfèrent aussi un outil de type ‘moteur de recherche’ que de type ‘dictionnaire’ (cf. & 4.1.2).

Par conséquent, nous projetons de construire un moteur de recherche de termes en contexte, composé de deux parties :

97 - Une partie ‘dictionnaire’, qui permet une recherche par terme (entrée du dictionnaire), dans lequel nous aurons préétabli et validé des relations collocationnelles pour les termes ;

- Une partie ‘moteur de recherche’, qui permet une recherche par terme mais aussi par tous les autres mots du texte, et qui permettra d’afficher les exemples de phrases avec les termes en contexte.

Lorsque l’utilisateur formulera une recherche, elle sera envoyée aussi bien au dictionnaire qu’au corpus ; c’est-à-dire que l’on pourra afficher à la fois les réponses du dictionnaire (s’il y en a) et une liste des phrases du corpus. Ces fonctionnalités existent déjà dans les logiciels de type Linguee ou TradooIT, mais les différences principales avec ces logiciels de référence sont les suivantes :

- Pas de traduction, mais :

o La viabilité de sources : contrairement à Linguee et TradooIT, les corpus de base ne seront composés que d’articles publiés dans des journaux reconnus (pour garantir la qualité de l’information) ;

o La spécialisation : lors de nos différentes consultations avec les médecins, nous avons compris qu’il serait utile de construire des outils très spécialisés, non seulement par rapport au grand domaine du biomédical, mais aussi à un sous-domaine précis. Le sous-domaine test que nous avons décidé d’explorer est Essais

cliniques qui puisera dans le corpus de 3 sous-domaines : Essais cliniques en cardiologie, Essais cliniques en gastroentérologie et Essais cliniques en pneumologie. Par conséquent, le lexique terminologique contextualisé sera un

lexique commun à ces 3 sous-domaines. Par la suite, pourront être développés des lexiques propres à chacun de ces domaines, et d’autres sous-domaines de spécialités médicales (cancérologie, rhumatologie…) ou ciblés sur le type de thérapeutique concernée (médicaments, dispositifs médicaux, interventions invasives ou non-invasives…).

- La présentation des termes avec des « fiches de contextualisation » : les contextes d’utilisation et collocations possibles pour chaque terme seront présentés de manière structurée (en plusieurs groupes, chaque groupe contenant des exemples similaires) et non pas sous forme d’une liste non-ordonnée.

Pour construire un tel outil, il y a plusieurs problématiques à traiter :

- Corpus : Nous allons utiliser 2 corpus : le corpus PLOS pour le lexique trans-biomédical (cf. &4.1.4.1) et un autre corpus que nous avons construit à partir des meilleurs journaux des spécialités concernées (au niveau de la qualité scientifique et éditoriale) pour le domaine d’application Essais cliniques (cf. &4.1.4.2).

- Recherche en corpus (du point de vue de l’utilisateur) : comment les utilisateurs, non-linguistes vont rechercher l’information à partir de cet outil (vu que ce sera un outil monolingue) ? Quelles stratégies va-t-on mettre en place si on ne sait pas comment

98 dire en anglais ‘présentation’ dans le contexte d’ ‘antigène’ (‘Trois types de cellules ont

constitutionnellement des propriétés de présentation de l’antigène …’) ou ‘déclencher’

dans le contexte de ‘réponse immunitaire’ ?

- Recherche en corpus (du point de vue du concepteur) : quels types de recherche sont les plus pertinentes pour aboutir à un résultat ? Doit-on lemmatiser, POS-tagger le corpus ? Permettre des recherches sur les lemmes ? des recherches approximatives ? - Établissement des terminologies en contexte : Quel que soit le sous-domaine, il faut d’abord établir la terminologie du sous-domaine, pour pouvoir ensuite contextualiser les termes (simples et complexes). De nouveau, comme pour le lexique trans-biomédical, se pose la problématique de :

o Méthodologie de l’établissement de la terminologie (à partir du corpus ? en s’appuyant sur un dictionnaire du domaine ?) ; combien de termes retient-on pour le dictionnaire ? Quels sont les outils que l’on utilise ? Est-ce que l’on identifie les termes complexes et comment ?

o Contextualisation : comment fait-on (critères, outils) ? que retient-on ? Comment organise-t-on la ‘fiche de contextualisation’ ? Doit-on POS-tagger ? o Exemples : comment trouve-t-on les meilleurs exemples dans le corpus ? - Visualisation : comment présente-t-on les résultats ? Comment présente-t-on un

réseau collocationnel ? Ceci nous parait très important, vu que l’on risque d’avoir beaucoup d’informations sur un terme en contexte.

- Validation expert : À quel moment ? Sur quoi ?

- Evaluation : Comment évalue-t-on le logiciel du point de vue du résultat et de son utilité comme aide à la rédaction ?