• Aucun résultat trouvé

2.2 Ressources et outils

2.2.2 La terminologie Snomed International

L’annotation sémantique des patrons verbaux requiert une ressource terminologique médicale.

Dans le cadre de cette thèse, nous utilisons la terminologieSnomed International

9

:Systematized

Nomenclature of Medicine

10

(Roger & Robboy, 1980 ; Côté, 1996). Cette ressource médicale a

été choisie d’une part parce qu’elle est l’une des plus grandes terminologies médicales librement

accessibles pour le français. D’autre part, le système de catégorisation des termes médicaux

qu’elle offre nous permet d’associer aux arguments des verbes des informations sémantiques,

qui jouent un rôle déterminant dans notre méthodologie.

La Snomed International terminology

11

est l’une des premières versions de la ressource

terminologique qui est de nos jours connue sous le nom de SNOMED CT

12 13

. Elle a été

développée en 1980 par des experts en médecine duCollege of American Pathologists. Cette

nomenclature contient des termes décrivant différents concepts médicaux (maladies, procédures,

médicaments, outils, etc.) auquels font face les usagers de la médecine pendant leurs échanges

communicationnels avec les médecins. Les créateurs de cette ressource l’ont conçue comme

9. Dans cette thèse, elle sera également appelée Snomed.

10. https ://www.nlm.nih.gov/research/umls/sourcereleasedocs/current/SNMI/

11. La terminologie Snomed International a été remplacée par une nouvelle nomenclature, Systematized Nomenclature of Medicine – Reference Terminology (SNOMED RTR) qui a ensuite été fusionnée avec les termes cliniques version 3 (CTV3), encore appelésRead Codes, résultant sur la création de laSNOMED Clinical Terms connue de nos jours sous le nom deSNOMED CT qui a été davantage développée au fil du temps et est disponible en plusieurs langues.

12. http ://www.snomed.org/

un moyen d’aide afin d’améliorer la communication entre le corps médical et les patients. Les

concepts de la Snomed sont organisés en 12 catégories encore appeléesaxes, qui regroupent

différents termes médicaux :

1. Chemicals, Drugs and Biological Products : produits chimiques et biologiques ;

2. Diseases/Diagnoses : maladies et diagnostic

14

;

3. Function: fonctions de l’organisme, c.-à-d. tous les éléments physiologiques qui permettent

à l’organisme de bien fonctionner

4. General Linkage/Modifiers : modifieurs ;

5. List of Pharmaceutical Companies : liste des compagnies pharmaceutiques, et organismes

intervenant dans le domaine de la santé

6. Living Organisms : organismes vivants, c.-à-d. tous les organismes vivants autres que

l’être humain : animaux, plantes, virus, bactéries, etc. ;

7. Morphology : éléments caractéristiques de la morphologie humaine ;

8. Occupations : métiers, les différents métiers qui rentrent dans le contexte médical ;

9. Physical Agents, Forces, and Activities : agents physiques, forces et activités, c.-à-d. les

outils utilisés dans les activités médicales, les forces et activités ;

10. Procedures : procédures médicales, les différentes opérations et pratiques faites dans le

contexte de soin ;

11. Social Context : contexte social, il s’agit des dénominations qui renvoient aux différents

statuts sociaux ;

12. Topography : topographie ou anatomie, les parties, organes et cellules qui constituent le

corps humain.

La catégorie 4 qui contient les modifieurs n’a pas été prise en considération dans cette étude. De

même, afin de limiter la variabilité des patrons syntactico-sémantiques

15

, certaines catégories

ont dû être jumelées, il s’agit plus précisément de celles qui partagent certaines propriétés

sémantiques. Ainsi, les catégories 7 et 12 ont été regroupées en une seule (Topography), car

elles concernent toutes les deux l’anatomie humaine. Il en a été de même pour les catégories 5 et

8, désormais réunies sous la catégorieOccupations, car elles ont en commun le fait d’avoir des

agents humains qui occupent une certaine fonction (métier) dans le contexte médical, comme

le montre l’exemple suivant :

6) Santé Canada a publié de nouvelles recommandations liées au traitement du cancer.

14. Dans cet emploi, le motdiagnostic renvoie au résultat de l’action de diagnostiquer, et non à l’action elle-même qui correspond plutôt à la catégorieProcedures.

Dans la phrase ci-dessus, Santé Canada qui est le nom d’une compagnie représente le sujet

du verbe publier ; toutefois, sur le plan sémantique, cette phrase a un message sous-entendu,

à savoir :les responsables de Santé Canada ont publié les recommandations [...], car le sujet

Santé Canadan’a pas de propriétés agentives.

Les différents efforts de restructuration de la Snomed afin de l’adapter à cette étude ont

permis d’obtenir 9 catégories sémantiques finales, portant des étiquettes que nous avons définies

pour préparer la phase d’annotation automatique des corpus :

T : Anatomie (coeur, phalange du pouce, vaisseau, muscle oblique externe de l’abdomen) ;

S : Statuts sociaux (mari, soeur, mère, ancien fumeur, donneur de sang, fille adoptive) ;

P : Procédures (césarienne, remplacement de cathéter, télé-expertise, mastectomie) ;

L : Organismes vivants tels que les bactéries et virus (Bacillus coagulans, Salmonella, virus de

la rage) ; les plantes (fougère, pomme de terre), et les animaux (singe, chien, caméléon,

cheval, chat) ;

J : Métiers (équipe du SAMU, anesthésiste, assureur, cardiologue, infirmiers diplômés) ;

F : Fonctions de l’organisme telles que les protéïnes (angiotensine, héparine éliminase, héparine

lyase) ; les paramètres du corpus (pression artérielle, pouls, poids, hématurie, apport

d’oxygène), etc. ;

D : Maladies (obésité, hypertension artérielle, cancer, paludisme, hépatite, anémie

perni-cieuse) ;

C : Produits chimiques et biologiques (médicament, héparine, bleu de méthylène, estolate

d’érythromycine) ;

A : Agents physiques, forces, activités (cathéter, prothèse, contact avec les piquants d’une

plante, accident, risque, ameublement hospitalier).

Bien que la terminologie Snomed ait été élaborée dans un objectif communicationnel, nous

utilisons ce système à des fins linguistiques. Les 9 axes ci-dessus sont considérés comme des

catégories sémantiques pour l’annotation des arguments des verbes de nos corpus. Lorsqu’elles

sont associées aux arguments des verbes, ces catégories sémantiques propres au domaine

médical décrivent la nature de ces arguments, et nous permettent d’acquérir des patrons

verbaux médicaux, à partir des textes pré-annotés syntaxiquement par Cordial.

La version originale de Snomed contient 144 267 entrées (principalement des unités nominales,

et quelques adjectifs). Malgré sa grande couverture, la terminologie Snomed, tout comme les

autres ressources terminologiques existantes, ne saurait couvrir tous les termes et notions du

domaine médical dans son entièreté (Chuteet al., 1996). Pour cette raison, différentes méthodes

ont été implémentées pour enrichir la terminologie Snomed à partir des données de nos corpus.

Ces méthodes, ainsi que les ressources résultantes, seront décrites dans le chapitre suivant (cf.

chapitre 3, section 3.2.2).

2.3 Bilan

Dans ce chapitre, il a été question pour nous de présenter notre corpus, ainsi que les outils

de base nécessaires pour atteindre l’objectif que vise ce projet de thèse. La présentation des

différents corpus et leurs sources nous a permis de décrire les éléments qui caractérisent chaque

type de textes et de les analyser au prisme de la littérature.

Nous avons pu observer à partir de quelques critères de base que les corpus experts et

étudiants partagent certaines similitudes, tandis que le corpus des patients semble constituer

une passerelle entre les experts et le grand public. Quant au corpus des forums, il se démarque

des trois autres de par son caractère informel et sa structure interne qui est la moins accessible

automatiquement. Néanmoins, ce corpus joue un rôle tout aussi important que les autres dans

cette étude. En effet, la subdivision de notre corpus en 4 parties représentant différents types

de textes, a été un choix motivé par les objectifs visés dans ce travail. Chaque corpus joue un

rôle bien déterminé dans la méthode qui sera appliquée : les corpus experts et étudiants, de

par leur niveau de spécialisation élevé, sont considérés comme le point de départ. Ils fourniront

les patrons verbaux spécialisés recherchés pour la ressource de simplification. Les corpus des

patients et ceux des forums principalement, serviront de source d’extraction des patrons verbaux

relevant de la langue des non-experts, qui serviront d’équivalents pour les patrons spécialisés.

Ce chapitre nous a également permis de décrire les ressources et outils utilisés dans le cadre

de ce projet, et de préciser leurs rôles dans la chaîne de travail. Plusieurs raisons ont favorisé le

choix de Cordial comme analyseur syntaxique pour nos corpus. Premièrement, ses performances

(cf. chapitre 5, section 5.1.1.4) lors des campagnes d’évaluationEASY et PASSAGE (Paroubek

et al., 2007 ; De La Clergerieet al., 2008 ; Laurentet al., 2009) font de lui l’un des meilleurs

analyseurs syntaxiques du français. D’autre part, le type d’analyse que propose Cordial est d’un

grand intérêt pour cette étude. En effet, la grammaire des constituants, théorie linguistique de

base qui a servi de fondation aux concepteurs du logiciel Cordial, favorise la mise en évidence

des relations syntaxiques dans et entre les constituants de la phrase. De plus, cette approche

est sensée favoriser l’annotation des relations de dépendance entre les verbes et leurs arguments.

Les informations de ce type sont déterminantes pour notre étude, car l’une des tâches de

base de notre travail est l’extraction de patrons valenciels des verbes, à partir des résultats de

l’annotation syntaxique des phrases. De surcroît, le format des résultats de sortie que fournit

l’analyseur Cordial est convivial pour la tâche d’extraction automatique des patrons.

Par ailleurs, un élément non négligeable qui a également motivé notre choix est que Cordial,

comme son nom l’indique CORrecteur d’imprécisions et Analyseur Lexico-sémantique, a été

entrainé pour traiter efficacement les textes de type informel comme ceux du corpus des

forums. La méthode Cordial a été conçue de façon à ce que le logiciel puisse détecter les fautes

d’orthographe et de grammaire, ce qui prédispose l’outil à appréhender ce genre d’erreurs, afin

de proposer malgré cela une meilleure analyse syntaxique du texte. Il est important de souligner

que cette propriété ne se retrouve pas chez tous les analyeurs syntaxiques du français. Ainsi, en

optant pour Cordial comme analyseur syntaxique, nous avons espoir que sa technologie de base

sera bénéfique, non seulement pour le prétraitement des textes des corpus de type formel, mais

surtout pour les textes du corpus des forums.

En ce qui concerne la terminologie Snomed, cette principale source d’informations sémantiques

pour l’annotation de nos corpus a été choisie parce qu’elle est l’une des rares terminologies

médicales existantes et accessibles gratuitement pour le français. De surcroît, le système

de catégorisation des termes qu’elle offre nous permettra d’acquérir des patrons

syntactico-sémantiques des verbes à partir des phrases annotées syntaxiquement par Cordial.

Chapitre

3

Ce chapitre est consacré à la description de l’architecture de la méthode appliquée dans ce

travail de thèse. La figure 3.1 met en évidence les principales étapes de cette chaîne de travail,

à savoir le pré-traitement et l’annotation syntaxico-sémantique des corpus, l’extraction des

patrons syntaxico-sémantiques (pss), la validation par les experts de ces patrons verbaux, et

enfin l’élaboration de notre dictionnaire de simplification alignant despss spécialisés avec leurs

équivalents non spécialisés.

Fig. 3.1– Schéma de la méthode.

Cette méthode semi-automatique se caractérise par une interaction fréquente entre nous et

les différents automates implémentés. En effet, certaines tâches requièrent une vérification,

une évaluation et/ou une validation manuelle des résultats obtenus automatiquement. Cette

intervention a été particulièrement importante dans les deux dernières étapes qui sont marquées

par les petits bonhommes percevables sur notre schéma récapitulatif de la méthode (cf. figure

3.1).

3.1 Collection et pré-traitement des corpus

Les quatre types de corpus présentés dans le chapitre précédent sont collectés à partir de

différentes sources (chapitre 2, section 2.1.2) grâce à l’utilitaire Linux Wget

1

, lancé en ligne de

commande. Wget est un programme qui permet de télécharger des fichiers à partir du Web. Il

exige comme attribut L’URL de la page Web souhaitée, et comme résultat, il extrait la cible

du lien, c.-à-d. la page HTML telle qu’elle existe sur le Web, qu’il télécharge et enregistre

localement dans un fichier.

Fig. 3.2– Exemple de ligne de commande Wget.

La figure 3.2 présente un exemple de ligne de commande lancée dans un terminal pour une

requête Wget. L’option-r permet d’activer le téléchargement récursif des liens qui se trouveraient

dans la cible de l’url de départ, tandis que-l permet d’indiquer la profondeur à utiliser lors d’un

téléchargement récursif.

Les documents récupérés sont convertis en texte et au format UTF-8. Puis intervient une

phase de nettoyage semi-automatique de ces textes, afin de faciliter leur traitement automatique.

Dans cette intention, des scripts de pré-traitement sont définis et supportés par une phase de

vérification manuelle. À ce stade, entre autres tâches, nous effectuons :

— le remplacement des caractères spéciaux par leurs équivalents en UTF-8 ;

— la suppression de certains caractères spéciaux pouvant créer des conflits ;

— la suppression des fragments de textes tels que les liens vers des pages Web ;

— le rétablissement de la ponctuation dans certaines phrases dont la structure a été modifiée

lors des précédents traitements automatiques.

La dernière tâche de cette phase consiste en la conversion des textes au format UTF-16, afin de

les rendre compatibles avec Cordial, l’outil d’analyse syntaxique que nous utilisons pour l’étape

suivante.