• Aucun résultat trouvé

3. Enrichissement d’une ontologie du domaine médical

3.4 Évaluation

Dans cette section, nous présentons successivement les résultats des évaluations menées sur deux corpus en français, constitués chacun d’articles scientifiques et de recommandations de bonne pratique médicale téléchargées à partir du site du CISMeF. La première (cf. Tableau 3.3) concerne l’identification des entités médicales dans les textes en appliquant les règles de reconnaissance présentées à la Section 3.2.2. La seconde (cf. Tableau 3.4) porte sur l’extraction et la validation de relations sémantiques grâce à la méthode présentée à la Section 3.3.3.

3.4.1 Évaluation de l’identification de concepts

Le Tableau 3.2 donne le nombre de règles développées pour identifier chaque type d’entités médicales. On notera que globalement, il n’y a pas de grosses disparités dans le nombre de règles nécessaires pour reconnaître ces différents types d’entités. Néanmoins, la complexité des noms de maladie se traduit par un nombre de règles plus important pour ce type sémantique contrairement aux noms de médicament qui peuvent être facilement répertoriés. L’ensemble des règles de reconnaissance est complété par des listes d’entités regroupant des éléments caractéristiques qui permettent d’identifier la présence d’un type sémantique comme les noms de médicaments, les noms des examens cliniques, etc. Ainsi, nous avons construit les listes suivantes : maladie (1516 instances), symptôme (438 instances), traitement (600 instances), examen (836 instances) et enfin médicament (2429 instances).

Type d’entités Nombre de règles

Maladie 38 Symptôme 32 Examen 27 Traitement 30 Médicament 26 Total 153

3. Enrichissement d’une ontologie du domaine médical

112 Le Tableau 3.3 résume les résultats obtenus en appliquant nos règles de reconnaissance d’entités médicales sur un sous-ensemble sélectionné aléatoirement, d’une taille de 1,5 Mo (soit environ 130 000 mots), du corpus médical de la campagne d’évaluation EQueR. Les mesures utilisées sont classiquement la précision et le rappel, qui se définissent ici de la façon suivante :

Entités médicales Nombre d’entités39 Précision Rappel F1-mesure

Maladie 1826 0,95 0,80 0,86 Symptôme 444 0,84 0,76 0,79 Examen 226 0,94 0,93 0,93 Traitement 581 0,86 0,81 0,83 Médicament 191 0,93 0,88 0,90 Moyenne 654 0,90 0,84 0,86

Tableau 3.3 Résultats de la reconnaissance des entités médicales

La F1-mesure, moyenne harmonique entre la précision et le rappel, est utilisée comme mesure synthétique. Ces mesures sont calculées par comparaison avec une annotation manuelle que j’ai faite du corpus d’évaluation. Les résultats de notre méthode, donnés par le Tableau 3.3, montrent une précision et un rappel supérieurs ou égaux à 83% en moyenne, ce qui constitue un bon niveau pour ce type de tâche. Globalement, ils sont comparables aux résultats des meilleurs systèmes de reconnaissance d’entités nommées concernant des concepts très généraux tels que les noms de personnes ou les lieux (conférence CoNLL) : la F1-mesure du meilleur système est de l’ordre de 88% pour l’anglais, 72% pour l’allemand et 81% pour l’allemand. On peut noter en particulier le niveau élevé de la précision qui caractérise un niveau de fiabilité très significatif. Cette propriété est d’autant plus importante dans le cas

3. Enrichissement d’une ontologie du domaine médical

présent que la détection des entités sert ensuite de point de départ à l’extraction des relations. Le rappel pourrait quant à lui être amélioré en étant plus exhaustif dans les listes d’entités constituées. L’analyse des erreurs résultant de l’application des règles de reconnaissance montre que la majorité des erreurs porte sur la reconnaissance partielle des entités médicales. Par exemple, dans le passage : « l’encéphalopathie de Gayet Wernicke… », le terme « Wernicke » n’est pas identifié en tant que complément de l’entité maladie « encéphalopathie de Gayet » ou encore dans l’expression suivante : « … pleurectomie partielle …», seulement le terme « pleurectomie » est reconnu comme un traitement.

3.4.2 Évaluation de l’extraction des relations

Concernant l’extraction et la validation des relations sémantiques, nous avons appliqué la méthode présentée à la Section 3.3.3 sur 65 Mo du corpus utilisé dans le cadre du projet Technolangue Atonant, soit environ 10 millions de mots. Les patrons d’extraction appliqués avaient été préalablement appris à partir de la totalité du corpus médical EQueR, soit environ 16 millions de mots. Contrairement au cas des entités, l’annotation manuelle de référence n’a pas été réalisée en parcourant tout le corpus mais en jugeant de la présence effective d’une des quatre relations cibles parmi les phrases abritant des relations candidates, c’est-à-dire les phrases contenant au moins deux entités compatibles avec des relations cibles. Par conséquent, seule la validation des relations candidates est évaluée ici. Pour les mesures d’évaluation, nous avons à nouveau fait appel à la précision et au rappel, définis comme suit :

Comme dans le cas de la reconnaissance des entités, l’extraction et la validation des relations se caractérisent par une forte précision et un rappel un peu moins élevé (cf. Tableau 3.4). Cependant, la différence entre précision et rappel est plus accentuée dans ce cas. On peut donc avancer que les relations produites par la méthode que nous avons proposée sont globalement d’une bonne fiabilité mais que les patrons linguistiques appris sur le corpus médical EQueR

3. Enrichissement d’une ontologie du domaine médical

114 ne couvrent pas toutes les formes par lesquelles les relations cibles se manifestent dans le corpus Atonant.

La bonne précision obtenue par l’application des patrons lexico-syntaxiques construits est incontestablement liée à la spécificité de ces derniers qui sont appris à partir de la généralisation de deux phrases candidates contenant la relation cible. Toutefois, nous avons relevé deux grandes causes d’erreurs. Une première cause concerne le degré de généralité de certains patrons. Il s’agit en effet de l’utilisation des patrons moins spécifiques tels que les patrons regroupant plusieurs opérateurs d’alignement ((*s*) et (*g*)). Ces patrons permettent ainsi de détecter automatiquement des relations sémantiques non valides, i.e. des couples d’entités médicales non liées par la relation identifiée. Par exemple, la relation Soigne (cf. Figure 2.2) entre le médicament « insuline » et la maladie « acidocétose diabétique » est validée à partir de la phrase suivante « L’insuline provoquera un phénomène d’acidocétose diabétique. » par le patron « <medicament> (*g*) DET_ART (*g*) (*s*) <maladie> ». La deuxième cause d’erreurs porte sur l’imperfection de certaines règles de reconnaissance des entités médicales. Plus précisément, il s’agit des relations validées entre des entités médicales incorrectes. Par exemple, dans la phrase « L’antibiothérapie pour traiter les personnes atteintes d’une maladie gastroentérique. », la relation Traite (cf. Figure 2.2) entre « antibiothérapie » et « personnes atteintes » a été validée car l’expression « personnes atteintes » a été identifiée comme une maladie en appliquant les règles de reconnaissance. Cette difficulté peut néanmoins être surmontée en améliorant l’écriture des règles de reconnaissance. Le rappel quant à lui est le résultat de l’absence de reconnaissance des entités médicales dans le corpus déclenchant le processus d’extraction. En effet, reconnaître les deux entités impliquées dans la relation cible est nécessaire pour identifier les relations candidates dans les textes et par conséquent, augmente le nombre de relations sémantiques à valider.

Relations Précision Rappel F1-mesure

Maladie – Examen 0,92 0,63 0,74

Maladie – Médicament 0,91 0,59 0,71

Maladie – Traitement 0,92 0,69 0,78

Maladie – Symptôme 0,90 0,65 0,75

Moyenne 0,91 0,64 0,75

3. Enrichissement d’une ontologie du domaine médical

La comparaison avec d’autres travaux est quant à elle difficile du fait de la diversité des types de relations considérés, des corpus et des approches adoptées. Néanmoins, il est possible de donner quelques éléments de situation. En utilisant des patrons linguistiques élaborés manuellement pour caractériser des relations d’inhibition dans des phrases extraites de la base Medline, (Pustejovsky et al., 2002b) obtient ainsi une précision de 94% et un rappel de 58,9%. Le Tableau 3.4 montre que nous obtenons des résultats globalement comparables en construisant ces patrons linguistiques de manière automatique. Le processus de validation des relations extraites peut également être envisagé sous l’angle de la classification : une relation candidate est alors classée comme pertinente ou non pertinente. C’est l’approche retenue par (Craven, 1999) ou par (Rosario et al., 2004). En utilisant un classifieur bayésien naïf40 sur des relations candidates de type « subcellular-location » (Identité de la protéine – localisation cellulaire de la protéine) extraites de Medline, (Craven, 1999) fait état d’une précision de 78% et d’un rappel de 32%. Dans le cas de (Rosario et al., 2004), le classifieur n’est plus seulement binaire. Il s’agit en effet de discriminer les relations intervenant entre un traitement et une maladie : 8 relations sont ainsi distinguées qui recouvrent la relation Traite à laquelle nous nous sommes attaché mais également des relations exprimant qu’un traitement peut prévenir une maladie ou qu’une maladie est un effet secondaire d’un traitement. (Rosario et al., 2004) rapporte les évaluations menées avec plusieurs types de classifieurs et obtient les meilleurs résultats avec un réseau de neurones, la précision étant alors de 96,9%. Il est à noter que ce travail s’appuie sur des ressources plus étendues que les nôtres puisqu’il fait appel à un analyseur syntaxique de surface pour produire les groupes syntaxiques correspondant à la structure des phrases et qu’il exploite également la ressource sémantique que constitue le MeSH. Enfin, (Mukherjea et al., 1999) exploite les sources de données du Web pour apprendre automatiquement des relations sémantiques intervenant entre des entités médicales comme la relation de causalité entre une maladie et une entité biologique. Pour ce faire, ils interrogent des moteurs de recherche avec comme requête des patrons lexico-syntaxiques écrits manuellement en utilisant les termes issus des concepts médicaux de l’UMLS tels que les gènes, les protéines, les vitamines, etc. Ainsi, pour la relation de causalité, (Mukherjea et al., 1999) obtient une précision de 82% et un rappel de 85%.

3. Enrichissement d’une ontologie du domaine médical

116