• Aucun résultat trouvé

2.5 Résultats et évaluation

2.5.3 Deuxième expérience : le corpus Médical

Cette expérience a en partie été menée sur la base du travail accompli par Julia Medori au sein du projet Capadis (Medori [2008], Medori [2010]), en collaboration avec les Cliniques universitaires Saint-Luc de Bruxelles.

Contexte

Les hôpitaux gardent de nombreuses traces de leurs activités. Parmi celles-ci, l’archivage et l’enco- dage des lettres de sortie est particulièrement important, car ils conditionnent en partie l’obtention de certains financements publics. Les lettres sont rédigées à l’attention du médecin généraliste du patient lorsque celui-ci quitte l’hôpital. Elles résument son séjour en mentionnant, sous la forme de texte libre, les symptômes qu’il présentait, ses antécédents, les analyses effectuées, les actes posés, etc. Les documentalistes spécialisés résument le traitement prodigué en un ensemble de codes issus de l’ICD-9-CM47. Les codes désignent une variété d’éléments tels que des diagnostics, des procédures ou encore des facteurs aggravants comme les allergies, le tabagisme, mais aussi tout élément dans le passé médical du patient qui pourrait influencer son état de santé actuel. Le codage représente un travail de grande ampleur et est effectué par des documentalistes professionnels, spécialistes de cette tâche. Le coût que représente cette activité est donc assez important. Par conséquent, de nombreux hôpitaux tentent de réduire la charge de travail en essayant d’automatiser, au moins partiellement, le processus.

Présentation des données

La nomenclature ICD-9-CM contient 15.688 codes, composés de 4 ou 5 caractères. Les trois premiers représentent la catégorie générale d’un diagnostic, alors que les chiffres restants le caractérisent de manière plus précise (Figure 2.5). ICD-9-CM est divisé en 1.135 catégories générales.

Code Label

001 Choleras

0010 Cholera à Vibrio cholerae 0011 Cholera à Vibrio cholerae el tor 0019 Cholera, sans autre précision

Figure 2.5 : Extrait de la structure hiérarchique d’ICD-9-CM.

Le corpus d’évaluation comporte 19.692 lettres de sortie en français issues du service de Médecine Interne Générale et pour lesquelles les codes ont été manuellement attribués par les documentalistes. Les patients de ce service souffrent de maladies très variées, ce qui implique l’emploi d’un grand nombre de codes différents (dans ce cas, 6.029 codes provenant de 895 catégories). Les documenta- listes ont attribué aux lettres de sortie du corpus un total de 150.116 codes, ou 137.336 catégories, ce

47

International Classification of Diseases – Ninth revision – Clinical Modification (http://www.cdc.gov/nchs/ icd/icd9cm.htm).

2.5 Résultats et évaluation 79

qui représente une moyenne de 7,6 codes (7 catégories) par document. L’emploi de certaines catégo- ries peut être considéré comme rare, 27% des catégories (241 sur 895) étant utilisées moins de six fois, alors que la moyenne d’utilisation d’une catégorie est bien plus élevée (153). Les assignations manuelles des codes aux lettres de sorties constituent la référence pour l’évaluation de la désignation automatique des catégories.

Objectifs

Le but de cette expérience est d’évaluer la possibilité d’apporter aux documentalistes une aide au codage en leur fournissant une liste de codes les plus probables pour chaque document à analyser. Dans cette perspective, il a été décidé de classifier par rapport aux catégories générales (trois premiers chiffres du code) et de laisser le soin au documentaliste, expert du domaine, de choisir le ou les codes exacts dans les développements hiérarchiques de celles-ci. En effet, l’automatisation totale du processus semble un objectif difficile à atteindre, sachant que la lettre de sortie contient rarement toute l’information nécessaire aux choix des codes48.

L’encodage des lettres de sortie dans ICD-9-CM est un processus analogue à la classification, dans lequel les codes issus de cette nomenclature constituent les classes. La méthode symbolique que nous proposons nous semble tout à fait adaptée, entre autres en raison de sa capacité à fonctionner sans apprentissage, et donc sans avoir besoin d’un corpus d’entraînement annoté. Cet aspect est important car l’encodage des lettres de sortie selon ICD-9 va progressivement être abandonné, au profit d’ICD-1049, classification pour laquelle peu de données d’entraînement seront disponibles au début de son adoption. D’autre part, l’approche symbolique est capable de gérer les codes rares de la même manière que les codes plus courants, ce qui constitue également un argument important.

Travaux spécifiquement apparentés

Depuis le début des années 1990, de nombreuses études ont cherché à automatiser le processus d’en- codage des documents médicaux (Ananiadou et McNaught [2006], Ceusters et al. [1994], Zweigen- baum et Consortium Menelas [1995]). Les deux principales approches, celles basées sur la connais- sance (par exemple le système MedLEE, Friedman et al. [2004]) et celles par apprentissage artificiel (par exemple Autocoder, Pakhomov et al. [2006]), ont donné de bons résultats au Computational Me-

dicine Challenge en 2007 (Pestian et al. [2007]). Parmi les trois meilleurs systèmes, deux combinent

les approches statistique et symbolique, par exemple Farkas et Szarvas [2008], alors que l’autre ne propose qu’une méthode symbolique (Goldstein et al. [2007]).

Toutes ces études ont été développées pour l’anglais. En ce qui concerne le français, Pereira et al. [2006] proposent une méthode complètement symbolique. Celle-ci est basée sur un système d’in- dexation par rapport à la version française de MeSH, auquel est couplée une conversion vers ICD-10.

48

Des informations additionnelles peuvent généralement être trouvées par le documentaliste dans le dossier médical du patient. Cette source de données n’a cependant pas pu être intégrée dans cette étude.

49

L’OMS (Organisation Mondiale de la Santé) a déjà entrepris la préparation de l’ICD-11 (http://www.who.int/ classifications/icd/ICDRevision/en/index.html).

80 2 Indexation semi-automatique, une approche symbolique de classification de textes

La majorité de ces systèmes exploitent donc, d’une manière ou d’une autre, des connaissances lin- guistiques. Les résultats sont en général assez encourageants – Autocoder atteint par exemple une précision de deux tiers – mais les documents sont souvent déjà partiellement structurés (les diagnos- tics sont par exemple déjà annotés). Le nombre de codes et la variété des documents utilisés n’est pas toujours très importante non plus.

Paramètres particuliers de l’expérience

Afin d’élargir la couverture de la ressource de base, nous avons utilisé UMLS50 comme source de variations pour les termes fournis par ICD-9-CM. Le métathésaurus UMLS unifie et intègre en une seule et unique ressource plusieurs nomenclatures ou terminologies en différentes langues. À chaque concept correspond un identifiant unique51 qui permet d’extraire du métathésaurus différentes va- riantes lexicales reliées au terme ICD-9-CM d’origine (Figure 2.6).

Classe Terme Source

061 Dengue ICD-9-CM

Dengues UMLS

Fièvre dengue UMLS Infection par le virus de la dengue UMLS

Figure 2.6 : Définition de la classe « 061 » à l’aide de termes issus de ICD-9-CM et d’UMLS.

Lors de la construction des transducteurs, la méthode de normalisation choisie a été la racinisation (Snowball). Cette technique s’est imposée car elle est mieux adaptée que la lemmatisation (Tree- tagger) lorsque les textes contiennent un nombre important de termes techniques ou particuliers au domaine médical, pour lesquels aucune proposition de lemme n’est fournie.

En ce qui concerne la pondération des termes, la mesure TF.IDF n’a finalement pas été utilisée. Les tests que nous avons menés n’ont pas montré d’amélioration significative par rapport à la simple me- sure de la fréquence. Une cause possible provient de la nature des textes, principalement constitués de termes techniques ou spécifiques au domaine. Or, l’effet discriminant du TF.IDF d’un terme tech- nique important pour le codage peut disparaître si ce terme est utilisé de manière régulière à l’échelle du corpus.

Enfin, nous n’avons pas mené un test aussi complet que pour la première expérience. Les valeurs assignées aux multiplicateurs ont été choisies en fonction des valeurs optimales trouvées lors de la première expérience.

Résultats

L’évaluation a été réalisée sur 19.692 documents dont la codification par les documentalistes experts a servi de référence.

50

Unified Medical Language System (http://www.nlm.nih.gov/research/umls/)

51

2.5 Résultats et évaluation 81

Les résultats sont rapportés au tableau 2.2. La réduction de la liste des codes proposés pour un document est réalisée par une méthode de seuillage, dont la sélectivité peut être adaptée, selon que l’on veuille favoriser le rappel ou la précision. Évidemment, ces valeurs évoluent en sens inverse, un rappel élevé étant toujours accompagné d’une précision moindre. C’est la raison pour laquelle le rappel maximal est atteint lorsqu’aucune réduction de la liste de catégories n’est effectuée. Les détails concernant les différentes fonctions de seuil ne sont pas exposés dans le tableau. Seuls les meilleurs résultats, obtenus à l’aide de la fonction middle weight (voir Section 2.4.4), y sont repris.

Rappel (R) Précision (P) F-mesure (F) Nb. classes Seuil Meilleur rappel 52,74 20,69 27,37 19,6 Non Meilleure F-mesure 37,97 30,30 29,43 9,8 Oui

Tableau 2.2 : Résultats des test de classification sur le corpus Médical.

Par rapport à la première expérience, les résultats obtenus sont inférieurs mais cependant encoura- geants. Ils montrent que la méthode peut être adaptée à d’autres cas qu’à celui qui a servi à son développement.

Plusieurs explications peuvent être avancées pour expliquer l’écart de performance. Tout d’abord, la présence d’une grande quantité de termes techniques, de jargon ou de néologismes, qui ne sont pas toujours repris dans la terminologie, peut handicaper le rappel.

Ensuite, la complexité des dénominations utilisées dans la ressource servant de base à la construction des transducteurs, ICD-9-CM, s’est avérée être assez élevée. Il ne s’agit en effet pas à proprement parler d’un thésaurus, mais d’une classification, qui constitue une sorte de guide pour aider les do- cumentalistes lors de l’encodage. Par conséquent, les dénominations utilisées sont parfois très com- pliquées (beaucoup plus que les cas prévus initialement, voir section 2.3.2) ou se situent à un niveau conceptuel inadapté (trop général ou trop spécifique).

Enfin, rappelons qu’il a été établi par l’équipe de l’hôpital Saint-Luc que les lettres de sortie ne contiennent pas toujours suffisamment d’informations pour permettre leur encodage correct. D’autres documents du dossier médical du patient, dont fait partie la lettre de sortie, sont aussi parfois consul- tés par les documentalistes afin de formuler les codes adéquats.