Variété des systèmes terminologiques - Représentation de l’information médicale

2.4 Représentation de l’information médicale

2.4.3 Variété des systèmes terminologiques

Les systèmes terminologiques sont des outils s’attachant à définir le mode de re- présentation des concepts d’un domaine, leur sens et leur utilisation (Rector, 1999). Le raisonnement terminologique s’appuie sur une représentation ensembliste des concepts et de leur relations (par exemple, « ce patient est diabétique, donc il souffre d’une maladie métabolique » ; ou encore, « l’avant-bras fait partie du membre su- périeur, donc une fracture de l’avant-bras est une fracture du membre supérieur »). Les systèmes terminologiques ont vocation à servir de compromis entre le langage naturel et un langage formel informatique. Ils doivent donc avoir des propriétés for- melles autorisant un traitement informatique avancé tout en restant lisible par des humains. Ils servent à saisir, présenter, retrouver ou échanger des données cliniques sous une forme interprétable à la fois par l’ordinateur et par l’humain.

Exemples de ressources terminologiques

Medical Subject Headings (MeSH). Le fondateur de la National Library of Me- dicine(NLM), John Shaw Billings (1838–1913), a institué en 1879 la publication mensuelle de l’Index Medicus, classant par thème les articles publiés dans une sélec- tion de 5 000 périodiques scientifiques. Le MeSH est un thésaurus de mots clés uti- lisé depuis 1960 par les documentalistes de la NLM pour indexer manuellement les articles référencés dans l’Index puis dans Medline, sa contrepartie informatique16. La publication de l’Index a cessé en 2004, le relais étant complètement pris par Pubmed17, qui offre un accès gratuit à Medline.

Le MeSH est le fruit d’une réflexion entamée en 1947 en réponse à la difficulté à référencer par le contenu une littérature de plus en plus abondante. Sa première version comportait 4 300 mots clés qu’il était possible de combiner avec 67 points de vue (subheadings). Il est ainsi possible de spécifier, par exemple, que la recherche documentaire porte sur les aspects diagnostiques de la tuberculose : pour celà, le mot clé « Tuberculosis » est complété par le point de vue « diagnosis » pour don- ner le descripteur « Tuberculosis/diagnosis ». Par ailleurs, des termes synonymes sont associés aux mots clés. Le mot clé « Tuberculosis » compte « Kochs Disease », « Koch’s Disease » et « Koch Disease » parmi ses six synonymes. En 2013, le MeSH totalise plus de 213 000 termes associés pour 26 853 concepts (mots clés), soit une moyenne de 8 à 9 termes pour chaque concept, sans compter les variants obtenus

16. http://www.nlm.nih.gov/mesh/mesh_at_50/history_of_mesh.html 17. http://www.ncbi.nlm.nih.gov/pubmed/

par combinaison avec les points de vue, désormais au nombre de 83.

Les mots clés du MeSH sont disposés dans une hiérarchie à 11 niveaux. Ainsi « Tuberculosis » se situe en dessous « Mycobacterium Infections », car la tuberculose est un type d’infection mycobactériennes. On dit que le terme « Mycobacte- rium Infections » subsume le terme « Tuberculosis ». La relation de subsomption est également appelée relation taxinomique. Elle a des propriétés formelle qui per- mettent des raisonnements terminologiques. En particulier, toute instance d’un fils est instance du père : tout patient souffrant de tuberculose souffre d’une infection mycobactérienne. Par ailleurs, les propriétés du père sont héritées à ses fils : les infections mycobactériennes ont la propriété d’être dues à des mycobactéries et cette propriété est héritée par la tuberculose et la lèpre, dont les termes sont subsumés par « Mycobacterium Infections ».

La chaîne taxinomique conduisant à « Tuberculosis » dans le MeSH est donnée dans la FIGURE2.1. « Tuberculosis » lui-même a 22 fils dont certains ont encore des

fils, ce qui porte ici le nombre de niveaux hiérarchiques à 9. La requêtes dans Pub- med qui utilise le mot « Tuberculosis » identifié comme un mot clé par l’étiquette « [Mesh] » collée à sa suite (« Tuberculosos[Mesh] ») renvoie toutes les notices bi- bliographiques indexées avec le mot clé « Tuberculosis » ou un de ses fils (soit 151 867 notices le 13/04/2013). En effet, une référence indexée avec « Latent tuberculosis » traite d’une forme de tuberculose. Si le mot « Tuberculosis » est indiqué dans la requête comme un mot du texte de la notice (« Tuberculosis[text word] »), il sera cherché dans les mots clés, mais aussi dans le titre et dans le résumé de l’ar- ticle ; le moteur de recherche cherchera également les synonymes (comme « Koch disease ») dans le titre et dans le résumé (198 167 notices le 13/04/2013). Les re- quêtes font donc intervenir deux formes de raisonnement terminologique : la subsomption et la synonymie.

Classification internationale des maladies (CIM). Des statistiques de morta- lité (ou, plus précisément, de funérailles) ont été publiées à Londres à partir de 1603 (London Bills of Mortality), mais des registres étaient déjà tenus depuis 1528 (Greenberg, 1997). Les décès ont été classés selon leur cause à partir de 1629. Ces données ont été reprises par John Graunt (1620–1674), qui a publié en 1662 ses Ob- servations on the Bills of Mortality18. Il y propose des statistiques récapitulatives en utilisant une liste de 81 causes de décès, permettant leur classification uniforme et des comparaisons pertinentes d’année en année.

All MeSH Categories Diseases Category

Bacterial Infections and Mycoses Bacterial Infections

Gram-Positive Bacterial Infections Actinomycetales Infections Mycobacterium Infections Tuberculosis Latent Tuberculosis Peritonitis, Tuberculous Tuberculoma Tuberculoma, Intracranial Tuberculosis, Avian Tuberculosis, Bovine Tuberculosis, Cardiovascular Pericarditis, Tuberculous Tuberculosis, Central Nervous System Tuberculoma, Intracranial Tuberculosis, Meningeal Tuberculosis, Cutaneous Erythema Induratum Lupus Vulgaris Tuberculosis, Endocrine Tuberculosis, Gastrointestinal Tuberculosis, Hepatic Tuberculosis, Laryngeal Tuberculosis, Lymph Node King's Evil

Tuberculosis, Miliary

Tuberculosis, Multidrug-Resistant Extensively Resistant Tuberculosis Tuberculosis, Ocular Tuberculosis, Oral Tuberculosis, Osteoarticular Tuberculosis, Spinal Tuberculosis, Pleural Empyema, Tuberculous Tuberculosis, Pulmonary Silicotuberculosis Tuberculosis, Splenic Tuberculosis, Urogenital

Tuberculosis, Female Genital Tuberculosis, Male Genital Tuberculosis, Renal

L’intérêt de disposer d’un classification uniforme et consensuelle des causes de décès a été soulignée lors du premier congrès international des statistiques à Bruxelles en 1853 (World Health Organisation (WHO), 2013). Jacques Bertillon (1851–1922) a été missionné lors du congrès de 1891 pour coordonner un groupe de travail sur ce sujet. La classification résultante, qui comportait 161 termes, a été rendue 2 ans plus tard et révisée ensuite tous les 10 ans environ. à sa création en 1945, l’Organisation Mondiale de la Santé (OMS) a été chargée de ces actualisa- tions. L’OMS a donc livré la sixième version de la classification en 1948. Il s’agis- sait d’une refonte complète, incorporant non seulement les causes de décès, mais aussi l’ensemble des maladies et les conséquences des traumatismes, de manière à pouvoir coder la morbidité en plus de la mortalité.

La dixième version de la Classification Internationale des Maladies (CIM-10) est sortie en 1992 et comporte désormais environ 14 400 termes. Cette classification continue a être utilisée pour les statistiques de morbimortalité mais elle sert éga- lement à coder les diagnostics retenus à l’issue des hospitalisations, afin quantifier l’activité et d’en déterminer la contrepartie financière. Le codes de la CIM sont dé- signés par un vocabulaire contrôlé sans synonymes, qui seraient inutiles pour les usages visés. Il en résulte une ressource terminologique assez pauvre, en tous cas inutilisable pour représenter la réalité clinique. Ainsi, un phlegmon de la gaine de l’index de la main gauche sera codé « phlegmon des doigts et des orteils » (L030). Les détails perdus sont à l’évidence indispensables à la prise en charge du malade. Propriétés

Les ressources terminologiques doivent répondre à de nombreuses exigences, parfois contradictoires (Rector, 1999) : leur portée et leur niveau de détail (granula- rité des concepts et variété des relations) est dépendante des usages prévus, qui sont très variés ; un compromis judicieux entre niveau de détail, commodité d’emploi, lisibilité et formalisation doit être trouvé ; le langage médical est d’une grande idio- syncrasie syntaxique et sémantique ; il n’y a pas de conceptualisation préexistante de la médecine (inventaire des concepts avec leur définition, leur description, leurs relations) ; l’usage de la langue médicale par ses différents locuteur n’est pas uniforme ; la ressource doit évoluer parallèlement à l’évolution du langage médical, des connaissances et des habitudes de pratique, en préservant le sens des données déjà enregistrées. Les ressources terminologiques se distinguent selon la richesse de leur contenu, leur niveau de standardisation, leur degré d’organisation, de formalisation

et d’opérabilité (Fung et Bodenreider, 2012).

Richesse du contenu conceptuel. La richesse d’une ressource terminologique se mesure d’abord au nombre de concepts qu’elle comporte. Ce nombre dépend du domaine et de l’usage, qui déterminent respectivement la portée et le niveau de dé- tail nécessaires. Les ressources se distinguent ensuite par la richesse du contenu des concepts : définition, synonymes, propriétés. On nomme « glossaire » une termino- logie qui rend compte d’une tâche ou d’une activité dans un domaine et fournit une définition pour chaque terme.

Niveau de standardisation terminologique. Lorsqu’un terme préféré est associé à chaque concept, on parle de vocabulaire contrôlé. Une liste fermée de synonymes acceptés est souvent jointe. Les vocabulaires contrôlés évitent la polysémie et per- mettent de contrôler la synonymie. Ils réalisent une relation biunivoque entre les concepts et les termes préférés. L’interopérabilité sémantique des applications et des systèmes qui utilisent le même vocabulaire contrôlé est ainsi assurée.

Degré d’organisation et de formalisation. L’existence de relations permet de structurer la ressource. La relation de subsomption est la relation de base dans les ressources terminologiques. Nous avons vu qu’elle autorise, en principe, des raisonnements terminologiques intéressants. Un thésaurus, comme le MeSH, est une liste structurée de termes contrôlés et normalisés par la donnée d’une définition. Les ressources terminologique sont dites « formalisées » lorsqu’elles répondent à une structure conforme à des axiomes logiques et spécifiée de manière informatique. La formalisation est le propre des ontologies ; elle permet d’automatiser un raisonnement terminologique valide.

Le MeSH n’est pas formalisé car la relation qu’il utilise est en partie partono- mique et non pas purement taxinomique. Ainsi, « Hand » est fils de « Upper Ex- tremity », alors que le bras n’est pas un type de membre supérieur mais une partie du membre supérieur. L’héritage des propriétés n’est pas vérifié : tous les membres supérieurs s’attachent à l’épaule, ce qui n’est pas le cas de toutes les mains. Un raisonnement terminologique à partir de cette relation n’est donc pas assuré d’être valide, même s’il donne un résultat généralement adapté pour la recherche biblio- graphique.

Dans le document Utilisation d'une observation médicale informatisée à d'autres fins que les soins. Ingénierie des connaissances, évaluation des pratiques et recherche clinique (Page 143-148)