• Aucun résultat trouvé

Intégration via une ressource termino-ontologique existante

3.2 Intégration de ressources termino-ontologiques

3.2.4 Intégration via une ressource termino-ontologique existante

Le travail présenté dans cette section s’est fait dans la continuité de l’étude précédente ; le contexte et les RTOs à utiliser conjointement étaient les mêmes mais la RTO considérée pour établir les correspondances était la SNOMED CT. Contrairement à l’approche décrite dans la partie précédente, le but du travail de Jean Noël était d’utiliser la SNOMED CT telle quelle pour intégrer la CIM-10 et la CIM-O3 [184, 185, 57].

3.2.4.1 Une ressource termino-ontologique comme support à l’intégration

J’introduis d’abord le cadre conceptuel utilisé pour réaliser l’intégration de la CIM-10 et de la CIM-O3. Je décris ensuite la RTO que nous avons choisie comme support à ce processus puis je détaille la mise en œuvre des phases d’ancrage et de dérivation.

Sélection des concepts CIM-10 et CIM-O3. Préalablement à l’intégration, la liste exhaus-tive des codes CIM-10 (codes C00 à D48) et des codes CIM-O3 a été collectée à partir du NCI metathesaurus. Les codes d’en-tête (e.g., C00-C97 Malignant neoplasms) qui ne sont pas utilisés en pratique pour coder des diagnostics ont été retirés de cette liste.

Cadre conceptuel. Le cadre conceptuel choisi se base sur une RTO, qualifiée de support, et a été défini pour faciliter l’alignement de RTOs dont la structure est limitée à de simples hiérarchies [161, 186]. Cette RTO de support doit non seulement contenir les connaissances nécessaires pour couvrir les domaines des RTOs à aligner mais aussi avoir une structure plus riche que ces RTOs. Ce cadre, que nous avons utilisé dans le but de faire l’intégration entre les RTOs CIM-10 et CIM-O3 comme illustré dans la figure 3.6, comporte les deux étapes suivantes : — la phase d’ancrage qui vise à retrouver des mappings candidats, nommés ancres, entre les

concepts des RTOs à intégrer et la RTO qui sert de support,

— la phase de dérivation qui consiste à identifier les relations existant entre les concepts participant aux ancres au sein de la RTO de support afin d’identifier des correspondances entre les concepts des RTOs à intégrer.

Figure 3.6 – Cadre conceptuel pour l’intégration des RTOs CIM-10 et CIM-O3 via une RTO de support consistant en deux phases : l’ancrage et la dérivation.

Choix de la RTO de support. Nous avons choisi la SNOMED CT comme RTO de support pour deux raisons : sa couverture du domaine et ses caractéristiques ontologiques. Cette RTO vise en effet à décrire de manière exhaustive l’ensemble des connaissances du champ de la santé. Comme dit précédemment, elle est organisée suivant 19 concepts de haut niveau, incluant Clinical Finding dont Disease est l’un des descendants, et Body structure qui a parmi ses descendants les concepts Proliferative mass décrivant des concepts morphologiques et Anatomical structure décrivant des concepts topographiques. La SNOMED CT permet donc a priori de représenter à la fois les concepts de la CIM-10 et ceux de la CIM-O3. Par ailleurs, la SNOMED CT associe des définitions logiques à la plupart de ses concepts. Il est ainsi possible de décrire une tumeur dans la SNOMED CT grâce aux liens sémantiques suivants :

— associated_morphology qui a pour domaine une maladie et pour co-domaine une lésion histologique (i.e., une morphologie),

— finding_site qui a pour domaine une maladie et pour co-domaine une localisation anato-mique (i.e., une topographie).

Le choix de la SNOMED CT a également été motivé par le fait qu’elle fournit des tables de mapping (nommées SNCTmt dans la suite de cette partie) entre ses concepts et ceux de la CIM-10 mais aussi ceux de la CIM-O3. Ces mappings ont été établis manuellement avec pour objectif d’associer à chaque code SNOMED CT un ou plusieurs code(s) CIM-10 ou CIM-O3.

Phase d’ancrage. Cette phase a consisté en trois étapes (Figure 3.7) : l’identification des mappings candidats, le filtrage des ancres et la désambiguïsation des ancres multiples.

Figure 3.7 – Les trois étapes de la phase d’ancrage (source : [57]) : l’identification des mappings candidats, le filtrage des ancres et la désambiguïsation des ancres multiples. Les ancres qui ont été supprimées (*) correspondaient à des mappings erronés tandis que les ancres exclues (**) étaient des mappings corrects mais ne dénotant pas une équivalence entre les concepts mappés.

Deux ressources ont été utilisées pour la sélection des mappings candidats : les tables de mapping SNCTmt et le NCI metathesaurus afin d’identifier les CUI incluant à la fois un code SNOMED CT et un code CIM-10 ou CIM-O3. Ces mappings candidats constituaient les ancres. Pour éliminer les ancres incorrectes, nous avons effectué deux types de filtrage : d’après la hiérarchie de la SNOMED CT et d’après le comportement tumoral. Le filtrage selon la hiérarchie visait à supprimer les ancres impliquant des concepts qui ne représentaient pas les mêmes notions cliniques. Ainsi, le mapping était considéré erroné dans les cas suivants :

— pour les concepts CIM-10 : si le concept SNOMED CT n’était pas un descendant du concept Disease (64572001),

— pour les concepts CIM-O3 de morphologie : si le concept SNOMED CT n’était pas un descendant du concept Proliferative mass (416939005),

— pour les concepts CIM-O3 de topographie : si le concept SNOMED CT n’était pas un descendant de Anatomical structure (91723000).

Le filtrage selon le comportement tumoral a été appliqué uniquement aux ancres impliquant un concept CIM-10 ou un concept CIM-O3 de morphologie. Ce filtrage consistait à supprimer toutes les ancres impliquant des concepts ne décrivant pas le même comportement tumoral. Pour cela, Jean Noël a identifié manuellement les concepts SNOMED CT correspondant aux différentes classes de comportements tumoraux qui sont représentées dans la CIM-10 et dans l’axe morphologique de la CIM-O3 (Tableau 3.5).

Classes de comportement tumoral Concepts SNOMED CT correspondants

CIM-10

Primary malignant (C00-C75) Primary malignant neoplasm (372087000) Secondary malignant (C76-C80) Secondary malignant neoplastic disease (128462008)

Malignant tumor of unknown origin or ill-defined site (302817000)

Haematological malignancy (C81-C96) Malignant tumor of lymphoid, hemopoietic AND/OR related tissue (269475001) Multiple tumors (C97) Multiple malignancy (363500001)

Tumor in situ (D00-D09) Carcinoma in situ (109355002)

Melanoma in situ by body site (127330008) Benign tumor (D10-D36) Benign neoplastic disease (20376005)

Unpredictable tumor (D37-D48) Neoplastic disease of uncertain behavior (118616009) CIM-03

Benign (/0) Neoplasm, benign (3898006)

Undetermined behavior (/1) Neoplasm, uncertain whether benign or malignant (86251006)

Uncertain or unknown tumor behavior (/9) Neoplasm, malignant, uncertain whether primary or metastatic (6219000) In situ morphology (/2) In situ neoplasm (127569003)

Primary malignant morphology (/3) Malignant neoplasm, primary (86049000) Secondary malignant morphology (/6) Neoplasm, metastatic (14799000)

Tableau 3.5 – Concepts SNOMED CT correspondant aux classes de comportement tumoral de la CIM-10 et de la CIM-O3.

Le processus de désambiguïsation avait pour but de choisir une seule ancre pour les cas où un concept CIM-10 ou CIM-O3 était mappé à plusieurs concepts SNOMED CT. S’il existait une relation de subsomption entre les concepts SNOMED CT concernés, seule l’ancre impliquant le concept SNOMED CT le plus général a été gardée. Ce processus a d’abord été appliqué aux ancres issues des SNCTmt et du NCI metathesaurus, indépendamment. Dans un deuxième temps, les ancres désambiguïsées obtenues via chacune de ces ressources ont été regroupées et une deuxième désambiguïsation a été réalisée lorsque c’était nécessaire.

Pour évaluer les méthodes implémentées lors de cette phase, nous avons d’abord étudié la couverture des concepts CIM-10 et CIM-O3 au sein des ancres et comparé les résultats obtenus via les SNCTmt et le NCI metathesaurus. Nous avons ensuite mesuré l’impact des différentes étapes de la phase d’ancrage en déterminant le nombre d’ancres obtenues pour chaque concept CIM-10 ou CIM-O3 suivant leur cardinalité :

— ancres 1-N : un concept CIM-10 ou CIM-O3 a été mappé à plusieurs concepts SNO-MED CT,

— ancres 1-0 : un concept CIM-10 ou CIM-O3 n’a pu être mappé à aucun concept SNO-MED CT.

Phase de dérivation. Seules les ancres de cardinalité 1-1 ont été utilisées dans la phase de dérivation. Ainsi, chaque combinaison possible d’un concept CIM-O3 de morphologie et d’un concept CIM-O3 de topographie correspondait à une combinaison unique de deux concepts SNO-MED CT. Pour chacune de ces combinaisons, Jean Noël a cherché un concept SNOSNO-MED CT descendant du concept Finding et qui était équivalent à ou, à défaut, parent de chaque élément de la combinaison via les relations appropriées (Figure 3.8). Pour cela, il a exploité la version de la SNOMED CT disponible au format OWL DL et généré automatiquement des requêtes (i.e., DL-queries) exécutées sur la structure inférée de la SNOMED CT. Le raisonneur choisi était ELK étant donné sa capacité à classer cette RTO efficacement et rapidement [187]. Jean Noël a finalement vérifié si les concepts SNOMED CT obtenus étaient ancrés à un concept CIM-10.

Figure 3.8 – La phase de dérivation (source : [57]) : identification des concepts SNOMED CT de maladie permettant d’établir des correspondances entre les concepts CIM-10 et CIM-O3 (SCTID correspond à l’identifiant des concepts SNOMED CT).

Pour l’évaluation de cette phase, une analyse quantitative et une analyse qualitative des résultats obtenus ont été réalisées. Pour l’analyse quantitative, en plus de la couverture des concepts CIM-10 et CIM-O3 impliqués dans la dérivation, le nombre de dérivations trouvées pour chaque concept CIM-10 a été calculé d’après les cardinalités suivantes :

— dérivations 1-1 : un concept CIM-10 était associé à une combinaison unique de concepts CIM-O3 de morphologie et de topographie,

— dérivations 1-N : un concept CIM-10 était associé à plusieurs combinaisons de concepts CIM-O3 de morphologie et de topographie,

— dérivations 1-0 : un concept CIM-10 n’avait pu être associé à aucune combinaison de concepts CIM-O3 de morphologie et de topographie.

Pour l’analyse qualitative, les résultats ont été comparés avec le même fichier du NCI que dans le travail précédent. Nous avons ainsi déterminé le recouvrement de nos résultats avec les 23 694 combinaisons de concepts CIM-O3 de morphologie et de topographie du gold standard.

3.2.4.2 Résultats de l’intégration de la CIM-10 et de la CIM-O3 via la SNOMED CT

Au total, 852 concepts 10, 330 concepts O3 de topographie et 1032 concepts CIM-O3 de morphologie ont été traités dans cette étude.

Phase d’ancrage. La figure 3.9 présente le nombre de concepts CIM-10 et CIM-O3 impliqués dans des ancres. En considérant les deux ressources utilisées pour établir ces ancres, plus de 88% des concepts CIM-10 et CIM-O3 ont été mappés à un concept SNOMED CT, avec un pourcentage ayant atteint 99,3% pour les concepts CIM-O3 de morphologie.

Figure 3.9 – Nombre et pourcentage de concepts CIM-10 et CIM-O3 impliqués dans des ancres, selon la ressource utilisée pour établir ces ancres (source : [57]). La taille des cercles est proportionnelle au pourcentage de recouvrement des RTOs (NCI Mt désigne le NCI metathesaurus).

Le tableau 3.6 présente les résultats obtenus lors de l’étape de filtrage. Le filtrage selon la hiérarchie ne s’est pas avéré très utile pour ce qui est des ancres obtenues par les SNCTmt. En revanche, cela a été efficace pour filtrer les ancres issues du NCI metathesaurus. En ce qui concerne le filtrage suivant le comportement tumoral, il a eu globalement pour effet de diminuer le nombre de concepts impliqués dans des ancres de cardinalités 1-1 et 1-N, excepté pour les concepts CIM-10 dont la participation dans les ancres (obtenues via les SNCTmt) de cardinalité 1-1 a augmenté.

L’impact de l’étape de désambiguïsation est détaillé dans le tableau 3.7. Après regroupement des ancres issues des ressources utilisées pour les établir, le nombre de concepts 10 et CIM-O3 impliqués dans des ancres a augmenté. Au final, le nombre de concepts utilisés dans la phase suivante (car impliqués dans des ancres de cardinalité 1-1) était donc de : 487 concepts CIM-10 (57,2%), 127 concepts CIM-O3 de topographie (38,5%) et 901 concepts CIM-O3 de morphologie (87,3%). Notons que la couverture des concepts CIM-10 et celle des topographies CIM-O3 sont corrélées car les diagnostics de cancer dans la CIM-10 sont regroupés suivant la localisation anatomique des tumeurs. Ainsi, l’absence d’ancres pour un concept CIM-O3 de topographie

Étapes Cardinalités des ancres

CIM-10 CIM-O3

Topographie Morphologie SNCTmt NCI Mt SNCTmt NCI Mt SNCTmt NCI Mt Initial 1-1 79 516 4 132 960 539 1-N 637 115 283 152 49 465 1-0 136 221 43 46 23 28 Filtrage selon 1-1 79 572 4 125 959 847 1-N 637 48 282 130 49 150 la hiérarchie 1-0 136 232 44 75 24 35 Filtrage selon 1-1 159 288 912 838 1-N 507 27 48 103 le comportement tumoral 1-0 186 537 72 91

Tableau 3.6 – Distribution des concepts CIM-10 et CIM-O3 impliqués dans des ancres obtenues via les SNCTmt et le NCI metathesaurus (NCI Mt) après chaque étape de filtrage.

a automatiquement résulté en l’absence d’ancres pour les concepts CIM-10 impliquant cette localisation anatomique. En revanche, la large couverture des concepts CIM-O3 de morphologie s’explique par deux aspects : (i) la même lésion histologique peut exister pour des localisations anatomiques différentes, et (ii) la description de ces lésions est plus précise dans la CIM-O3 que dans la CIM-10 (ce qui explique aussi les nombreuses dérivations 1-N).

Cardinalités des ancres

CIM-10 CIM-O3

Topographie Morphologie SNCTmt NCI Mt SNCTmt NCI Mt SNCTmt NCI Mt Étapes

Avant désambiguïsation 1-1 159 288 4 125 912 838 1-N 507 27 282 130 48 103 Après désambiguïsation 1-1 448 302 131 184 957 879 1-N 218 13 155 71 3 62

Tableau 3.7 – Désambiguïsation des ancres obtenues via les SNCTmt et le NCI metathesaurus (NCI Mt), indépendamment. Les ancres 1-0 ne sont pas présentées car leur nombre restait inchangé lors de cette étape.

Phase de dérivation. Parmi les concepts impliqués dans les ancres de cardinalité 1-1, 203 concepts CIM-10 (41,6%) ont pu être associés à 127 concepts CIM-O3 de topographie (100%) et 892 concepts CIM-O3 de morphologie (99%) lors de la phase de dérivation. Sur les 203 dérivations obtenues, quasiment la totalité d’entre elles (192) étaient de cardinalité 1-N. Un exemple des 11 dérivations 1-1 obtenues est le concept CIM-10 Benign neoplasm of duodenum (D13.2) associé à la combinaison du concept CIM-O3 de morphologie Lipoma, NOS (8850/0) avec le concept CIM-O3 de topographie Duodenum (C17.0).

Sur les 157 550 mappings du gold standard, 84,8% des mappings n’ont pas pu être évalués en l’absence d’ancrages des concepts CIM-10 et CIM-O3 impliqués dans les mappings. Notre approche a néanmoins permis de retrouver 11 932 mappings identiques à ceux du SEER (soit 47,8% des mappings restants).

3.2.5 Conclusions

Les techniques mises en œuvre dans les deux travaux de cette section pour permettre l’inté-gration de deux RTOs biomédicales sont diverses (Figure 3.1) : elles exploitent les deux types de ressources externes et sont donc formal resource-based (utilisation du NCIt et de la SNOMED CT décrits en OWL DL et du modèle créé) et informal resource-based (mappings fournis par le NCI metathesaurus et les SNCTmt) et sont aussi du type model-based puisqu’un raisonneur (ELK) a été nécessaire pour établir les correspondances.

Le premier travail a montré qu’il était possible de créer un modèle à partir du NCIt pour fournir une vue sémantiquement intégrée et exploitable par les machines de deux RTOs qui

ont vocation à être utilisées conjointement. Le NCIt n’a pu être utilisé tel quel car il ne fait pas la distinction entre les morphologies et les diagnostics mais aussi parce que les diagnostics qu’il décrit ont un site primitif mais il n’est pas spécifié que le site anatomique concerné peut également être une partie de ce site (en plus de lui-même). La deuxième étude a illustré que le cadre conceptuel défini initialement pour l’alignement de RTOs est adapté pour mettre en correspondance des RTOs décrivant des notions disjointes et complémentaires. Les méthodes implémentées pour filtrer et désambiguïser les ancres obtenues à partir de ressources externes se sont appuyées sur la structure des RTOs à intégrer qui étaient pourtant peu structurées. Cela a résolu certaines limites des approches utilisées par les ressources externes pour constituer leurs mappings, à savoir une approche morphosyntaxique pour le NCI metathesaurus et manuelle pour les SNCTmt. Les résultats obtenus dans ces deux études sont prometteurs car des mappings complexes impliquant un concept CIM-10 et deux concepts CIM-O3 ont été trouvés. Cependant, l’étape visant à établir les mappings entre les concepts des RTOs à intégrer et les concepts de la RTO utilisée de base au modèle / comme support mérite d’être améliorée. Le travail de Jean Noël couvrait un peu plus de concepts CIM-O3 de morphologie et moins de concepts CIM-10 et CIM-O3 de topographie. Il serait intéressant de combiner les résultats des deux travaux afin d’obtenir une couverture supérieure des RTOs à intégrer. Notons finalement que l’étude réalisée par Vianney a obtenu de meilleurs résultats mais a nécessité un travail plus conséquent avec la création d’un nouveau modèle. Il est donc difficile de déterminer quelle RTO, de la SNOMED CT et du NCIt, est la plus adaptée pour utiliser conjointement la CIM-10 et la CIM-O3.

Les deux études présentées dans cette section ont indirectement mis en évidence des défauts de qualité au sein de la RTO utilisée comme base du modèle d’intégration ou comme support. Plus précisément, les facteurs d’exhaustivité de la couverture et d’exactitude définis par Zhu et al. [114] sont concernés. En effet, nous avons observé l’absence de certains concepts dans le NCIt lorsque des concepts CIM-10 n’ont pas pu être intégrés au modèle car les diagnostics corres-pondants n’existaient pas dans le NCIt. Nous avons également identifié qu’un nombre important de concepts SNOMED CT étaient décrits comme enfants d’un même concept alors qu’ils ne devraient pas l’être. Par ailleurs, via les codes CIM-10 instanciant plusieurs concepts de diag-nostics, nous avons noté que les concepts NCIt correspondants étaient reliés à de multiples sites anatomiques. Par exemple, le concept CIM-10 Malignant neoplasm : Caecum (C18.0) a été mappé au concept NCIt Malignant Cecum Neoplasm (C9329) qui est relié aux cinq sites anatomiques sui-vants : Gastrointestinal System, Cecum, Colon, Intestine et Colorectal Region. Le concept CIM-10 C18.0 instanciait finalement les concepts Malignant, primary site - Cecum Reflexive part, Malignant, primary site - Colon Reflexive part et Malignant, primary site - Colorectal Region Reflexive part dans le modèle créé. Ce type de situation révèle deux sortes de problèmes au sein du NCIt :

— l’absence de certaines relations. En effet, Cecum et Colon devraient être associés à Colorectal Region via une relation de type part_of.

— des incohérences structurelles dues à l’héritage multiple qui est parfois utilisé pour refléter la polysémie des concepts. Ce problème typique des RTOs biomédicales a été qualifié d’is_a overloading par Guarino [188] et illustré dans le NCIt par Kumar et Smith [189]. Ainsi, Malignant Cecum Neoplasm est décrit dans le NCIt comme sous-concept de Cecum Neoplasm et de Malignant Colon Neoplasm pour préciser que c’est un type de néoplasme du cæcum et un type de cancer du colon. C’est pour cette raison qu’il a pour site anatomique Colon, ce qui ne devrait pas être le cas car le cæcum n’est ni une partie, ni un sous-concept du colon.

3.3 Synthèse et perspectives

Trois constats ressortent de ce chapitre : (i) des techniques de différents types peuvent être utilisées pour établir des correspondances entre RTOs, (ii) les ressources externes sont utiles à l’alignement et à l’intégration mais elles peuvent nécessiter de réaliser des étapes supplémentaires, et (iii) l’utilisation conjointe de RTOs permet de faire indirectement de l’évaluation.

Dans les quatre travaux présentés dans ce chapitre, nous avons utilisé plusieurs techniques afin d’établir des correspondances entre RTOs. Pour l’alignement, nous avons exploité une technique informal resource-based pour filtrer les mappings obtenus par notre méthode language-based. Dans le cas de l’intégration, c’est une technique informal resource-based qui a permis d’obtenir les mappings avec une RTO intermédiaire tandis que la technique formal resource-based a servi à mettre en correspondance les RTOs à intégrer. Nous avons utilisé ces différentes techniques de manière séquentielle. Certains travaux participant aux campagnes OAEI offrent la possibilité d’exécuter en parallèle différentes techniques puis de fusionner leurs résultats [157]. Par exemple, SAMBO propose des techniques de types string-based, language-based, taxonomy-based, informal resource-based et instance-based qui peuvent être combinées dans l’ordre choisi par l’utilisateur du système [190]. Il serait intéressant d’explorer cette possibilité.

Les ressources externes exploitées dans nos études ont été utiles dans de multiples situations : pour filtrer des mappings, pour évaluer des mappings, pour établir des mappings entre les RTOs à intégrer et pour servir soit de base au modèle d’intégration, soit de support. Cependant, lors du processus d’intégration, il a été nécessaire de mettre en œuvre des étapes supplémentaires afin de corriger certaines connaissances décrites dans ces ressources. Ainsi, nous avons dû modifier l’organisation des concepts de maladie et de morphologie de la RTO utilisée comme base du modèle d’intégration et compléter la description des concepts anatomiques. Dans la seconde étude, nous avons filtré les mappings fournis par une ressource informelle afin d’éliminer ceux qui associaient des concepts appartenant à des hiérarchies différentes ou dont le comportement