Validation de l’approche de médiation sémantique

7.4 La plateforme d’interopérabilité

7.4.3 Validation de l’approche de médiation sémantique

Bien que la validation des outils et de l’approche DebugIT soit en cours, nous avons été capable de valider notre approche en comparant les résultats de résis- tance aux antibiotiques sur les années 2001-2007 rétrospectivement. Nous n’avons pu avoir accès aux données brutes de l’HEGP (nombre de cas) mais seulement aux pourcentages de résistance. Nous avons donc comparé les pourcentages de résistance au cours de cette période pour une sélection de couples antibiotique-bactérie. Nous indiquons par ailleurs le support sur lequel ces résultats sont obtenus (nombre de

2001 2002 2003 2004 2005 2006 2007

HEGP (rapport) 74% 70% 71% 70% 71% 70% 69%

DebugIT (SPARQL endpoint) 73% 72% 72% 71% 72% 70% 69%

Support 1805 2714 2895 2782 2837 2860 2725 Table 7.5 – Taux de sensibilité de E.Coli à la Trimethoprime à l’HEGP sur une période de 6 ans.

tests sur l’année).

Figure 7.10 – Graphique de taux de sensibilité de E.Coli à la Trimethoprime à l’HEGP sur une période de 6 ans.

Comme nous pouvons le constater les résultats bien qu’étant du même ordre, diffèrent légèrement. Plusieurs pistes sont évoquées à ce jour pour expliquer ces différences. Tout d’abord, les données extraites du rapport microbiologiste sont extraites directement du système qui génèrent les résultats. Ensuite, des algorithmes experts dédoublonnent les cas de doublons possibles. Un doublon dans cette étude est une même souche sur un même patient qui serait re-testé dans la même année. Enfin, notre expérimentation (qualité, ajout de sémantique et médiation) peut avoir généré des erreurs. Nous remarquons cependant que les pourcentages sont générale- ment plus élevés. L’erreur de doublon semble donc la plus cohérente. Nous pouvons voir par contre que dans quelques cas, nous avons un taux de résistance plus faible. Cela peut être dû aux doublons aussi (dans le cas où il y a plus de cas de résistance) pour la même souche.

2001 2002 2003 2004 2005 2006 2007

HEGP (internal report) 73% 85% 90% 91% 91% 91% 89%

DebugIT (SPARQL endpoint) 73% 86% 89% 91% 92% 91% 91%

total 1244 2404 2853 2780 2838 2850 2727 Table 7.6 – Taux de sensibilité de E.Coli à la Cefixime à l’HEGP sur une période de 6 ans.

Figure 7.11 – Graphique de taux de sensibilité de E.Coli à la Cefixime à l’HEGP sur une période de 6 ans.

7.5 Conclusion

Nous avons présenté dans ce chapitre les expérimentations effectuées dans le cadre de l’interopérabilité de données d’analyse microbiologiques en Europe. Localement, nous avons proposé une méthode d’évaluation de la qualité des données de l’HEGP pour l’interopérabilité dans le contexte défini par le projet, et nous avons évalué cette source. Nos résultats ont été validés durant l’exploitation des données, lorsque nous avons dû partager les données de l’HEGP avec le reste du projet.

2001 2002 2003 2004 2005 2006 2007

HEGP (internal report) 77% 72% 78% 76% 81% 81% 81%

DebugIT (SPARQL endpoint) 77% 72% 78% 78% 80% 82% 82%

Figure 7.12 – Graphique de taux de sensibilité de E.Coli à la Chloramphenicol à l’HEGP sur une période de 6 ans.

Ensuite, nous avons proposé une modélisation dimensionnelle basée sur HL7 afin d’offrir une vue d’analyse de nos données qui soit plus facilement interopérable (comparativement au modèle de données non HL7).

Nous avons par la suite mis en oeuvre une ontologie de données (DDO) que nous avons ensuite enrichie à l’aide d’informations relatives à la qualité de l’information, et aux vocabulaires utilisés en base. La DDO est mise en oeuvre dans tous les CDR européens du projet.

Puis, nous avons défini les spécifications de la plateforme d’interopérabilité de Debu- gIT, tout d’abord fonctionnelles et ensuite techniques. Avec la collaboration d’Agfa Healthcare, nous avons développé une plateforme d’interopérabilité sémantique ba- sée sur des règles de réécriture de requêtes et d’agrégation de données. Cette plateforme a la particularité de permettre une large montée en charge sur le temps. Nous avons validé les résultats de notre intégration en confrontant nos données aux données des experts locaux. L’évaluation de l’usage de la plateforme en routine est actuellement en cours et finira en Juillet 2012.

Conclusions, discussions et

perspectives

"L’homme sage n’est pas comme un vase ou un instrument qui n’a qu’un usage ; il est apte à tout." - Confucius.

Sommaire

8.1 Introduction . . . 178

8.2 Partage et modèles . . . 178

8.3 Partage et qualité . . . 180

8.4 Partage et sémantique . . . 180

8.5 La plateforme d’interopérabilité sémantique . . . 182

8.6 Contributions Personnelles . . . 182

8.7 Conclusion générale . . . 183

Les technologies de l’information ont évoluées. La récente démonstration d’IBM en la matière est surprenante1

, l’ajout de connaissances (ontologies) dans la base de faits de Watson (leur machine capable de battre des champions de Jeopardy, un jeu télévisé) est très intéressante et montre que la connaissance du monde, lorsqu’elle est correctement modélisée permet d’apporter à la machine des capacités de réponse dans un jeu de questions-réponses. Dans le domaine biomédical, la connaissance du monde n’est pas encore figée. Il reste complexe de représenter l’amplitude de cette connaissance difficile à modéliser et donc, à partager de manière consensuelle. Nous sommes donc dans un problème complexe, où le domaine est flou et où la machine a du mal à trouver son usage. Watson semble pouvoir gérer un monde fermé, nous pensons que la connaissance biomédicale évolue dans un monde ouvert, où l’inconnu est un concept.

1. http://www.lemondeinformatique.fr/actualites/lire-le-supercomputer-watson-d-ibm-defie-les-candidats- html

Le titre de cette thèse est large. Trop, diront certains. Je l’ai choisi volon- tairement. Car achever l’interopérabilité des systèmes d’information est, en fin de compte, résoudre le problème de la machine pensante. En effet, pour que deux machines se comprennent, il faut qu’elles aient la capa- cité d’interpréter des messages. Or, comme le disait Albert Einstein, "La connaissance s’acquiert par l’expérience, tout le reste n’est que de l’information.", les machines gèrent habituellement de l’information, sans connaissance.

8.1 Introduction

Nous avons, tout au long de ce manuscrit de thèse, élaboré sur un sujet : le partage d’informations biomédicales. Pour partager de l’information, il faut savoir où la trouver, comment y accéder et interpréter son contenu. Nous nous sommes rapidement rendus compte que la connaissance liée à la qualité de l’information à partager était nécessaire pour avancer dans ce domaine. Nous avons ensuite travaillé avec les standards (modèles, vocabulaires, ontologies) aidant à favoriser l’interopé- rabilité. Il est cependant naïf de penser que si nous parlions tous le même langage, nous serions capables de nous comprendre totalement et sans ambiguité. C’est pour- quoi nous avons ensuite abordé le problème par la mise en oeuvre d’une plateforme étant capable de se servir de la sémantique pour avancer dans la problématique générale. Chemin faisant, nous avons rencontré des verrous, posé des hypothèses, pour en fin de compte apporter une vision générale sur la problématique d’inter- opérabilité dans le domaine particulier de l’information biomédicale. Nous allons aborder la discussion et la conclusion de nos travaux par le biais de la probléma- tique de l’interopérabilité suivant les axes des représentations, des langages et des connaissances.

Dans le document Partage de données biomédicales : modèles, sémantique et qualité (Page 187-195)