• Aucun résultat trouvé

Connaissances liées à la qualité de l’information

sources de données de l’hôpital (par exemple le système informatique de gestion des résultats d’analyse de laboratoire) pose forcément le problème de la qualité de l’in- formation. Comme nous l’avons vu dans l’état de l’art, la qualité de l’information est tout d’abord liée au contexte d’utilisation de celle-ci. Dans un contexte de soin, l’information du dossier patient est très certainement adaptée. Le médecin utilise l’informatique pour une partie de ses tâches quotidiennes alors qu’il se consacre à son activité principale : soigner. Le système d’information lui propose des services pouvant l’aider dans ses tâches quotidiennes, comme la prescription médicamenteuse informatisée, la prise de rendez-vous, la réservation de salles, la demande et le suivi d’actes médicaux auprès de confrères dans l’hôpital, mais aussi et surtout, le codage des actes et des diagnostics pour le suivi de gestion de l’activité de l’hôpital. Toutes ces tâches n’ont pas le même impact dans le travail du professionnel de santé. Pour la gestion de la prescription des médicaments, le médecin peut entrer rapidement quelques lettres que l’infirmière comprendra dans le champ ’commentaire’ et se pas- ser de chercher dans la liste déroulante le médicament précis qu’il faut donner au patient. De même, il peut tout aussi bien se passer d’utiliser l’outil informatique pour demander qu’un médicament soit prescrit au patient. Enfin, l’infirmière peut stopper la prescription pour diverses raisons comme un problème de mauvaise réac- tion au médicament, sans que le système d’information en soit informé. Ces cas de figure ne sont pas des cas particuliers dans le contexte du soin, car la priorité est, et restera le soin. Les systèmes d’information tendent cependant à être de mieux en

mieux adaptés au soin, et ce faisant, permettent une seconde utilisation des don- nées du système d’information pour des analyses épidémiologiques ou pour de la recherche clinique. Mais même dans ce cas, il est et sera toujours difficile d’avoir une information parfaite en terme de qualité et de sémantique. C’est pourquoi notre première contribution vise à mettre en oeuvre un cadre méthodologique d’évaluation de la qualité de l’information biomédicale d’une source d’information dans le cadre de sa seconde utilisation, l’analyse et le partage d’information.

6.2.1 La qualité de l’information et la sémiotique

C’est dans le contexte de l’approche sémiotique définie dans le chapitre 2.4.3 que nous proposons une lecture de la qualité de l’information stockée dans les bases de données médicales dans le cadre spécifique de l’interopérabilité des données de santé. En effet, en analysant l’information issue du système d’information de l’hôpital, nous nous sommes rendus compte que celle-ci était difficile à lire et à interpréter. Pour plusieurs raisons :

– La structure de l’information d’abord, la manière dont elle est stockée et com- ment la relier dans ces structures de stockage.

– Le vocabulaire de l’information ensuite, comment interpréter la valeur du champ ’nom antibiotique’, y a t-il des doublons ?

– Enfin, la qualité des objets de la base de données source, la date de fin de la prescription était-elle correcte si elle était supérieure à la date de début ? Nous nous sommes alors posés la question de la nature de l’information et de sa validité. On trouve beaucoup de littérature concernant la qualité de l’information, mais celle-ci traite majoritairement de manière séparée les critères de mesure de chaque domaine (structure, vocabulaire et objet). Aucun papier ne propose de mé- thode intégrée permettant d’évaluer la qualité d’une source d’information classifiée suivant les 3 axes mentionnés.

L’information stockée dans le système d’information clinique peut ainsi être définie suivant trois dimensions :

– les données, ou les instances d’objets du monde réel, sont stockées physique- ment dans les bases de données de santé,

– les modèles d’information représentent des concepts et des relations (parmi d’autres propriétés) qui permettent d’organiser et de structurer l’information, – les systèmes terminologiques en santé fournissent les termes utilisés pour dé-

signer des concepts et des relations.

Pour sa part, l’ISO distingue les terminologies (listes de termes), les thésaurus (index et synonymes), les classifications (avec des relations génériques) ou les voca-

bulaires (avec des définitions) et les ontologies (ISO TS17117). A la différence des autres systèmes terminologiques, une ontologie peut représenter les 3 sommets du triangle (concepts, termes et instances). D’une manière générale, on utilise une on- tologie dans le domaine de la santé pour représenter une formalisation du domaine (concepts) et des termes d’un système d’information clinique. Nous proposons d’ef- fectuer une classification des mesures de qualité de la littérature en fonction de ces trois dimensions définies de la manière suivante : concepts, termes et objets. Nous ne discutons pas des rapports mouvants qu’il peut y avoir entre les objets, les termes et les concepts [Bourigault 1999]. Nous sommes dans un système d’information réel pour lequel ces rapports sont fixés par la pratique.

Figure 6.1 – Le triangle de qualité de l’information (TQI)

Les trois dimensions citées plus haut sont représentées par les sommets du triangle. Chaque sommet sera évalué et amélioré grâce à la méthode TDQM3 ([Wang 1998]). Nous rappelons que la méthode TDQM est une méthode globale d’audit, d’évalution, d’amélioration et de surveillance de la qualité de l’information en 4 étapes. Nous proposons l’utilisation de cette méthode pour chaque sommet du triangle, tout d’abord pour en évaluer la qualité, puis pour l’améliorer et la surveiller.

Les scores de chacun des sommets peuvent être obtenus suivant différentes mé- thodes de la littérature ; nous en avons retenu certaines que nous avons jugées adé- quates à notre domaine d’application. La moyenne des 3 scores définira un score global de qualité (GQ) qui permettra de déterminer le niveau de qualité de la source de données. La mise en œuvre de ce modèle vise à mesurer la distance entre des données et leur domaine sémantique de référence.

6.2.2 Qualité de l’information source pour l’interopérabilité

Nous avons mis en œuvre la méthodologie TDQM en quatre étapes pour évaluer le score qualité de chaque sommet. Ces quatre étapes peuvent être regroupées en deux processus complémentaires : l’évaluation (audit et qualification) de la source d’information en amont du processus de chargement des données, et l’amélioration ou l’alignement (standardisation et surveillance) lors du chargement des données dans l’entrepôt de données. Nous présentons d’abord, pour chaque sommet du tri- angle, les méthodes d’évaluation que nous avons utilisées, puis, les méthodes d’ali- gnement utilisées.

6.2.2.1 Evaluation Audit

La phase d’audit de chacun des sommets s’effectue grâce à diverses méthodes de mesure résumées dans la table 6.1. Chaque critère de qualité est généralement mesuré grâce à des méthodes algorithmiques, sauf pour la mesure de qualité du modèle d’information qui s’appuiera sur la méthode proposée par [Moody 2003b]. L’usage d’expressions régulières a par exemple été nécessaire afin de vérifier que le format des dates était uniforme. La distance terminologique est une distance statistique entre la terminologie locale et celle de référence.

Sommet Critère Méthode

Concepts Domaine Méthode subjective de mesure de qualité d’un modèle d’information Objets Complétude Nombre d’enregistrements corrects sur

le nombre total d’enregistrements

Objets Précision Adéquation du format et/ou du type des données Objets Unicité Algorithme qui vérifie l’unicité des données Objets Cohérence

Un algorithme qui vérifie la cohérence, par exemple si la date de départ d’une prescription est inférieure à la date de fin

Termes Cohérence Mesure de distance aux référentiels standardisés Table 6.1 – Critères et méthodes d’évaluation de la qualité de l’information

Afin de nous aider à définir notre cadre d’évaluation, nous nous tournons vers la communauté de l’informatique médicale qui a, depuis quelques années, mis en œuvre des bases de connaissances diverses comme les modèles d’information standardisés, des terminologies ou thesaurus et enfin, des ontologies [Brown 2000].

Chaque critère est mesuré en fonction d’une référence généralement consensuelle. Pour la dimension objet, les références sont des jeux de règles validées par des ex- perts comme par exemple la date de naissance est plus récente que la date de décès. Concernant la dimension concept, nous avons utilisé les modèles d’information HL7 version 3. Pour les termes, nous avons utilisé comme référence la SNOMED CT, ICD, NEWT et WHO-ATC.

Qualification

Le processus de qualification a pour but d’établir le score de chaque dimension grâce à la phase d’audit. Nous utiliserons des degrés de qualité variant de A à D pour chaque sommet. Lorsqu’un score est un pourcentage, nous rapportons ce pourcentage à son degré correspondant (par exemple : si 73% de termes s’alignent au référentiel de termes NEWT alors la note sera B). Nous proposons l’interprétation suivante :

– A : La qualité de l’information est excellente. La source d’information est cohérente en termes de sémantique et d’organisation des données et peut être interrogée sans être adaptée.

– B : La qualité est bonne cependant il faudra améliorer la qualité d’une des dimensions du TQI.

– C : La qualité de l’information est faible. La source d’information peut être utilisée mais un effort conséquent doit être mis en œuvre pour améliorer celle- ci.

– D : La source d’information ne présente pas la qualité nécessaire pour espérer extraire de celle-ci de la connaissance et donc pour être une source potentielle de données pour un projet d’aide à la décision à partir de l’entrepôt de données. 6.2.2.2 Alignement et Surveillance

La phase de standardisation a été mise en œuvre au niveau du chargement des données depuis la source vers l’entrepôt de données de santé, TransMED, mise en oeuvre dans le cadre du projet DebugIT à l’hôpital européen Georges Pompidou (HEGP). La figure 6.2 représente la vue logique de l’architecture de mise en œuvre dans TransMED. Tout d’abord, le DPI est évalué grâce aux processus d’audit des concepts, des termes et des objets. Ensuite, lors du chargement des données et leur adaptation au modèle d’information cible (HL7), les termes sont exportés dans un référentiel de termes qui sera aligné avec les référentiels standards. Un expert

validera les termes. Lors du chargement des données, des routines permettent de contrôler continuellement le vocabulaire chargé dans l’entrepôt. Si un nouveau terme est introduit, il sera présenté à un expert si l’alignement n’est pas automatiquement fait. De cette manière, l’entrepôt de données ainsi créé présentera les caractéristiques nécessaires à l’extraction de connaissances depuis des données.

Figure 6.2 – Vue logique de l’architecture de qualité de TransMED. Cette méthode a été appliquée dans le cadre de l’expérimentation à l’HEGP (Hô- pital Européen Georges Pompidou) et les résultats seront présentés dans le chapitre suivant.