Perspectives

Chapitre 4 : Application aux trajectoires de soins multi-patients

Figure 71 Exemple de classification hiérarchique des séquences réalisés avec R

Chapitre 4 : Application aux trajectoires de soins multi-patients

10. Perspectives

a. Comparaison de plusieurs cohortes de séquences

Lors de l’évaluation, les utilisateurs nous ont suggérés l’idée de pouvoir comparer

plusieurs listes de séquences entre elles. Cette comparaison de séquence doit être

réalisée sur des attributs tels que l’âge des patients, leur appartenance à telle service,

ou encore leur antécédents médicaux (diagnostics ou actes médicaux). Cette

fonctionnalité pourrait permettre de vérifier certaines hypothèses. Par exemple, les

erreurs de doses administrées en anti-vitamines K sont plus nombreuses chez les

patients porteurs de prothèses cardiaques valvulaires (risque de thrombose). Il serait

donc facile de comparer la proportion de cas de non-respect des bonnes pratiques

de prescription entre une cohorte de patient sains et une cohorte de patients porteurs

de prothèses valvulaires. De plus, ces hypothèses pourraient être vérifiées avec une

approche statistique de la même façon que l’application CoCo. (97)

b. Clustering de séquences

Afin d'améliorer l'identification de séquences d'événements similaires, nous prévoyons

de regrouper les séquences. Plus précisément, en considérant les motifs extraits à

l'aide d'un algorithme, tel que l'algorithme GSP, comme des termes et toutes les

séquences comme un corpus, nous pouvons calculer un « term frequency – inverse

document frequency » (tf-idf) pour chaque motif dans chaque séquence. La C-value

(109) serait également une méthode de pondération pour la recherche d’information

pertinente à utiliser. En effet, elle va pénaliser les séquences englobées dans des

séquences plus grandes. Par exemple, si la séquence <AB> apparait 5 fois dans

l’ensemble des transactions, et que la séquence <ABC> apparait 5 fois, alors la

séquence <AB> serait pénalisée et seule la séquence <ABC> serait conservée dans

l’analyse. Le calcul de ces mesures aboutirait sur une matrice de largeur m et de

hauteur n, où n est le nombre de séquences dans le corpus, et m le nombre de

sous-séquences dans le corpus. Cette matrice peut ensuite être analysée par différentes

méthodes de classification comme la classification ascendante hiérarchique. La

figure ci-dessous montre un exemple de cette analyse effectuée avec le logiciel R sur

la cohorte utilisée pour l’évaluation (patients sous AVK avec mesure de l’INR). Pour

maximiser l’inertie inter-classe nous avons choisi d’utiliser la distance de Ward. On

obtient 6 clusters différentiés en grande partie par la longueur des différentes

séquences.

96

11. Conclusion

Nous avons développé une application permettant d’extraire, de visualiser et de

fouiller une cohorte de séquences de patients. Nous avons implémentés différent

algorithmes. L'algorithme SW adapté permet de trouver des séquences d'intérêt dans

le dossier électronique du patient représenté sous forme de séquences. Cette

approche a l'avantage de permettre une recherche floue. De plus, les modifications

introduites dans l'algorithme SW permettent de prendre en compte la dimension

temporelle dans le traitement des séquences. L’utilisation des algorithmes Apriori et

GSP permettent d’avoir une vue d’ensemble de la cohorte en se basant sur les

97

Discussion Générale

L’évolution des technologies de l’information a abouti à une explosion de la quantité

de données produites et stockées. Le domaine de la santé n’échappe pas à ce

phénomène de massification des données. La disponibilité de ces données constitue

une véritable aubaine pour la recherche en santé, notamment dans le domaine de

la surveillance épidémique, la prévention des maladies, ou encore la

pharmacovigilance.

Nous avons développé des exemples d’application de technologies et de méthodes

relatives aux données massives en santé. Durant ce travail de thèse, nous avons

implémenté deux outils de visualisation et de fouille de données médicales et testés

sur des cas d’usage de pharmacovigilance ou de suivi de pertinence des soins. En

modélisant de façon simple une trajectoire patient, nous avons tenté de répondre à

des questions cliniques de pharmacovigilance ou encore de surveillance de bon

usage du médicament. Cependant, ces outils ne sont pas adaptés à tous les aspects

de la pharmacovigilance, notamment la recherche d’effets secondaires non décrits.

La première application est un outil de visualisation sous forme de timeline. Cet outil

permet d’afficher sur une frise chronologique toutes les informations contenues dans

le dossier patient. Celle-ci résume l’information de façon originale en agrégeant

l’information structurée et en intégrant des données hétérogènes avec chacune leur

représentation visuelle. Elle permet aussi la recherche de termes dans les documents

textuels. L’application a démontré son utilisabilité et son efficience lors des évaluations

de l’utilisabilité et de mesure de l’impact sur les pratiques. Ces évaluations ont été

réalisées avec des cas d’usage issus de la vie réelle sur des dossiers patients.

La deuxième application permet d’extraire, de visualiser, et d’explorer une cohorte

de séquences de patients. Il est apparu que les choix faits en matière de traitement

des données étaient primordiaux pour pouvoir vérifier correctement une hypothèse

posée. L’outil a donc été conçu pour supporter toutes les étapes de visualisation : de

la recherche de séquences dans la base de données, en passant par le traitement et

la transformation des données, jusqu'à l'affichage à l'écran. Grâce à l’implémentation

de différents algorithmes (Smith-W aterman, Apriori, et GSP), nous avons permis à

l’utilisateur de rechercher des séquences similaires à une séquence de référence, ou

de visualiser toutes les séquences d’événements récurrentes dans une cohorte.

L’évaluation que nous avons réalisée montre que l’application aide à retrouver plus

rapidement des cas de non-suivi des bonnes pratiques d’administration