• Aucun résultat trouvé

Le forage de données

Dans plusieurs cas, pour les données médicales et surtout pour les données administratives, on n’a pas les connaissances préalables sur les caractéristiques des classes des données et de leurs nombres a priori. Une approche capable d’utiliser des méthodes qui permettent de trouver dans les données existantes, des structures inconnues (dites aussi latentes ou cachées) sans aucune connaissance préalable des classes est ainsi extrêmement utile afin d’exploiter tout le potentiel des données. Le domaine de regroupement qui fait partie des champs de forage de données est la parfaite solution à cette problématique. Il vise à comprendre les modèles cachés dans les données et aidera les médecins à construire des profils homogènes à partir des données.

Même si cette technique est très répandue dans le domaine biomédical pour regrouper les séquences de gènes, le nombre de travaux dans le domaine de santé pour l’exploitation d’autres types de données est plutôt restreint (Yoo et collab., 2012). Ceci est dû en une partie à la complexité, l’hétérogénéité et la non structuration des données médicales qui rend cette tâche difficile. Toutefois, ces techniques de regroupement commencent de plus en plus à prendre de la place et à être utilisées.

3.3.1 Regroupement des individus

Récemment, plusieurs travaux se sont focalisés sur l’utilisation des techniques de regroupement pour détecter l’hétérogénéité dans les données médicales à diverses fins.

Certains travaux se sont intéressés à regrouper des individus caractérisés par des données numériques. Par exemple, Gorunescu et collab. (2010) ont utilisé le modèle de mélanges gaus- siens et les cartes auto-adaptatives (self organizing maps en anglais (SOM)) pour regrouper

les patients qui ont subis une chirurgie dans un hôpital à Adélaïde, en Australie, entre le 4 février 1997 et le 30 juin 1998. Ce regroupement est fait selon les valeurs de leurs durées du séjour hospitalier. Par ailleurs, Garg et collab. (2011) se sont intéressés à l’utilisation d’une seule variable numérique qui est la durée de séjour hospitalier pour guider la construction d’un arbre de décision. Les variables catégorielles sont utilisées comme attributs de division et la durée de séjour comme l’attribut cible. Pour cette fin, ils ont réalisé le regroupement en divisant les nœuds de façon récursive en utilisant l’une des trois variables (âge, sexe ou diagnostic) et en se basant sur le critère d’information d’Akaike (AIC). Ils ont ainsi modélisé la durée de séjour dans chaque nœud soit par un mélange gaussien ou par une distribution « phase-type »dans chaque nœud. Le critère AIC est utilisé comme le facteur déterminant pour la procédure de division. Pour valider leur modèle, ils ont utilisé la base de données des hôpitaux en Angleterre pour des patients souffrant d’un accident vasculaire cérébral et qui ont quitté l’hôpital entre le 1 avril 1994 et le 31 mars 1995.

En outre, d’autres travaux ont utilisé une variable prenant des séquences comme valeur pour caractériser et regrouper les individus. En effet, Roque et collab. (2011) et Doshi-Velez et col- lab. (2014) ont basé le regroupement des patients sur la séquence de diagnostics pour une période donnée. Pour cela, Roque et collab. (2011) ont extrait les codes des diagnostics des patients qui ont eu un service médical dans un hôpital psychiatrique Danois entre 1998 et 2008. Ils ont ensuite projeté les séquences de diagnostics de chaque patient dans l’espace composé des codes de diagnostics et ont utilisé un regroupement hiérarchique en utilisant la distance cosinus pour les regrouper. De leur côté, Doshi-Velez et collab. (2014) se sont intéressés aux données des enfants âgés de 15 ans qui ont eu des troubles du spectre autistique. Ils ont extrait les séquences des codes de diagnostics de ces patients. Puis, en effectuant un prétraitement, ils ont choisi 45 codes communs des catégories des diagnostics et ils ont défini ces codes comme espace de projection. Ils ont ensuite projeté les codes des diagnostics en comptant le nombre d’occurrences de chacune des catégories pour chaque patient dans des fenêtres de temps prédé- fini. Enfin, ils ont utilisé le regroupement hiérarchique avec le critère de Ward et la mesure de la distance euclidienne pour regrouper ces vecteurs. Quant à eux, Antonelli et collab. (2013) se sont intéressés aux séquences d’examens des patients diabétiques enregistrées par le centre de santé local de la province d’Asti en Italie durant l’année 2007. Ils ont projeté ces séquences sur un espace vectoriel composé par les examens. Ainsi, chaque séquence est représentée par des valeurs numériques dans cet espace. Les auteurs ont utilisé l’algorithme DBSCAN avec la distance cosinus pour regrouper ces séquences afin d’identifier les patients ayant des profils d’examens similaires. De même, Xu et collab. (2014) se sont intéressés au regroupement des patients grâce aux séquences des procédures médicales que les patients ont eu durant leurs séjours à l’urgence. Pour cela, ils ont utilisé les données de service de l’urgence au cours d’une semaine choisie. Ils ont extrait la liste des procédures médicales fournies aux patients et ils ont projetées les séquences dans l’espace composé par ces procédures en notant la présence ou l’absence de telle procédure pour un patient donné. Ils ont ensuite utilisé le regroupement

hiérarchique, l’algorithme k-means et les cartes auto-adaptatives pour regrouper ces données. A cet égard, on peut constater que tous ces travaux se sont basés sur un seul attribut d’un type bien précis soit numérique ou séquentielle afin de regrouper les patients.

Récemment, Olson et collab. (2016) ont utilisé les méthodes de regroupement pour identifier si des groupes de patients sont plus susceptibles d’avoir des régimes de médicaments à risque élevé et, par conséquent d’être plus réadmis à l’hôpital. Pour cela, les auteurs ont utilisé les données provenant de la base de données (Outcome and Assessment Information Set (OASIS)) contenant des informations sur les soins de santé à domicile. Elle contient des données démographiques, sur l’état fonctionnel, l’état clinique ainsi que les informations sur les services de santé donnés aux patients. Les auteurs ont choisi les variables et ils ont procédé à un prétraitement des données en discrétisant les variables numériques pour transformer toutes les variables en des variables binaires. Ils ont utilisé ensuite le regroupement hiérarchique avec la mesure de distance de Jaccard et le critère de lien moyen. Il ont montré que le regroupement permet d’identifier des sous-groupes de patients hospitalisés ayant des scores de risque de réadmission en hôpital différents en considérant leur régime de médicaments.

En définitive, tous ces travaux montrent que le regroupement devient de plus en plus une nécessité pour identifier des groupes de patients ou des soins médicaux homogènes en se basant sur des critères choisis. L’utilisation des algorithmes de regroupement émerge dans le domaine de la santé et ne cesse de prendre une place de plus en plus importante puisque la quantité des données collectées augmente et ainsi l’hétérogénéité aussi. Cependant, ces travaux utilisent des algorithmes de regroupement pour des données numériques. Certains parmi eux utilisent des méthodes non adaptées à des données de grands volumes tel que le regroupement hiérarchique. Également, les méthodes proposées pour le regroupement des séquences utilisent une projection dans un espace composé seulement de valeurs uniques des diagnostics ou des procédés ce qui ne tient pas compte de l’aspect de cooccurrence et de la relation séquentielle. Lors de notre construction des séjours hospitaliers, nous avons obtenu des entités caractéri- sées par des variables mixtes contenant des variables séquentielles d’où vient la nécessité de concevoir et d’implémenter des algorithmes qui peuvent traiter des grands volumes d’entités complexes. C’est dans ce contexte que nous présentons dans les chapitres 4 et 5 ces entités complexes, et que nous proposons deux algorithmes capables de traiter ce type de données.

3.3.2 Regroupement des trajectoires

L’information temporelle est cruciale pour les données des soins de santé dans les bases de données administratives. Ceci ajoute une autre difficulté aux traitements et au regroupement de ces données. Ainsi, il est inconcevable de raisonner et d’exploiter ces données sans la dimen- sion temporelle. En général, les données de prestation de soins contiennent les informations sur les processus du système de santé. Ces processus sont catégorisés en deux sortes de proces-

sus : les processus organisationnels et le processus de traitement médical (Lenz et Reichert, 2007). L’exécution de ces processus engendre une énorme quantité des données disponible dans les bases de données du système de santé. Toutefois, dans le domaine de la santé, ces processus sont trop flexibles et présentent une grande variabilité. À cause de cette complexité, la tâche de vouloir présenter des modèles de processus compréhensibles à partir de l’ensemble des données devient difficile. Ceci a conduit à la naissance de champs de regroupement des processus (process clustering en anglais) ou aussi présenté sous le nom de regroupement de traces (traces clustering en anglais).

De ce fait, quelques travaux récents ont été développés pour le regroupement des processus médicaux. Elghazel et collab. (2007) ont proposé une technique basée sur le regroupement hiérarchique et les graphes pour regrouper les processus des séjours hospitaliers des patients durant une année. De leur côté, Rebuge et Ferreira (2012) ont proposé une autre technique basée sur le mélange des chaînes de Markov d’ordre un pour regrouper les processus de la radiologie en urgence. Par la suite, Huang et collab. (2013, 2014) ont appliqué l’allocation latente de Dirichlet (LDA) pour découvrir des modèles latents dans les flux de soins spécifiques à l’hémorragie intracrânienne et l’infarctus cérébral.

Tous ces travaux récents montrent l’intérêt croissant pour le regroupement des processus en système de santé. Toutefois, ces travaux s’appuient sur des processus composés d’événements relativement simples et bien définis alors que les trajectoires de soins sont composées d’en- tités complexes de services médicaux. En outre, chacun de ces travaux était concerné par un aspect spécifique de la trajectoire d’un patient et non pas par une vue globale de l’en- semble des soins fournis. Au chapitre 6, nous discuterons de ces travaux et nous présenterons notre méthodologie capable de regrouper des trajectoires de soins composées d’événements complexes.

Eu égard à ce qui précède, le regroupement des données médicales a connu un intérêt croissant au cours des deux dernières décennies. De plus, les bases de données administratives repré- sentent une source riche en information extrêmement intéressante et utile. La conception et l’implémentation d’algorithmes capables de regrouper les entités complexes extraites de ces bases de données devient une nécessité.

Dans ce chapitre, nous avons présenté les techniques statistiques souvent utilisées pour analy- ser les données administratives en système de santé. Cependant, ces techniques se basent sur une connaissance préalable des groupes de ces données. Dans le domaine médical, cette in- formation est en général absente ce qui nécessite l’utilisation des méthodes de regroupement. Nous avons ainsi présenté des travaux qui utilisent ces techniques pour des données statiques ou des données temporelles. Toutefois, l’extraction des descriptions des objets à partir des bases administratives génèrent des objets complexes difficiles à regrouper avec les algorithmes existants. Le chapitre 4 introduit ce type d’objets et présente notre algorithme capable de

Chapitre 4

Algorithme k-prototypes pour

données hétérogènes complexes

La plupart des organisations sont composées de plusieurs départements ayant des spécialités et activités diverses et opérant par le fait des systèmes d’information contenant des infor- mations variées liées à leurs activités. Ces informations sont collectées et conservées dans plusieurs bases de données administratives distinctes. L’extraction des connaissances utiles de ces grandes bases de données hétérogènes est habituellement difficile à réaliser avec les méthodes traditionnelles (par exemple, les requêtes SQL), étant donné la taille et la nature complexe de ces bases de données. De plus, ces bases de données sont constituées d’informa- tions à diverses finalités qui ne sont pas nécessairement conçues ni adaptées à l’application de méthodes analytiques classiques.

Dans de telles circonstances, la conception et l’application des algorithmes de forage de don- nées devient une nécessité pour toutes ces organisations. Cette importance provient du fait que ces données représentent une source d’information qui pourrait permettre à ces organi- sations de capturer des éléments et des tendances à partir des situations réelles malgré leur grande variété. Toutefois, l’agrégation et l’exploitation de ces données présente plusieurs défis liés à la quantité, à la diversité et à la complexité des données recueillies.

Le secteur de la santé présente bien cette situation. En effet, le système de santé est caracté- risé par un nombre croissant de disciplines médicales et de services spécialisés et contient des informations liées aux patients et aux services fournis collectées dans plusieurs bases de don- nées administratives. En conséquence, une quantité massive de données médicales est stockée sous divers formats et types pour des fins administratives. Ces bases de données médico- administratives ont l’avantage d’offrir une couverture complète de la population et sont mises à jour continuellement. Elles contiennent ainsi les antécédents concernant la prestation des services médicaux fournis aux patients. Les données liées à ces antécédents sont réparties sur plusieurs bases de données telles que celles contenant de l’information sur les personnes assu-

rées, sur les hospitalisations et sur les services ambulatoires. De ce fait, ces bases de données relationnelles sont constituées de nombreuses tables interconnectées par des liens. Le jumelage de ces bases de données permet ainsi de constituer des entités qui représentent les services mé- dicaux fournis aux patients. Cependant, ces entités sont parfois des objets complexes décrits par un mélange des variables hétérogènes.

Le traitement de ces données hétérogènes et semi-structurées conduit à avoir des grands ensembles de données caractérisées par plusieurs types de variables. Dans le cas des soins médicaux, les séjours hospitaliers présentent ce type d’objet. En effet, chaque séjour hospitalier est caractérisé par des variables numériques telles que la durée, par des variables catégorielles telles que le type de soins et par des variables qui prennent une séquence comme valeur telles que la variable diagnostic. Par exemple un séjour hospitalier peut avoir la valeur d’un jour comme durée, la valeur 01 comme type de soins et la valeur {K625, K921, I2519, E119, E039, I100, Z2230} comme valeur de diagnostic. On revient plus en détails sur la construction de ces ensembles d’objets dans le chapitre 7. Suite à cette étape, on construit des séjours hospitaliers caractérisés par la durée comme variable numérique, type de soins, type de services, spécialiste, type de provenance et type de destination comme variable catégorielle et les diagnostics et les interventions comme des variables catégorielles multivaluées. Cet ensemble d’objets complexes présente un défi qui nécessite la conception et l’implémentation des nouveaux algorithmes capables de gérer ces objets.

Dans ce chapitre, nous proposons notre variante de l’algorithme de regroupement k-prototypes capable de gérer ce type d’entités complexes caractérisées par un mélange des variables ca- tégorielles, numériques et catégorielles multivaluées. Nous évaluons notre algorithme sur un ensemble de données réelles représentant un ensemble de séjours hospitaliers extraits des bases de données administratives de santé au Québec, avec des résultats qui illustrent les bonnes performances de notre méthode.

Ce chapitre est organisé de la manière suivante. Nous présentons d’abord la problématique dans la section 4.1. Nous présentons ensuite notre méthodologie et l’algorithme proposé dans la section 4.2. Une étude de cas sur le regroupement des séjours hospitaliers extraits des bases de données administratives sur les soins de santé validant notre méthodologie et notre algorithme est présenté à la section 4.3 et à la section 4.4.

4.1

Définition du problème

Le regroupement est une technique qui prend une place importante en forage de données puis- qu’elle permet de former des groupes homogènes d’objets, et ainsi de réduire la complexité des données afin de mieux les comprendre. Ceci est devenu inévitable à cause de la quantité et la complexité des données auxquelles les différentes organisations font face. En outre, les algo- rithmes de regroupement classiques peuvent être classés en trois grands groupes : les méthodes

hiérarchiques, les algorithmes de partitionnement et les méthodes basées sur des modèles. Les algorithmes hiérarchiques traditionnels ne conviennent pas à des grands ensembles de données compte tenu de leur complexité computationnelle. Ainsi, à cette fin, les algorithmes de parti- tionnement sont habituellement les plus utilisés en présence de grands ensembles d’objets. Le partitionnement de tels ensembles nécessite une bonne mesure de distance qui mesure la si- milarité entre les entités et un algorithme de regroupement efficace. L’algorithme classique de

k-means de MacQueen (1967) est l’un des algorithmes de regroupement les plus couramment

utilisés pour le traitement de grands volumes de données numériques, grâce à sa complexité linéaire en termes de taille de jeu de données. Cet algorithme utilise généralement la distance euclidienne comme une mesure de similarité. Cette mesure donne des bons résultats lorsque les données sont décrites par seulement des variables numériques. Cependant, la mesure de distance euclidienne ne permet pas de saisir la similarité entre des entités lorsque les attri- buts sont catégoriels ou mixtes. Par conséquent, plusieurs propositions ont été faites pour l’étendre à d’autres types de variables. Huang (1997) a proposé une extension de k-means pour les données catégorielles. La valeur de ce qu’il appelle mode des variables catégorielles est utilisée comme centre de chaque groupe. Le « mode » représente le vecteur contenant les modalités les plus fréquentes dans chaque groupe. La « matching distance » est utilisée comme la fonction de coût pour calculer la similarité entre les objets. Une extension de ce travail a été proposée pour regrouper des données caractérisées par un mélange des variables numé- rique et catégorielle. Cet algorithme est l’algorithme k-prototypes, qui combine les mesures de dissimilarité utilisées par l’algorithme k-means et l’algorithme k-modes (Huang, 1998). Dans leur article, Chan et collab. (2004) ont proposé une amélioration de l’algorithme k-prototype en ajoutant une pondération des variables. Une autre amélioration de cet algorithme a été proposée par Bai et collab. (2011) pour remédier à une faiblesse dans le calcul des poids des variables catégorielles caractérisant les données. Liang et collab. (2012) ont modifié la dernière version de l’algorithme k-prototypes en définissant une distance pondérée tenant compte des variables catégorielles et numériques. Tous ces algorithmes ne sont pas conçus pour gérer des données complexes qui incluent des séquences de longueur variable de valeurs discrètes (par exemple, un ensemble de catégories). Cependant, ces données sont courantes dans les bases de données réelles, en général, et dans les bases de données administratives de système de santé, en particulier.

D’une manière générale, les données sont stockées dans des bases de données relationnelles constituées de nombreuses tables interconnectées par des liens. Lorsque nous nous intéressons à la description d’une entité, nous procédons à l’agglomération des variables décrivant cette entité en suivant les liens entre les tables. Cela nous permet de construire des objets caracté-

risés par des variables V1, . . . , Vm. La valeur du domaine de chaque variable nous permet de

déterminer leur propre type. Lorsque la valeur de domaine d’une variable est un sous-ensemble infini de l’ensemble des nombres réels R, cette variable est considérée comme une variable nu-

catégorielle. De plus, lorsque certaines valeurs catégorielles sont concaténées, nous obtenons

Documents relatifs