Forage de données de bases administratives en santé

(1)

Forage de données de bases administratives en santé

Thèse

Ahmed Najjar

Doctorat en génie électrique Philosophiæ doctor (Ph.D.)

Québec, Canada

(2)

Forage de données de bases administratives en santé

Thèse

Ahmed Najjar

Sous la direction de:

Christian Gagné, directeur de recherche Daniel Reinharz, codirecteur de recherche

(3)

Résumé

Les systèmes de santé actuels sont de plus en plus informatisés et dotés de systèmes de collecte et de stockage des données. Une énorme quantité des données est ainsi stockée dans les bases de données médicales. Les bases de données, conçues à des fins administratives ou de facturation, sont alimentées de nouvelles données à chaque fois que le patient fait appel au système de soins de santé. Cette spécificité rend ces bases de données une source riche en information et extrêmement intéressante et utile. Elles rassemblent ainsi toutes les données de prestation de soins et pourraient permettre de construire et de dévoiler les processus de soins des patients. Toutefois, malgré cet intérêt évident que représente ces banques de données administratives, elles sont jusqu’à date sous-exploitées par les chercheurs. Nous proposons donc dans cette thèse une approche de découverte de connaissances qui à partir des données administratives brutes permet de détecter des patrons des trajectoires de soins des patients.

Nous avons tout d’abord proposé un algorithme capable de regrouper des objets complexes qui représentent les services médicaux. Ces objets sont caractérisés par un mélange de variables numériques, catégorielles et catégorielles multivaluées. Nous proposons pour cela d’extraire des espaces de projection pour les variables multivaluées et de modifier le calcul de la distance entre les objets afin de prendre ces projections en compte.

La deuxième nouveauté consiste à la proposition d’un modèle de mélange en deux étapes, capable de regrouper ces objets. Ce modèle fait appel à la distribution gaussienne pour les variables numériques, multinomiales pour les variables catégorielles et aux modèles cachés de Markov (HMM) pour les variables multivaluées. Nous obtenons ainsi deux algorithmes capables de regrouper des objets complexes caractérisés par un mélange de variables.

Par la suite, une approche de découverte de patrons des trajectoires de soins a été mise en place. Cette approche comporte plusieurs étapes. La première est l’étape de prétraitement qui permet de construire et de générer les ensembles des services médicaux. Ainsi, on obtient trois ensembles des services médicaux : un pour les séjours hospitaliers, un pour les consultations et un pour les visites. La deuxième étape est l’étape de modélisation et regroupement des pro-cessus de soins comme une succession des étiquettes des services médicaux. Ces propro-cessus sont complexes et ils nécessitent une méthode sophistiquée de regroupement. Nous proposons ainsi un algorithme de regroupement basé sur les HMM. Finalement, une approche de visualisation

(4)

et d’analyse des patrons des trajectoires est proposée pour exploiter les modèles découverts. L’ensemble de ces étapes forment le processus de découvertes des patrons des trajectoires à partir des bases de données administratives en santé.

Nous avons appliqué cette approche aux bases de données sur la prestation des soins pour les personnes âgées de 65 ans et plus souffrant d’insuffisance cardiaque et habitant à la province de Québec. Ces données sont extraites de trois bases de données : la banque de données MED-ÉCHO du MSSS, la banque de la RAMQ et la base contenant les données concernant les certificats de décès. Les résultats issus de ce projet ont montré l’efficacité de notre approche et de nos algorithmes en détectant des patrons spéciaux qui peuvent aider les administrateurs de soins de santé à mieux gérer les soins de santé.

(5)

Abstract

Current health systems are increasingly equipped with data collection and storage systems. Therefore, a huge amount of data is stored in medical databases. Databases, designed for administrative or billing purposes, are fed with new data whenever the patient uses the healthcare system. This specificity makes these databases a rich source of information and extremely interesting. These databases can unveil the constraints of reality, capturing ele-ments from a great variety of real medical care situations. So, they could allow the conception and modeling the medical treatment process. However, despite the obvious interest of these administrative databases, they are still underexploited by researchers. In this thesis, we pro-pose a new approach of the mining for administrative data to detect patterns from patient care trajectories.

Firstly, we have proposed an algorithm able to cluster complex objects that represent med-ical services. These objects are characterized by a mixture of numermed-ical, categormed-ical and multivalued categorical variables. We thus propose to extract one projection space for each multivalued variable and to modify the computation of the distance between the objects to consider these projections.

Secondly, a two-step mixture model is proposed to cluster these objects. This model uses the Gaussian distribution for the numerical variables, multinomial for the categorical variables and the hidden Markov models (HMM) for the multivalued variables. Finally, we obtain two algorithms able to cluster complex objects characterized by a mixture of variables.

Once this stage is reached, an approach for the discovery of patterns of care trajectories is set up. This approach involves the followed steps: 1. preprocessing that allows the building and generation of medical services sets. Thus, three sets of medical services are obtained: one for hospital stays, one for consultations and one for visits. 2. modeling of treatment processes as a succession of labels of medical services. These complex processes require a sophisticated method of clustering. Thus, we propose a clustering algorithm based on the HMM. 3. creating an approach of visualization and analysis of the trajectory patterns to mine the discovered models. All these steps produce the knowledge discovery process from medical administrative databases.

(6)

We apply this approach to databases for elderly patients over 65 years old who live in the province of Quebec and are suffering from heart failure. The data are extracted from the three databases: the MSSS MED-ÉCHO database, the RAMQ bank and the database containing death certificate data. The obtained results clearly demonstrated the effectiveness of our approach by detecting special patterns that can help healthcare administrators to better manage health treatments.

(7)

Table des matières

Résumé iii

Abstract v

Table des matières vii

Liste des tableaux ix

Liste des figures x

Remerciements xv 1 Introduction générale 1 1.1 Contexte et problématique . . . 2 1.2 Objectif . . . 4 1.3 Contributions . . . 5 1.4 Plan de thèse . . . 6

2 Forage des données : notions et techniques 8 2.1 Les domaines de forage de données . . . 8

2.2 Méthodes et techniques . . . 13

3 Forage de données des bases administratives médicales 26 3.1 Les bases de données administratives en santé . . . 26

3.2 Les méthodes statistiques . . . 27

3.3 Le forage de données . . . 28

4 Algorithme k-prototypes pour données hétérogènes complexes 33 4.1 Définition du problème . . . 34

4.2 Nouvel algorithme k-prototype . . . . 36

4.3 Étude de cas : échantillon des séjours hospitaliers . . . 41

4.4 Résultats pour l’ensemble des séjours hospitaliers . . . 49

5 Modèle de mélange fini hétérogène en deux étapes 54 5.1 Définition du problème . . . 55

5.2 Modèle de mélange hétérogène proposé . . . 56

5.3 Étude de cas : Échantillon des séjours hospitaliers . . . 60

(8)

6 Approche de regroupement des processus complexes 72

6.1 Regroupement de processus . . . 72

6.2 Méthodologie proposée pour le regroupement des processus d’objets complexes 76 6.3 Approche proposée pour l’analyse des résultats . . . 82

7 Cas d’étude : bases de données administratives à Québec 85 7.1 Mise en contexte . . . 85

7.2 Description et prétraitement des données . . . 87

7.3 Résultats et analyses . . . 91 7.4 Discussion . . . 102 8 Conclusion 106 8.1 Contributions . . . 107 8.2 Impact potentiel . . . 108 Bibliographie 110 A Liste des publications 118 A.1 Revues scientifiques . . . 118

(9)

Liste des tableaux

4.1 Description de quelques centres de groupes des séjours hospitaliers obtenus par

la méthode proposée. . . 47

4.2 Description de quelques centres de groupes de l’ensemble des séjours

hospita-liers obtenus par la méthode proposée. . . 52

5.1 Description de quelques centres de groupes des séjours hospitaliers obtenus par

la méthode proposée. . . 67

7.1 Chapitres des diagnostics . . . 90

7.2 Description de certains groupes avec forte présence de séjours hospitaliers dans

les trajectoires. . . 95

7.3 Certains modèles découverts pour groupes ayant une forte présence des séjours

hospitaliers dans leurs trajectoires. . . 96

7.4 Description des groupes de patron des maladies rénales. . . 99

7.5 Description des groupes pour le patron des maladies cardiaques. . . 100

7.6 Description des groupes pour le patron des maladies cardiaques décompensées. 102

(10)

Liste des figures

2.1 Différentes étapes du processus de découverte des connaissances . . . 9

2.2 Modèle Markov caché avec trois états . . . 21

4.1 Morbidité entre les maladies . . . 43

4.2 Valeurs des supports sur l’échantillon des séjours hospitaliers. . . 43

4.3 Variabilité des diagnostiques au sein des groupes . . . 44

4.4 Variabilité des interventions en fonction des groupes . . . 46

4.5 Variabilité des spécialités des médecins en fonction des groupes . . . 48

4.6 Variabilité des services visités au sein des groupes . . . 49

4.7 Valeur de l’indice CH en fonction du nombre de groupes. . . 50

4.8 Variabilité des diagnostiques au sein des groupes pour l’ensemble des séjours hospitaliers . . . 51

4.9 Valeurs des supports de certaines interventions selon les groupes des séjours hospitaliers. . . 51

4.10 Valeurs des supports de certains services selon les groupes des séjours hospitaliers. 53 5.1 Comparaison des résultats obtenus avec l’algorithme Espérance-Maximisation (EM) appliquée uniquement aux variables numériques et catégorielles avec la méthode proposée traitant également des valeurs catégorielles multivaluées (EM+HMM). . . 61

5.2 Variabilité des diagnostiques au sein des groupes . . . 64

5.3 Variabilité des interventions en fonction des groupes . . . 66

5.4 Variabilité des spécialités des médecins en fonction des groupes . . . 68

5.5 Variabilité des services visités au sein des groupes . . . 69

5.6 Valeur de BIC en fonction du nombre de groupes. . . 69

5.7 Comparaison des résultats obtenus avec la méthode de Espérance-Maximisation appliquée uniquement aux variables numériques et catégorielles(EM) et ceux obtenus avec la méthode proposée considérant en plus les valeurs catégorielles multivaluées(EM+HMM) pour l’ensemble des séjours hospitaliers. . . 70

5.8 Valeurs des supports illustrant la variabilité selon les différents groupes des séjours hospitaliers. . . 70

6.1 Description de notre approche. . . 77

7.1 Description de base de données mise en place . . . 89

7.2 Dendrogramme des regroupements hiérarchiques. . . 92

7.3 Log du nombre moyen des services selon les groupes. . . 92

(11)

7.5 Des modèles découverts pour certains groupes ayant une forte présence de

sé-jours hospitaliers dans leurs trajectoires des soins. . . 96

7.6 Densités de tous les services dans certains groupes. . . 97

7.7 Modèles découverts pour le patron des maladies rénales . . . 98

7.8 Modèles découverts pour le patron des maladies cardiaques. . . 100

7.9 Modèles découverts pour le patron des maladies cardiaques décompensées. . . . 101

7.10 Modèles découverts pour le patron des maladies d’anémie. . . 101

(12)

Liste des algorithmes

1 Algorithme Apriori . . . 15 2 Algorithme EM . . . 18 3 Algorithme Forward . . . . 23 4 Algorithme Backward . . . 23 5 Algorithme de Baum-Welch . . . 25

6 Algorithme k-prototypes proposé . . . . 40

7 Algorithme en deux étapes EM+HMM pour des données complexes . . . . 62

8 Algorithme EM pour les variables numériques et catégorielles . . . 63

9 Algorithme HMM pour le regroupement des processus des traitements mé-dicaux. . . 81

(13)

Je dédie cette thèse de doctorat à ma défunte mère qui a toujours valorisé l’éducation, m’a élevé avec ce grand goût de dépassement et qui a été à mes côtés dans tous les moments de ma vie pour m’apporter l’amour, la tendresse et le soutien. Je chéris ta mémoire. « Ô toi, âme apaisée, retourne vers ton Seigneur, satisfaite et agréée ; entre donc parmi Mes serviteurs, et entre dans Mon Paradis » (Sourate al-Fajr, 27-30).

(14)

La recherche procède par des moments distincts et durables, intuition, aveuglement, exaltation et fièvre. Elle aboutit un jour à cette joie, et connaît cette joie celui qui a vécu des moments singuliers.

(15)

Remerciements

Je souhaiterai tout d’abord remercier mon directeur de recherche, M. Christian Gagné pour son encadrement, me donnant la liberté d’explorer des pistes nouvelles mais aussi en me guidant avec des directives précises pour arriver au perfectionnement de cette thèse.

Je voudrais également remercier mon co-directeur, M. Daniel Reinharz pour son soutien moral et financier, ses encouragements et pour avoir pris le temps de valider les parties de ce travail ayant trait à la santé.

Je remercie aussi Mme Catherine Girouard pour avoir consacrer le temps pour interpréter et valider les résultats de regroupement des trajectoires.

Ma gratitude, mon profond respect et mes remerciements à tous les membres du jury pour leur travail et l’attention consacrée à l’égard de mon travail.

Ce doctorat n’a pas pu être réalisé sans l’aide de plusieurs personnes à qui je suis extrêmement reconnaissant. Par ces quelques mots, je souhaite remercier ces gens qui étaient à mes côté le long de ce doctorat avec un soutien sans faille.

Je remercie mes parents, sans qui je ne serais pas arrivé à ce niveau. Je les remercie pour tout ce que l’on fait pour moi, pour m’avoir conduit là où je suis aujourd’hui, pour avoir toujours compris ce que je voulais, pour m’avoir toujours encouragé et pour m’avoir aidé dans mon cheminement. Je remercie également mes frères Hichem, Hassen et Abdelaziz et ma sœur Hajer pour leur amour et leur affection. Ils étaient tous à mes côtés dans les pires et les meilleurs moments. Qu’ils retrouvent dans ces mots toute ma gratitude et ma reconnaissance. Je n’aurais pas pu soutenir cette thèse sans le soutien sans faille de ma chère et adorable épouse Yosra. Elle a été à mes côtés durant ce parcours et surtout lors des moments difficiles pour m’encourager, me donner la volonté de persévérance, de défi et de la réussite, et pour engendrer la joie, le bonheur et l’espoir dans ma vie. Avec tout mon amour, je la remercie pour tout ce qu’elle est, pour sa douceur, son amour, sa bonté et sa générosité.

Mes remerciements vont aussi à mon directeur de recherche en maîtrise, M. Mohamed Nadif. C’est avec lui que j’ai fait mes premiers pas dans la recherche en machine learning. Il m’a soutenu personnellement et académiquement et il m’a encouragé le long de mon parcours. Je

(16)

lui est reconnaissant.

Une pensée aux membres de ma grande famille et de ma belle famille, à tous ce que j’aime et qui m’aiment.

J’ai été toujours entourer de personnes formidables qui ont, chacune à leur façon, et ce, à différentes étapes de mon cheminement, contribué, d’une manière ou d’une autre, à la réalisation de cette thèse de doctorat. Je tiens à remercier mes amis : Haykel Hamdi, Samy Metari, Noureddine Boughanmi, Zied Toumi, Makrem Trabelsi, Mourad Kadi, Jamel Hajji, Mohamed Basti, Achraf Madani, Mohamed Chelli, Ahmed Mahgoub, Talel korkobi, Adel Ziadi, Karim Zouaoui, Anis Dridi, Mourad Ouadi et Julien Fleuret qui m’ont fournis le courage en période de doute, et le recul nécessaire dans les phases de témérité.

(17)

Chapitre 1

Introduction générale

La capacité de stockage des données ne cesse d’augmenter favorisant la numérisation et l’accumulation de données liées à plusieurs types d’activités. Ces données, présentes sous diverses formes, représentent une matière brute d’information et peuvent jouer un rôle déterminant dans l’élaboration des tendances et des modèles. Le besoin de les analyser et de les exploiter devient de plus en plus une grande exigence pour les entreprises et les organisations. Le domaine médical ne déroge pas à cette règle. En effet, la quantité des données dans ce domaine ne cesse d’augmenter ce qui rend nécessaire de trouver un moyen pour les valoriser et les exploiter.

En outre, l’insuffisance cardiaque est la première cause d’hospitalisation chez les personnes de 65 ans et plus. Elle est coûteuse pour le système de santé en termes économique et clinique. Les coûts d’hospitalisation et de consultation externe liés à la gestion de l’insuffisance cardiaque constituent l’un des problèmes de soins de santé les plus coûteux. Au Canada, le coût d’une hospitalisation pour insuffisance cardiaque varie entre 6,000 $ et 15,000 $. Les taux de réadmission dans un délai de 3 à 6 mois après la sortie sont élevés chez les personnes âgées et varient entre 27% et 47%. Environ la moitié des réadmissions sont liées à la comorbidité, à la polypharmacie et aux handicaps associés à l’insuffisance cardiaque (Azad et Lemay, 2014). Le nombre des canadiens qui souffrent de cette incapacité du cœur à pomper le sang adéquatement s’élève à 600,000 s’ajoute à eux 50,000 nouveaux cas qui sont diagnostiqués chaque année. Les coûts directs qu’entraîne cette maladie sont estimés à plus de 2,8 milliards de dollars par année (Heart and stroke foundation, 2016).

Si l’on considère tout ce qui précède et l’on rajoute le succès des méthodes de forage de données dans l’exploitation des grands volumes de données afin de mieux comprendre les patrons et les modèles latents dans ces données, la nécessité de développer une méthodologie d’extraction des connaissances à partir des bases de données de système médical liées à cette

(18)

maladie devient une nécessité.

1.1 Contexte et problématique

L’augmentation de l’espérance de vie ainsi que la transition démographique observée dans la plupart des pays industrialisés a engendré une augmentation du taux des personnes atteintes de maladies chroniques. Cette augmentation a provoqué une hausse des dépenses associées aux soins de santé et à l’utilisation de technologies souvent dispendieuses. D’ailleurs, en 2005, 29.7 % des personnes ayant 12 ans et plus au Québec déclarent souffrir d’une maladie chronique et 13.7 % déclarent souffrir de deux maladies et plus (ISQ, 2009). Ainsi, la prise en charge des personnes atteintes de ces maladies chroniques de la manière la plus efficace et la plus efficiente possible représente aujourd’hui un défi majeur pour les systèmes de santé. Ceci nécessite de disposer de données probantes sur les interventions et les modalités organisationnelles qui peuvent être proposées aux patients (Fritz et Cleland, 2003).

Dans le système de santé, deux notions distinctes sont pertinentes. La première est la notion d’efficacité qui représente la relation qui existe entre le niveau des ressources investies et celui des résultats obtenus en gains de santé. Quant à la deuxième, c’est la notion d’efficience qui est un concept beaucoup plus complexe et qui représente le rapport qui existe entre le niveau des ressources que l’on investit dans le régime de soins de santé et le volume des gains de santé (Publications GC, 1993). Ceci est parfaitement apparent puisque dans le domaine clinique, les données probantes proviennent souvent des études conduites dans des conditions dites « idéales », c’est-à-dire dans des milieux très contrôlés. Or, les résultats issus de telles études sont parfois difficiles à implanter car ils sont de l’ordre de « l’efficacy », par opposition à des données de type « effectiveness » où la mesure des effets de l’intervention se fait dans des conditions proches de la vie réelle. D’ailleurs, lorsqu’ils le sont, ils requièrent souvent des adaptations qui en diminuent l’efficacité escomptée (Glasgow et collab., 2003).

Il convient de noter que les professionnels de la santé prennent généralement des décisions en tenant compte des conditions de la vie réelle qui diffèrent bien souvent de celles des études en milieu contrôlé (Kent et Kitsios, 2009). Cela est particulièrement observé chez les personnes âgées. La présence concomitante de plusieurs maladies chroniques peut amener, par exemple, à exclure des patients d’études cliniques même s’ils ont une pathologie qui pourrait bénéficier du traitement testé (Chang et collab., 2011). Ces difficultés se retrouvent dans le cas de l’insuffisance cardiaque, qui est la première cause d’hospitalisations chez les personnes de plus de 65 ans dans les pays industrialisés (Adams Jr. et collab., 2005). Des études ont démontré que la prise en charge de l’insuffisance cardiaque ne suit pas toujours les guides de pratique clinique (Fonarow et collab., 2010). On comprend mieux dès lors pourquoi le guide de pratique

(19)

de la société canadienne de cardiologie souligne pour les cliniciens l’importance de prendre en compte les facteurs environnementaux et cliniques pouvant influencer le cours de l’insuffisance cardiaque et son traitement (McKelvie et collab., 2011). Il y a donc un intérêt grandissant à considérer les interventions tout en tenant compte des contingences de la vie de tous les jours pour mieux évaluer la pertinence des traitements prônés sur la base des études cliniques.

Pour cette raison, le recours aux données contenues dans de grandes banques de données administratives ayant une base populationnelle est alors une avenue intéressante à consi-dérer (Yancy et collab., 2006). L’utilisation de telles banques de données permet ainsi de mesurer l’ampleur d’une maladie (telle que l’insuffisance cardiaque), les tendances de son incidence et de sa prévalence, de même que l’utilisation des services par les patients dans la « vraie vie ». Aussi, elle donne accès à une base populationnelle et donc à l’ensemble des modalités de pratiques dans une juridiction donnée. L’intérêt pour ces banques s’est d’ailleurs accru dans plusieurs provinces canadiennes (y compris le Québec), grâce à la possibilité d’apparier des banques de données administratives et ainsi de raffiner le portrait de prise en charge des patients (Daigle et Saint-Laurent, 2006).

De même, le stockage de l’historique médical des patients représente une source d’une quantité impressionnante de données médicales. Par exemple, au Québec, en 2005-2006, il y a eu près de 714 000 hospitalisations pour des soins de courte durée et plus de 465 000 chirurgies d’un jour. En moyenne, entre 80 et 86 millions de services médicaux par année ont été dispensés à la population québécoise (MSSS, 2007). Le traitement et l’analyse de ces données permet de constituer les trajectoires « réelles » de prises en charge dans le système de santé. Ceci est particulièrement vrai pour les personnes âgées, car ces personnes sont celles pour lesquelles on dispose de plus d’informations dans les banques de données administratives. En effet, au Québec, pour toutes les personnes âgées de 65 ans et plus, la consommation de médicaments en ambulatoire est financée par le régime public.

Malgré la disponibilité de ces précieuses données, elles sont considérées comme sous-exploitées, car elles ne bénéficient que rarement de tout le développement technologique qui dans d’autres secteurs, a été réalisé pour mieux soutirer l’information contenue dans les banques de don-nées (McAullay et collab., 2005). Ces dondon-nées méritent, donc, tout l’intérêt des scientifiques pour pouvoir mieux les valoriser et les exploiter afin d’en extraire de l’information utile qui pourra améliorer et optimiser les processus de prise en charge.

(20)

1.2 Objectif

L’insuffisance cardiaque demeure un diagnostic répandu, surtout chez les sujets âgés. Elle est source de mortalité, de morbidité, d’hospitalisations et d’utilisation de plusieurs autres ressources (Lloyd-Jones et collab., 2009). De grands progrès ont été accomplis sur les plans du diagnostic et de la prise en charge de cette maladie, mais de récentes études soulignent que les soins reçus pour l’insuffisance cardiaque par les personnes âgées particulièrement ne reflètent pas toujours les guides de pratique (Man et Jugdutt, 2012). Ce constat n’est pas étonnant puisque la prise en charge de l’insuffisance cardiaque est complexe, non seulement en raison d’une problématique requérant de nombreux intervenant appartenant à différentes disciplines, mais aussi en raison de la diversité même des patients. Pouvoir étudier la prise en charge et le parcours des patients dans le système de santé à partir des banques administratives qui reflètent les contraintes de terrain de la prise en charge, et qui contiennent la diversité des situations existantes, devrait pouvoir aider les intervenants à mieux juger de comment adapter la littérature aux cas particuliers dont ils ont la responsabilité.

Malgré l’intérêt évident que représentent ces banques de données administratives, on observe qu’elles sont sous-utilisées par les chercheurs. Cette sous-utilisation s’explique tout d’abord par la complexité de l’accès à ces données dû principalement à des raisons techniques et légales. Il est également important de noter que l’exploitation de ces données est confrontée à plusieurs défis. En effet, ces données ont été constituées non pas à des fins de recherche mais plutôt à des fins administratives. Toutefois, ces dernières années plusieurs projets structurants ont été mis sur pied dans le but spécifique de permettre l’exploitation de ces banques à des fins de recherche. Ceux-ci ont permis de résoudre la question de leur accessibilité. Par contre, l’exploitation de ces données par des approches computationnelles pour en produire une information pertinente pour le développement des projets de recherche reste un champ à défricher.

A cet égard, un objectif important est l’utilisation de ces données pour définir les trajectoires de soins des patients dans la « vraie-vie » et l’extraction des groupes des pratiques similaires. La réalisation de cet objectif permettra aux médecins de comparer les directives et les indi-cations présentes dans la littérature et les pratiques faites et enregistrées dans les bases de données administratives. En effet, d’un côté, les lignes directrices de pratique peuvent être définies comme des stratégies de prise en charge des patients conçues pour aider les cliniciens dans leur prise de décision. D’un autre côté et en analogie avec le processus d’affaire ou le pro-cessus métier, qui correspond à un ensemble des activités et leurs interactions pour atteindre un objectif défini, le système médical possède deux types de processus : le processus orga-nisationnel et la trajectoire de soins (Lenz et Reichert, 2007). Le processus orgaorga-nisationnel représente la coordination entre les professionnels de la santé et les unités organisationnelles

(21)

alors que la trajectoire de soins est un processus spécifique au patient qui dépend des décisions spécifiques qui diffèrent selon les cas. Elle représente la séquence des soins médicaux donnée à un patient au cours d’une durée déterminée.

L’objectif de cette thèse est d’utiliser les données brutes enregistrées dans les bases de don-nées administratives pour concevoir et modéliser les trajectoires de soins et en identifier des groupes homogènes afin de les mettre à la disposition des experts qui pourront les utiliser pour améliorer les guides de pratiques. Autrement dit, cette thèse présente une méthodologie et une expertise permettant l’exploitation de l’information contenue dans les grandes banques de données administratives afin d’avoir une description et une vue globale des grands profils de trajectoires des soins des patients souffrant d’une pathologie prédéfinie.

Pour atteindre cet objectif, deux objectifs spécifiques ont été identifiés. Le premier objectif est le regroupement des soins médicaux. Nous proposons ainsi des algorithmes capables de regrouper ces soins qui sont des objets complexes caractérisés par plusieurs types de variables et extraits des bases de données administratives. Le deuxième objectif est la proposition d’une approche qui se base sur ces regroupements pour construire les trajectoires de soins et les regrouper. Cette approche est accompagnée par la proposition d’une approche de visualisation qui permet d’analyser les patrons et les modèles contenus dans ces groupes des trajectoires. La section 1.3 détaille les contributions liées à ces objectifs.

1.3 Contributions

Pour parvenir à trouver une solution à ce problème complexe, il faut présenter une solution à divers problèmes inter-liés.

1.3.1 Regroupement des objets complexes

Les trajectoires de soins sont formées par plusieurs types de services. Certains types de services se composent des données complexes caractérisées par des variables mixtes et non classiques. Ces variables sont des variables numériques, des variables catégorielles et des variables en forme de séquences. Ceci rend difficile l’application des algorithmes classiques d’apprentissage. Nous proposons ainsi deux nouveaux algorithmes pour regrouper ces entités. Notre première contribution sera un algorithme de partitionnement basé sur la notion de distance capable de regrouper des entités décrites par certains types de variables hétérogènes alors que la deuxième contribution proposera un modèle basé sur le modèle de mélange pour regrouper ces données.

1.3.2 Méthodologie de regroupement des trajectoires de soins

Partir d’informations brutes contenues dans les bases de données administratives pour arriver à des groupes de trajectoires des soins homogènes représente une tâche complexe qui néces-site d’être faite selon une approche adéquate. Pour cela, nous proposons une méthodologie qui

(22)

permet d’atteindre cet objectif. D’abord, nous proposons l’appariement de plusieurs banques de données administratives du système de santé. Deuxièmement, nous définissons une modé-lisation des trajectoires de traitement des patients et de leurs entités sous-jacentes. Ce travail permet de transformer ces données de leur format brut à un format utilisable par les algo-rithmes d’apprentissage. Il permet aussi de construire des ensembles d’entités décrites par des données complexes caractérisées par des variables mixtes. Troisièmement, tel que spécifié à la sous-section 1.3.1, des algorithmes capables de regrouper ces entités sont développés. À la fin, un algorithme de regroupement des trajectoires par l’intermédiaire des chaînes de Markov cachées (hidden Markov model (HMM)) est proposé.

1.3.3 Traitement et analyse des patrons extraits d’une banque médicale administrative de grand volume

Pour arriver à analyser et interpréter les modèles découverts par le regroupement, une approche de visualisation des patrons est présentée. Cette étape se joint à la méthodologie de regroupement pour construire une approche de découvertes des connaissances qui est mise en place afin de pouvoir à partir des bases de données détecter et visualiser des patrons cachés des trajectoires de soins. Cette approche constitue ainsi notre troisième contribution.

La combinaison de ces méthodes dans le contexte de la santé publique est inusitée et prometteuse en termes d’avancement des connaissances, et ce, autant en sciences de la santé qu’en forage de données. Il permet alors d’apporter une information empirique susceptible d’être utilisée pour améliorer la santé des populations. Ce travail a généré trois contributions majeures qui ont fait l’objet de trois articles.

1.4 Plan de thèse

Le mémoire de thèse est organisé comme suit. Dans le chapitre 2 nous introduisons le domaine de forage des données, les notions et les techniques sur lesquelles s’appuient nos travaux. Le chapitre 3 est consacré à la revue de littérature décrivant les grandes familles de méthodes utilisées pour l’exploitation des banques de données administratives du système de santé. Nous nous intéressons plus particulièrement à la famille des méthodes choisie pour notre exploitation de ces banques : le regroupement (clustering). Le chapitre 4 présente notre première approche de regroupement des objets complexes modélisés. Nous exposons en détail les formalismes utilisés et les différentes étapes de l’approche. Ensuite, on propose au chapitre 5 la deuxième technique pour le regroupement des objets complexes. Cette technique se base sur le concept des modèles de mélange. Le chapitre 6 détaille la modélisation ainsi que l’approche utilisée pour regrouper les trajectoires des patients. Finalement, le chapitre 7 présente l’application

(23)

de nos algorithmes et de notre approche pour les bases de données administratives à Québec et expose les résultats obtenus.

(24)

Chapitre 2

Forage des données : notions et

techniques

La nécessité d’avoir des méthodes qui permettent l’analyse et l’exploitation des données de-vient de plus en plus cruciale à cause de l’augmentation de la production et de stockage d’énormes quantités des données dû à la baisse des coûts des dispositifs de stockage et à la facilité croissante de la collecte de ces données. La quantité et la diversité des données stockées dans les bases de données posent des enjeux pour concevoir et implémenter des méthodes et des algorithmes adaptés qui permettent d’extraire de la connaissance et de donner un sens à cette énorme source d’information. Ainsi, le forage des données vient comme une alterna-tive aux méthodes traditionnelles et classiques d’analyse et d’interprétation des données. Il a émergé comme un champ de recherche à la fin des années 1980 et il ne cesse de se développer depuis. Dans ce chapitre, nous présentons les bases nécessaires et les notions utilisées pour les algorithmes et les méthodes proposés dans cette thèse.

2.1 Les domaines de forage de données

Le forage de données représente l’étape fondamentale du processus de découverte de connais-sances (Knowledge Discovery in Databases en anglais, KDD). En effet, le KDD vise à extraire des informations intéressantes, non implicites, inconnues et potentiellement utiles à partir de données de grandes bases de données (Fayyad et collab., 1996b). Le processus de KDD comprend toutes les étapes nécessaires pour l’extraction des connaissances à partir des bases de données. Ce processus implique plusieurs étapes : la sélection des données cibles, le pré-traitement de ces données, la transformation si nécessaire, le forage de données dans le but d’extraction des modèles et des relations et enfin l’interprétation et l’évaluation des struc-tures découvertes. La figure 2.1 donne un aperçu sur les différentes étapes qui composent le processus de découverte des connaissances.

(25)

Figure 2.1 – Différentes étapes du processus de découverte des connaissances (Fayyad et col-lab., 1996a)

Le forage des données (datamining en anglais), tel qu’il est défini par Koh et Tan (2005) est alors un processus de découverte de modèles et de tendances inconnus et l’utilisation de ces modèles pour bâtir des modèles prédictifs. Hand et collab. (2001) rejoint cette définition en spécifiant que le forage de données est l’analyse de grands ensembles de données observation-nelles pour découvrir de nouvelles relations et pour résumer les données de façon novatrice, compréhensible et utile pour le propriétaire des données. Cette définition met l’accent sur deux points importants :

1. Le forage de données s’intéresse aux données observationnelles par opposition aux don-nées expérimentales. Les dondon-nées observationnelles sont des dondon-nées collectées à d’autres fins que l’analyse de données (par exemple, garder des renseignements sur l’historique des services médicaux reçus). Cela signifie que les objectifs de l’exercice de forage de données n’influencent pas la stratégie de collecte de données et que les données sont disponibles au moment de l’étude. On note par ailleurs que lorsque ces données sont recueillies auprès d’organismes gouvernementaux à des fins d’administration, elles sont appelées données administratives (Kum et collab., 2003).

2. Le forage de données s’intéresse à des grands volumes de données. Cette taille des don-nées fait surgir des problèmes supplémentaires liés à la représentation et aux traitements de données. Cela limite l’utilisation des méthodes d’analyse et d’exploration classique des données. Ainsi, le forage de données vient comme un remède qui met à disposition des techniques et des méthodes permettant de traiter ces grands ensembles de données pour en extraire de l’information (Besse et collab., 2001).

En conséquence, le forage de données est un domaine où l’informatique, l’apprentissage auto-matique et les statistiques se rencontrent. Il vise à extraire et à découvrir des relations cachées telles que des modèles dans les données.

(26)

De son côté, l’apprentissage automatique (machine learning en anglais) est un domaine de l’intelligence artificielle. Mitchell (1997) le définit en tant que domaine de recherche prin-cipalement concerné par la découverte de modèles et d’autres régularités dans les données. Ce domaine met au point des algorithmes permettant d’apprendre et de faire des prévisions sur les données. Il fournit ainsi une base technique pour le forage de données. On distingue l’apprentissage supervisé, l’apprentissage par renforcement, l’apprentissage semi-supervisé et l’apprentissage non supervisé ou regroupement (ou clustering en anglais). Dans l’apprentis-sage supervisé, il s’agit d’apprendre à classer un nouvel individu au sens statistique parmi un ensemble de classes prédéfinies, à partir de données d’entraînement. L’apprentissage par ren-forcement est une classe d’algorithmes qui spécifie comment un agent artificiel peut apprendre à sélectionner des actions afin de maximiser la récompense totale attendue. Le regroupement consiste à apprendre sans superviseur. A partir d’une population, il s’agit d’extraire des classes ou groupes d’individus présentant des caractéristiques communes, le nombre et la définition des classes n’étant pas disponibles a priori. L’apprentissage semi-supervisé quant à lui se situe entre le regroupement et l’apprentissage supervisé. En fait, la plupart des stratégies d’apprentissage semi-supervisées sont basées sur l’extension de l’apprentissage non supervisé ou supervisé pour inclure de l’information supplémentaire typique provenant de l’autre type d’apprentissage.

Le regroupement est ainsi un sujet de recherche émanant de la problématique d’apprentis-sage automatique et représente l’une des tâches principales de forage de données à côté de la classification, de la recherche des règles d’association et de la détection des anomalies. Il constitue un domaine d’étude incontournable en apprentissage touchant plusieurs domaines d’application. Cette thèse fournit des contributions dans ce domaine avec une perspective technique et fonctionnel qui intègre notre travail dans le cadre de forage de données et de découvertes de connaissances.

Le forage de données est basé sur les données. Ainsi, dans la sous-section 2.1.1 nous présentons les différents types de données pour ensuite donner une idée sur la notion de similarité entre ces données dans la sous-section 2.1.2. Pour conclure cette section, nous spécifions les différentes approches utilisées pour aborder la problématique de cette thèse.

2.1.1 Données

Les données représentent la pièce maîtresse de forage de données. Elles sont collectées dans des ensembles. Ces ensembles représentent une collection des objets ou des entités décrites par des attributs. Les différentes techniques d’apprentissage automatique interviennent sur des « individus » caractérisés par une liste des variables ou attributs. Un attribut définit une propriété de chaque individu. D’une façon formelle, on peut définir un attribut par une application A de l’ensemble d’individus X dans D. D est le domaine d’observation de A et il

(27)

est muni d’une structure algébrique.

A : X −→ D

Xi 7−→ A(Xi)

Il existe différents types d’attributs qui diffèrent selon leurs domaines d’observations. Ces do-maines spécifient les valeurs que les attributs peuvent prendre. Les types d’attributs est un facteur primordial pour la conception et l’implémentation des algorithmes de forage de don-nées. En général, il existe de nombreux types d’attributs qui peuvent être utilisés pour mesurer les propriétés d’une entité. Il est nécessaire de comprendre les différences entre les différents types afin de proposer les meilleures solutions pour le forage des données. On distingue deux grandes familles de types d’attributs : les attributs classiques et les attributs symboliques. Les attributs classiques prennent seulement une valeur qui caractérise la propriété d’un objet alors que les attributs symboliques peuvent prendre plus d’une valeur ou même un intervalle de valeurs.

Attributs classiques

Attributs qualitatives : Une variable qualitative (ou aussi catégorielle) est une carac-téristique d’un objet. Elle a un ensemble fini de valeurs. Ces valeurs sont des valeurs sym-boliques qui désignent des catégories ou modalités. Ce type de variable contient les variables nominales, binaires et ordinales. Une variable nominale prend comme valeurs des catégories. Il n’y a aucun ordre précis entre ses valeurs. Par exemple, le sexe a deux modalités possibles : féminin ou masculin. Les modalités peuvent être représentées par des valeurs numériques mais aucune arithmétique ne peut être attribuée à ses valeurs. En outre, une variable binaire est un cas particulier d’une variable nominale qui ne prend que deux valeurs possibles : vrai ou faux ou 1 ou 0. D’un autre côté, la variable ordinale est semblable à la variable nominale sauf que ses modalités disposent d’un ordre. Par exemple, le degré de satisfaction présente un ordre entre ces modalités qui peuvent avoir les valeurs suivantes : très satisfait, satisfait, insatisfait.

Attributs quantitatives : Une variable quantitative ou numérique contient des valeurs mesurables. On distingue deux types : les variables continues et les variables discrètes. Une variable discrète est une variable qui ne peut prendre que des valeurs séparées les unes des autres. C’est le cas, par exemple, du nombre d’habitants d’une municipalité. Son domaine d’observation est un sous ensemble fini ou infini de l’ensemble des entiers naturels N. Par opposition, une variable continue peut prendre toutes les valeurs possibles dans un intervalle. Son ensemble d’observation est ainsi un sous ensemble infini de l’ensemble des nombres réels R.

Attributs symboliques Les variables symboliques sont définies dans l’analyse des

(28)

d’une valeur ou même un intervalle de valeurs. Selon la nature des valeurs et du domaine d’observation, on peut distinguer trois types des variables symboliques : les variables multi-valuées nominales, de type intervalle et de type modal. Pour la variable nominale multivaluée le domaine d’observation est l’ensemble P(S) qui est l’ensemble des parties d’un ensemble

S où S est un ensemble fini. Cette variable prend comme valeur un ensemble de modalités.

Par exemple, la variable intervention dans un séjour hospitalier peut contenir une liste des interventions. La variable de type intervalle prend comme valeur un intervalle de valeurs alors que la variable modale prend comme valeur une distribution de probabilités. Ces variables permettent de tenir compte de la variabilité de certaines caractéristiques qui décrivent les objets (Chavent, 1997).

2.1.2 Mesures de similarité et de dissimilarité

En forage de données il est nécessaire de définir une sorte de mesure qui peut évaluer si deux objets sont similaires ou dissemblables. Deux notions interviennent afin d’atteindre cet objectif et fournir des mesures de ressemblance ou dissemblance. Ces notions sont la similarité et la dissimilarité ou la distance (Goshtasby, 2012). Une mesure de similarité est une mesure de la proximité entre deux objets. Si X représente l’ensemble des objets. La mesure de similarité est définie comme une fonction :

s : X × X _{−→ R}+

x, y 7−→ s(x, y)

Cette fonction satisfait les propriétés suivantes : — Positivité : ∀x, y ∈ X , s(x, y) ≥ 0

— Symétrie : ∀x, y ∈ X , s(x, y) = s(y, x) — Maximalité : ∀x, y ∈ X , s(x, x) ≥ s(x, y)

De ce fait, une grande valeur de similarité indique une forte ressemblance entre les objets. Par ailleurs, la mesure de dissimilarité ou la distance mesure la dissemblance entre les individus. Une mesure de dissimilarité ou une distance se définit comme une fonction :

d : X × X _{−→ R}+

x, y 7−→ d(x, y)

La distance vérifie les propriétés suivantes : — Positivité : ∀x, y ∈ X , d(x, y) ≥ 0 — Symétrie : ∀x, y ∈ X , d(x, y) = d(y, x) — Identité : ∀x, y ∈ X , d(x, y) = 0 ⇔ x = y

(29)

Selon les types d’attributs qui décrivent les objets des mesures de dissimilarités sont utilisées.

Lorsque les objets sont décrits par deux vecteurs d’attributs numérique x_i et x_j, on utilise

souvent la distance Euclidienne définit par :

d(xi, xj) = v u u t m X l=1 (xi,l− xj,l)2 (2.1)

Cependant, si les objets sont des vecteurs d’attributs nominaux, la distance de Hamming peut être utilisée. Elle se définit par l’équation suivante :

d(xi, xj) =

m

X

l=1

I(xi,l, xj,l) (2.2)

où I(x, y) = 0 si x = y et I(x, y) = 1 autrement, et où m est le nombre d’attributs.

2.1.3 Différentes approches

Il n’existe pas une technique de regroupement universelle applicable pour découvrir la variété des structures présentes dans les ensembles de données multidimensionnelles (Jain et collab., 1999). Les ensembles de données collectées jouent un rôle déterminant dans le choix de ces techniques et méthodes. Ces différentes méthodes peuvent être classées en deux grandes fa-milles : les méthodes par partitionnement et les méthodes hiérarchiques. En outre, en présence des données séquentielles, des méthodes pour représenter et exploiter ces données sont néces-saires. La représentation en sac des mots ainsi que l’extraction des motifs fréquents y font partie. De surcroît, si les données demandent la prise en compte de la composante temporelle dans le regroupement, les modèles de chaînes de Markov cachées sont d’une grande utilité. La section 2.2 présentent en détails l’ensemble des techniques et des méthodes utilisées dans nos travaux.

2.2 Méthodes et techniques

2.2.1 Représentation en sac des mots

La représentation en sac des mots (Bag-of-Words (BoW) en anglais) est répandue dans le domaine de la recherche d’information. Elle consiste à représenter un document par un vec-teur composé des valeurs qui reflètent pour chaque mot son importance relative comme un

descripteur. Ces pondérations sont des poids wi,j attribués à chaque terme tj pour un

docu-ment donné d_i et qui quantifient la pertinence de ce terme pour ce document. La méthode la

plus utilisée de représentation en sac de mots est la méthode tf-idf (Term Frequency-Inverse Document Frequency en anglais) (Salton et McGill, 1986). Cette représentation se base sur un vocabulaire de mots ou de termes. L’idée s’appuie sur deux concepts pour chaque terme : i) sa fréquence et ii) sa fréquence documentaire. Pour chaque document dans le corpus, la fré-quence du terme (Term Frequency, tf) est définie par le nombre d’occurrences de ce mot dans

(30)

ce document. Cette fréquence peut être normalisée. D’autre part, la fréquence documentaire (Inverse Document Frequency, idf) (Sparck Jones, 1972) vise à donner un poids important aux mots les moins fréquents dans le corpus. Le concept se base sur l’idée que plus un mot apparaît dans le corpus moins il est pertinent pour la discrimination. Cette valeur est calculée par la formule suivante

idf (tj) = log

n

df(t_j)

! ,

où df(tj) est le nombre de documents qui contiennent le terme tj dans le corpus et n est le

nombre total de documents. Si on considère T comme vocabulaire, alors une représentation

du document d_i consiste en un vecteur de poids de mots (w_i,1, . . . , wi,L), où L est le nombre

de mots dans ce vocabulaire. Les poids wi,j sont calculés à l’aide de la formule tf-idf par

wi,j = tf(tj, di) × idf(tj), où tf(tj, di) est la fréquence du terme tj dans le document di et

idf(t_j) est la fréquence documentaire pour ce terme.

2.2.2 Extraction des motifs fréquents

La problématique d’extraction des motifs fréquents est un sujet de recherche qui vise à ex-traire l’ensemble des itemsets fréquents ou motifs fréquents. Le concept d’extraction des motifs fréquents a été introduit en 1993 par Agrawal et collab. (1993) avec l’analyse du panier des clients afin de comprendre leurs habitudes de consommation, agencer les rayons du magasin, organiser les promotions, gérer les stocks, etc. Elle se base sur un cadre formel et des concepts de base. D’un côté, l’item représente un objet appartenant à un ensemble fini d’éléments

distincts I = {i1, . . . , in}. Un sous ensemble (i1, i2, . . . , ik) est définit comme un itemset.

Lorsque cet ensemble contient k items, il est appelé k-itemset. D’autre part, dans une base transactionnelle D, une transaction est définie comme un ensemble non-vide d’items t tel que

t ⊂ I. Le support d’un itemset x est définit comme la proportion des transactions de D qui

contiennent x. L’extraction des motifs fréquents revient ainsi à extraire l’ensemble de tous les itemsets fréquents, c’est-à-dire ceux qui sont supportés par une proportion des transac-tions qui dépasse un support minimum fixé a priori. Une propriété utile et courante dans le domaine de recherche des motifs fréquents est l’antimonotonicité. Cette propriété stipule que tout sous-ensemble d’un itemset fréquent est aussi un itemset fréquent. Ainsi, la réciproque donne que si un itemset est peu fréquent alors ses super-ensembles sont aussi peu fréquents. L’algorithme Apriori proposé par Agrawal et Srikant (1994) est l’algorithme de base pour l’ex-traction des motifs fréquents à partir d’une base transactionnelle. L’algorithme Apriori se base essentiellement sur cette propriété d’antimonotonicité existante entre les itemsets et l’utilise

afin de diminuer le nombre d’itemsets candidats à considérer. Notons S_k l’ensemble

d’item-sets candidats de taille k et Fk l’ensemble de ces itemsets fréquents. L’algorithme Apriori

effectue plusieurs passages dans la base D. Lors du premier passage, l’algorithme commence par déterminer le support de chaque item. L’ensemble de ces 1-itemsets représente l’ensemble

(31)

Algorithme 1 Algorithme Apriori

input ST : l’ensemble des transactions ; θ : seuil output F : l’ensemble des itemsets fréquents dans ST

1: F1 ← {1-itemsets fréquents} 2: k ← 2 3: while F_k−1 6= ∅ do 4: Sk← {p ∪ {q} | p ∈ Fk−1∧ q 6∈ p} 5: supp(c) ← 0, ∀c ∈ Sk 6: for all st ∈ ST do 7: Dt← {c | c ∈ Sk∧ c ⊆ st} 8: for all c ∈ Dt do 9: supp(c) ← supp(c) + 1 10: end for 11: end for 12: Fk← {c | c ∈ Sk∧ supp(c) ≥ θ} 13: k ← k + 1 14: end while

l’ensemble des items fréquents F₁ en élaguant les candidats qui ont une valeur du support

inférieur à un seuil donné θ. Dans les passages suivants, l’algorithme commence par l’ensemble d’itemsets fréquents obtenu à l’itération précédente et il agglomère à chacun de ces éléments

plus d’items. Ceci génère un nouvel ensemble d’itemsets candidats S_ket l’algorithme procède

à un calcul des supports pour chaque élément de cet ensemble. Seuls les itemsets candidats ayant un support supérieur au seuil sont conservés. A la fin de ce passage, ces itemsets

can-didats constituent l’ensemble fréquent F_k de ce passage et ils servent comme base pour la

constitution de l’ensemble des candidats pour le passage suivant et ainsi de suite. Ce pro-cessus se poursuit jusqu’à ce qu’aucun nouvel ensemble des candidats ne peut être généré. L’algorithme 1 présente le pseudo-code de la méthode Apriori.

2.2.3 Méthodes de regroupement

Les méthodes de regroupement font partie des techniques exploratoires permettant de dé-couvrir une structure dans les données. En regroupant les individus semblables au sein de groupes homogènes, ces méthodes permettent de synthétiser un ensemble d’informations à partir de la notion de classe naturelle. La principale source de variété au sein de méthodes de clustering provient de l’hétérogénéité dans la formalisation mathématique de terme semblable ou homogène. De plus, selon le type de données et les hypothèses retenues de ces données, des critères et des méthodes adaptées pour optimiser ces critères sont proposées. Jain et collab. (1999) proposent une organisation des méthodes de clustering dans deux grandes familles : les méthodes par partitionnement et les méthodes hiérarchiques.

(32)

Méthodes de partitionnement Les méthodes de partitionnement cherchent à répartir un ensemble d’objets dans des groupes. Ceci peut être décrit formellement de la manière suivante : Soit I un ensemble d’objets. L’objectif est de trouver une partition P en groupes

d’objets C_i avec P = {C₁, C2, . . . , CK} tel que :

Ci∩ Cj = ∅, ∀i, j = 1, . . . , k et i 6= j,

C1∪ C2∪ . . . ∪ CK = I,

Ci 6= ∅, ∀i = 1, . . . , K.

Dans cette partition, chaque groupe doit être le plus homogène possible et chaque paire de groupes doit être la plus différente possible. Autrement dit, ces méthodes cherchent à diviser la population initiale en groupes disjoints en se basant sur une mesure de ressemblance entre les objets. Il existe dans la littérature une profusion de méthodes et de critères de regroupement non hiérarchique. Nous nous sommes intéressés dans nos travaux à deux grandes familles d’approches : les méthodes classiques de partitionnement basées sur la notion de distance et les approches fondées sur des modèles probabilistes.

Algorithme k-means : Les algorithmes de partitionnement basés sur la notion de

distance définissent une fonction objectif qui traduit le fait que les objets dans un groupe doit être similaires et les objets dans deux groupes différents doivent être le plus éloignés. Ainsi, ces algorithmes cherchent une partition qui optimise ce critère. Partant du fait qu’il est impossible d’énumérer toutes les partitions, des heuristiques sont proposés pour trouver des optimums locaux. L’algorithme classique de regroupement et qui reste parmi les algorithmes les plus utilisés dans le domaine est l’algorithme k-means (MacQueen, 1967). Cet algorithme se base sur l’idée que chaque groupe est représenté par un centre. Ce centre est la moyenne de tous les objets qui appartient au groupe. Initialement, ces centres sont choisis d’une manière aléatoire. Chaque objet est ensuite affecté au groupe du centre le plus proche de lui. Après cette étape d’affectation vient l’étape d’actualisation des centres. Elle vise à calculer les valeurs des centres en se basant sur les valeurs des objets appartenant à chaque groupe. Ces deux étapes sont répétées jusqu’à ce qu’il n’y ait plus de changement dans aucun groupe. L’algorithme est décrit par les itérations suivantes :

1. Sélectionner aléatoirement k centres des groupes ; 2. Affecter chaque objet au centre le plus proche ;

3. Actualiser les centres des groupes en se basant sur la nouvelle partition ;

4. Répétez les étapes 2) et 3) jusqu’à ce qu’il n’y ait pas de changement pour chaque groupe.

Approche fondée sur des modèles probabilistes : Les modèles probabilistes

(33)

Dans cette perspective, les modèles de mélanges finis (Pearson, 1894) suppose que les don-nées proviennent des groupes distincts appelés composantes. Chacune de ces composantes,

dont les proportions sont données par les nombres ω1, · · · , ωK, suivent des lois de probabilités

f (·, φk) , paramétrées par les vecteurs φk. La densité f de la loi mélange à laquelle répond la

population, paramétrée par le vecteur θ = (ω₁, . . . , ωK, φ1, . . . , φK), s’écrit alors :

f (x, θ) =

K

X

k=1

ωkfk(x, φk)

On peut utiliser tout type de fonction de densité. Le choix se fait selon la nature des données à traiter. La recherche d’une partition s’appuyant sur le modèle de mélange peut être faite selon le critère du maximum a posteriori. C’est à dire qu’une observation est associée au groupe qui donne la plus grande probabilité a posteriori d’être issue de lui. Cette approche consiste à utiliser les paramètres estimés de modèle de mélange d’où la nécessité de les estimer. Cette estimation se fait à l’aide de la méthode du maximum de vraisemblance, en utilisant l’al-gorithme Espérance-Maximisation (EM) (Expectation-Maximization en anglais) (Dempster et collab., 1977). La vraisemblance des données observées x, notée L(θ, x), n’est autre que

la probabilité d’obtenir l’échantillon x = {x1, x2, . . . , xn} lorsque les données suivent

effecti-vement la loi de densité mélange f (x, θ). Comme les échantillons xi sont considérées comme

étant indépendants et identiquement distribués, on a :

L(θ, x) = n Y i=1 p(xi, θ) = n Y i=1 K X k=1 ωkfk(xi, φk).

La maximisation de la fonction de vraisemblance par rapport à θ ne peut pas se faire direc-tement. L’idée à la base de l’algorithme EM consiste à raisonner sur les données complètes (données observées et données cachées) tout en prenant en compte le fait que l’information disponible sur les données cachées ne peut venir que des données observées. Notons u les don-nées correspondantes à la partition des individus en K groupes. La méthode de maximisation de la log-vraisemblance part du principe que ces données u sont inconnues et que si elles étaient connues le problème serait simple à résoudre. En appelant x les données observées et y = (x, u) les données complétées, on peut écrire la probabilité des données complétées comme étant le produit de la probabilité des données observées par la probabilité des données complétées sachant les données observées, c’est-à-dire :

p(y, θ) = p(y|x, θ)p(x, θ).

Les développements mathématiques standards de l’algorithme EM remplacent la maximisa-tion de la vraisemblance L(θ, x) par la maximisamaximisa-tion de l’espérance condimaximisa-tionnelle, sachant

les données x et le paramètre courant θ(t). Cette expression est notée

Q(θ, θ(t)) = n X i=1 K X k=1 zi,klog[ωkf (xi|φk)],

(34)

où z_i,k = E(u_ik|x_i,θt_{) représente la vraisemblance d’appartenance de l’individu i au groupe}

k conditionnellement au paramètre courant θt. L’étape E de l’algorithme EM se réduit au

calcul des valeurs de zi,k. Pour chaque itération t ces valeurs sont données par les expressions

suivantes : z_i,k(t)= ω (t) k f (xi, φ (t) k ) PK l=1ω (t) l f (xi, φ(t)l ) .

L’étape M consiste à maximiser la log-vraisemblance complétée donnée par

Q(θ, θ(t)) = n X i=1 K X k=1 z_i,k(t)log[ω_kf (xi|φk)]),

Cette étape se réduit au calcul des paramètres φ_ket ω_kqui maximise cette log-vraisemblance.

Ainsi, l’étape M détermine les paramètres θ qui maximisent l’expression de la log-vraisemblance. Ces paramètres sont définis par

θ(t+1)= argmax θ [ n X i=1 K X k=1 z_i,k(t)log[ωkf (xi|φk)])].

Les proportions de mélange qui maximisent cette quantité sont données, indépendamment de loi utilisée, par :

ω_k(t+1)= 1 n n X i=1 z_i,k(t).

L’algorithme EM est présenté à l’algorithme 2.

Algorithme 2 Algorithme EM

input X = {x1, . . . , xn} : ensemble de données, TEM : nombre maximum d’itérations output z(T_i,kEM) : probabilités finales d’appartenance

1: Initialisation du paramètre θ(0)

2: while |L(θ(t)_L(θ)−L(θ(t−1)(t−1)₎ )| ≥ 

∧ (t ≤ TEM_{) do}

3: Étape E : Calcul des probabilités à posteriori : z_i,k(t) = ω

(t) k fk(xi,φ(c)_k ) PK l=1ω (t) l fl(xi,φ(t)l ) 4: Étape M :

— Calcul des proportions : ω(t+1)_k = _n1 Pn

i=1z

(t)

i,k

— Calcul des paramètres de modèles : θ(t+1)= argmax_θQ(θ, θ(t))

5: t ← t + 1

6: end while

Méthodes hiérarchique Les méthodes de regroupement hiérarchique ne se contentent pas

seulement d’une partition mais tentent de construire une hiérarchie de parties de l’ensemble des objets. Les deux partitions extrêmes sont la partition discrète, où chaque objet forme à lui seul un groupe et la partition grossière, où il n’y a qu’un seul groupe formé par tous les

(35)

objets. Formellement, une famille H des groupes de l’ensemble des objets I est une hiérarchie si elle vérifie les propriétés suivantes :

— ∅ et les singletons appartiennent à H — ∀A et B ∈ H, A ∩ B ∈ {∅, A, B}

En outre, une hiérarchie valuée est un couple (H, f ) où H est une hiérarchie et f une

appli-cation de H dans R+ telle que :

— f(A)=0 si et seulement si A ne contient qu’un seul individu. — ∀A et B ∈ H, A ⊆ B ∧ A 6= B ⇔ f (A) < f (B)

Une hiérarchie valuée est représentée par un arbre de regroupement appelé le dendrogramme. Il existe deux types de méthodes de regroupement hiérarchique : la Classification Ascendante Hiérarchique (CAH) et la Classification Descendante Hiérarchique (CDH). L’approche de CAH consiste à commencer avec un objet dans chaque groupe et faire une série d’opérations de fusion qui conduisent finalement à avoir tous les objets dans le même groupe. Par opposition à la CAH, la CDH considère que l’ensemble de données appartient à un seul groupe et procède à diviser successivement les groupes jusqu’à ce que tous les groupes ne contiennent qu’un seul objet. En regroupement hiérarchique, c’est l’approche ascendante ou agglomérative qui est souvent utilisée. Cette approche est composée des étapes suivantes :

1. Considérer chaque objet comme un groupe.

2. Calculer la matrice de dissimilarité entre les groupes.

3. Déterminer les deux groupes les plus proches et les fusionner.

4. Actualiser la matrice de dissimilarité en calculant les distances entre le nouveau groupe et les autres clusters.

5. Répéter les étapes 3)-4) jusqu’à que tous les objets sont dans un seul groupe.

Il est clair que cette approche se base sur deux critères : un critère de dissimilarité entre les objets et un critère de dissimilarité entre les groupes. Pour le critère de dissimilarité entre les objets, il faut choisir la bonne distance selon les types de données. Plusieurs critères de mesure de la dissimilarité entre les groupes sont proposés. Les critères les plus utilisés sont le critère du saut minimum (single linkage en anglais), le critère du saut maximal (complete linkage en anglais) et le critère de lien moyen (average linkage en anglais). Si on considère

deux groupes C1 et C2, le critère du saut minimal (Eq. 2.4) représente la plus courte distance

entre un individu de C1 et un individu de C2 alors que pour le saut maximal (Eq. 2.5) elle

représente la plus longue distance. Le critère de lien moyen est donnée par l’équation Eq. 2.5.

D(C1, C2) = min d(x, y), x ∈ C1 et y ∈ C2 (2.3)

D(C1, C2) = max d(x, y), x ∈ C1 et y ∈ C2 (2.4)

D(C1, C2) = _|C₁1_||C₂_|Px∈C1

P

y∈C1d(x, y) (2.5)

(36)

2.2.4 Modèle de chaînes de Markov Cachées

Les chaînes de Markov cachés (HMM) (Hidden Markov Models en anglais) sont des outils statistiques permettant de modéliser des phénomènes aléatoires dépendant du temps. Initia-lement, ces modèles ont été utilisés d’une manière novatrice dans la reconnaissance de parole où ils ont montré des bonnes performances. Ceci a favorisé leur utilisation dans d’autres do-maines tels que la reconnaissance d’images, l’ordonnancement des tâches et la reconnaissance des formes. Pour pouvoir présenter les HMM, il est nécessaire de définir plusieurs notions. Tout d’abord on commence par définir la variable aléatoire réelle qui est une fonction me-surable : X : Ω → R. Ω est appelé l’univers et prend souvent comme valeur l’ensemble des réels R ou de l’ensemble des entiers positifs N. De son côté, un processus stochastique est

une famille {Xt}t∈Tde variables aléatoires définies sur le même espace de probabilité Ω.

L’en-semble T représente souvent le temps. Les états d’un processus stochastiques, défini par les

variables aléatoires Xt : Ω → R pour tout t ∈ T, sont les valeurs prises par ces variables

lorsque t varie. On note S l’ensemble des états du processus. Lorsque T et S sont discrets et

que le processus {S_t}_t∈T tient compte de la dynamique temporelle grâce à une équation de

récurrence, on est dans le cas de processus markovien ou chaînes de Markov. Ainsi, le proces-sus de Markov est un système qui peut être en tous temps dans un état parmi un ensemble

distinct de N états S = {s1, s2, . . . , sN}. Le système peut changer d’état ou rester dans son

état actuel à chaque intervalle régulier de temps. On représente l’état dans lequel le système

se trouve à l’instant t par q_t. L’évolution d’un processus est une suite de transitions d’états

q0, . . . , qT (qt ∈ S; ∀t = 1, . . . , T ). Sa loi d’évolution est obtenue à l’aide de la probabilité

P (S1= q1, . . . , ST = qt) définie successivement de la manière suivante :

P (S1= q1, . . . , ST = qt) =P (S1 = q1, . . . , ST −1 = qT −1)P (ST = qT|S1= q1, . . . , ST −1 = qT −1)

=P (S1 = q1)P (S2=q2|S1=q1) . . . P (ST = qT|S1 = q1, . . . , ST −1= qT −1)

Une chaîne de Markov est un processus de Markov pour lequel la probabilité que le processus soit dans un état à un instant t ne dépend que de l’état dans lequel se trouve le processus à

l’instant t − 1. Cela s’exprime pour toute suite d’états (q_t)_t∈T _{et pour tout instant t ∈ T par :}

P (St= qt|Xt−1= qt−1, . . . , S1 = q1) = P (St= qt|St−1= qt−1)

La probabilité P (S_t= q_t|S_t−1 = q_t−1) représente la probabilité de transition de l’état q_t−1 à

l’instant t − 1 vers l’état qt à l’instant t. Une chaîne de Markov est dite homogène dans le

temps si, et seulement si, les probabilités de transition ne dépendent pas du temps. Elle est définie totalement par la donnée :

— Ensemble des états S

— Les probabilités des états initiaux π = (π1, . . . , πN) avec πi = P (S1 = si)

— Les probabilités de transition des états A : A = (a_ij)_1≤i,j≤N avec a_i,j = P (S_t =