- - -
- - -
Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository
Thèse de doctorat/ PhD Thesis Citation APA:
Belacel, N. (2000). Méthodes de classification multicritère : méthodologie et applications à l'aide au diagnostic médical (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences appliquées, Bruxelles.
Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/211820/1/d11daea3-a47f-4118-a439-8528e8bb3be5.txt
(English version below)
Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).
Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.
DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :
Le nom des auteurs, le titre et la référence bibliographique complète soient cités;
L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;
Le contenu ne soit pas modifié.
L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.
--- English Version ---
This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).
If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.
DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.
Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:
The authors, title and full bibliographic details are credited in any copy;
The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;
The content is not changed in any way.
It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.
--- N
D 0S857
L__________________________________ )
UNIVERSITE L ibre D e B ruxelles
I nstitut de S tatistique et de R echerche O pérationnelle
/
Méthodes de Classification Multicritère : Méthodologie et Applications à T Aide au
Diagnostic Médical
Belacel Nabil
Thèse présentée en vue de l’obtention du grade de Docteur en Sciences orientation Recherche Opérationnelle
Année académique 1999-2000
UNIVERSITE L ibre D e B ruxelles
I nstitut de S tatistique et de R echerche O pérationnelle
Méthodes de Classification Multicritère : Méthodologie et Applications à l’Aide au
Diagnostic Médical
V____________ ____________________
Belacel Nabil
Thèse présentée en vue de l’obtention du grade de Docteur en Sciences orientation Recherche Opérationnelle
Année académique 1999-2000
A mes parents qui ont tant fait pour nous;
A mes sœurs et frères;
A ma nièce Asmaa.
Remerciements
Je tiens tout d’abord à remercier toute ma famille qui m'a beaucoup aidé et encouragé tout au long de mes études.
Je tiens à exprimer toute ma gratitude et ma reconnaissance à Monsieur le Professeur Philippe Vincke, qui a bien voulu prendre la direction de ce travail de thèse.
Ses conseils et son soutien durant l'élaboration de ce travail m'ont apporté une aide très précieuse.
Monsieur Jean-Marie Scheijf Professeur aux Cliniques Saint-Luc à l'Université Catholique du Louvain et Chef du Laboratoire d'Hématologie, m'a accueilli au sein de son Laboratoire, a pu me guider et m'a aidé à appréhender les grandes lignes inhérentes à la pathologie des leucémies aiguës qui est l'une des plus importantes applications dans notre travail. Qu'il trouve ici l'expression de mes très vifs remerciements pour sa patience et sa volonté de communiquer son savoir.
J'exprime mes remerciements les plus vifs à Monsieur le Professeur Marc Hallin, pour l'honneur qu'il méfait en acceptant de présider le jury de cette thèse.
Messieurs Marc Pirlot Professeur à la faculté polytechnique de Mons, Patrice Pemy Professeur à l'Université Paris IV, Jean-Pierre Brans et Madame Martine Labbe Professeurs à l'Université Libre de Bruxelles, ont aimablement accepté de participer au jury de cette thèse. Je les en remercie profondément.
Mon ami Mohamed-Rachid Boulassel Docteur en Hématologie-Biologique et Transfusion pour son aide constante, pour ses explications médicales et dont le soutien constant tant scientifique qu'amical m'a été précieux au cours de ce travail. Je l'en remercie vivement.
Je tiens également à remercier chaleureusement mes amis Housni Djellab, Amar Oukil, Kheder Khaled Docteurs en Recherche Opérationnelle et Toufik Zahaf Docteur en Statistiques qui ont bien voulu relire ma thèse et me faire part de leurs remarques et pour leurs encouragements amicaux.
Mes sincères remerciements vont aussi aux professeurs Nenad Mladenovic et MoncefAbbas et aux Messieurs M'hamed Mesfioui et Eric Gourdin pour leurs soutiens et leurs aides.
Mes remerciements vont aussi à Madame Françoise Van Brussel et Véronique
Bastin pour la gentillesse, l'amabilité, l'aide et l'accueil chaleureux qu'elles m'ont
toujours témoignés durant mon séjour au Service de Mathématiques de la Gestion. Mes
remerciements vont aussi à Madame Jacqueline Douilly-Bouttemane.
Je tiens également à remercier chaleureusement tous mes collègues du Service de Mathématique de la Gestion et de l'institut de Statistique et de Recherche Opérationnelle.
Ma gratitude va au Département des relations internationales de l'université Libre de Bruxelles pour l'aide financière qu'il m'a accordé durant ces quatre années d'études.
Enfin que tous ceux et celles qui m'ont apporté leur appui trouve ici l'expression
de ma profonde gratitude.
ABSTRACT
In this dissertation, we are interested in multicriteria classification problem, which consists in formulating the decision problem in terms of assigning each object to one or several classes. This assignment is achieved through the examination of the intrinsic value of the object by referring to pre-established norms. In multicriteria decision analysis this problem is known as sorting problematic.
Several methods of classification including statistics, pattern récognition, artificial intelligence and neural networks hâve been used for medical diagnosis aid. The multicriteria decision aid constitutes another approach.
In this context, we hâve developed three classification methods: the multicriteria choice procedure in the nominal sorting problematic (PROCTN), the fuzzy assignment procedure in the nominal sorting problematic (PROAFTN) and the fuzzy multicriteria choice procedure in the nominal sorting problematic (PROCFTN).
In order to illustrate our procedures, we proposed two clinical applications. One concems the cytopathological diagnosis of acute leukemia and the other concems the histopathological of astrocytic tumors. We show that the multicriteria decision aid approach can be successfully used to help medical diagnosis.
keywords: Multicriteria decision analysis; Classification; Fuzzy sets; Nominal sorting; Fuzzy
assignment; Choice approach; Diagnosis aid; Acute leukemia; Astrocytic tumors.
RESUME
Dans ce travail, nous nous intéressons au problème de classification multicritère qui consiste à affecter des objets à une ou plusieurs classes. Ceci se fait à travers un examen de la valeur intrinsèque de l’objet en se référant à des normes préétablies. Dans le domaine de l’aide multicritère à la décision, ce type de problème est connu sous le nom de problématique du tri.
Plusieurs méthodes de classification ont été utilisées dans le domaine de l’aide au diagnostic médical. Parmi ces méthodes nous citons: les statistiques, la reconnaissance des formes, l’intelligence artificielle et les réseaux connexionnistes. A côtés de ces méthodes, l’aide multicritère à la décision constitue une autre approche d’aide au diagnostic médical.
Dans ce contexte, nous avons développé trois nouvelles méthodes de classification multicritère : la procédure de choix dans le cadre de la problématique du tri nominal (PROCTN), la procédure d’affectation floue dans le cadre de la problématique du tri nominal {PROAFTN) et la procédure de choix flou dans le cadre de la problématique du tri nominal (PROCFTN).
Afin d’illustrer nos méthodes, nous avons étudié deux applications cliniques, l’une concernant le domaine cytopathologique des leucémies aiguës et l’autre concernant le domaine histopathologique des tumeurs astrocytaires. Ce travail a montré que l’approche d’aide multicritère à la décision peut être appliquée avec succès pour aider le diagnostic médical.
Mots Clés : Aide multicritère à la décision; Classification; Ensembles flous; Tri nominal;
Affectation floue; Approche de choix; Aide au diagnostic; Leucémies aiguës;
Tumeurs astrocytaires.
Une partie de ce travail a été publiée dans:
1. “Multicriteria Assignment Method PROAFTN: Methodology and medical application”, European Journal of Operational Research (1999) (In press).
2. "La méthode PROAFTN d'affectation multicritère: fondements et application à l'aide au diagnostic médical". Rapport de recherche IS-MG 98/05. Université Libre de Bruxelles, Belgique, Février 1998.
3. “Application of the PROAFTN method to assist astrocytic tumor diagnosis using parameters generated by computer-assisted microscope analysis of cell image”, Innovation and Technology in Biology and Medicine (ITBM): 20(4)5, 1999. In press (co-authors: Ph. Vincke and MR. Boulassel).
5. '"PROAFTN: A fuzzy assignment method to grade bladder cancer malignancy using features generated by computer-assisted image analysis”, To appear in:
Foundations of Computing and Decision Sciences (FCDS). (co-author: MR.
Boulassel).
4. “Acute Leukemia Diagnosis Aid Software using multicriteria fuzzy assignment methodology”. Rapport de recherche IS-MG 99/12, Université Libre de Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, Mars 1999. Submitted for publication, (co-authors: Vincke Ph., Scheiff JM., Boulassel MR.)
6. “PROAFTN classification method: A useful tool to assist medical diagnosis".
Rapport de recherche IS-MG 99/24, Université Libre de Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, July 1999. Submitted for publication, (co-author:
MR. Boulassel)
7. "Multicriteria Fuzzy Classification Procedure PROCFTN: Methodology and
Medical Application", Rapport de recherche IS-MG 99/25, Université Libre de
Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, July 1999. Submitted for
publication, (co-author: Boulassel)
Table des matières
Méthodes de Classification Multicritère : Méthodologies et Application à FAide au ___________ Diagnostic Médical ^
Liste des abréviations... 1
Introduction générale... 3
Partie A Etudes Préliminaires Résumé...11
Chapitre 1 : Panorama des méthodes de classification...13
1. Introduction... 13
2. Méthodes de classification automatique... 14
2.1 Méthodes non hiérarchiques... 14
2.1.1 Méthode de leader... 14
2.1.2 Méthode de k-means... 15
2.1.3 Méthodes de nuées dynamiques...15
2.2 Méthodes hiérarchiques... 16
3. Méthodes d ’ affectation...19
3.1 Méthodes d’apprentissage inductif... 19
3.1.1 Méthode des K plus proches voisins (K-ppv)... 19
3.1.2 Affectation par la méthode Bayésienne...21
3.1.3 Méthodes d’analyse discriminantes... 26
3.1.4 L’approche des réseaux de neurones...30
Table des matières
3.1.5 Affectation par l’approche d’arbre de décision... 36
3.2 Méthodes d’apprentissage déductif...41
3.2.1 Affectation par système expert... 41
3.3 Méthodes de classification multicritère...45
4. Performances des méthodes de classification... 46
Chapitre 2 : Aide multicritère à la décision et problématique du tri...49
1. Aide à la décision... 49
2. Modélisation des préférences...50
2.1 Définitions des actions potentielles... 50
2.2 Système relationnel de préférence... 51
2.3 Le concept de critère... 52
3. Analyse monocritère et multicritère...53
4. Problématiques de référence...55
5. Problématique du tri...59
5.1 Définition...59
5.2 Différents types de la problématique du tri...60
5.3 Différentes phases de la problématique du tri... 61
5.4 Méthodes d’affectation... 63
5.4.1 Cas de la problématique du tri ordinal... 63
5.4.1.1 Modélisation des catégories...64
5.4.1.2 Procédures d’affectation... 64
5.4.2 Cas de la problématique du tri nominal... 66
Partie B Méthodes développées Résumé... 67
Chapitre 3 : Description générale de la problématique du tri nominal....69
1. Introduction...69
2. Modélisation des catégories et procédures d’affectation... 69
Table des matières
2.1 Modélisation des catégories... 69
2.2 Définition d’une méthode du tri nominal...71
2.3 Principes fondannentaux d’une méthode du tri nominal...72
Chapitre 4 : Procédure de choix dans le cadre de la problématique du tri nominal...77
1. Introduction...77
2. Données et notations...77
3. Procédure d’affectation PROCTN. ... 78
3.1 Matrice de performances des actions de référence des catégories...80
3.2 Relation de surclassement entre les actions de référence... 82
3.3 Graphe de surclassement valué...83
3.4 Exploitation du graphe de surclassement...83
3.5 Calcul de flux à partir du graphe de surclassement...83
3.6 Affectation des actions aux différentes catégories...85
4. Analyse des propriétés de la procédure PROCTN ... 85
Chapitre 5 : Procédure d’affectation floue dans le cadre de la problématique du tri nominal... 89
1. Introduction... 89
2. Sous ensemble flou... 91
2.1 Généralités... 91
2.2 Connecteurs logiques flous... 93
2.3 Relations binaires floues... 98
3. La procédure PROAFTN ... 100
3.1 Introduction...100
3.2 Les paramètres utilisés dans PROAFTN ...102
3.3 Calcul de l’indice d’indifférence partiel...105
3.4 Propriétés de 1 ’ indice d’indifférence partiel...107
3.4.1 Les cas particuliers de l’indice d’indifférence partiel... 109
3.4.2 Propriétés générales de l’indice d’indifférence partiel...110
3.5 Relation d’indifférence globale basée sur le principe de concordance...! 14
Table des matières
3.6 Calcul de la relation d’indifférence de synthèse...116
3.6.1 Indices de discordance...117
3.6.2 Indice de discordance global... 119
3.6.3 Construction de la relation d’indifférence de synthèse...120
3.7 Affectation des actions aux différentes catégories... 122
Chapitre 6 : Procédure de choix flou dans le cadre de la problématique du tri nominal... 125
1. Introduction... 125
2. Description de la procédure PROCFTN ... 127
2.1 Matrice de performances... 127
2.2 Relation de préférence valuée entre les prototypes... 129
2.3 Fonction de score flou... 129
2.4 Choix de prototypes...131
3. Analyse des propriétés de la procédure PROCFTN ... 133
Partie C Application à l’aide au diagnostic médical Résumé...135
Introduction...137
Chapitre 7 ; Application dans le domaine cytopathologique des leucémies aiguës...139
1. Introduction...139
2. Classification morphologique des leucémies aiguës... 140
2.1. Leucémies Aiguës Lymphoblastic (LAL)... 140
2.2. Leucémies Aiguës Myéloblastic (LAM)... 141
3. Diagnostic des leucémies aiguës... 142
3.1 Diagnostic positif... 142
3.2 Critère de classification... 144
Table des matières
4. Résultats... 145
4.1 Données cliniques... 145
4.2 Evaluation des performances et interprétation des résultats...146
4.3 Exemple... 147
4.4 Résultats de classification... 150
5. Discussion et conclusion... 152
Chapitre 8 : Application dans le domaine histopathologique des tumeurs Astrocytaires... 155
1. Généralité et classification histopathologique... 155
2. Approche diagnostic des tumeurs astrocytaires par microscopie assistée par ordinateur...158
3. Critères de classification des tumeurs astrocydaires générés par microscopie assistée par ordinateur...161
3.1 Variables morphonucléaires... 161
3.1.1 Critères morphométrique...161
3.1.2 Critères densitométriques...162
3.1.3 Critères texturaux...162
3.2 Critères décrivant le taux de ploïdies...163
4. Résultats... 165
4.1 Données cliniques... 165
4.2 Evaluation des performances et interprétation des résultats... 165
4.3 Exemple...164
4.4 Résultats de classification... 168
5. Discussion et conclusion...172
Table des matières
Conclusion
Conclusion et perspectives...176
Annexes
Annexe A : Analyse des propriétés de la procédure PROAFTN...183 Annexe B : Différents types de leucémies aiguës selon la classification F.A.B..188 Annexe C : The use of fuzzy assignment method PROAFTN to make grading of
Bladder cancer malignancy using the features generated by means of computer-assisted microscope analysis of cell image... 198
B ibliographies... 215
TRIN : Règle d’affectation de la problématique du tri nominal.
PROCTN : PROcédure du Choix dans le cadre de la problématique du Tri Nominal.
PROAFTN : PROcédure d’Affectation Floue dans le cadre de la problématique du Tri Nominal.
PROCFTN : PROcédure du Choix Flou dans le cadre de la problématique du Tri Nominal.
F.A.B. : Proposition de classification des leucémies aiguës faite par le groupe Franco-Americano-Britanique.
OMS ; Organisation Mondiale de la Santé.
LA : Leucémie Aiguë.
LAL : Leucémie Aiguë Lymphoblastique.
LAM : Leucémie Aiguë Myéloblastique.
AST : ASTrocytomes (tumeur astrocytaire de grade II).
ANA : Astrocytome aNAplasique (tumeur astrocytaire de grade HI).
GBM : GlioBlastoMes (tumeur astrocytaire de grade IV).
Introduction
1. Introduction générale
De nombreux problèmes pratiques peuvent se ramener à l’affectation de différents objets à des classes prédéfinies. Par exemple dans le cas du diagnostic médical, il s’agit de reconnaître la pathologie d’un patient donné, les objets correspondent aux patients et les classes aux différentes pathologies. D’autres problèmes de diagnostic peuvent être vus de façon similaire : pannes des machines et défaillances des entreprises. Les méthodes de classification aident à traiter ce type de problèmes.
En général les méthodes de classification sont constituées en plusieurs étapes.
L’étape la plus importante consiste à élaborer des règles de classification à partir des connaissances disponibles a priori ; il s’agit de la phase d’apprentissage. Cette dernière utilise soit l’apprentissage déductif ou inductif. Les algorithmes d’apprentissage inductif dégagent un ensemble de règles (ou de normes) de classification à partir d’un ensemble d’exemples déjà classés. Le but de ces algorithmes est de produire des règles de classification afin de prédire la classe d’affectation d’un nouveau cas. Parmi les méthodes de classification utilisant ce type d’apprentissage, citons les méthodes des k plus proches voisins, la méthode bayésienne, la méthode d’analyse discriminante, l’approche des réseaux de neurones et la méthode d’arbre de décision (cf. McLachlan, 1992 ; Michie et ai, 1994 ; Duda et Hart, 1973 ; Bishop, 1973). Dans les algorithmes d’apprentissage déductif, les règles d’affectation sont déterminées a priori par l’interaction avec le décideur, ou l’expert. A partir de ces règles on détermine les classes d’affectation des objets.
Parmi les méthodes utilisant ce type d’apprentissage, signalons à titre d’exemples les systèmes experts et les ensembles approximatifs (Waterman, 1985 ; Chandrasekaran, et ai, 1988 ; Pawlak, 1991 ; Pawlak, et ai, 1986).
En pratique pour résoudre certains problèmes de classification il est souvent
nécessaire de combiner les deux types d’apprentissages (inductif et déductif). C’est le
cas par exemple des problèmes de défaillances des machines ou du problème de
diagnostic des leucémies aiguës. Le besoin de méthodes de classification qui
Introduction
combinent les deux types d’apprentissage constitue l’une des raisons qui nous a incité à développer de nouvelles méthodes de classification.
L’aide multicritère à la décision, quant à elle, s’adresse généralement à trois problématiques : les problématiques du choix, du rangement et du tri. La première consiste à sélectionner au sein d’un ensemble d’objets, un sous-ensemble aussi restreint que possible des objets les plus satisfaisants. La problématique du rangement consiste à ranger les objets selon leurs mérites relatifs. La problématique du tri quant à elle consiste à formuler le problème en terme d’affectation d’objets à des classes prédéfinies. Les deux premières problématiques ont été largement étudiées et appliquées dans plusieurs domaines : l’environnement, les finances, la production, la localisation, ... (Vincke, 1987 ; Roy et Bouyssou, 1993 ; Pomerol et al, 1993 ; Mayster et al, 1994) alors que relativement peu de travaux ont été consacrés à la problématique du tri.
La problématique du tri est subdivisée en deux groupes : le tri ordinal, si les classes sont complètement ordonnées et le tri nominal dans le cas contraire. Un exemple d’application de tri ordinal est celui de l’octroi de crédits (Moscarola, 1978 ; Massaglia et al 1991 et Wei, 1991) tandis qu’un exemple d’application de tri nominal est celui du diagnostic médical, où les classes sont représentées par la symptomatologie typique. Dans notre étude, nous nous sonune intéressés, tout particulièrement, à la problématique du tri nominal.
Tout au long de cette thèse nous appellerons “méthodes de classification multicritère" les méthodes de classification utilisant l’approche d’aide multicritère à la décision.
Les méthodes de classification multicritère utilisent uniquement des
comparaisons entre l’individu à affecter et les objets de référence des classes. Cette
comparaison se fait par le biais d’un modèle relationnel de préférence. Ainsi ces
méthodes évitent le recours à des distances et permettent d’utiliser des critères
quantitatifs et/ou qualitatifs. De plus elles permettent d’éviter les problèmes
rencontrés lorsque les données sont exprimées dans des unités différentes. Ces
Introduction avantages constituent une autre raison qui nous a motivé à développer de nouvelles méthodes de classification multicritère.
L’introduction des ordinateurs dans le milieu médical a permis d’utiliser des méthodes de classification pour les différentes pathologies et aider au diagnostic médical. Cependant, très peu de méthodes de classification utilisant l’approche d’aide multicritère à la décision ont été appliquées dans le domaine du diagnostic médical. Ce fait nous a encouragé à développer et implémenter de nouvelles méthodes de classification multicritère pour traiter les problèmes de classification médicale. Le but d’une classification médicale de pathologies est de rassembler les cas qui ont des similitudes biologiques et qui sont susceptibles de partager certains facteurs étiopathologiques. L’identification des classes est importante car elle permet, d’une part de comprendre le processus de la maladie et d’autre part d’instaurer l’approche thérapeutique adéquate. En outre, elle permet de dégager le pronostic global de la maladie. Plusieurs méthodes de classification comprenant les statistiques, la reconnaissance des formes, l’intelligence artificielle et les réseaux de neurones ont été utilisées pour l’aide au diagnostic médical (Bartels et al.,
1989 ;1996 ; Decaestecker, 1997 ; Jelonek et ai, 1994 ; 1997).
Notre étude a donc pour principal objectif de contribuer à développer de nouvelles méthodes de classification multicritère et de les appliquer dans le domaine du diagnostic médical. Les leucémies aiguës et les tumeurs astrocytaires^ ont été choisies comme exemples d’applications. Ces méthodes de classification sont basées d’une part, sur la modélisation de préférence floue et d’autre part sur le domaine de l’aide multicritère à la décision. Elles se situent, par conséquent, à l’intersection de nombreux domaines de recherche liés, d’une manière générale, à la classification.
L’apprentissage, la modélisation des préférences, les fonctions de choix, le diagnostic médical, sont autant de thèmes de recherche que nous allons aborder dans cette thèse pour tenter d’introduire des nouveaux outils pour aider au diagnostic médical.
* Les tumeurs astrocytaires font partie des tumeurs du cerveau.
Introduction
2. Présentation de la thèse
Cette thèse s’organise en huit chapitres classés en trois parties.
La Partie A est réservée aux concepts fondamentaux sur lesquels se base notre étude. Elle est divisée en deux chapitres. Afin de situer notre problématique, nous présentons dans le Chapitre 1 les principales approches classiques utilisées en classification de données. Le Chapitre 2 est consacré à la présentation de notions générales sur le domaine de l’aide multicritère à la décision sur lequel s’appuie le présent travail.
La Partie B présente de nouvelles méthodes de classification multicritère. Elle
est divisée en quatre chapitres. Dans le premier chapitre (Chapitre 3) nous
proposons une définition générale d’une procédure de classification multicritère ainsi
que ses différentes propriétés. Le deuxième chapitre (Chapitre 4) détaille une
procédure de choix dans le cadre de la problématique du tri nominal (PROCTN), le
principe de base est de choisir un sous-ensemble de prototypes les plus proches d’un
objet à affecter. Ce choix se base sur le calcul de flux nets utilisés dans la méthode
PROMETHEE (Brans et al., 1985). Le troisième chapitre (Chapitre 5) traite une
procédure d’affectation floue dans le cadre de la problématique du tri nominal
(PROAFTN) (Belacel, 1999; 1998). Elle consiste à construire des relations
d’indifférence floues en généralisant les indices (de concordance et de discordance)
utilisés dans la méthode ELECTRE III (Roy, 1978). Ensuite elle détermine la classe
d’affectation d’un objet donné sur base de ces relations floues. Après l’introduction
des concepts associés à la théorie des sous-ensemble flous, nous décrivons les
différentes étapes de la procédure PROAFTN. Le dernier chapitre de cette partie
(Chapitre 6) est consacré à la présentation d’une procédure de choix flou dans le
cadre de la problématique du tri nominal (PROCFTN) (Belacel et al. 1999e). Cette
procédure combine le principe de choix utilisé par PROCTN et les relations
Introduction d’indifférence floues calculées par PROAFTN. Nous décrivons alors les fonctions de score flou utilisées dans la littérature et leur application dans les problèmes de classification multicritère.
La Partie C présente et discute les résultats obtenus par l’application de ces trois procédures dans le domaine de l’aide au diagnostic médical (cf. Belacel et al, 1999a, 1999b, 1999d). Après une brève introduction générale sur les problèmes de classification médicale, une application de ces méthodes dans le domaine cytopathologique des leucémies aiguës est présentée dans le Chapitre 7. Dans le Chapitre 8 nous présentons l’application des procédures développées dans le domaine histopathologique des tumeurs astrocytaires. Ces applications montrent en particulier que les méthodes de classification utilisant le domaine d’aide multicritère à la décision constituent une autre approche pour résoudre certains problèmes de classification médicale. Nous nous sommes aussi intéressés à l'application de la procédure PROAFTN dans le domaine histopathologique des tumeurs superficielle de la vessie. Les résultats sont présentés dans l’Annexe C. Ils montrent la capacité de cette procédure à séparer entre le haut et le bas grades de malignité de ces tumeurs en se basant uniquement sur les paramètres générés par microscopie assistée par ordinateur. Cette séparation est capitale de point de vue thérapeutique et pronostic de ces tumeurs.
Finalement, nous concluons en synthétisant les différentes contributions et en
discutant des perspectives envisagées pour poursuivre cette recherche.
Partie A
Cette partie est divisée en deux
chapitres. Elle est réservée aux concepts
fondamentaux sur lesquels se base notre
travail. Afin de situer notre problématique,
nous présentons dans le chapitre 1 les
différentes approches utilisées en
classification de données. Le chapitre 2 sera
consacré à la présentation du domaine de
l’aide multicritère à la décision sur lequel
s’appuie le présent travail.
Etudes préliminaires Chap. 1 : Méthodes de classification
Chapitre 1 : Panorama des méthodes de classification
1. Introduction
La problématique du tri consiste à affecter les objets d’un ensemble A à des catégories ou classes prédéfinies. Ce type de question fait partie des problèmes de classification. Avant d’aborder les méthodes d’affectation dans le cadre de l’aide multicritère à la décision, nous donnerons un panorama des méthodes de classification.
Les méthodes de classification font référence à l’existence de groupes ou classes de données et elles se divisent en deux groupes :
• Les méthodes de classification automatique (aussi appelées méthodes de clustering) : méthodes basées sur la notion d’apprentissage non supervisé, laquelle consiste à regrouper des objets appartenant à un ensemble T en classes restreintes de telle sorte que les objets d’une même classe soient le moins dispersés possible.
• Les méthodes d’affectation (aussi appelées «classificateurs») basées sur la notion d’apprentissage supervisé : méthodes utilisant un ensemble d’exemples où les classes d’appartenance sont connues au préalable. A partir de cet ensemble, des normes (ou règles) d’affectation seront définies.
Nous développerons plus loin ces différentes méthodes en soulignant certains de
leurs avantages et inconvénients.
Chap. 1 : Méthodes de classification Etudes préliminaires
2. Méthodes de classification automatique
Les problèmes de classification automatique ont été traités à travers plusieurs ouvrages dont : Benzecri et coll (1973), Caillez et Pages (1976), Roux (1986), Celeux et al (1989), etc...
L’objectif de ces méthodes est de regrouper les individus en un nombre restreint de classes homogènes. Dans ce type de méthodes les classes seront obtenues à l’aide des algorithmes formalisés et non par des méthodes subjectives.
On distingue aussi les méthodes de classification non hiérarchiques et les méthodes de classification hiérarchiques.
2.1 Méthodes non hiérarchiques
Ce sont des méthodes qui produisent directement une partition en un nombre fixé de classes. Parmi ces méthodes, nous retrouvons :
2.1.1 Méthode de leader (Spath, 1980)
Cette méthode considère chaque objet une seule fois. Lorsque le premier objet arrive, on lui attribue la première classe et il devient le leader de celle-ci.
Ensuite, chaque fois qu’un nouvel objet se présente, on calcule sa distance par rapport aux leaders de chacune des classes existantes à cet instant, et on compare cette distance à un seuil. Si cette distance est inférieure au seuil fixé, on attribue au nouvel objet la classe du premier leader trouvé (pour lequel la distance calculée est inférieure au seuil), sinon une nouvelle classe est créée et le nouvel objet devient le leader de cette classe.
Cette méthode dépend de l’ordre de présentation des objets. Lorsque cet
ordre n’est pas optimal, le nombre de classes augmente sensiblement. Par ailleurs,
pour définir des nouveaux leaders, cette méthode utilise des distances, ce qui
nous ramène au problème de la définition des métriques.
Etudes préliminaires Chap. 1 : Méthodes de classification
2.1.2 Méthode de k-means
Cette méthode est encore appelée algorithme des centres mobiles (Benzécri, 1973). Ce type d’algorithme, où la classe est représentée par son centre de gravité, a été étudié par plusieurs auteurs, à savoir (Bonner, 1964 ; MacQueen, 1967 ; Celeuxétal, 1989).
L’algorithme k-means mis au point par McQueen en 1967 est l’un des algorithmes de clustering les plus connus. Il est basé sur la méthode des centroïdes (ou centres de gravité). Le principe de cette méthode est le suivant :
On se donne pour commencer, k centres arbitraires c;, c^où chaque ci représente le centre d’une classe C*. Chaque classe C‘ est représentée par un ensemble d’individus plus proches de c, que de tout autre centre. Après cette initialisation, on effectue une deuxième partition en regroupant les individus autour des mj qui prennent alors la place des Cj (mj est le centre de gravité de la classe C\ calculé en utilisant les nouvelles classes obtenues). Le processus est ainsi réitéré jusqu’à atteindre un état de stabilité où aucune amélioration n’est possible.
Cette méthode est convergente et surtout avantageuse du point de vue calcul mais elle dépend essentiellement de la partition initiale. Il existe donc un risque d’obtenir une partition qui ne soit pas optimale mais seulement meilleure que la partition initiale. De plus, la définition de la classe se fait à partir de son centre, qui pourrait ne pas être un individu de l’ensemble à classer, d’où le risque d’obtenir des classes vides.
2.1.3 Méthode des nuées dynamiques
Cette méthode a été proposée par (Diday, 1972). Elle peut être considérée
comme une généralisation de la méthode des centres mobiles. Le principe de la
méthode est le suivant : on tire au hasard k noyaux parmi une famille de noyaux
(chaque noyau contient un sous-ensemble d’individus). Puis chaque point de
l’ensemble d’apprentissage est affecté au noyau dont il est plus proche. On
obtient ainsi une partition en k classes dont on calcule les noyaux. On
Chap. 1 : Méthodes de classification Etudes préliminaires
recommence le processus avec les nouveaux noyaux et ainsi de suite jusqu’à ce que la qualité de la partition ne s’améliore plus.
Cette méthode a l’avantage de traiter rapidement de grands ensembles d’individus. Elle fournit une solution dépendant de la configuration initiale et nécessite le choix du nombre de classes. En général le nombre de classes est fixé par l’utilisateur et l’initialisation est faite par un tirage au hasard. Pour comparer l’individu avec les noyaux, cette méthode utilise des distances, ce qui a l’inconvénient d’établir des métriques.
En conclusion, les méthodes non hiérarchiques permettent de traiter rapidement de grands ensembles d’individus, mais elles supposent que le nombre des classes est fixé au départ. Si le nombre de classes n’est pas connu ou si ce nombre ne correspond pas à la configuration véritable de l’ensemble d’individus (d’où le risque d’obtenir des partitions de valeurs douteuses), il faut presque toujours tester diverses valeurs de k, ce qui augmente le temps de calcul. C’est pourquoi, lorsque le nombre des individus n’est pas trop élevé, on préfère utiliser les méthodes hiérarchiques.
2.2 Méthodes hiérarchiques
La classification hiérarchique consiste à effectuer une suite de regroupements en classes de moins en moins fines en agrégeant à chaque étape les objets ou les groupes d’objets les plus proches. Elle fournit ainsi un ensemble de partitions de l’ensemble d’objets (Celeux et ai, 1989).
Cette approche utilise la notion de distance, qui permet de refléter l’homogénéité ou l’hétérogénéité des classes. Ainsi, on considère qu’un élément appartient à une classe s’il est plus proche de cette classe que de toutes les autres.
La figure 1.1 est une illustration du principe des méthodes hiérarchiques.
Dans cette figure, on représente la suite de partitions d’un ensemble
{a, b, c, d, e} :
Etudes préliminaires Chap. 1 ; Méthodes de classification
distance
Figure 1.1. La partition hiérarchique Les différentes partitions représentées dans la figure I.l sont : Po= {{a},{b},{c},{d},{e}} correspond à la distance d = 0;
Pi = {{a, b},{c},{d},{e}} correspond à la distance d= 1;
P2 = {{a, b},{c},{d,e}} correspond à la distance d = 2;
P3 = {{a, b},{c, d, e}} correspond à la distance d = 4;
P4 = {{a, b, c, d, e}} correspond à la distance d = 5.
A chaque partition correspond une valeur numérique représentant le niveau auquel ont lieu les regroupements. Les partitions sont définies en coupant l’arbre à un certain niveau en regardant les branches qui tombent. Dans l’exemple de la figure 1.1, si on coupe l’arbre à une valeur 3.5 on aura la partition suivante : P2= {{a,b},{c},{d,e}}.
La principale difficulté présentée par cette méthode est la définition du critère de regroupement de deux classes, c’est-à-dire la détermination d’une distance entre les classes.
Les méthodes de classification automatique ont apporté une aide
précieuse, notamment par leurs applications médicales en exploitant les
informations et les données dans le domaine de la santé publique, de la recherche
clinique, de l’épidémiologie, de la documentation ou de la décision médicale.
Chap. 1 : Méthodes de classification Etudes préliminaires
L’une des plus importantes applications de la classification automatique dans le domaine médical est la nosologie (science de la classification des maladies).
L’exemple de classification le plus connu est la Classification Internationale des Maladies « CIM » (en anglais, “International Classification of Diseases” « ICD ») (OMS, 1977). Les différentes partitions de la Classification Internationale des Maladies sont résumées dans le tableau 1.1 (Degoulet P. et Fieschi M., 1994).
Partitions Noms
I. Maladies infectieuses et parasitaires
n. Tumeurs (malignes, bénignes,...)
m. Maladies endocriniennes, maladies de la nutrition et du métabolisme, troubles immunitaires.
IV. Maladies du sang et des organes hématopoïétiques
V. Troubles mentaux
VI. Maladies du système nerveux et des organes des sens
vn. Maladies de l’appareil circulatoire
vm. Maladies de l’appareil respiratoire DC. Maladies de l’appareil digestif
X. Maladies des organes génito-urinaires
XL Complications de la grossesse, de l’accouchement et des suites de couches
xn. Maladies de la peau et du tissu cellulaire sous-cutané
xm. Maladies du système ostéo-articulaire, des muscles et du tissu conjonctif
XIV. Anomalies congénitales
XV. Certaines affections dont l’origine se situe dans la période périnatale
XVI. Symptômes, signes et états morbides mal définis.
xvn. Lésions traumatiques et empoisonnements
E. Causes extérieures de traumatisme et empoisonnements V. Facteurs influant sur l’état de santé et motifs de recours aux
services de santé
M. Morphologie des tumeurs
Tableau 1.1. Les chapitres de la Classification Internationale des Maladies
Etudes préliminaires Chap. 1 : Méthodes de classification
3. Méthodes d’affectation
Les méthodes d’affectation ou “classificateurs” sont caractérisées par la phase d’apprentissage qui consiste à établir des règles de classification à partir des connaissances disponibles a priori. Cette phase peut être réalisée à partir d’un apprentissage inductif ou déductif. Le premier type d’apprentissage permet de passer de cas particuliers à des lois plus générales «si les hommes x, y, z, etc. sont mortels, alors on peut poser comme hypothèse d’induction que l'homme est mortel». Par contre le deuxième type permet de passer d’un cas général à un cas plus particulier «si l’hypothèse que tous les hommes sont mortels, est vrai, alors en conclusion Socrate, qui est un homme, est mortel». Les méthodes présentées dans ce chapitre utilisent soit l’apprentissage inductif soit l’apprentissage déductif mais pas les deux à la fois. Ces méthodes interviennent dans plusieurs domaines tels que la reconnaissance des formes, les statistiques, les réseaux connexionistes (réseaux de neurones artificiels), l’intelligence artificielle et l’aide multicritère à la décision. Nous aborderons ici quelques-unes de ces méthodes dans chacun de ces domaines.
3.1 Méthodes d’apprentissage inductif
Les méthodes d’apprentissage inductif consistent à inférer des règles de décision à partir d’exemples des différentes classes. Ceci se fait dans le but d’une généralisation afin de prédire des nouveaux cas, sur base des paramètres les décrivant. Parmi les méthodes utilisant ce type d’apprentissage on trouve :
3.1.1 Méthode des k plus proches voisins (Æ-ppv)
Fix et Hodges (Fix et Hodges, 1951) sont à l’origine de l’approche des k-
ppv. Ce procédé a été largement étudié notamment par Hart (Hart, 1967) qui en
présente une description détaillée ainsi qu’une amélioration. L’application
pratique a été discutée par Fukunaga et Hummels en 1987.
Chap. 1 : Méthodes de classification Etudes préliminaires
Le principe général de la méthode des k-ppv consiste à rechercher parmi l’ensemble d’apprentissage T, contenant l’ensemble des individus et leurs classes d’affectation, un nombre k d’individus parmi les plus proches possibles de l’individu à classer. Puis, l’individu est affecté à la classe majoritaire parmi ces k individus trouvés. Le nombre k est fixé a priori par l’utilisateur (cf. Dasarathy, 1991).
Si k - 1, alors l’individu est affecté à la classe du plus proche voisin de l’ensemble T.
Une variante de la règle de la majorité consiste à prévoir un seuil s au-dessus duquel une décision de rejet est prise. Ainsi, on peut rencontrer des cas où l’individu n’est affecté à aucune classe.
Soit l’exemple de la figure 1.2 avec deux dimensions correspondant aux attributs ei et e2, et A: = 5.
Figure 1.2. Méthode des k-ppv.
V 2 ç
Dans cet exemple les trois plus proches voisins de a sont b , b eib , donc a sera affecté à la classe majoritaire parmi ces trois points.
La méthode des k-ppv a l’avantage d’être très simple à mettre en œuvre et
d’utiliser directement l’ensemble d’apprentissage T. Elle ne fait aucune
hypothèse a priori sur les données. La qualité de la discrimination par cette
méthode dépend du choix du nombre k de voisins considérés. Il est cependant
souvent nécessaire de faire varier ce nombre k pour obtenir les meilleurs résultats
Etudes préliminaires Chap. 1 : Méthodes de classification
possibles. Un autre problème important de la méthode des ^-ppv est qu’elle nécessite un espace mémoire très important pour stocker les données et pour faire les différents calculs dans la phase de classification. De plus, elle a l’inconvénient d’utiliser les distances pour déterminer les voisins de l’individu à affecter, ce qui peut poser des problèmes si les dimensions à agréger ne sont pas homogènes.
Afin de remédier à l’inconvénient de l’utilisation de distances, on a recours à l’utilisation des relations de ressemblances floues (Pemy et Henriet, 1996).
Decaestecker et al. ont appliqué la méthode des A:-ppv dans le diagnostic médical.
Cette méthode a permis de différencier les tumeurs astrocytaires typiques des cas atypiques (Decaestecker er a/., 1997).
3.1.2 Affectation par la méthode Bayésienne
Cette approche est la base des approches statistiques de classification supervisée. Elle donne une mesure de vraisemblance sur des décisions prises (exemple : un objet appartient ou non à une classe) avec une erreur globale minimum et évalue le risque de la décision à prendre.
La méthode d’affectation Bayésienne est basée sur le théorème de Bayes (formulé par Thomas Bayes dans les années 1700) qui consiste à déterminer la probabilité conditionnelle d’une hypothèse H sachant un ensemble de données D, par la formule suivante :
P(H/D) = P(H)xP(D/H)
P{D) ( 1 )
Ce théorème permet de réviser les croyances du décideur concernant l’occurrence de l’événement H en fonction d’une nouvelle information D. On appelle généralement P(H) “probabilité a priori” et P(H/D) une "probabilité a posteriori”.
L’application de cette méthode aux problèmes de classification peut se
formuler comme suit :
Chap. 1 : Méthodes de classification Etudes préliminaires
Soit Q l’ensemble des k classes C que nous cherchons à déterminer sur /?", à chaque point x est associé la classe C la plus probable, d’où la règle de décision suivante :
P(C/x)>P(d/x), Vj^i => xeC (2)
P(C/x) : est la probabilité conditionnelle d’appartenance à la classe C, sachant qu’on est au point oc.
En utilisant le théorème du Bayes donné par la formule (1) on obtient :
avec P{x)=^ P{C')xP{xlC')
i=l
Donc la règle de décision déftnie par (2) devient :
P(C)xP{x/C)>P(d)xP(x/(y),Vj^i => xed (3) Certaines décisions peuvent avoir des conséquences plus ou moins importantes : par exemple, il est peut être préférable de rejeter un caractère analysé plutôt que le classer de façon erronée. Pour estimer l’impact des conséquences on utilise une matrice carrée M(k, k), la composante mÿ de la matrice M(k, k) représentant le coût de classer x à la classe C alors qu’il appartient à la classe C. Ce coût est positif ou nul. Il est nul si x est correctement classé et on aura : ma = 0. On peut minimiser l’espérance du coût des erreurs en un point x en appliquant la formule suivante :
Ej(x) = S (muXP(d/x)) (4)
/=!
Ej(x) étant l’espérance du coût des erreurs de la décision du classement prise en
X.
Etudes préliminaires Chap. 1 ; Méthodes de classification
Le problème qui se pose est dans la détermination des densités de probabilité qui vont permettre de prendre des décisions optimales. Le but serait d’obtenir la probabilité conditionnelle P(C/x) qui permettrait d’avoir une fonction de décision optimale.
P(C) et P(x/Cf) peuvent être échantillonnées par expérience. Une statistique permet alors de les estimer et deux types de procédures sont possibles : les méthodes paramétriques et les méthodes non paramétriques.
Dans les méthodes paramétriques on se fixe a priori les lois de paramètres et on estime les paramètres en utilisant l’ensemble d’apprentissage T = {(x, C)/
La probabilité P(C‘) est soit connue a priori, soit estimée facilement et avec précision sur l’ensemble d’apprentissage.
on utilise, en général, la méthode du maximum de vraisemblance en posant que les Xj sont indépendants, selon la formule :
Soit f(x/C‘,0‘) une densité de probabilité relative à la classe C* et dépendant du paramètre 0‘ correspondant à ce tirage. Pour estimer cette densité de probabilité,
yr£«=n
n(f(x/0))
n
/f2C maximum « 0 (f(Xj,9)) maximum
n K