• Aucun résultat trouvé

Disponible à / Available at permalink :

N/A
N/A
Protected

Academic year: 2021

Partager "Disponible à / Available at permalink :"

Copied!
225
0
0

Texte intégral

(1)

- - -

- - -

Dépôt Institutionnel de l’Université libre de Bruxelles / Université libre de Bruxelles Institutional Repository

Thèse de doctorat/ PhD Thesis Citation APA:

Belacel, N. (2000). Méthodes de classification multicritère : méthodologie et applications à l'aide au diagnostic médical (Unpublished doctoral dissertation). Université libre de Bruxelles, Faculté des sciences appliquées, Bruxelles.

Disponible à / Available at permalink : https://dipot.ulb.ac.be/dspace/bitstream/2013/211820/1/d11daea3-a47f-4118-a439-8528e8bb3be5.txt

(English version below)

Cette thèse de doctorat a été numérisée par l’Université libre de Bruxelles. L’auteur qui s’opposerait à sa mise en ligne dans DI-fusion est invité à prendre contact avec l’Université ([email protected]).

Dans le cas où une version électronique native de la thèse existe, l’Université ne peut garantir que la présente version numérisée soit identique à la version électronique native, ni qu’elle soit la version officielle définitive de la thèse.

DI-fusion, le Dépôt Institutionnel de l’Université libre de Bruxelles, recueille la production scientifique de l’Université, mise à disposition en libre accès autant que possible. Les œuvres accessibles dans DI-fusion sont protégées par la législation belge relative aux droits d'auteur et aux droits voisins. Toute personne peut, sans avoir à demander l’autorisation de l’auteur ou de l’ayant-droit, à des fins d’usage privé ou à des fins d’illustration de l’enseignement ou de recherche scientifique, dans la mesure justifiée par le but non lucratif poursuivi, lire, télécharger ou reproduire sur papier ou sur tout autre support, les articles ou des fragments d’autres œuvres, disponibles dans DI-fusion, pour autant que :

Le nom des auteurs, le titre et la référence bibliographique complète soient cités;

L’identifiant unique attribué aux métadonnées dans DI-fusion (permalink) soit indiqué;

Le contenu ne soit pas modifié.

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé pour donner accès à l’œuvre. Toute autre utilisation non mentionnée ci-dessus nécessite l’autorisation de l’auteur de l’œuvre ou de l’ayant droit.

--- English Version ---

This Ph.D. thesis has been digitized by Université libre de Bruxelles. The author who would disagree on its online availability in DI-fusion is invited to contact the University ([email protected]).

If a native electronic version of the thesis exists, the University can guarantee neither that the present digitized version is identical to the native electronic version, nor that it is the definitive official version of the thesis.

DI-fusion is the Institutional Repository of Université libre de Bruxelles; it collects the research output of the University, available on open access as much as possible. The works included in DI-fusion are protected by the Belgian legislation relating to authors’ rights and neighbouring rights.

Any user may, without prior permission from the authors or copyright owners, for private usage or for educational or scientific research purposes, to the extent justified by the non-profit activity, read, download or reproduce on paper or on any other media, the articles or fragments of other works, available in DI-fusion, provided:

The authors, title and full bibliographic details are credited in any copy;

The unique identifier (permalink) for the original metadata page in DI-fusion is indicated;

The content is not changed in any way.

It is not permitted to store the work in another database in order to provide access to it; the unique identifier (permalink) indicated above must always be used to provide access to the work. Any other use not mentioned above requires the authors’ or copyright owners’ permission.

(2)

--- N

D 0S857

L__________________________________ )

UNIVERSITE L ibre D e B ruxelles

I nstitut de S tatistique et de R echerche O pérationnelle

/

Méthodes de Classification Multicritère : Méthodologie et Applications à T Aide au

Diagnostic Médical

Belacel Nabil

Thèse présentée en vue de l’obtention du grade de Docteur en Sciences orientation Recherche Opérationnelle

Année académique 1999-2000

(3)

UNIVERSITE L ibre D e B ruxelles

I nstitut de S tatistique et de R echerche O pérationnelle

Méthodes de Classification Multicritère : Méthodologie et Applications à l’Aide au

Diagnostic Médical

V____________ ____________________

Belacel Nabil

Thèse présentée en vue de l’obtention du grade de Docteur en Sciences orientation Recherche Opérationnelle

Année académique 1999-2000

(4)

A mes parents qui ont tant fait pour nous;

A mes sœurs et frères;

A ma nièce Asmaa.

(5)

Remerciements

Je tiens tout d’abord à remercier toute ma famille qui m'a beaucoup aidé et encouragé tout au long de mes études.

Je tiens à exprimer toute ma gratitude et ma reconnaissance à Monsieur le Professeur Philippe Vincke, qui a bien voulu prendre la direction de ce travail de thèse.

Ses conseils et son soutien durant l'élaboration de ce travail m'ont apporté une aide très précieuse.

Monsieur Jean-Marie Scheijf Professeur aux Cliniques Saint-Luc à l'Université Catholique du Louvain et Chef du Laboratoire d'Hématologie, m'a accueilli au sein de son Laboratoire, a pu me guider et m'a aidé à appréhender les grandes lignes inhérentes à la pathologie des leucémies aiguës qui est l'une des plus importantes applications dans notre travail. Qu'il trouve ici l'expression de mes très vifs remerciements pour sa patience et sa volonté de communiquer son savoir.

J'exprime mes remerciements les plus vifs à Monsieur le Professeur Marc Hallin, pour l'honneur qu'il méfait en acceptant de présider le jury de cette thèse.

Messieurs Marc Pirlot Professeur à la faculté polytechnique de Mons, Patrice Pemy Professeur à l'Université Paris IV, Jean-Pierre Brans et Madame Martine Labbe Professeurs à l'Université Libre de Bruxelles, ont aimablement accepté de participer au jury de cette thèse. Je les en remercie profondément.

Mon ami Mohamed-Rachid Boulassel Docteur en Hématologie-Biologique et Transfusion pour son aide constante, pour ses explications médicales et dont le soutien constant tant scientifique qu'amical m'a été précieux au cours de ce travail. Je l'en remercie vivement.

Je tiens également à remercier chaleureusement mes amis Housni Djellab, Amar Oukil, Kheder Khaled Docteurs en Recherche Opérationnelle et Toufik Zahaf Docteur en Statistiques qui ont bien voulu relire ma thèse et me faire part de leurs remarques et pour leurs encouragements amicaux.

Mes sincères remerciements vont aussi aux professeurs Nenad Mladenovic et MoncefAbbas et aux Messieurs M'hamed Mesfioui et Eric Gourdin pour leurs soutiens et leurs aides.

Mes remerciements vont aussi à Madame Françoise Van Brussel et Véronique

Bastin pour la gentillesse, l'amabilité, l'aide et l'accueil chaleureux qu'elles m'ont

toujours témoignés durant mon séjour au Service de Mathématiques de la Gestion. Mes

remerciements vont aussi à Madame Jacqueline Douilly-Bouttemane.

(6)

Je tiens également à remercier chaleureusement tous mes collègues du Service de Mathématique de la Gestion et de l'institut de Statistique et de Recherche Opérationnelle.

Ma gratitude va au Département des relations internationales de l'université Libre de Bruxelles pour l'aide financière qu'il m'a accordé durant ces quatre années d'études.

Enfin que tous ceux et celles qui m'ont apporté leur appui trouve ici l'expression

de ma profonde gratitude.

(7)
(8)

ABSTRACT

In this dissertation, we are interested in multicriteria classification problem, which consists in formulating the decision problem in terms of assigning each object to one or several classes. This assignment is achieved through the examination of the intrinsic value of the object by referring to pre-established norms. In multicriteria decision analysis this problem is known as sorting problematic.

Several methods of classification including statistics, pattern récognition, artificial intelligence and neural networks hâve been used for medical diagnosis aid. The multicriteria decision aid constitutes another approach.

In this context, we hâve developed three classification methods: the multicriteria choice procedure in the nominal sorting problematic (PROCTN), the fuzzy assignment procedure in the nominal sorting problematic (PROAFTN) and the fuzzy multicriteria choice procedure in the nominal sorting problematic (PROCFTN).

In order to illustrate our procedures, we proposed two clinical applications. One concems the cytopathological diagnosis of acute leukemia and the other concems the histopathological of astrocytic tumors. We show that the multicriteria decision aid approach can be successfully used to help medical diagnosis.

keywords: Multicriteria decision analysis; Classification; Fuzzy sets; Nominal sorting; Fuzzy

assignment; Choice approach; Diagnosis aid; Acute leukemia; Astrocytic tumors.

(9)

RESUME

Dans ce travail, nous nous intéressons au problème de classification multicritère qui consiste à affecter des objets à une ou plusieurs classes. Ceci se fait à travers un examen de la valeur intrinsèque de l’objet en se référant à des normes préétablies. Dans le domaine de l’aide multicritère à la décision, ce type de problème est connu sous le nom de problématique du tri.

Plusieurs méthodes de classification ont été utilisées dans le domaine de l’aide au diagnostic médical. Parmi ces méthodes nous citons: les statistiques, la reconnaissance des formes, l’intelligence artificielle et les réseaux connexionnistes. A côtés de ces méthodes, l’aide multicritère à la décision constitue une autre approche d’aide au diagnostic médical.

Dans ce contexte, nous avons développé trois nouvelles méthodes de classification multicritère : la procédure de choix dans le cadre de la problématique du tri nominal (PROCTN), la procédure d’affectation floue dans le cadre de la problématique du tri nominal {PROAFTN) et la procédure de choix flou dans le cadre de la problématique du tri nominal (PROCFTN).

Afin d’illustrer nos méthodes, nous avons étudié deux applications cliniques, l’une concernant le domaine cytopathologique des leucémies aiguës et l’autre concernant le domaine histopathologique des tumeurs astrocytaires. Ce travail a montré que l’approche d’aide multicritère à la décision peut être appliquée avec succès pour aider le diagnostic médical.

Mots Clés : Aide multicritère à la décision; Classification; Ensembles flous; Tri nominal;

Affectation floue; Approche de choix; Aide au diagnostic; Leucémies aiguës;

Tumeurs astrocytaires.

(10)

Une partie de ce travail a été publiée dans:

1. “Multicriteria Assignment Method PROAFTN: Methodology and medical application”, European Journal of Operational Research (1999) (In press).

2. "La méthode PROAFTN d'affectation multicritère: fondements et application à l'aide au diagnostic médical". Rapport de recherche IS-MG 98/05. Université Libre de Bruxelles, Belgique, Février 1998.

3. “Application of the PROAFTN method to assist astrocytic tumor diagnosis using parameters generated by computer-assisted microscope analysis of cell image”, Innovation and Technology in Biology and Medicine (ITBM): 20(4)5, 1999. In press (co-authors: Ph. Vincke and MR. Boulassel).

5. '"PROAFTN: A fuzzy assignment method to grade bladder cancer malignancy using features generated by computer-assisted image analysis”, To appear in:

Foundations of Computing and Decision Sciences (FCDS). (co-author: MR.

Boulassel).

4. “Acute Leukemia Diagnosis Aid Software using multicriteria fuzzy assignment methodology”. Rapport de recherche IS-MG 99/12, Université Libre de Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, Mars 1999. Submitted for publication, (co-authors: Vincke Ph., Scheiff JM., Boulassel MR.)

6. “PROAFTN classification method: A useful tool to assist medical diagnosis".

Rapport de recherche IS-MG 99/24, Université Libre de Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, July 1999. Submitted for publication, (co-author:

MR. Boulassel)

7. "Multicriteria Fuzzy Classification Procedure PROCFTN: Methodology and

Medical Application", Rapport de recherche IS-MG 99/25, Université Libre de

Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, July 1999. Submitted for

publication, (co-author: Boulassel)

(11)

Table des matières

Méthodes de Classification Multicritère : Méthodologies et Application à FAide au ___________ Diagnostic Médical ^

Liste des abréviations... 1

Introduction générale... 3

Partie A Etudes Préliminaires Résumé...11

Chapitre 1 : Panorama des méthodes de classification...13

1. Introduction... 13

2. Méthodes de classification automatique... 14

2.1 Méthodes non hiérarchiques... 14

2.1.1 Méthode de leader... 14

2.1.2 Méthode de k-means... 15

2.1.3 Méthodes de nuées dynamiques...15

2.2 Méthodes hiérarchiques... 16

3. Méthodes d ’ affectation...19

3.1 Méthodes d’apprentissage inductif... 19

3.1.1 Méthode des K plus proches voisins (K-ppv)... 19

3.1.2 Affectation par la méthode Bayésienne...21

3.1.3 Méthodes d’analyse discriminantes... 26

3.1.4 L’approche des réseaux de neurones...30

(12)

Table des matières

3.1.5 Affectation par l’approche d’arbre de décision... 36

3.2 Méthodes d’apprentissage déductif...41

3.2.1 Affectation par système expert... 41

3.3 Méthodes de classification multicritère...45

4. Performances des méthodes de classification... 46

Chapitre 2 : Aide multicritère à la décision et problématique du tri...49

1. Aide à la décision... 49

2. Modélisation des préférences...50

2.1 Définitions des actions potentielles... 50

2.2 Système relationnel de préférence... 51

2.3 Le concept de critère... 52

3. Analyse monocritère et multicritère...53

4. Problématiques de référence...55

5. Problématique du tri...59

5.1 Définition...59

5.2 Différents types de la problématique du tri...60

5.3 Différentes phases de la problématique du tri... 61

5.4 Méthodes d’affectation... 63

5.4.1 Cas de la problématique du tri ordinal... 63

5.4.1.1 Modélisation des catégories...64

5.4.1.2 Procédures d’affectation... 64

5.4.2 Cas de la problématique du tri nominal... 66

Partie B Méthodes développées Résumé... 67

Chapitre 3 : Description générale de la problématique du tri nominal....69

1. Introduction...69

2. Modélisation des catégories et procédures d’affectation... 69

(13)

Table des matières

2.1 Modélisation des catégories... 69

2.2 Définition d’une méthode du tri nominal...71

2.3 Principes fondannentaux d’une méthode du tri nominal...72

Chapitre 4 : Procédure de choix dans le cadre de la problématique du tri nominal...77

1. Introduction...77

2. Données et notations...77

3. Procédure d’affectation PROCTN. ... 78

3.1 Matrice de performances des actions de référence des catégories...80

3.2 Relation de surclassement entre les actions de référence... 82

3.3 Graphe de surclassement valué...83

3.4 Exploitation du graphe de surclassement...83

3.5 Calcul de flux à partir du graphe de surclassement...83

3.6 Affectation des actions aux différentes catégories...85

4. Analyse des propriétés de la procédure PROCTN ... 85

Chapitre 5 : Procédure d’affectation floue dans le cadre de la problématique du tri nominal... 89

1. Introduction... 89

2. Sous ensemble flou... 91

2.1 Généralités... 91

2.2 Connecteurs logiques flous... 93

2.3 Relations binaires floues... 98

3. La procédure PROAFTN ... 100

3.1 Introduction...100

3.2 Les paramètres utilisés dans PROAFTN ...102

3.3 Calcul de l’indice d’indifférence partiel...105

3.4 Propriétés de 1 ’ indice d’indifférence partiel...107

3.4.1 Les cas particuliers de l’indice d’indifférence partiel... 109

3.4.2 Propriétés générales de l’indice d’indifférence partiel...110

3.5 Relation d’indifférence globale basée sur le principe de concordance...! 14

(14)

Table des matières

3.6 Calcul de la relation d’indifférence de synthèse...116

3.6.1 Indices de discordance...117

3.6.2 Indice de discordance global... 119

3.6.3 Construction de la relation d’indifférence de synthèse...120

3.7 Affectation des actions aux différentes catégories... 122

Chapitre 6 : Procédure de choix flou dans le cadre de la problématique du tri nominal... 125

1. Introduction... 125

2. Description de la procédure PROCFTN ... 127

2.1 Matrice de performances... 127

2.2 Relation de préférence valuée entre les prototypes... 129

2.3 Fonction de score flou... 129

2.4 Choix de prototypes...131

3. Analyse des propriétés de la procédure PROCFTN ... 133

Partie C Application à l’aide au diagnostic médical Résumé...135

Introduction...137

Chapitre 7 ; Application dans le domaine cytopathologique des leucémies aiguës...139

1. Introduction...139

2. Classification morphologique des leucémies aiguës... 140

2.1. Leucémies Aiguës Lymphoblastic (LAL)... 140

2.2. Leucémies Aiguës Myéloblastic (LAM)... 141

3. Diagnostic des leucémies aiguës... 142

3.1 Diagnostic positif... 142

3.2 Critère de classification... 144

(15)

Table des matières

4. Résultats... 145

4.1 Données cliniques... 145

4.2 Evaluation des performances et interprétation des résultats...146

4.3 Exemple... 147

4.4 Résultats de classification... 150

5. Discussion et conclusion... 152

Chapitre 8 : Application dans le domaine histopathologique des tumeurs Astrocytaires... 155

1. Généralité et classification histopathologique... 155

2. Approche diagnostic des tumeurs astrocytaires par microscopie assistée par ordinateur...158

3. Critères de classification des tumeurs astrocydaires générés par microscopie assistée par ordinateur...161

3.1 Variables morphonucléaires... 161

3.1.1 Critères morphométrique...161

3.1.2 Critères densitométriques...162

3.1.3 Critères texturaux...162

3.2 Critères décrivant le taux de ploïdies...163

4. Résultats... 165

4.1 Données cliniques... 165

4.2 Evaluation des performances et interprétation des résultats... 165

4.3 Exemple...164

4.4 Résultats de classification... 168

5. Discussion et conclusion...172

(16)

Table des matières

Conclusion

Conclusion et perspectives...176

Annexes

Annexe A : Analyse des propriétés de la procédure PROAFTN...183 Annexe B : Différents types de leucémies aiguës selon la classification F.A.B..188 Annexe C : The use of fuzzy assignment method PROAFTN to make grading of

Bladder cancer malignancy using the features generated by means of computer-assisted microscope analysis of cell image... 198

B ibliographies... 215

(17)

TRIN : Règle d’affectation de la problématique du tri nominal.

PROCTN : PROcédure du Choix dans le cadre de la problématique du Tri Nominal.

PROAFTN : PROcédure d’Affectation Floue dans le cadre de la problématique du Tri Nominal.

PROCFTN : PROcédure du Choix Flou dans le cadre de la problématique du Tri Nominal.

F.A.B. : Proposition de classification des leucémies aiguës faite par le groupe Franco-Americano-Britanique.

OMS ; Organisation Mondiale de la Santé.

LA : Leucémie Aiguë.

LAL : Leucémie Aiguë Lymphoblastique.

LAM : Leucémie Aiguë Myéloblastique.

AST : ASTrocytomes (tumeur astrocytaire de grade II).

ANA : Astrocytome aNAplasique (tumeur astrocytaire de grade HI).

GBM : GlioBlastoMes (tumeur astrocytaire de grade IV).

(18)
(19)

Introduction

1. Introduction générale

De nombreux problèmes pratiques peuvent se ramener à l’affectation de différents objets à des classes prédéfinies. Par exemple dans le cas du diagnostic médical, il s’agit de reconnaître la pathologie d’un patient donné, les objets correspondent aux patients et les classes aux différentes pathologies. D’autres problèmes de diagnostic peuvent être vus de façon similaire : pannes des machines et défaillances des entreprises. Les méthodes de classification aident à traiter ce type de problèmes.

En général les méthodes de classification sont constituées en plusieurs étapes.

L’étape la plus importante consiste à élaborer des règles de classification à partir des connaissances disponibles a priori ; il s’agit de la phase d’apprentissage. Cette dernière utilise soit l’apprentissage déductif ou inductif. Les algorithmes d’apprentissage inductif dégagent un ensemble de règles (ou de normes) de classification à partir d’un ensemble d’exemples déjà classés. Le but de ces algorithmes est de produire des règles de classification afin de prédire la classe d’affectation d’un nouveau cas. Parmi les méthodes de classification utilisant ce type d’apprentissage, citons les méthodes des k plus proches voisins, la méthode bayésienne, la méthode d’analyse discriminante, l’approche des réseaux de neurones et la méthode d’arbre de décision (cf. McLachlan, 1992 ; Michie et ai, 1994 ; Duda et Hart, 1973 ; Bishop, 1973). Dans les algorithmes d’apprentissage déductif, les règles d’affectation sont déterminées a priori par l’interaction avec le décideur, ou l’expert. A partir de ces règles on détermine les classes d’affectation des objets.

Parmi les méthodes utilisant ce type d’apprentissage, signalons à titre d’exemples les systèmes experts et les ensembles approximatifs (Waterman, 1985 ; Chandrasekaran, et ai, 1988 ; Pawlak, 1991 ; Pawlak, et ai, 1986).

En pratique pour résoudre certains problèmes de classification il est souvent

nécessaire de combiner les deux types d’apprentissages (inductif et déductif). C’est le

cas par exemple des problèmes de défaillances des machines ou du problème de

diagnostic des leucémies aiguës. Le besoin de méthodes de classification qui

(20)

Introduction

combinent les deux types d’apprentissage constitue l’une des raisons qui nous a incité à développer de nouvelles méthodes de classification.

L’aide multicritère à la décision, quant à elle, s’adresse généralement à trois problématiques : les problématiques du choix, du rangement et du tri. La première consiste à sélectionner au sein d’un ensemble d’objets, un sous-ensemble aussi restreint que possible des objets les plus satisfaisants. La problématique du rangement consiste à ranger les objets selon leurs mérites relatifs. La problématique du tri quant à elle consiste à formuler le problème en terme d’affectation d’objets à des classes prédéfinies. Les deux premières problématiques ont été largement étudiées et appliquées dans plusieurs domaines : l’environnement, les finances, la production, la localisation, ... (Vincke, 1987 ; Roy et Bouyssou, 1993 ; Pomerol et al, 1993 ; Mayster et al, 1994) alors que relativement peu de travaux ont été consacrés à la problématique du tri.

La problématique du tri est subdivisée en deux groupes : le tri ordinal, si les classes sont complètement ordonnées et le tri nominal dans le cas contraire. Un exemple d’application de tri ordinal est celui de l’octroi de crédits (Moscarola, 1978 ; Massaglia et al 1991 et Wei, 1991) tandis qu’un exemple d’application de tri nominal est celui du diagnostic médical, où les classes sont représentées par la symptomatologie typique. Dans notre étude, nous nous sonune intéressés, tout particulièrement, à la problématique du tri nominal.

Tout au long de cette thèse nous appellerons “méthodes de classification multicritère" les méthodes de classification utilisant l’approche d’aide multicritère à la décision.

Les méthodes de classification multicritère utilisent uniquement des

comparaisons entre l’individu à affecter et les objets de référence des classes. Cette

comparaison se fait par le biais d’un modèle relationnel de préférence. Ainsi ces

méthodes évitent le recours à des distances et permettent d’utiliser des critères

quantitatifs et/ou qualitatifs. De plus elles permettent d’éviter les problèmes

rencontrés lorsque les données sont exprimées dans des unités différentes. Ces

(21)

Introduction avantages constituent une autre raison qui nous a motivé à développer de nouvelles méthodes de classification multicritère.

L’introduction des ordinateurs dans le milieu médical a permis d’utiliser des méthodes de classification pour les différentes pathologies et aider au diagnostic médical. Cependant, très peu de méthodes de classification utilisant l’approche d’aide multicritère à la décision ont été appliquées dans le domaine du diagnostic médical. Ce fait nous a encouragé à développer et implémenter de nouvelles méthodes de classification multicritère pour traiter les problèmes de classification médicale. Le but d’une classification médicale de pathologies est de rassembler les cas qui ont des similitudes biologiques et qui sont susceptibles de partager certains facteurs étiopathologiques. L’identification des classes est importante car elle permet, d’une part de comprendre le processus de la maladie et d’autre part d’instaurer l’approche thérapeutique adéquate. En outre, elle permet de dégager le pronostic global de la maladie. Plusieurs méthodes de classification comprenant les statistiques, la reconnaissance des formes, l’intelligence artificielle et les réseaux de neurones ont été utilisées pour l’aide au diagnostic médical (Bartels et al.,

1989 ;1996 ; Decaestecker, 1997 ; Jelonek et ai, 1994 ; 1997).

Notre étude a donc pour principal objectif de contribuer à développer de nouvelles méthodes de classification multicritère et de les appliquer dans le domaine du diagnostic médical. Les leucémies aiguës et les tumeurs astrocytaires^ ont été choisies comme exemples d’applications. Ces méthodes de classification sont basées d’une part, sur la modélisation de préférence floue et d’autre part sur le domaine de l’aide multicritère à la décision. Elles se situent, par conséquent, à l’intersection de nombreux domaines de recherche liés, d’une manière générale, à la classification.

L’apprentissage, la modélisation des préférences, les fonctions de choix, le diagnostic médical, sont autant de thèmes de recherche que nous allons aborder dans cette thèse pour tenter d’introduire des nouveaux outils pour aider au diagnostic médical.

* Les tumeurs astrocytaires font partie des tumeurs du cerveau.

(22)

Introduction

2. Présentation de la thèse

Cette thèse s’organise en huit chapitres classés en trois parties.

La Partie A est réservée aux concepts fondamentaux sur lesquels se base notre étude. Elle est divisée en deux chapitres. Afin de situer notre problématique, nous présentons dans le Chapitre 1 les principales approches classiques utilisées en classification de données. Le Chapitre 2 est consacré à la présentation de notions générales sur le domaine de l’aide multicritère à la décision sur lequel s’appuie le présent travail.

La Partie B présente de nouvelles méthodes de classification multicritère. Elle

est divisée en quatre chapitres. Dans le premier chapitre (Chapitre 3) nous

proposons une définition générale d’une procédure de classification multicritère ainsi

que ses différentes propriétés. Le deuxième chapitre (Chapitre 4) détaille une

procédure de choix dans le cadre de la problématique du tri nominal (PROCTN), le

principe de base est de choisir un sous-ensemble de prototypes les plus proches d’un

objet à affecter. Ce choix se base sur le calcul de flux nets utilisés dans la méthode

PROMETHEE (Brans et al., 1985). Le troisième chapitre (Chapitre 5) traite une

procédure d’affectation floue dans le cadre de la problématique du tri nominal

(PROAFTN) (Belacel, 1999; 1998). Elle consiste à construire des relations

d’indifférence floues en généralisant les indices (de concordance et de discordance)

utilisés dans la méthode ELECTRE III (Roy, 1978). Ensuite elle détermine la classe

d’affectation d’un objet donné sur base de ces relations floues. Après l’introduction

des concepts associés à la théorie des sous-ensemble flous, nous décrivons les

différentes étapes de la procédure PROAFTN. Le dernier chapitre de cette partie

(Chapitre 6) est consacré à la présentation d’une procédure de choix flou dans le

cadre de la problématique du tri nominal (PROCFTN) (Belacel et al. 1999e). Cette

procédure combine le principe de choix utilisé par PROCTN et les relations

(23)

Introduction d’indifférence floues calculées par PROAFTN. Nous décrivons alors les fonctions de score flou utilisées dans la littérature et leur application dans les problèmes de classification multicritère.

La Partie C présente et discute les résultats obtenus par l’application de ces trois procédures dans le domaine de l’aide au diagnostic médical (cf. Belacel et al, 1999a, 1999b, 1999d). Après une brève introduction générale sur les problèmes de classification médicale, une application de ces méthodes dans le domaine cytopathologique des leucémies aiguës est présentée dans le Chapitre 7. Dans le Chapitre 8 nous présentons l’application des procédures développées dans le domaine histopathologique des tumeurs astrocytaires. Ces applications montrent en particulier que les méthodes de classification utilisant le domaine d’aide multicritère à la décision constituent une autre approche pour résoudre certains problèmes de classification médicale. Nous nous sommes aussi intéressés à l'application de la procédure PROAFTN dans le domaine histopathologique des tumeurs superficielle de la vessie. Les résultats sont présentés dans l’Annexe C. Ils montrent la capacité de cette procédure à séparer entre le haut et le bas grades de malignité de ces tumeurs en se basant uniquement sur les paramètres générés par microscopie assistée par ordinateur. Cette séparation est capitale de point de vue thérapeutique et pronostic de ces tumeurs.

Finalement, nous concluons en synthétisant les différentes contributions et en

discutant des perspectives envisagées pour poursuivre cette recherche.

(24)

Partie A

Cette partie est divisée en deux

chapitres. Elle est réservée aux concepts

fondamentaux sur lesquels se base notre

travail. Afin de situer notre problématique,

nous présentons dans le chapitre 1 les

différentes approches utilisées en

classification de données. Le chapitre 2 sera

consacré à la présentation du domaine de

l’aide multicritère à la décision sur lequel

s’appuie le présent travail.

(25)

Etudes préliminaires Chap. 1 : Méthodes de classification

Chapitre 1 : Panorama des méthodes de classification

1. Introduction

La problématique du tri consiste à affecter les objets d’un ensemble A à des catégories ou classes prédéfinies. Ce type de question fait partie des problèmes de classification. Avant d’aborder les méthodes d’affectation dans le cadre de l’aide multicritère à la décision, nous donnerons un panorama des méthodes de classification.

Les méthodes de classification font référence à l’existence de groupes ou classes de données et elles se divisent en deux groupes :

• Les méthodes de classification automatique (aussi appelées méthodes de clustering) : méthodes basées sur la notion d’apprentissage non supervisé, laquelle consiste à regrouper des objets appartenant à un ensemble T en classes restreintes de telle sorte que les objets d’une même classe soient le moins dispersés possible.

• Les méthodes d’affectation (aussi appelées «classificateurs») basées sur la notion d’apprentissage supervisé : méthodes utilisant un ensemble d’exemples où les classes d’appartenance sont connues au préalable. A partir de cet ensemble, des normes (ou règles) d’affectation seront définies.

Nous développerons plus loin ces différentes méthodes en soulignant certains de

leurs avantages et inconvénients.

(26)

Chap. 1 : Méthodes de classification Etudes préliminaires

2. Méthodes de classification automatique

Les problèmes de classification automatique ont été traités à travers plusieurs ouvrages dont : Benzecri et coll (1973), Caillez et Pages (1976), Roux (1986), Celeux et al (1989), etc...

L’objectif de ces méthodes est de regrouper les individus en un nombre restreint de classes homogènes. Dans ce type de méthodes les classes seront obtenues à l’aide des algorithmes formalisés et non par des méthodes subjectives.

On distingue aussi les méthodes de classification non hiérarchiques et les méthodes de classification hiérarchiques.

2.1 Méthodes non hiérarchiques

Ce sont des méthodes qui produisent directement une partition en un nombre fixé de classes. Parmi ces méthodes, nous retrouvons :

2.1.1 Méthode de leader (Spath, 1980)

Cette méthode considère chaque objet une seule fois. Lorsque le premier objet arrive, on lui attribue la première classe et il devient le leader de celle-ci.

Ensuite, chaque fois qu’un nouvel objet se présente, on calcule sa distance par rapport aux leaders de chacune des classes existantes à cet instant, et on compare cette distance à un seuil. Si cette distance est inférieure au seuil fixé, on attribue au nouvel objet la classe du premier leader trouvé (pour lequel la distance calculée est inférieure au seuil), sinon une nouvelle classe est créée et le nouvel objet devient le leader de cette classe.

Cette méthode dépend de l’ordre de présentation des objets. Lorsque cet

ordre n’est pas optimal, le nombre de classes augmente sensiblement. Par ailleurs,

pour définir des nouveaux leaders, cette méthode utilise des distances, ce qui

nous ramène au problème de la définition des métriques.

(27)

Etudes préliminaires Chap. 1 : Méthodes de classification

2.1.2 Méthode de k-means

Cette méthode est encore appelée algorithme des centres mobiles (Benzécri, 1973). Ce type d’algorithme, où la classe est représentée par son centre de gravité, a été étudié par plusieurs auteurs, à savoir (Bonner, 1964 ; MacQueen, 1967 ; Celeuxétal, 1989).

L’algorithme k-means mis au point par McQueen en 1967 est l’un des algorithmes de clustering les plus connus. Il est basé sur la méthode des centroïdes (ou centres de gravité). Le principe de cette méthode est le suivant :

On se donne pour commencer, k centres arbitraires c;, c^où chaque ci représente le centre d’une classe C*. Chaque classe C‘ est représentée par un ensemble d’individus plus proches de c, que de tout autre centre. Après cette initialisation, on effectue une deuxième partition en regroupant les individus autour des mj qui prennent alors la place des Cj (mj est le centre de gravité de la classe C\ calculé en utilisant les nouvelles classes obtenues). Le processus est ainsi réitéré jusqu’à atteindre un état de stabilité où aucune amélioration n’est possible.

Cette méthode est convergente et surtout avantageuse du point de vue calcul mais elle dépend essentiellement de la partition initiale. Il existe donc un risque d’obtenir une partition qui ne soit pas optimale mais seulement meilleure que la partition initiale. De plus, la définition de la classe se fait à partir de son centre, qui pourrait ne pas être un individu de l’ensemble à classer, d’où le risque d’obtenir des classes vides.

2.1.3 Méthode des nuées dynamiques

Cette méthode a été proposée par (Diday, 1972). Elle peut être considérée

comme une généralisation de la méthode des centres mobiles. Le principe de la

méthode est le suivant : on tire au hasard k noyaux parmi une famille de noyaux

(chaque noyau contient un sous-ensemble d’individus). Puis chaque point de

l’ensemble d’apprentissage est affecté au noyau dont il est plus proche. On

obtient ainsi une partition en k classes dont on calcule les noyaux. On

(28)

Chap. 1 : Méthodes de classification Etudes préliminaires

recommence le processus avec les nouveaux noyaux et ainsi de suite jusqu’à ce que la qualité de la partition ne s’améliore plus.

Cette méthode a l’avantage de traiter rapidement de grands ensembles d’individus. Elle fournit une solution dépendant de la configuration initiale et nécessite le choix du nombre de classes. En général le nombre de classes est fixé par l’utilisateur et l’initialisation est faite par un tirage au hasard. Pour comparer l’individu avec les noyaux, cette méthode utilise des distances, ce qui a l’inconvénient d’établir des métriques.

En conclusion, les méthodes non hiérarchiques permettent de traiter rapidement de grands ensembles d’individus, mais elles supposent que le nombre des classes est fixé au départ. Si le nombre de classes n’est pas connu ou si ce nombre ne correspond pas à la configuration véritable de l’ensemble d’individus (d’où le risque d’obtenir des partitions de valeurs douteuses), il faut presque toujours tester diverses valeurs de k, ce qui augmente le temps de calcul. C’est pourquoi, lorsque le nombre des individus n’est pas trop élevé, on préfère utiliser les méthodes hiérarchiques.

2.2 Méthodes hiérarchiques

La classification hiérarchique consiste à effectuer une suite de regroupements en classes de moins en moins fines en agrégeant à chaque étape les objets ou les groupes d’objets les plus proches. Elle fournit ainsi un ensemble de partitions de l’ensemble d’objets (Celeux et ai, 1989).

Cette approche utilise la notion de distance, qui permet de refléter l’homogénéité ou l’hétérogénéité des classes. Ainsi, on considère qu’un élément appartient à une classe s’il est plus proche de cette classe que de toutes les autres.

La figure 1.1 est une illustration du principe des méthodes hiérarchiques.

Dans cette figure, on représente la suite de partitions d’un ensemble

{a, b, c, d, e} :

(29)

Etudes préliminaires Chap. 1 ; Méthodes de classification

distance

Figure 1.1. La partition hiérarchique Les différentes partitions représentées dans la figure I.l sont : Po= {{a},{b},{c},{d},{e}} correspond à la distance d = 0;

Pi = {{a, b},{c},{d},{e}} correspond à la distance d= 1;

P2 = {{a, b},{c},{d,e}} correspond à la distance d = 2;

P3 = {{a, b},{c, d, e}} correspond à la distance d = 4;

P4 = {{a, b, c, d, e}} correspond à la distance d = 5.

A chaque partition correspond une valeur numérique représentant le niveau auquel ont lieu les regroupements. Les partitions sont définies en coupant l’arbre à un certain niveau en regardant les branches qui tombent. Dans l’exemple de la figure 1.1, si on coupe l’arbre à une valeur 3.5 on aura la partition suivante : P2= {{a,b},{c},{d,e}}.

La principale difficulté présentée par cette méthode est la définition du critère de regroupement de deux classes, c’est-à-dire la détermination d’une distance entre les classes.

Les méthodes de classification automatique ont apporté une aide

précieuse, notamment par leurs applications médicales en exploitant les

informations et les données dans le domaine de la santé publique, de la recherche

clinique, de l’épidémiologie, de la documentation ou de la décision médicale.

(30)

Chap. 1 : Méthodes de classification Etudes préliminaires

L’une des plus importantes applications de la classification automatique dans le domaine médical est la nosologie (science de la classification des maladies).

L’exemple de classification le plus connu est la Classification Internationale des Maladies « CIM » (en anglais, “International Classification of Diseases” « ICD ») (OMS, 1977). Les différentes partitions de la Classification Internationale des Maladies sont résumées dans le tableau 1.1 (Degoulet P. et Fieschi M., 1994).

Partitions Noms

I. Maladies infectieuses et parasitaires

n. Tumeurs (malignes, bénignes,...)

m. Maladies endocriniennes, maladies de la nutrition et du métabolisme, troubles immunitaires.

IV. Maladies du sang et des organes hématopoïétiques

V. Troubles mentaux

VI. Maladies du système nerveux et des organes des sens

vn. Maladies de l’appareil circulatoire

vm. Maladies de l’appareil respiratoire DC. Maladies de l’appareil digestif

X. Maladies des organes génito-urinaires

XL Complications de la grossesse, de l’accouchement et des suites de couches

xn. Maladies de la peau et du tissu cellulaire sous-cutané

xm. Maladies du système ostéo-articulaire, des muscles et du tissu conjonctif

XIV. Anomalies congénitales

XV. Certaines affections dont l’origine se situe dans la période périnatale

XVI. Symptômes, signes et états morbides mal définis.

xvn. Lésions traumatiques et empoisonnements

E. Causes extérieures de traumatisme et empoisonnements V. Facteurs influant sur l’état de santé et motifs de recours aux

services de santé

M. Morphologie des tumeurs

Tableau 1.1. Les chapitres de la Classification Internationale des Maladies

(31)

Etudes préliminaires Chap. 1 : Méthodes de classification

3. Méthodes d’affectation

Les méthodes d’affectation ou “classificateurs” sont caractérisées par la phase d’apprentissage qui consiste à établir des règles de classification à partir des connaissances disponibles a priori. Cette phase peut être réalisée à partir d’un apprentissage inductif ou déductif. Le premier type d’apprentissage permet de passer de cas particuliers à des lois plus générales «si les hommes x, y, z, etc. sont mortels, alors on peut poser comme hypothèse d’induction que l'homme est mortel». Par contre le deuxième type permet de passer d’un cas général à un cas plus particulier «si l’hypothèse que tous les hommes sont mortels, est vrai, alors en conclusion Socrate, qui est un homme, est mortel». Les méthodes présentées dans ce chapitre utilisent soit l’apprentissage inductif soit l’apprentissage déductif mais pas les deux à la fois. Ces méthodes interviennent dans plusieurs domaines tels que la reconnaissance des formes, les statistiques, les réseaux connexionistes (réseaux de neurones artificiels), l’intelligence artificielle et l’aide multicritère à la décision. Nous aborderons ici quelques-unes de ces méthodes dans chacun de ces domaines.

3.1 Méthodes d’apprentissage inductif

Les méthodes d’apprentissage inductif consistent à inférer des règles de décision à partir d’exemples des différentes classes. Ceci se fait dans le but d’une généralisation afin de prédire des nouveaux cas, sur base des paramètres les décrivant. Parmi les méthodes utilisant ce type d’apprentissage on trouve :

3.1.1 Méthode des k plus proches voisins (Æ-ppv)

Fix et Hodges (Fix et Hodges, 1951) sont à l’origine de l’approche des k-

ppv. Ce procédé a été largement étudié notamment par Hart (Hart, 1967) qui en

présente une description détaillée ainsi qu’une amélioration. L’application

pratique a été discutée par Fukunaga et Hummels en 1987.

(32)

Chap. 1 : Méthodes de classification Etudes préliminaires

Le principe général de la méthode des k-ppv consiste à rechercher parmi l’ensemble d’apprentissage T, contenant l’ensemble des individus et leurs classes d’affectation, un nombre k d’individus parmi les plus proches possibles de l’individu à classer. Puis, l’individu est affecté à la classe majoritaire parmi ces k individus trouvés. Le nombre k est fixé a priori par l’utilisateur (cf. Dasarathy, 1991).

Si k - 1, alors l’individu est affecté à la classe du plus proche voisin de l’ensemble T.

Une variante de la règle de la majorité consiste à prévoir un seuil s au-dessus duquel une décision de rejet est prise. Ainsi, on peut rencontrer des cas où l’individu n’est affecté à aucune classe.

Soit l’exemple de la figure 1.2 avec deux dimensions correspondant aux attributs ei et e2, et A: = 5.

Figure 1.2. Méthode des k-ppv.

V 2 ç

Dans cet exemple les trois plus proches voisins de a sont b , b eib , donc a sera affecté à la classe majoritaire parmi ces trois points.

La méthode des k-ppv a l’avantage d’être très simple à mettre en œuvre et

d’utiliser directement l’ensemble d’apprentissage T. Elle ne fait aucune

hypothèse a priori sur les données. La qualité de la discrimination par cette

méthode dépend du choix du nombre k de voisins considérés. Il est cependant

souvent nécessaire de faire varier ce nombre k pour obtenir les meilleurs résultats

(33)

Etudes préliminaires Chap. 1 : Méthodes de classification

possibles. Un autre problème important de la méthode des ^-ppv est qu’elle nécessite un espace mémoire très important pour stocker les données et pour faire les différents calculs dans la phase de classification. De plus, elle a l’inconvénient d’utiliser les distances pour déterminer les voisins de l’individu à affecter, ce qui peut poser des problèmes si les dimensions à agréger ne sont pas homogènes.

Afin de remédier à l’inconvénient de l’utilisation de distances, on a recours à l’utilisation des relations de ressemblances floues (Pemy et Henriet, 1996).

Decaestecker et al. ont appliqué la méthode des A:-ppv dans le diagnostic médical.

Cette méthode a permis de différencier les tumeurs astrocytaires typiques des cas atypiques (Decaestecker er a/., 1997).

3.1.2 Affectation par la méthode Bayésienne

Cette approche est la base des approches statistiques de classification supervisée. Elle donne une mesure de vraisemblance sur des décisions prises (exemple : un objet appartient ou non à une classe) avec une erreur globale minimum et évalue le risque de la décision à prendre.

La méthode d’affectation Bayésienne est basée sur le théorème de Bayes (formulé par Thomas Bayes dans les années 1700) qui consiste à déterminer la probabilité conditionnelle d’une hypothèse H sachant un ensemble de données D, par la formule suivante :

P(H/D) = P(H)xP(D/H)

P{D) ( 1 )

Ce théorème permet de réviser les croyances du décideur concernant l’occurrence de l’événement H en fonction d’une nouvelle information D. On appelle généralement P(H) “probabilité a priori” et P(H/D) une "probabilité a posteriori”.

L’application de cette méthode aux problèmes de classification peut se

formuler comme suit :

(34)

Chap. 1 : Méthodes de classification Etudes préliminaires

Soit Q l’ensemble des k classes C que nous cherchons à déterminer sur /?", à chaque point x est associé la classe C la plus probable, d’où la règle de décision suivante :

P(C/x)>P(d/x), Vj^i => xeC (2)

P(C/x) : est la probabilité conditionnelle d’appartenance à la classe C, sachant qu’on est au point oc.

En utilisant le théorème du Bayes donné par la formule (1) on obtient :

avec P{x)=^ P{C')xP{xlC')

i=l

Donc la règle de décision déftnie par (2) devient :

P(C)xP{x/C)>P(d)xP(x/(y),Vj^i => xed (3) Certaines décisions peuvent avoir des conséquences plus ou moins importantes : par exemple, il est peut être préférable de rejeter un caractère analysé plutôt que le classer de façon erronée. Pour estimer l’impact des conséquences on utilise une matrice carrée M(k, k), la composante mÿ de la matrice M(k, k) représentant le coût de classer x à la classe C alors qu’il appartient à la classe C. Ce coût est positif ou nul. Il est nul si x est correctement classé et on aura : ma = 0. On peut minimiser l’espérance du coût des erreurs en un point x en appliquant la formule suivante :

Ej(x) = S (muXP(d/x)) (4)

/=!

Ej(x) étant l’espérance du coût des erreurs de la décision du classement prise en

X.

(35)

Etudes préliminaires Chap. 1 ; Méthodes de classification

Le problème qui se pose est dans la détermination des densités de probabilité qui vont permettre de prendre des décisions optimales. Le but serait d’obtenir la probabilité conditionnelle P(C/x) qui permettrait d’avoir une fonction de décision optimale.

P(C) et P(x/Cf) peuvent être échantillonnées par expérience. Une statistique permet alors de les estimer et deux types de procédures sont possibles : les méthodes paramétriques et les méthodes non paramétriques.

Dans les méthodes paramétriques on se fixe a priori les lois de paramètres et on estime les paramètres en utilisant l’ensemble d’apprentissage T = {(x, C)/

La probabilité P(C‘) est soit connue a priori, soit estimée facilement et avec précision sur l’ensemble d’apprentissage.

on utilise, en général, la méthode du maximum de vraisemblance en posant que les Xj sont indépendants, selon la formule :

Soit f(x/C‘,0‘) une densité de probabilité relative à la classe C* et dépendant du paramètre 0‘ correspondant à ce tirage. Pour estimer cette densité de probabilité,

yr£«=n

n

(f(x/0))

n

/f2C maximum « 0 (f(Xj,9)) maximum

n K

n (f(Xj,0)) maximum « £ (log(f(Xj, 6 )) maximum

y=l ;=1

Pour résoudre ce problème il faut choisir un modèle de fonction; Le modèle gaussien est le plus souvent retenu.

La loi gaussienne est doimée dans R" par :

''^exp(-^(x-//,.)^2: \{x-ju^)) (6)

où fi est la fonction de densité de lois normale pour la classe C*, ju est le vecteur moyen de classe C* et Xest la matrice variance de la classe C.

L’estimateur du maximum de vraisemblance est donné par :

(36)

Chap. 1 : Méthodes de classification Etudes préliminaires

Jiii*= (1 Xj)/L et li* = (l (xj )/L,

j=\ ;=1

où: (xj, X2, xl ) est une suite de L éléments de l’ensemble d’apprentissage T, appartenant à la classe C, tirés aléatoirement.

Les inconvénients de la méthode Bayésienne paramétrique résident dans le fait que les distributions de probabilité sont supposées suivre une loi normale, ce qui n’est pas toujours le cas. Par ailleurs, les lois gaussiennes n’utilisent que les variables continues ce qui impose de travailler dans un espace euclidien, donc les variables binaires et les variables discrètes ne peuvent pas être normalement distribuées, ce qui restreint le champ de travail. Du point de vue calcul, elles sont très lourdes et nécessitent beaucoup d’information. En outre, il est en général difficile d’évaluer les densités de probabilités.

Pour remédier à certains de ces inconvénients, on a souvent recours à des méthodes non paramétriques. Ces dernières cherchent à interpoler la fonction de décision à partir d’un échantillon donné par l’ensemble d’apprentissage T = {(x, C*)}. A partir de cet ensemble, on peut doimer une approximation de la densité de probabilité en utilisant l’une des méthodes suivantes :

• Méthode des k plus proches voisins (k-ppv)

L’estimation de la fonction de densité par la méthode des k-ppv a été introduite par Fixe et Hodges en 1951 et approfondie par Cover et Hart en 1967, puis par Fukunaga K. et Hummels M.D en 1987.

La technique des k-ppv est largement utilisée pour déterminer la fonction de décision. Soient T = / i = 1, ..., m, j = 1,..., k} l’ensemble d’apprentissage et X un sous-ensemble de T tel que : X={x], ..., x^}, avec m>k, la méthode des k- ppv consiste à ranger x dans la classe majoritaire des points x, eX, les plus proches de x. Elle peut être utilisée comme méthode d’approximation. Pour obtenir une bonne approximation, il faut utiliser un grand nombre de points.

L’estimation de la fonction de densité par la méthode des k-ppv est donnée par :

(37)

Etudes préliminaires Chap. 1 : Méthodes de classification

fj(x) = —(7) NjXvl(x)

OÙ :

vif(x) est le volume de {Ys R" ; d(X;Y) < d(X; X^- nn )}»

d(X,Y) la distance métrique entre X et Y,

le plus proche voisin à X dans la classe C et Nj la taille de l’échantillon de la classe C^.

La méthode des k-ppv a l’avantage sur les techniques paramétriques de n’avoir à poser aucune hypothèse a priori sur une quelconque distribution de probabilité. Mais pour être efficace, elle demande l’utilisation d’un échantillon d’autant plus grand que la dimension «n» de l’espace est grande. Enfin, elle a l’inconvénient d’utiliser des distances pour calculer les voisins de x.

• La méthode de noyau de parzen

C’est une méthode d’estimation de la fonction de densité en vue d’utiliser la règle Bayésienne. Elle a été étudiée par Duda et Hart en 1973 et James en 1985. Le principe de la méthode consiste à chercher un nombre maximum de points dans un espace fixé qu’on appelle fenêtre. Dans cette fenêtre, on fait la convolution d’une fonction standard y/(x,a) avec l’ensemble d’apprentissage.

L’estimation de la fonction de densité par la méthode de noyau de parzen est donnée par :

fM = <I/N,)% (I/cCd-mX-XlVia,)) (8)

OÙ :

y/ii.) est une fonction de noyau satisfaisant fyrfx)dx - 1,

(Xi est un paramètre exprimant l’étendue de la fonction du noyau (ou encore la largeur de la fenêtre).

Les estimateurs de ce type sont asymptotiquement sans biais et convergents. En

pratique, ils sont délicats à mettre en œuvre (surtout dans le cas

(38)

Chap. 1 : Méthodes de classification Etudes préliminaires

multidimensionnel), et dans certains cas, on peut ne trouver aucun voisin vu la limitation de l’espace.

La méthode Bayésienne a été largement utilisée dans le diagnostic médical et en particulier pour évaluer les probabilités des différentes hypothèses de diagnostic (Salamon étal, 1976 ; Zagoria et ai, 1983).

Citons pour exemple la détermination de la probabilité d’avoir la maladie M lorsqu’un signe S est présent P(M/S). On utilise l’équation (1) et en déduit la probabilité conditionnelle de M sachant S :

nsim-pm

^ P(S)

P(M) exprime la probabilité a priori de M.

P(S/M’) exprime la probabilité de trouver le signe S en l’absence de maladie.

Donc la probabilité totale de P(S) sera donnée par :

P(S) = P(S/M)xP(M) + P(S/M’)xP(M’) Ce qui donne :

P(M/S) = __________ P(S/M)xF(M)__________

(P(SI M)xP{M) + P(S/ Af’)X P(M’))

3.1.3 Méthodes d’analyse discriminante

Le but de ces méthodes est de produire des décisions concernant

l’appartenance ou non d’un objet à une classe en utilisant des fonctions

discriminantes appelées également fonctions de décisions. Ce genre de méthodes

se base sur les travaux de Fisher (1936). Suivant les formes des classes, on peut

trouver différents types de discrimination :

(39)

Etudes préliminaires Chap. 1 ; Méthodes de classification

• Discrimination linéaire

Elle consiste à séparer les classes par des frontières linéaires afin de regrouper les points à classer autour du centre de gravité de la classe (la moyenne de la classe) et à créer aussi des frontières linéaires entre les classes.

Dans le cas où il y aurait deux classes et où chaque objet est défini par deux variables, la fonction de discrimination est définie comme suit :

d(a) = W]X] + W2X2 + W3.

et la règle d’affectation est (cf. figure 1.3) ; si d(a) > 0 alors a s

si d(a) < 0 alors a e Cf

si d(a) = 0 alors a e à la frontière entre et

Figure 1.3. Séparation de deux classes par une droite.

Dms le cas où on aurait n variables, la fonction de discrimination devient :

d(a) = wixi + W2X2+ ... + w„+/. (9)

Si on a k classes, on définit k fonctions de discrimination :

di(a) = Wi.'X! / Wi = (Wij, Wi2,..., wJ; X =(xj, X2, ...,Xn.l) La règle d’affectation devient (cf. figure 1.4) :

Si di(a) > 0 alors a e C pour i = 1,..., k

(40)

Chap. 1 : Méthodes de classification Etudes préliminaires

Figure 1.4. Séparation linéaire pour 3 classes.

• Fonction de discrimination linéaire par morceaux

Il arrive que les classes ne soient pas linéairement séparables, mais qu’elles soient formées de sous-classes qui sont linéairement séparables.

Soit l’exemple de la figure 1.5 connu comme un exemple XOR (i.e., ou exclusif) opérateur logique sur deux variables binaires. La classe est formée de deux régions A et C et la classe Cf est formée de la région B. A cause de l’application de la méthode de discrimination précédente, on résout le problème en considérant chaque sous-classe comme une classe distincte.

Figure 1.5. Exemple XOR des données non linéaire.

(41)

Etudes préliminaires Chap. 1 : Méthodes de classification

• Fonction discriminante quadratique

Le principe de cette méthode est le même que celui développé précédemment excepté qu’au lieu de séparer les classes par des hyperplans, on les sépare par des surfaces qui ont généralement la forme ellipsoïde. La discrimination quadratique utilise plusieurs métriques (une par classe) pour mesurer la dispersion de chaque classe et la règle de décision est donnée comme suit :

on affecte l’objet a à la classe si :

(x-ghfMh(x-gh) = Mini=i__k(x-gi)‘Mi(x-gi) ( 10 ) où gh est le centre de gravité de la classe h et Mh la métrique de la classe h.

Les méthodes d’analyse discriminante ont comme difficulté le choix de la métrique à utiliser afin d’obtenir des classes où les points d’une même classe seraient le moins dispersés possible autour du centre de gravité de la classe.

Ce sont des méthodes totalement compensatoires qui appliquent une agrégation globale sur les performances des attributs de l’objet. Ceci a pour conséquence un côté arbitraire de la méthode vu l’hétérogénéité des données.

L’analyse discriminante peut être utilisée dans le diagnostic médical en affectant un patient à une classe diagnostic en fonction de la valeur de ses paramètres X{.

L’ensemble d’apprentissage permet de trouver la fonction discriminante en estimant les coefficients w,. A partir de cette fonction de décision, on peut affecter n’importe quel patient.

Reprenons l’exemple de Degouflet P. et Fieschi M. (1994). Soit deux diagnostics médicaux (appendicite et salpingite) et trois signes (DEF : Défense ; DFID : douleur de la fosse iliaque droite ; DFIG : douleur de la fosse iliaque gauche).

En utilisant la fonction de discrimination donnée par (9) et après l’estimation des

coefficients des paramètres, on aura les règles de décisions suivantes :

(42)

Chap. 1 : Méthodes de classification Etudes préliminaires

f(appendicite) = 4.DEF + lO.DFID - lO.DFIG f(salpingite) = 3.DFF + 5.DFID + 5.DFIG

Si un patient ne présente pas de signe de défense et présente les signes de douleur des fosses iliaques droite et gauche on aura :

f(appendicite) = 4x0 + 10x1- 10x1 = 0 f(salpingite) = 3x0 + 5x1 + 5x1 =10

D’après ce calcul, le diagnostic est en faveur d’une salpingite.

3.1.4 L’approche des réseaux de neurones

Les réseaux de neurones sont à l’origine d’une tentative de modélisation mathématique du cerveau humain. Le principe général consiste à définir des unités simples appelées neurones, chacune étant capable de réaliser quelques calculs élémentaires sur des données numériques. On relie ensuite un nombre important de ces unités formant ainsi un outil de calcul puissant.

L’étude de réseaux de neurones artificiels a débuté au début des années 1940 par les travaux de Mc Culloch et Pitts (McCulloch et Pitts, 1943) et a été étendue aux problèmes de classification et reconnaissance des formes par Rosenblatt (1962). Commençons d’abord par donner quelques définitions relatives à la théorie des réseaux de neurones.

• Neurone artificiel

Un neurone est une unité de traitement de l’information. La figure 1.6 en

donne une représentation schématique.

(43)

Etudes préliminaires Chap. 1 ; Méthodes de classification

Entrées Synapses Cellule de Sommation

Fonction d’activation

Figure 1.6. Structure d’un neurone artificiel.

Les valeurs des entrées Ej,..., E„ représentent en générai les attributs d’un objet à classer et les poids (ou coefficients synaptiques) associés aux entrées sont des variables de la fonction score du poids, appelée aussi fonction d’activation du neurone (la fonction d’activation la plus utilisée est la somme pondérée des valeurs d’entrée). La valeur d’activation est ensuite passée comme argument à la fonction de sortie qui détermine la valeur de sortie du neurone S’.

L’entrée supplémentaire S sert à indiquer au neurone la valeur de sortie attendue pour qu’il puisse corriger ses coefficients synaptiques et s’approche de cette valeur.

• Réseau de neurones

Un réseau de neurones se compose de neurones connectés de façon à ce que la sortie d’un neurone puisse être l’entrée d’un ou plusieurs autres neurones.

Les connexions entre les neurones sont dotées de poids (cf. figure 1.7) :

(44)

Chap. 1 : Méthodes de classification Etudes préliminaires

Neurones Neurones Neurones

d’entrées intermédiaires de sorties

Figure 1.7. Réseau de neurones artificiels

Le principe général des méthodes utilisant les réseaux de neurones consiste à modifier (ou ajuster) les paramètres comme, par exemple, les poids et les seuils par des algorithmes itératifs afin d’obtenir des réponses correctes.

L’objectif de ces algorithmes est de minimiser une mesure d’erreur. La mesure la plus utilisée est celle de l’erreur des moindres carrés, ce qui revient à minimiser l’expression :

( 11 )

où E est la variable à minimiser. Su la sortie i attendue et S’u la sortie i du réseau pour l’exemple /.

Parmi les méthodes de réseaux de neurones utilisées dans le cadre des problèmes

d’affectation nous citerons :

(45)

Etudes préliminaires Chap. 1 : Méthodes de classification

• Méthode du perceptron à une seule sortie

Cette méthode, due à Rossenblatt (1962), consiste à donner une décision d’appartenance ou non d’un objet à la classe & ou à la classe (cf. figure 1.8).

5 =

^i±wxE+e>0 Sinon

( 12 )

Figure 1.8. La forme générale du perceptron à une seule sortie

La figure 1.8 illustre la forme générale d’un perceptron à une seule sortie (connu aussi sous le nom d’adaline).

On classe x à la classe si 5 = 7 et à sinon.

L’équation (12) du perceptron a la même forme que la fonction de discrimination linéaire donnée par l’équation (9) utilisée dans les méthodes d’analyse discriminante, ce qui signifie que les méthodes du perceptron sont utilisées pour discriminer des individus linéairement séparables.

Les limites de cette méthode sont décrites par Minsky et Papert (1969).

Ces auteurs ont montré que ces méthodes ne peuvent pas résoudre certains

problèmes comme la discrimination du type XOR (figure 1.5, page 15).

(46)

Chap. 1 : Méthodes de classification Etudes préliminaires

• Méthode du perception multicouches

Afin de traiter les problèmes de classification à plus de deux classes qui ne sont pas obligatoirement linéairement séparables, on utilise les réseaux à couches.

Les réseaux à couches sont connus sous le nom de perceptron multicouches. Ce sont des réseaux où les neurones sont regroupés en couches connectées entre elles. On distingue trois types de couches : la couche d’entrée, la couche de sortie et les couches cachées (figure 1.9).

Couche de sortie

Couche

cachée

Couche d’entrée

Figure 1.9. Forme générale d’un réseau à trois couches.

Les perceptions multicouches utilisent le principe de rétro-propagation back-propagation qui est une généralisation de la méthode de l’erreur des moindres carrés proposée par P.Werbes puis par D.Rumelhart et al. (1986).

Le principe de rétro-propagation est d’optimiser les paramètres du réseau de

neurones en utilisant la technique de descente du gradient. On confronte le réseau

à des exemples déjà classés. Lorsqu’un résultat est obtenu, l’erreur de

classification est calculée (par exemple l’équation (11), permet de calculer

l’erreur quadratique). Par la suite, cette erreur est rétropropagée d’une couche à

Références

Documents relatifs

Hormis les principales fibres de synthèse utilisées actuellement, les fibres de chrysotile présentent, de par leurs caractéristiques mé- caniques, un potentiel important d'agents

oeuvre commune. C'est la pratique surtout qui a suggéré l'idée et le fond du manuel. Là, sont réunies des remarques personnelles ti­ rées de l'expérience, rédigées sous forme

enfant ou un adolescent sur ses loisirs, il ne pensera pas à l'école, qui lui semble le plus souvent comme une contrainte, mais bien au temps dont il dispose librement après

lignes; mais on doit tenir compte du gonflement extraordinaire de la paroi anté- rieure du vajçin et du col de la vessie, qui avait disparu en grande partie après la délivrance et

résista pas longtemps à ces secousses nouvelles et sou- vent répétées, et il fut bientôt affect é du délire des ivre-.. Sa femme le fit contenir par plusieurs hommes;

Les il;l3tances I~2~4-&#34;5-6 sont beaucoup plus importantes dans le crâno ratle que dans le crâne femelle ; le gorille mâle possède donc une face plus développée que la femelle ;

L’œuvre ne peut être stockée dans une autre base de données dans le but d’y donner accès ; l’identifiant unique (permalink) indiqué ci-dessus doit toujours être utilisé

° Parallèlement, l'érosion des forces classiques des partemires de l'Alliance s'est poursuivie sans discontinuer pour des raisons diverses, de nature économique, de