• Aucun résultat trouvé

Architecture d’un nouveau modèle de diagnostic médical

chapitre 4. Conception d’un modèle médical à base de résumés linguistiques

4.3 Architecture d’un nouveau modèle de diagnostic médical

4.4 Approche proposée de résumé linguistique médical RLR-CardF ... 81

4.4.1 Implémentation de RLR-CardF sur une base de données médicale ... 84 4.4.2 Résultats et discussions ... 86 4.4.3 Aperçue sur l’application... 88

4.5 Approche proposée d'un système d’interrogation médical flexible ... 90

4.5.1 Calcul de quantificateur flou par le produit scalaire ... 90 4.5.2 Calcul le quantificateur flou par le degré de vérité ... 92 4.5.3 L’approche de recherche proposé IFlex- RLR-CardF ,basé sur le calcul le degré de validité ... 93 4.5.4 Aperçue sur l’application... 97

4.6 Approche proposé d’un classifieur médical « Classifieur- RLR-CardF»: ... 98

4.6.1 Schéma général de approche proposé « Classifieur- RLR-CardF » ... 98 4.6.2 Processus de développement, Classifieur- RLR-CardF ... 99 4.6.3 Aperçue sur l’application... 104

4.7 Résultat et discussion ... 105 4.8 Comparaison de l’approche proposée avec les travaux de la littérature ... 111 4.9 Conclusion ... 112

Chapitre4:Conception d’un modèle médical à base de résumés linguistiques

76

4.1 Introduction

Les systèmes d’aide au diagnostic médial classique traitent des bases de données

numériques .Mais, la capacité de ces bases de données s’augmentent de plus en plus ce qui cause un problème au niveau de performance de ces systèmes. Dans le domaine médical, il est important de crée un système de décision robuste, rapide et fiable ; afin de détecter une pathologie de données.

Dans les chapitres précédents, nous avons dressé une étude bibliographique concernant les problèmes de volume important des données numériques médicaux, l’intreprétabilité de ces données et les performances des classifieurs . Nous avons citées quelque méthodes et approches de résolution qui leur ont été dédiées.

Dans cette partie de notre thèse, nous intéressons à la conception d’un modèle de diagnostic médical complet qui combine entre trois approches qui sont proposées dans notre travail de recherche :

RLR-CardF(Résumé Linguistique Réduit à base de calcul du Cardinalité Floue). IFlex- RL (Interrogation Flexible des Résumés Linguistiques).

Classifieur- RLR-CardF(Classifieur à base RLR-CardF).

Ainsi, nous présentons, ci-dessous, les descriptions de ces trois approches :

RLR-CardF : Représente notre méthode de résumé linguistique, à base de calcul de cardinalité floue, afin de faire une réduction sémantique de la base de données médicale.

IFlex- RL : Représente notre algorithme d’interrogation flexible afin‎d’interroger‎nos résumés linguistiques des données médicales et chercher des réponses exactes des requêtes, selon les‎préférences‎de‎l’expert‎du domaine.

Classifieur- RLR-CardF: A l’aide de calculs de la similarité, entre les résumés

linguistiques, nous proposons d’adapter ces calculs pour créer un modèle de diagnostic médical, c. à. d, nous proposons une nouvelle méthode de la classification supervisée.

Afin de valider nos approches et évaluer les performances de nos modèles proposées, nous allons utiliser trois bases de données médicales (PIMA,WBCD, Mamography).

4.2 Matériels et méthodes

4.2.1 Langages et outils utilisés

Pour l’implémentation de notre architecture nous avons utilisé les outils et les langages suivants :

 Nous avons réalisé l’étude expérimentale sur un ordinateur avec processeur Dual-Core 2,20GHz.

Chapitre4:Conception d’un modèle médical à base de résumés linguistiques

77

Le langage java, pour le développement le résumé à base de calcul de la cardinalité floue, la construction de système d’interrogation flexible et le système de

classification . On a travaillé sous l’environnement du développement NetBeans (NetBeans IDE 8.0 for Java EE Developers)

4.2.2 Les bases de données

Dans cette thèse de doctorat, nous utilisons trois bases de données médicales extraites du dépôt d’UCI (A. Frank and A. Asuncion) [131].

Les bases de données sont citées dans le tableau ci-dessous : Pima Indian Diabetes (PIMA), Wisconsin Breast Cancer (WBC), et mammographie (Mamography).

Tableau ‎4-1 Caractéristiques des jeux de données utilisés

Jeux de données Attribut Classe Instances

PIMA 8 2 768

WBCD 9 2 683

Mamography 5 2 961

Ces jeux de données ont été largement testés dans les travaux des systèmes de classification, nous présentons ci-dessous les descriptions de ces ensembles :

4.2.2.1 PIMA

L’ensemble de données médical ‘’Indiana Pima du Diabètes ‘’ a été choisi à partir de dépôt d’UCI(A. Frank and A. Asuncion) où on traite une étude sur 768 femmes Indiennes. Le diagnostic est une valeur binaire variable «classe» qui permet de savoir si le patient montre des signes de diabète selon les critères de l’O.M.S. Les exemples de données sont répartie en deux classe ,500 exemples appartiennent à la classe 0 (Classe non diabétique) et 268

exemples appartiennent à la classe 1 (Classe diabétique)). Les huit descripteurs cliniques sont :

1. Npreg : nombre de grossesses (Ngross).

2. Glu : concentration du glucose plasmatique (mg/dl). 3. BP : tension artérielle diastolique (mm Hg) (PAD). 4. SKIN : épaisseur de pli de peau du triceps (mm). 5. Insuline : dose d’insuline (mu U/ml).

6. BMI : index de masse corporelle (poids en kg/ m^2). 7. PED : fonction de pedigree de diabète (l’hérédité). 4.2.2.2 Wisconsin Breast Cancer (WBCD)

L’ensemble de données du cancer du sein dénommé « Wisconsin Breast Cancer Dataset » a été collecté à l’Université du Wisconsin. Les mesures sont assignées à une valeur entière comprise entre 1 et 10 (1 étant la plus proche de bénigne et 10 la plus proche de maligne).

Après élimination des données manquantes dans cette base de données .On obtient un ensemble de 683 patientes. Ces exemples sont répartie en deux classe (546 exemples

Chapitre4:Conception d’un modèle médical à base de résumés linguistiques

78

appartiennent à la classe 2 (Classe bénigne), 137 exemples appartiennent à la classe 4 (Classe maligne)). Il contient 699 échantillons avec neuf descripteurs qui sont :

1. Clump Thickness 2. Uniformity of Cell Size 3. Uniformity of Cell Shape 4. Marginal Adhesion 5. Single Epithelial Cell Size 6. Bare Nuclei

7. Bland Chromatin 8. Normal Nucleoli 9. Mitoses

4.2.2.3 Mammographie

Les données de cette base sont des données de mammographie Bénin ou Maligne. L’ensemble de ces données sera utilisé pour prédire le cancer du sein et la gravité d'une lésion de la masse mammographie. Cette base est évaluée sur plusieurs caractéristiques, parmi ces caractéristiques nous comptons l’âge du patient. Parmi les données recueillis de l'Institut de Radiologie de l’Université d'Erlangen-Nuremberg entre 2003 et 2006, 516 sont bénin et 445 masses sont malignes. Les huit descripteurs cliniques sont :

1. BI-RADS assessment: (ordinal, non-predictive) 2. Age: patient' age

3. Shape: mass shape: (round, oval, lobular, irregular) 4. Margin: mass margin

5. Density: mass density 6. Severity: Benign, malignant 4.2.3 Critères d’évaluation

Afin de tester les performances de notre classifieur, nous avons divisé la base de données en deux sous-ensembles : 4/5 pour l’apprentissage et 1/5 pour le test. Par la suite, l’évaluation est donnée selon le taux de la classification (TC), la sensibilité (Se) et la spécificité (Sp).

Dans notre thèse, il nous faut utiliser trois critères d’évaluations pour tester la capacité de prédiction des modèles construits, les critères sont définis comme suit :

 Le taux de classification correcte (TC%) ( le taux de reconnaissance) , il est calculé par :

100* VP VN TC VN VP FN FP     

Où VP, VN, FP et FN désignent respectivement : vrais positifs, vrais négatifs, faux positifs et faux négatifs.

 VP : la classification correcte des échantillons positifs.

 VN : la classification correcte des échantillons négatifs.

 FP : la classification erronée des échantillons négatifs dans les échantillons positifs.

Chapitre4:Conception d’un modèle médical à base de résumés linguistiques

79

 Sensibilité (SE%) : c’est le pourcentage d'échantillons positifs qui sont correctement classés, il est défini par :

100* VP

SE

VP FN

.

 Spécificité (SP%) : c’est le pourcentage d'échantillons négatifs qui sont correctement classés, il est défini par :

100* VN

SP

VN FP

.

4.3 Architecture d’un nouveau modèle de diagnostic médical

L’objectif principal de notre thèse est de développer un modèle d’aide au diagnostic médical pour des bases de données volumineuses. Donc, il faut chercher une méthode pour

condenser les données sémantiquement, sans perde la sémantique des informations importantes.

Il est important que les informations stockées dans notre base de connaissance soient utilisé avec des termes proches du langage naturel. Aussi, il est possible d’effectuer des recherches avec des requêtes en langage humain. C’est à dire de créer un système d’interrogation médical qui est flexible, rapide et précis.

Dans cette thèse, nous proposons un modèle qui réuni quatre grands champs de recherches en biomédicale. Notre modèle traite :

 Problème du volume des bases des données médicales.

 L’interprétabilté des enregistrements médicaux en langage naturel.

 Recherche des informations pertinentes sémantiquement proche au langage naturel.

 Prédiction à partir des résumés sémantiques des données.

Nous schématisons notre travail par la ( figure 4.1) qui explique les différentes étapes proposées :

Chapitre4:Conception d’un modèle médical à base de résumés linguistiques

80

Figure ‎4-1 schéma général de notre modèle

Dans cette thèse, nous contribuons trois approches qui sont définies ci-dessous :

RLR-CardF(Résumé Linguistique Réduit à base de calcul de la Cardinalité Floue). : Nous proposons à utiliser un nouvel algorithme de la méthode de résumé linguistique, à base de calcul de cardinalité floue, afin de faire une réduction sémantique de la base de données médicale.

IFlex- RLR-CardF(Interrogation Flexible des Résumés Linguistiques à base de calcul de cardinalité floue) : nous proposons un algorithme interrogation flexible qui est basé sur le calcul de degré de validité , afin d’interroger nos résumés linguistiques médicaux et chercher les réponses exacte pour des requêtes sémantiques, selon les préférences de l’expert du domaine.

Classifieur- RLR-CardF (Classifieur à base de RLR-CardF).: A l’aide de calculs de la similarité, entre les résumés linguistiques, nous proposons d’adapter ces calculs pour créer une nouvelle approches de diagnostic médical, c. à. d, proposons une nouvelle méthode de la classification supervisé.

Dans les prochaines sections, nous détaillerons les différentes approches proposées afin de créer un modèle de diagnostic et de recherche fiable et performant.

Aperçue sur l’application

La figure suivante montre un schéma général de l’application de notre modèle de diagnostic médical :

Chapitre4:Conception d’un modèle médical à base de résumés linguistiques

81

Figure ‎4-2Fenêtre Principale de notre application médicale