• Aucun résultat trouvé

Soit M une sous-population de type G, M est x-critique ssi:

GENSAM: un système généralisant les petits échantillons

Définition 3: Soit M une sous-population de type G, M est x-critique ssi:

E sous-population inséparable à x% telle que: sens ( M, E ) > 100 - x (au départ, x=∆I est fixé à 0.9)

Interprétation: une sous-population inséparable correspond à un ensemble d'individus qui ne peuvent être discriminés sur x% des tests initiaux. Une sous-population de type G est critique si elle contient un ensemble d'éléments inséparables sur certains critères; si x est élevé cette sous-population est difficile à caractériser.

4.2. Sous-population granulaire

Définition 4:

Une sous-population de type G est granulaire si

∀ Ei, sous-population avec spec ( Ei , G ) = 1 alors & D UG & D U G L L L *

(

( F

( ) ( ) ∪ 〉

cG: coefficient de granularité initialement fixé à 0.5

AggrR+

Interprétation: une sous-population M est granulaire lorsqu'elle contient plusieurs sous-populations dont la réunion couvre significativement M. Une caractérisation de M peut alors être obtenue grâce à ∪ Ei.

4.3. Sous-population seuillable

Lorsque qu'une sous-population est obtenue à partir d'une variable quantitative (cf. § 2.2.b), elle peut être redéfinie en fixant un seuil à la variable quantitative: c'est le cas des sous-populations seuillables. Soient P et C deux sous-populations quantitatives associées à la variable w: P décrit une suite d'éléments de valeurs identiques (proches de v1), C décrit une suite

d'éléments de valeurs croissantes (comprises entre v2 et v3), soit G une sous-population telle que P ⊂ G; il est probable que G peut être caractérisée par la réunion de P et d'une partie des éléments de C en définissant une sous-population E = {ei∈E / v1≤ w(ei) ≤ v', v' ∈ [v2, v3]}. On dira que G est obtenue par seuillage à partir de P (i.e. fixation d'un seuil hors des valeurs de P). Les conditions d'appartenance à la catégorie "Sous-populations Seuillables" peuvent s'écrire:

C3: sens (G, P) = 1 la

sous-population G contient la sous-sous-population P

C4: adj (P) = C P et C

sont deux sous-populations adjacentes

C5: type (P) = Palier P correspond à une sous-population quantitative de type Palier C6: type (C) = Montée C correspond à une sous-population quantitative de type Montée

4.4. Sous-populations à sensibilité/spécificité élevée

Ces deux catégories répertorient les bons éléments a priori de l'échantillon de départ. Dans la figure ci-contre, M représente une sous-population de type G, les sous-populations T1 et T2 sont très spécifiques de M mais peu sensibles, par contre T3 et T4 sont très sensibles mais peu spécifiques. L'idée est de rechercher les populations les plus spécifiques [resp. sensibles] parmi les sous-populations de forte sensibilité [resp. spécificité]. Dans l'exemple de la figure ci-contre, T2 [resp. T4] joue ce rôle.

Définition 5: Etant donnée M une sous-population, SensMax (M )

désigne les sous-populations les sensibles à M parmi les sous-populations de forte spécifité. Posons SPEC ( M ) = { X ∈ E / spec ( X , M ) > S} (initialement, ∆S = 0.9)

SensMax ( M ) = { X ∈ SPEC ( M ) / 10% meilleurs valeurs de sens ( X , M )} Symétriquement, on a:

Définition 6:

SENS ( M ) = { X ∈ E / sens ( X , M ) > S}

SpecMax ( M ) = { X ∈ SENS ( M ) / 10% meilleurs valeurs de spec ( X , M )}

4.5. Conclusion

Le niveau OBSERVATIONS comprend ainsi cinq catégories auxquelles peuvent se rattacher les sous-populations de type G (elles correspondent aux groupes initiaux et aux groupes générés par le système - cf. § 3). A chacune de ces sous-populations de type G est associé un ensemble des sous-populations de type T adaptées aux opérations de sa catégorie. Chaque nouvelle sous-population créée est automatiquement rattachée à sa ou ses catégories en fonction de ses conditions d'appartenance.

Valeurs de la variable w

G

Eléments de E triés par val. croissantes de w T1 T4 T2 T3 E P C

Niveau OBSERVATIONS Niveau DONNEES Sous-populations critiques Sous-populations SpecMax Sous-populations SensMax Sous-populations seuillables Sous-populations granulaires Sous-populations de type G Sous-populations de type T

5. Le niveau

CONTROLE 5.1. Définitions

Ce niveau gère l'ensemble des informations précédemment collectées. A chaque catégorie du niveau

OBSERVATIONS correspond une action privilégiée. Par exemple, si M est une sous-population apparentée à la catégorie des sous-populations granulaires, alors il existe (déf. 4) G1, ... , Gp avec spec (Gi , M ) = 1 (i = 1, ... , p); la sous-population M' = G1 ∪ .... ∪ Gp fournit une caractérisation de M (qui sera améliorée aux étapes suivantes).

Il convient de déterminer la catégorie la plus intéressante, puis dans cette catégorie les éléments apportant la meilleure caractérisation des groupes prédéfinis ou de leurs dérivés. Pour cela, chaque catégorie est analysée à l'aide d'une mesure appelée coefficient stratégique (le calcul de ce coefficient - noté cs - est propre à chaque catégorie); ce coefficient permet de calculer trois critères - intr, distr, tr - concernant les cinq catégories du niveau OBSERVATIONS.

Coefficient stratégique d'une sous-population critique:

Soit M une sous-population critique, il existe alors une sous-population C dont les éléments sont faiblement dissociables. On pose : cs ( M ) = sens ( C , M )

(ce coefficient est d'autant plus élevé que M comporte une partie de ses éléments difficilement caractérisables)

Coefficient stratégique d'une sous-population granulaire:

Soit M une sous-population granulaire, il existe alors G1, ... , Gp avec spec (Gi , M ) = 1, (i = 1, ... , p). On pose: cs ( M ) = sens ( M , ∪ Gi )

(ce coefficient est d'autant plus élevé que ∪ Gi couvre M) Coefficient stratégique d'une sous-population seuillable:

Soit M une sous-population seuillable, il existe alors (cf. § 2.2) une sous-population C de type montée caractérisée par les valeurs extrêmes prises par la variable quantitative associée à M. On pose: cs ( M ) = sens ( C , M )

Coefficient stratégique d'une sous-population

En conclusion, le coefficient stratégique d'un élément est d'autant plus fort que son appartenance à une des cinq catégorie est avérée: c'est donc un élément à traiter prioritairement dans sa catégorie. Il est utilisé pour le calcul des trois critères suivants:

intérêt d'une catégorie C (notée int):

int ( C ) = Moyenne des 10% meilleurs éléments de C pour la mesure cs distribution d'une catégorie C (notée distr):

GLVWU ( C ) = Moyenne des 10% meilleurs éléments de C pour la mesure FV

taille relative d'une catégorie (notée tr):

WU ( C ) = Card ( C )

Max { Card ( Ci ) / i = 1,5 }

C1, ... , C5 désignent les catégories du niveau OBSERVATIONS

5.2. L'expertise de contrôle

L'expertise de contrôle permet de sélectionner pour chaque catégorie l'action la plus pertinente. Trois types d'action sont envisageables:

Améliorer une solution existante (ex. si x = T1∪ T2∪ T3 est la caractérisation d'un groupe prédéfini et également un élément de la catégorie granulaire, une amélioration de x peut être obtenue en remplaçant T1 et/ou T2 et/ou T3 par des éléments de cette catégorie - les éléments dont la valeur de cs est la plus élevée sont alors choisis).

Complémenter une solution existante (ex. si x, caractérisation de G, ne peut être améliorée, on construit un nouveau groupe en prenant le complémentaire de x dans G.

Modifier les seuils ∆g, ∆I, ∆S, cG

Ces actions sont décidées en fonction du résultat des critères int, distr, tr pour les catégories du niveau

OBSERVATIONS.

Notations: Soit P un critère appliqué aux éléments de C et prenant ses valeurs dans l'intervalle [0 , 1], ∀ C ∈

C:

P+ ( C ) ssi ∀ C' ∈C , C' ≠ C [P+ ( C ) - P+ ( C' )] / P+ ( C ) > 0.3 P= ( C ) ssi ∀ C' ∈C, | P ( C ) - P ( C' ) | / P- ( C ) < 0.1

(P+ indique que l'élément C a pour le critère P une valeur plus élevée que les autres éléments de C, P= indique que C a une valeur de P voisine des autres éléments de C)

L'expertise de contrôle prend alors la forme (?C désigne une catégorie du niveau OBSERVATIONS): R1 SI [ intr+ ( ?C ) distr+ ( ?C ) ] tr= ( ?C ) ] ALORS améliorer ?C

(Si ?C contient de bons éléments ou est meilleure que les autres catégories et comporte peu d"éléments, il faut améliorer les meilleurs éléments de ?C)

R2 SI [intr= ( ?C ) distr+ ( ?C )] ALORS améliorer ?C

(Si ?C contient de meilleurs éléments que ses voisines, il faut améliorer les meilleurs éléments de ?C)

R3 SI [distr= ( ?C ) tr+ ( ?C )] ALORS complémenter ?C

(Si ?C est une catégorie comportant beaucoup d'éléments de même valeur que ses voisines, il faut prendre le complément de ses meilleurs éléments)

R4 SI [intr= ( ?C ) tr+ ( ?C )] ALORS complémenter ?C

(Si ?C est une catégorie comportant beaucoup d'éléments de mauvaise qualité comparativement à ses voisines, il faut prendre le complément des éléments de ?C)

R5 SI [distr= ( ?C ) tr= ( ?C )] ALORS modifier les seuils: ∆g + 5%, ∆S - 5%

(Si ?C est semblable en intérêt et en taille aux autres catégories, il faut modifier les seuils g et S pour créer de nouvelles sous-populations)

R6 SI [intr= ( ?C ) tr= ( ?C )] ALORS modifier les seuils: I - 5%, cG - 5%

(Si ?C possède peu d'éléments d'intérêt, l'abaissement des seuils I et cG crée de nouveaux éléments dans les deux premières catégories du niveau OBSERVATIONS)

L'organigramme général est le suivant: a) initialisation des coefficients

b) arrêt si les catégories du niveau OBSERVATIONS sont caractérisées c) application des règles R1, R2, R3, R4

d) si aucune des règles précédentes n'est applicable, appliquer (une fois) les règles R5 ou R6 e) retour en (a)

6. Résultats et Perspectives

La stratégie du niveau CONTROLE ainsi que les calculs des attributs des éléments du niveau DONNEES sont réalisés en C++. Les éléments des niveaux CONTRAINTES et OBSERVATIONS sont des frames auxquels sont associées des règles CLIPS (Système à Base de Connaissances construit autour de l'algorithme RETE). Ce choix d'implémentation, s'il pénalise le temps de réponse, a grandement facilité la comparaison des nombreuses stratégies de contrôle envisagées. Avec un échantillon de 39 éléments, chacun étant décrit par 36 variables et un classement en quatre groupes (IS, IP, NIP et NIS), on obtient une caractérisation de ces groupes en 15 minutes. Sur un échantillon atteignant 96 éléments avec un nombre équivalent de variables, le temps de réponse est de 40 minutes (le nombre de groupes caractérisés a peu d'incidence). En comparant GESAM avec les méthodes classiques [Labenne & Goldfarb 98], les résultats concernant la sensibilité sont semblables, ils sont par compte meilleurs en ce qui concerne la spécificité (ils sont supérieurs à .95 pour les groupes IS et NIS - ce qui correspond à un seul élément mal classé).

IS IP NIP NIS

spec 0.92 0.90 0.94 0.91

Labenne & Goldfarb

sens 0.92 0.86 0.89 0.90

spec 0.95 0.87 0.91 0.95

GENSAM

sens 0.90 0.84 0.80 0.86

La méthode leave-one-out a permis de tester la stabilité du processus sur les échantillons analysés. Ces résultats valident notre approche qui doit être confirmée sur de nouveaux exemples et en variant les domaines. Les performances pourraient être améliorées en procéduralisant les traitements associés aux catégories du niveau OBSERVATIONS et en utilisant au maximum les connaissances du domaine. Il importe alors de permettre l'introduction de ces connaissances grâce à un langage simple, le langage LCD [Masson 96] adapté à la manipulation de connaissances sur le diagnostic en est une illustration.

Ce travail a été réalisé à partir d'une étude médicale conduite par B. Goldfarb [Laboratoire de Biostatistique et Informatique Médicale, Hôpital Necker & LISE-Ceremade, Université Paris-Dauphine] que je remercie pour m'avoir permis de dégager les éléments essentiels nécessaires au jugement médical.

7. Bibliographie

[Breiman & al 84] L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone. Classification and Regression

Trees, Chapman et Hall, 1984.

[Kolodner 93] J. Kolodner. Case-Based Reasoning, Morgan Kaufmann Publishers, San Mateo, Californie, 1993.

[Kolodner & Simpson 89] J. Kolodner, R. L. Simpson. The MEDIATOR: Analysis of an early case-based problem solver, Cognitive Science 13, 507-549, 1989.

[Koton 88] P. Koton. Integrating case-based and causal reasoning, Proceedings of the Xth Annual

Conference of the Cognitive Science Society, Northvale, 1988.

[Labenne & Goldfarb 98] M. Labenne, B. Goldfarb. Blind-protected specimen brush and brochoalveolar lavage in ventilated children. Critical Care, 1998.

[Masson 96] M. Masson. Réifier le raisonnement pour améliorer les explications dans les systèmes à base de connaissances: une application au diagnostic médical, RJC-IA’96, Nantes, 1996.

[Masson 98] M. Masson. Généralisation et petits échantillons. Colloque sur la Métaconnaissance, Cahiers du LIP6, Berder, 1998.

[Quinlan 79] J. R. Quinlan. Discovering rules by induction from large collections of examples. In Expert

Systems in the Micro-electronic Age, 168-201, Michie, D., Editor, Edinburgh University Press, Edinburgh,

[Quinlan 83] J. R. Quinlan. Learning efficient classification procedures and their application to chess end games. In Machine Learning, An Artificial Intelligence Approach, Pages 463-482, Michalski, R. S., Carbonell, J. G., and Mitchell, T. M., Editors, Tioga Publishing Company, Palo Alto, CA, 1983.

[Quinlan 86] J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986.

[Tomassone 88a] R. Tomassone. Comment interpréter les résultats d'une régression linéaire ? ITCF, Paris, 1988.

[Tomassone 88b] R. Tomassone. Comment interpréter les résultats d'une analyse factorielle discriminante

? ITCF, Paris, 1988.

Un Système Expert et un Outil pour la Reconnaissance