Classification supervisée - Opérateurs d'agrégation pour la mesure de similarité. Application à

3.2 Classification supervisée

Dans un cas simple et standard, l’objectif de la classification supervisée est de mettre en place des règles de décision pour une observation x. Ces règles doivent être optimales au sens de la séparation des classes mutuellement exclusives de Ω. La décision peut donc être vue comme une application d :R^p → Ω, x 7→ ω_i, c’est à dire un cas particulier de l’équation (3.1).

3.2.1 Règle de Bayes

En supposant que l’on a une observation x, et que l’on souhaite déterminer à quelle classe ω_i elle appartient. On s’intéresse donc à la probabilité conditionnelle P (ω_i|x). Celle-ci peut s’obtenir grâce au théorème de Bayes :

P (ω_i|x) = ^{P (ω}ⁱ^{)P (x|ω}ⁱ⁾

P (x) ^(3.6)

où

– P (ω_i|x) est la probabilité a posteriori de la classe ω_iconditionnellement à l’observation de x.

– P (ω_i) est la probabilité a priori de la classe ω_i

– P (x|ω_i) est la densité de probabilité en x conditionnée par la classe ω_i – P (x) est la densité mélange de x définie par :

P (x) =

c X

i=1

P (ω_i)P (x|ω_i) (3.7)

Dans ce cadre, les classe sont supposées mutuellement exclusives, de sorte que

c X

i=1

P (ω_i) = 1 (3.8)

d’où le fait que la somme des probabilités a posteriori soit égale à 1. Si l’on se définit une fonction de coût (ou perte) associée à chaque décision x 7→ ω_i, le but est alors de minimiser la perte totale engendrée. Certains auteurs définissent une fonction d’utilité et la maximisent, mais cela reste un concept équivalent. Cette fonction peut être vue comme une matrice de coût C dont le terme général C_ij désigne le coût associé à la décision j alors que la décision i devrait être prise. La convention est de choisir des coûts tels que C_ij ≥ C_ii, et même le plus souvent C_ii= 0, signifiant ainsi que lorsque la décision prise est correcte, et le coût est nul, et qu’il coûte plus cher de se tromper. Dans ce cadre, la solution optimale consiste à minimiser la fonction de coût. Pourtant, celle-ci dépend de la classe de l’objet, qui est inconnue. On cherche donc à minimiser le coût moyen :

E[C] =^X i X j Z ωj CijP (x,ωi)dx (3.9)

Comme on cherche à trouver une décision ω_j la minimisation de (3.9) revient à la minimi-sation de

On sait que P (x,ω_i) = P (x)P (ω_i|x), et puisque P (x) est un facteur commun, on peut le supprimer lors de la minimisation, donnant

R(ωj|x) =^X

CijP (ωi|x) (3.11)

qui est le risque conditionnel associé à la règle de Bayes. On choisira donc la classe ω_j telle que

j = argmin_iR(ω_i|x) (3.12)

Si la distribution des données ainsi que la matrice de coût sont connues, la règle de Bayes ainsi énoncée est optimale, c’est à dire que l’erreur de Bayes est la plus faible que l’on puisse obtenir. Pourtant, dans des problèmes pratiques de reconnaissance de formes, la distribution des données est toujours inconnue et doit donc être estimée. Parmi les méthodes utilisées pour cela, on distinguera deux approches. L’approche paramétrique, où l’on émet des hypothèses sur le modèle que suivent les données, et inversement les méthodes non paramétriques, où aucune hypothèse n’est posée.

3.2.2 Estimations paramétriques

L’approche paramétrique consiste à choisir un modèle de distribution, puis d’en estimer les paramètres grâce aux données. Par souci de simplicité, et comme on le suppose souvent dans la littérature, les données suivent une distribution normale (gaussienne) définie sur un vecteur x de dimension p par

P (x|v,Σ) = ¹ (2π)p/2 1 |Σ|1/2 exp −¹ 2^{(x − v)} TΣ⁻¹(x − v) ! (3.13) où le vecteur v est la moyenne, la matrice Σ de taille p × p est la covariance, et |Σ| dénote son déterminant, et enfin (x − v)^T le transposé de (x − v).

3.2.2.1 Maximum de vraisemblance

Une interprétation du théorème de Bayes peut nous conduire à l’écrire de la façon a posteriori ∝ vraisemblance×a priori. Un critère généralement adopté consiste à maximi-ser la vraisemblance. Ceci peut paraître étrange, car on aurait plutôt tendance à maximimaximi-ser la probabilité des paramètres conditionnellement aux données, plutôt que la probabilité des données conditionnellement aux paramètres. Pourtant ces deux critères sont liés. Si l’on a X = (x1, · · · ,x_n)^T, n réalisations indépendantes de la distribution donnée par (3.13), la loi de vraisemblance s’écrit donc

L(X|v,Σ) = P (X|v,Σ) =

n Y

k=1

N (x_k|v,Σ) (3.14)

Afin de trouver les valeurs des paramètres v et Σ, on maximise cette vraisemblance. En pratique, il est plus simple de maximiser le logarithme, fonction croissante monotone per-mettant de passer du produit à la somme :

log P (X|v,Σ) =

n X

k=1

3.2. Classification supervisée 83

La maximisation de (3.15) par rapport à v et Σ donne, respectivement pour la moyenne et la covariance : ˆ v = ¹ n n X k=1 x_k (3.16) et ˆ Σ = ¹ n n X k=1 (x_k− ˆv)(x_k− ˆv)^T (3.17) ou ˆ Σ = ¹ n − 1 n X k=1 (x_k− ˆv)(x_k− ˆv)^T (3.18) pour une version non biaisée. L’estimation par maximum de vraisemblance est ainsi non biaisée, présente une distribution normale et une variance minimale, à condition toutefois que n soit assez grand.

3.2.2.2 Maximum a posteriori

Alors que l’on maximisait P (X|v,Σ) pour la méthode précédente, l’estimateur du Maxi-mum A Posteriori (MAP) cherche à maximiser P (X|v_i,Σi)P (ω_i), et cherche donc un pic de la densité a posteriori. C’est un cas plus général que le maximum de vraisemblance, où les classes sont supposées équiprobables. On estime dans un premier temps la probabilité a priori de chacune des classes ω_i par

P (ωi) = ni

n ^(3.19)

où n_i est l’effectif de la classe ω_i. Les vecteurs moyennes et les matrices de covariance sont ensuite donnés par

ˆ v_i= ¹ n_i X xk∈ω_i x_k (3.20) ˆ Σ_i= ¹ ni− 1 X xk∈ωi (x_k− ˆv_i)(x_k− ˆv_i)^T (3.21) respectivement. La règle MAP consiste enfin à prendre la classe ω_i qui maximise la proba-bilité a posteriori (3.6) où P (ω_i|x) = N (x|ˆv_i, ˆΣ_i) dans le cas gaussien.

3.2.3 Approches non paramétriques

3.2.3.1 Estimation de densité

Jusqu’à présent, nous avons traité le cas de la classification supervisée, et nous supposions connue la fonction de densité. Il s’agissait ensuite d’estimer les paramètres des modèles qui avaient été choisis. Un défaut important de cette approche est que la densité choisie peut être un mauvais modèle de la distribution réelle des données, impliquant ainsi de mauvaises performances. En particulier, la plupart des modèles de densités sont unimodaux, alors qu’en pratique, on observe souvent des densités multimodales. La plupart des techniques d’estimation de densité se basent sur le fait que la probabilité P qu’une forme x soit dans une région R est donnée par

P =

Si l’on estime maintenant que P (x) est continue et que la région R est suffisamment petite, on peut écrire

P ' P (x)V (3.23)

où V est le volume de la région R donné par V =

dx (3.24)

En utilisant l’approximation, pour un grand n, que P ' k/n, où k est le nombre de points dans la région R, on obtient l’estimation de la densité P (x) :

P (x) ' ^k

nV ^(3.25)

On pourra constater que cette estimation tend vers la vraie valeur de P (x) lorsque n tend vers l’infini. On peut exploiter le résultat (3.25) de deux manières. Soit on fixe la volume V , et on détermine k grâce aux données, c’est la méthode des noyaux de Parzen (voir3.2.3.1), soit on fixe k, et on détermine V grâce aux données, c’est la méthode des plus proches voisins (voir3.2.3.1).

Estimation par noyaux de Parzen Nous voulons ici, à partir d’une région R centrée en x, déterminer le nombre de points appartenant au volume de dimension p associé à cette région. Une fonction noyau ϕ est donc introduite; celle-ci vaut 1 lorsque si le point x appartient au volume, 0 sinon. La région R étant généralement définie comme un hypercube de côté h, on trouve ainsi k = n X k=1 ϕ^{x − x}^k h (3.26) qui permet d’obtenir P (x) grâce à (3.25). Le paramètre h joue un rôle de lissage : une faible valeur impliquera une grande sensibilité au bruit, tandis qu’une grande valeur lissera trop la densité estimée, au risque de perdre des modes. D’autre part, dans des régions de forte densité, une forte valeur de h fera perdre la structure, tandis que la même valeur dans des régions à faible densité sera inutile. Idéalement, il faudrait donc une valeur de h dépendant de l’espace des données. La méthode décrite dans le paragraphe suivant permet de s’affranchir de cette limitation.

Les k plus proches voisins À l’inverse de la méthode précédente, on fixe ici k dans (3.25). On considère donc une hypersphère centrée en x sur laquelle on va estimer la densité P (x) en augmentant le volume de l’hypersphère jusqu’à ce qu’elle contienne exactement k points. Ces k points constituent ainsi les k plus proches voisins (k-ppv) de x donnant le nom de cette méthode. Ici encore, la fixation du paramètre k détermine les performances de la méthode. Un nombre k faible produit des frontières de décision souvent non linéaires, et donc un classifieur peu généralisable, tandis que pour k grand, la faculté de discrimination se réduit, produisant un classifieur potentiellement moins performant.

Pour la méthode des noyaux de Parzen et des k-ppv, on pourra en pratique déterminer V et k par validation croisée (section3.1.1.5).

On notera enfin qu’une troisième manière de faire consiste à transformer l’espace d’attri-buts de manière à utiliser des méthodes paramétriques : c’est typiquement le cas de l’analyse discriminante linéaire (ou Fisher).

3.2. Classification supervisée 85

3.2.4 Modèle de distance

Dans ce type d’approche, un vecteur v_i est considéré comme le représentant de la classe ωi, en d’autres termes, l’ensemble des points appartenant à la classe ω_i. Nous utilisons ici le terme prototype, mais il faut savoir que l’on retrouvera la même signification pour des termes comme centroïdes, vector quantizer, codevector, template, etc ... Une méthode de classification consiste donc à calculer, pour une forme x, la distance à l’ensemble des prototypes, et de l’associer à la classe du plus proche prototype :

x 7→ ω_i tel que i = argmin_{j=1,··· ,c}d(x,v_j)

Les performances de ce classifieur seront liées à la définition de la fonction de distance d. Une forme générale de distance est donnée par la métrique de Minkowski :

d(x,vi) =

p X

j=1

|x_j− v_j|^r^1/r (3.27)

où l’on retrouve la distance euclidienne pour r = 2, et la distance de Manhattan (City Block) pour r = 1. Évidemment, si l’on utilise la distance euclidienne, les classes recherchées sont de forme hyper-sphèrique. On pourra se référer au Chapitre 2 pour de plus amples définitions sur les distances (ou métriques). Une autre distance, permettant, outre d’utiliser le vecteur prototype v_i, de modéliser la forme de la classe grâce à sa matrice de covariance Σ_i, est la distance de Mahalanobis :

d²(x,v_i) = (x − v_i)^TΣ⁻¹_i (x − v_i) (3.28) Nous verrons dans le Chapitre4 comment transformer ces distances de manière à obtenir des degrés d’appartenance, ou de typicalité, plus aisés à manipuler pour des opérateurs d’agrégation.

3.2.5 Systèmes d’inférence floue

Les Systèmes d’Inférence Floue (SIF) sont aujourd’hui largement utilisés dans le domaine de l’aide à la décision et de la classification [Kuncheva,2000]. Ils sont fondés sur des règles si-alors et un mécanisme d’inférence qui permettent de modéliser un raisonnement expert sur un problème donné. Un classifieur si-alors flou pour un objet x = (x₁ x2 ... x_p)^T est un SIF constitué de règles floues de la forme:

Règle r : si A¹_rET A²_r ET · · · ET A^p_r alors B_r

où A^j_r (r = 1,m et j = 1,p) est un ensemble flou ayant pour fonction d’appartenance a^j_r : R → [0,1] définie pour tout attribut xj de l’objet x à classer, et B_r une conclusion ou sortie. On pourra par exemple prendre pour la fonction d’appartenance a^j_r la fonction modélisant x_j est à peu près k par

ar(x_j) = exp(−(x_j− k)²/2) (3.29) Parmi les modèles les plus populaires, citons le modèle de Mamdani et celui de Takagi-Sugeno-Kang [Takagi and Sugeno, 1985], dont la différence principale est la nature de la

conclusion (ensemble flou pour le premier, sortie nette pour le second). Un système TSK se caractérise alors par :

1. un ensemble de m règles,

2. un connecteur A dont la sortie évalue la satisfaction τ_r de la règle r: τ_r(x) = A a¹_r(x₁), · · · ,a^p_r(x_p)

3. un mécanisme de défuzzification permettant de retourner une valeur réelle à partir de l’ensemble flou de sortie.

Par exemple, en choisissant comme connecteur l’opérateur produit, et la méthode de de-fuzzification COA (Center of Area), on obtient un classifieur de type TSK2 pour l’objet

x ∈R^p: y(x) = Pm r=1Br^Q^p_j=1a^j_r(x_j) Pm r=1 Qp j=1a^jr(x_j) ^(3.30)

où y(x) est la sortie du classifieur. Il est intéressant de noter que selon le type de fonctions d’appartenance et le type de modèle, le classifieur ainsi modélisé peut être équivalent aux méthodes non paramétriques évoquées dans la section précédente : les noyaux de parzen et les k-ppv, voir [Kuncheva,2000] pour les preuves et [Le Capitaine and Frélicot,2008c] pour des exemples.

3.2.6 Intégrales floues

Nous avons montré dans le cadre de la classification basée sur la théorie bayésienne que les densités de probabilités de chaque attribut étaient combinées par une opération de produit, sous l’hypothèse que ceux-ci étaient indépendants (Eq. 3.14). L’approche Fuzzy Pattern Matching [Dubois et al.,1988] peut être vue comme l’alternative possibiliste de l’approche bayésienne pour la classification [Grabisch et al., 1997]. L’approche par intégrale floue [Tahani and Keller,1990;Grabisch,2000b] consiste à utiliser comme opérateur d’agrégation des intégrales floues. Dans un premier temps, on évalue le degré d’appartenance u_i(x_j) de l’attribut j à la classe ω_i grâce à une méthode (paramétrique ou non) standard d’estimation de densité. L’ensemble des degrés d’appartenance correspondant aux attributs d’une forme

x sont ensuite agrégés par le biais d’une intégrale floue pour obtenir le degré d’appartenance

de x à ω_i, pour i = 1, · · · ,c :

Φ_i(x) = C_µ u_i(x1), · · · ,u_i(x_p)

(3.31) où l’on peut remplacer C par S, et où µ est une mesure floue, voir section 1.4. On assigne enfin à x la classe pour laquelle Φ_i(x) est maximum. Comme nous l’avions évoqué dans le chapitre précédent, fixer les valeurs des mesures floues est fastidieux, mais permet de modéliser les interactions entre attributs, ce qui n’est pas le cas dans l’approche probabiliste. Afin de déterminer ces valeurs, plusieurs algorithmes ont été proposés : critère quadratique, quadratique généralisé, et enfin une heuristique sur les moindres carrés qui est une méthode sous-optimale sans grande perte de performances, voir [Grabisch,1995]. Une autre manière consiste, à partir des données de l’ensemble d’apprentissage, à déterminer à quel point chaque attribut sépare les classes, et d’associer le poids correspondant à la mesure floue [Tahani and Keller,1990].

Dans le document Opérateurs d'agrégation pour la mesure de similarité. Application à l'ambiguïté en reconnaissance de formes. (Page 96-102)