• Aucun résultat trouvé

Cette régle de décision consiste à affecter à chaque observation représentée par un vecteur paramètres Y la classe la plus probable. Si K désigne le nombre de classes, on a :

Y → Ωi telle que Prob(Ωi Y) = max

j =1LKProb(Ωj Y) (V-1)

où Prob(Ωj Y) est la probabilité qu'une observation soit associée à la classe Ωj sachant que

sa représentation est Y . On l'appelle aussi probabilité a posteriori.

On montre [GAI-83] qu'en cherchant à affecter chaque observation à la classe dont la probabilité a posteriori est maximum, la règle de Bayes (V-1) construit implicitement un système de décision qui minimise la probabilité d'erreur globale.

Le théorème de Bayes permet d'exprimer les probabilités a posteriori en fonction des probabilités a priori et des densités de probabilité conditionnelles :

Pr ob(Ωj Y) = p(Y Ωj) Pr ob(Ωj)

p(Y) = Pr ob(Ωj, Y)

p(Y) (V-2)

p(Y Ωj) : est la densité de probabilité conditionnelle de l'observation Y

sachant que la classe Ωj est vraie.

Pr ob(Ωj, Y) : est la probabilité d'avoir une observation de vecteur paramètres

Y appartenant à la classe Ωj.

p(Y) : est la densité de probabilité non conditionnelle de Y .

p(Y) est la somme des densités de probabilité conjointes pour toutes les classes. Soit : p(Y) = p(Y ,Ωj) j =1 K

= j =1 K

p(Y Ωj) Pr ob(Ωj) L'expression V-2 s'écrit alors sous la forme :

Pr ob(Ωj Y) = p(Y Ωj) Pr ob(Ωj)

j =1 K

p(Y Ωj) Pr ob(Ωj)

(V-3)

La réécriture de la règle de décision de Bayes à l'aide du théorème permet alors d'écrire :

Y → Ωi telle que p(Y Ωi) Pr ob(Ωi) = max

j =1LK p(Y Ωj) Pr ob(Ωj)

(V-4)

Remarque : dans le cas où les classes sont équiprobables, cela revient à comparer directement les densités de probabilité conditionnelles de chaque classe.

V.2.2 Conséquences sur les méthodes de classification

Un problème de classification peut se traiter à l'aide des approches qui cherchent à estimer les densités de probabilité à partir des exemples d'apprentissage ou à l'aide des approches qui estiment directement les probabilités a posteriori.

• Estimation des densités de probabilité

Dans cette approche, on cherche à estimer les densités de probabilité et les probabilités a priori dans chaque classe pour en déduire, selon la théorie de Bayes, les surfaces séparatrices entre classes (V-4). Sur le plan théorique, l'estimation des probabilités a priori à partir des exemples d'apprentissage ne pose pas de problème particulier. Pour chaque classe, l'estimateur de maximum de vraisemblance est donné par l'expression :

Pr ob(Ωi) = Ni

N

où N

i est le nombre d'observations issues de la classe Ωi et N le nombre total

d'observations.

Une estimation précise de cette probabilité à partir de la base de données n'est possible que si la répartition des observations par classe est représentative de la réalité. Lorsque ce n'est pas le

cas, des post-traitements relativement simples permettent de "corriger" les résultats obtenus [PRI-96]. L'estimation des lois de probabilité dans les classes à partir de l'ensemble d'apprentissage est par contre beaucoup plus difficile et fait appel à deux types de méthodes [FUK-72] :

- Les méthodes paramétriques qui supposent que ces lois obéissent à une loi connue de type gaussienne ou uniforme par exemple ; le problème initial d'estimation de fonction se ramène alors à l'estimation des paramètres du modèle (moyenne, covariance,...) à partir des observations. Cette modélisation, lorsqu'elle n'est pas réaliste, peut conduire à des taux d'erreurs de classification relativement élevés.

- les méthodes non paramétriques constituent une seconde alternative à l'estimation des densités de probabilité. Elles utilisent des procédés qui convergent vers les distributions de chacune des classes sans faire aucune hypothèse préalable. Une des plus anciennes méthodes est la méthode des Fenêtres de Parzen. Cette dernière consiste à approximer le densité de probabilité par un ensemble de fonctions noyaux (ou fenêtres) uniformes centrées sur chaque observation d'apprentissage. Malgré la base théorique très solide de cette méthode, elle a suscité peu d'intérêt car elle reste très lourde en calcul notamment si la dimension de l'espace de représentation est élevée.

• Estimation des p robabilités a posteriori

Lorsqu'on cherche à estimer directement les probabilités a posteriori des classes (V-1) à partir des exemples d'apprentissage, on peut faire appel à une méthode non paramétrique largement employée en Reconnaissance de Forme qu'est la méthode des k Plus Proches Voisins (kPPV) [POU-91]. Elle consiste à affecter chaque observation à la classe majoritairement représentée par ses k plus proches voisins au sens d'une distance. La probabilité a posteriori est donnée par :

Pr ob(Ωi Y) = ki

k

où k est le cardinal de l'ensemble Ek des k plus proches voisins de Y . Il est fixé par

l'utilisateur en début de procédure. ki est le cardinal de Eki sous-ensemble de Ek contenant

les plus voisins de Y appartenant à la classe Ωi.

Le problème de classification peut aussi se résoudre en cherchant à déterminer directement les frontières séparatrices entre classes à l'aide de fonctions dites fonctions discriminantes. Si l'on

cherche par exemple K fonctions discriminantes di(Y) i = 1, 2, L, K pour résoudre un

Y → Ωi tel que di(Y) = maxj =1LKdj(Y)

A noter que dans le cas particulier où di(Y) = Pr ob(Ωi Y), on se ramène à un classifieur de

Bayes. Dans le cas d'un problème à deux classes (Ω1 et Ω2), il suffit de chercher une seule

fonction d(Y) telle que :

Y → Ω1 si d(Y) > 0

Y → Ω2 si d(Y) < 0

Le problème est ainsi ramené à un problème d'approximation de fonctions. Là encore, on peut soit traiter le problème sans faire d'hypothèses sur la nature des surfaces séparatrices, soit s'orienter vers une famille donnée de surface dont il faut estimer les paramètres. Les réseaux de neurones permettent d'approximer des fonctions non linéaires [HOR-89] [BIS-95] et sont des estimateurs des probabilités a posteriori en vertu du théorème suivant :

Soit une fonction qui vaut 1 pour tout élément de la classe A et 0 pour tous ceux de la classe B. L'approximation de cette fonction au sens des moindres carrés n'est rien d'autre que l'estimation de la probabilité d'appartenance à la classe A.

Une fois que l'on a estimé les probabilités a posteriori avec un réseau de neurones (ou toute autre technique d'approximation au sens des moindres carrés), on en déduit les fonctions discriminantes.