Université Paris 13/Younès Bennani Traitement Informatique des Données 1
6
Younès BENNANIILOG 3
Traitement
Informatique des Données
Université Paris 13/Younès Bennani Traitement Informatique des Données 2
Université Paris 13/Younès Bennani Traitement Informatique des Données 3
Méthodes Structurelles
L. Miclet
« Méthodes structurelles pour la reconnaissance des formes » Ed. Eyrolles, 1984.
A. & Y. Belaïd
« Reconnaissance des formes : méthodes et applications » Ed. InterEditions, 1992.
A. Cornuéjols & L. Miclet
« Apprentissage artificiel : concepts et algorithmes » Chapitre 7.
Ed. Eyrolles, 2003.
Méthodes Structurelles
Codage de Freeman :
Méthode d’approximation angulaire. Il peut etre fait suivant la 4-topologie ou la 8-topologie
a b c
d
e
f
g
h
a b a c b a a g a f f h a g e e d e e e d
Université Paris 13/Younès Bennani Traitement Informatique des Données 5
Méthodes Structurelles
Université Paris 13/Younès Bennani Traitement Informatique des Données 6
Méthodes Structurelles
Les 2 structures les plus courantes : - Les structures de graphes :
- Modèle descriptif
- Outil de mise en correspondance entre un modèle et une forme
- Les structures syntaxiques (théorie des langages formels) : - Forme = mot/phrase
- Grammaire - Analyse
Université Paris 13/Younès Bennani Traitement Informatique des Données 7
Structures de graphes
Graphe = outil mathématique permettant de décrire des relations dans un ensemble d’objets.
Modéliser une forme
Problème de décision = algorithmes de comparaisons de graphes
2
3 1
4
b
d a
c
Structures de graphes
Définition :
On appelle graphe, un couple G=(V, E), où V est un ensemble fini de nœuds ou de sommets, et E un ensemble de couples ordonnés de sommets appelés arcs dont les éléments sont nommés origine et extrémité.
Le graphe est dit valué si à chacun de ses arcs est associée une valeur, un poids ou une étiquette.
1
2 3
4
V={1, 2, 3, 4},
E={(1,2), (1,3), (2,1), (2,4), (3,2), (4,2), (4,3)}
Université Paris 13/Younès Bennani Traitement Informatique des Données 9
Structures de graphes
Appariement de graphes
Appariement ou isomorphisme de graphes = mettre en correspondance des graphes ou sous graphes.
But : reconnaître si 2 formes ont été représentées de la même façon
Isomorphisme entre graphes : G1=(V1, E1) et G2=(V2, E2)
Il y a appariement entre G1 et G2 par l’application ƒ de V1 ! V2 " - ƒ est bijective
- (x,y) # E1 " (ƒ(x),ƒ(y)) # E2 2
3 1
4
b
d a
c
ƒ : 1 ! d 2 ! c 3 ! a 4 ! b
Université Paris 13/Younès Bennani Traitement Informatique des Données 10
Structures de graphes
Recherche d’isomorphisme
Combinatoire : étudier, pour chaque couple de nœuds, la validité de la correspondance.
Une correspondance est valide ou licite par l’isomorphisme ƒ si les nœuds associés ont le même nombre d’arcs entrants et sortants.
L’algorithme vérifie d’abord l’égalité des nombres de nœuds : |V1|= |V2|=n
V1 : graphe de référence, nœuds 1 …n
L’algorithme construit progressivement les sous-graphes G1(k), nœuds 1…k
Si G1(k) est isomorphe à un sous-graphe de V2 ayant W comme ensemble de nœuds alors étendre cet isomorphisme à G1(k+1) En cherchant un nœud dans V2-W
Sinon, on revient sur G1(k-1) pour tenter un autre isomorphisme
Université Paris 13/Younès Bennani Traitement Informatique des Données 11
Structures de graphes
Recherche d’isomorphisme
Fonction Isomorphe (W,k) début
si W=V2 alors trouvé ' vrai sinon
pour chaque v # V2-W jusqu’à trouvé faire
si Licite(v,k+1) alors Isomorphe(W${v}, k+1) fsi
fpour fsi
Isomorphe ' trouvé fin
Structures syntaxiques
Grammaires formelles
Définition :
Une grammaire à structure de phrase (ou grammaire de chaînes) est un quadruplet
G=(Vn, Vt, P, S), où :
Vn est un ensemble fini de symboles non-terminaux ; Vt est un ensemble fini de symboles terminaux (alphabet) ; V=Vn$Vt est le vocabulaire total de G ;
P est un ensemble des règles de production : % ! &
où % et & sont des chaînes des symboles de Vt ou Vn et «!» signifie « produit » ou « est remplacé par »
S # Vn est l’axiome : le symbole initial à partir duquel toute génération commence
Université Paris 13/Younès Bennani Traitement Informatique des Données 13
Structures syntaxiques
Grammaires formelles
Exemple :
grammaire de chromosomes : 2 classes (symétrique et centré)
Les chromosomes sont représentés par leur contour
Le contour est segmenté en une suite de primitives
a b c d e
abcbabdbabcbabdb Symétrique
ebacab Centré
a a
c b b b b
d d
b
b c
b b
a a
b a
a c e
b
Université Paris 13/Younès Bennani Traitement Informatique des Données 14
Structures syntaxiques
Grammaires formelles
Vt={a,b,c,d,e}
Vn={S,C,Fond, Flanc, Paire, Droite, Gauche, Bras}
S ! <Paire><Paire>
C ! <Fond><Paire>
<Paire> ! <Flanc><Paire> / <Paire><Flanc> / <Bras><Droite> / <Gauche><Bras>
<Gauche> ! <Bras> c
<Droite> ! c <Bras>
<Fond> ! b <Fond> / <Fond> b / e
<Flanc> ! <Flanc> b / b / d / b <Flanc>
<Bras> ! b <Bras> / <Bras> b / a
Université Paris 13/Younès Bennani Traitement Informatique des Données 15
Structures syntaxiques
Apprentissage syntaxique
Inférence grammaticales : Consiste à construire une
grammaire à partir de phrases de référence convenablement choisies.
Induction Données
aaabbb ab
Grammaire S ! aSb
S ! (
Principe :
Découvrir la structure d’un ensemble fini de formes,
décomposées en primitives et de déduire la grammaire qui les décrit au mieux.
Structures syntaxiques
Algorithme de Feldman
Il commence par construire une grammaire non récursive qui génère exactement les phrases données ; ensuite, il fusionne les non-terminaux pour obtenir une grammaire récursive plus simple qui génère un
nombre infini de phrases.
D={caaab, bbaab, caab, bbab, cab, bbb, cb}
caaab S ! cA1 A1! aA2 A2 ! aA3 A3 ! ab bbaab S ! bA4 A4! bA5 A5 ! aA6 A6 ! ab
caab A3 ! b
S ! cA1 / bA4 A1 ! b / aA2 A2! b / aA3 A3! b / ab A4! bA5 A5 ! b / aA6 A6 ! ab
S ! cA1 / bA4 A1 ! b / aA2 A2 ! b / aA2 / b A4! bA5 A5 ! b / aA5 / b
S ! cA1 / bA4 A1 ! b / aA1 A4 ! bA5 A5! b / aA5 Grammaire
récursive
Simplification fusion
S ! cA1 / bA4 A1! b / aA1 A4! bA1 G=(Vn,Vt,P,S) S ! cA/ bB
Vn={S,A,B} A ! b / aA
Vt={a,b,c} B ! bA
Université Paris 13/Younès Bennani Traitement Informatique des Données 17
Structures syntaxiques
Algorithme uv
kw
Il s’agit de rechercher des sous-chaines caractéristiques dans les phrases longues de l’échantillon.
Théorème de l’étoile, les phrases assez longues d’un langage régulier doivent avoir une structure de la forme uvkw.
D={x1, x2, x3}
x1=aabaaababcabc x2=abcabaabcbc x3=aaaaabc
Recherche de répétitions et écriture sous forme uvkw x1=(a)2baaababcabc
x1=aab(a)3babcabc x1=aabaa(ab)2cabc x1=aabaaab(abc)2
x2=abcab(a)2bcbc x2=abcabaa(bc)2 x3=(a)5bc
Hypothèses de récursion : v={a,ab,abc,bc}
Meilleure hypothèse : a Réécriture de D pour z=(a)+
x1=zbzbzbczbc x2=zbczbzbcbc x3=zbc
x1=(zb)3czbc x1=zbzb(czbc)2
x2=zbc(zb)2cbc x2=zbczbz(bc)2
Hypothèses de récursion : v={zb, bc, zbc}
Meilleure hypothèse : zb Réécriture de D pour y=(zb)+
x1=ycyc x2=ycycbc x3=yc
Université Paris 13/Younès Bennani Traitement Informatique des Données 18
Structures syntaxiques
Algorithme uv
kw
D={x1, x2, x3}
x1=aabaaababcabc x2=abcabaabcbc x3=aaaaabc
x1=(zb)3czbc x1=zbzb(czbc)2
x2=zbc(zb)2cbc x2=zbczbz(bc)2
Hypothèses de récursion : v={zb, bc, zbc}
Meilleure hypothèse : zb Réécriture de D pour y=(zb)+
x1=ycyc x2=ycycbc x3=yc
Hypothèses de récursion : v={yc}
Réécriture de D pour x=(yc)+ x1=x
x2=xbc x3=x
L’expression régulière inférée est : x+xbc = ((a+b)+c)+ + ((a+b)+c)+bc
La grammaire correspondante est : G=(Vn, Vt, P, S)
Vn={S,x, y, z}
Vt={a, b, c}
S !x / xbc x ! yc / ycx y ! zb / zby z ! az / a
Université Paris 13/Younès Bennani Traitement Informatique des Données 19
Structures syntaxiques
Grammaire stochastique
Une grammaire stochastique est constituée comme une grammaire ordinaire, mais à chaque règle est associée une probabilité
d’application, chaque non-terminal ayant une probabilité totale de 1 d’être appliqué.
!
S"
0.8
aA S"
0.2
a A"0.6bA A"
0.4
b
Elle correspond à l’automate
fini stochastique A
F S
a [0.8]
a [0.2]
b [0.6]
b [0.4]
abbb [0.0069]
Structures syntaxiques
Reconnaissance syntaxique
Reconnaissance = analyse syntaxique
Trouver une séquence de règles de production de la grammaire qui permettent de dériver la forme donnée à partir de l’axiome.
Il existe 2 techniques :
- analyse descendante (top-down)
démarre au sommet S, et à travers des applications répétées sur les productions de la grammaire, tente de couvrir la phrase terminale donnée.
- analyse ascendante (bottom-up)
commence à partir de la phrase donnée et tente d’arriver au symbole S en appliquant les productions à l’envers.
Université Paris 13/Younès Bennani Traitement Informatique des Données 21
Structures syntaxiques
Reconnaissance syntaxique
Analyse descendante (top-down) S
aSb
S !aSb / ab x=aaabbb
ab
aaSbb aabb
aaabbb aaaSbbb
Analyse ascendante (bottom-up)
aaabbb ! aaSbb ! aSb ! S
Université Paris 13/Younès Bennani Traitement Informatique des Données 22
Combinaison de modèles
Motivations :
- Améliorer la capacité de généralisation - Augmenter la robustesse
- Allier les points forts des différents modules
La performance de la réponse moyenne d’un ensemble de modèles est meilleure que la moyenne des performances des modèles de cet ensemble.
!
P(x"A/S1(x))=??
P(x"A/S2(x))=??
P(x"A/S3(x))=??
!
Comment combiner S1,S2,et S3?
Université Paris 13/Younès Bennani Traitement Informatique des Données 23
Combinaison de modèles
Soit un ensemble de L classificateurs et un ensemble de c classes.
Chaque modèle reçoit une entrée et lui associe une étiquette
i.e.
La sortie du modèle est un vecteur de dimension c :
!
D=
{
D1,D2, ...,DL}
!
"=
{ #
1,#
2, ...,#
c}
!
x=
[
x1,x2, ...,xn]
t,x" #n!
"i
!
Di:"n # $
!
Di(x)=
[
di,1(x), di,2(x), ..., di,c(x)]
t!
di,j(x)"
[ ]
0,1 di,j(x)#P(
$j/x)
i=1, ...,L j=1, ...,c
Combinaison de modèles
Combiner les L modèles (classificateurs) consiste à faire la transformation suivante :
!
DP(x)=
d1,1(x) d1,2(x) ... ... d1,c(x) d2,1(x) ... ... ... d2,c(x)
: : : : :
: : : : :
dL,1(x) dL,2(x) ... ... dL,c(x)
"
#
$
$
$
$
$
$
%
&
' ' ' ' ' '
!
d1(x),d2(x), ...,dc(x)
[ ]
tCombinaison Décisions du modèle 2
Décisions de l’ensemble des modèles pour la classe 2 Decision Profile
Université Paris 13/Younès Bennani Traitement Informatique des Données 25
Combinaison de modèles
Considérons l’erreur quadratique et une combinaison linéaire de plusieurs modèles.
est la réponse du i-ème modèle pour l’entrée x, et la réponse du comité (combinaison) est :
L’erreur de généralisation d’un modèle au point x est :
et l’erreur moyenne d’un modèle tiré selon la distribution est :
Et celle du comité est :
!
Di(x)
!
D (x)= wiDi(x)
i=1 L
"
i=1"Lwi=1!
ei(x)=Ey
[ (
y"Di(x))
2]
!
wi, ...,wL
( )
!
e (x)= wiei(x)
i=1 L
"
!
e(x)=Ey
[ (
y"D (x))
2]
Université Paris 13/Younès Bennani Traitement Informatique des Données 26
Combinaison de modèles
Définissons la diversité d’un modèle comme :
et la diversité moyenne comme :
alors on peut montrer que :
L’erreur de généralisation du comité est donc égale à l’erreur de généralisation moyenne moins la diversité moyenne.
Plus la diversité est grande (en supposant l’erreur moyenne fixe) et plus on réduit l’erreur de généralisation en formant un comité.
Le comité sera meilleur que le meilleur de ses membres.
!
di(x)=
(
Di(x)"D (x))
2!
d (x)= widi(x)
i=1 L
"
!
e(x)=e (x)"d (x)
Université Paris 13/Younès Bennani Traitement Informatique des Données 27
Combinaison modulaire et d’ensemble
Combinaison modulaire (modular combination) :
Le problème est décomposé en sous-tâches, à chaque sous-tâche est attribué un module (classificateur/régresseur), la solution globale du problème nécessite la contribution de l’ensemble des modules.
Combinaison d’ensemble (ensemble combination/committee machine) :
On entraîne séparément L modèles, de manière à ce qu’ils soient le plus indépendants possible l’un de l’autre, on combine l’ensemble des modules redondants (chaque module produit une solution au problème global).
Fusion de décision
Module 1 Décision 1
Module 2 Décision 2
Module L Décision L Décision globale
Sous-tâche 1 Décision partielle 1
Sous-tâche 2 Décision partielle 2
Sous-tâche L Décision partielle L
Paradigmes de Combinaison
En général 2 types de combinaisons :
- Sélection de modèles (complémentarité)
- chaque module est un « expert » spécialisé pour une région de l’espace des formes
- aiguilleur présente la forme à l’expert approprié pour obtenir la décision
- Fusion de de modèles (compétitivité)
- chaque module donne son avis
- un module de synthèse produit la réponse globale
Décision
Module 1 Module 2 Module L
Décision
Module 1 Module 2 Module L
Université Paris 13/Younès Bennani Traitement Informatique des Données 29
Combinaison modulaire et d’ensemble
Fusion de décision
Module 2 Décision 2
Module L Décision L
Décision globale
Sous-tâche 1 Décision partielle 1
Sous-tâche 2 Décision partielle 2
Sous-tâche K Décision partielle K Décision globale
Sous-tâche 1 Décision partielle 1
Sous-tâche 2 Décision partielle 2
Sous-tâche M Décision partielle M
Université Paris 13/Younès Bennani Traitement Informatique des Données 30
Combinaison : méthodes de création des modules
• Variation des paramètres d’initialisation
• Variation de la structure des modules
• Variation des algorithmes d’apprentissage
• Variation des caractéristiques d’entrée
• Variation des bases de données d’apprentissage
• Décomposition de tâches
Université Paris 13/Younès Bennani Traitement Informatique des Données 31
4 Niveaux de Combinaison
combinaison
Module 1 Module 2 Module L
combinaison
Module 1 Module 2 Module L
combinaison
Module 1 Module 2 Module L
X X
X Base de données
Apprentissage Module 1
Apprentissage Module L
Niveau méthodes de combinaison Niveau modules Niveau caractéristiques
Niveau bases d’apprentissage
Variation des bases d’apprentissage
• Méthodes de ré-échantillonnage : - Bootstrap
tirage aléatoire avec remise
- Cross-validation
ex. leave one out
• Bases d’apprentissage disjointes
• Boosting et ré-échantillonnage adaptatif
Entraîner un module sur l’ensemble des données, filtrer les exemples difficiles à apprendre et les traiter par un nouveau module, procéder ainsi en cascades.
• Bagging : Bootstrapping & aggregating
les modules sont entraînes sur des ensembles de données tirées par bootstrap
Apprentissage
test
Université Paris 13/Younès Bennani Traitement Informatique des Données 33
Bagging : Bootstrap + Aggregating
Breiman 1996
1- Repeat for b=1,2, …, B
(a) Take a bootstrap replicate of the training data set
(b) Construct a classifier (with a decision boundary ) on
2- Combine classifiers by simple majority voting (the most often predicted label)
to a final decision rule :
!
Xb
Algorithm
!
X
!
Cb(x)
!
Cb(x)=0
!
Xb
!
Cb(x), b=1, 2, ...,B
!
"
(x)=argmaxy# $1,1{ }
%
sgnCb(x),y
( )
b=1 B
&
!
"(i,j)=
1 if i=j 0 if i#j
$
% &
' &
Université Paris 13/Younès Bennani Traitement Informatique des Données 34
Boosting
Freund & Schapire 1996
1- Repeat for b=1,2, …, B
(a) Construct the classifier on the weighted version
of training data set using weights (all )
(b) Compute probability estimates of the error : and combining weights :
( c) if , set and renormalise so that
Otherwise, set all weights and restart the algorithm
2- Combine classifiers by weighted majority voting with weights to a final decision rule :
!
X*=
(
w1bX1,w2bX2, ...,wnbXn,)
Algorithm
!
Cb(x)
!
errb=1n wib"ib
i=1 n
!
#
X=(X1,X2, ...,Xn,)
!
wib
{ }i=1n
!
wib=1for b=1
!
"i
b=
0 if Xiis classified correctly
1 otherwise
#
$ %
&
%
!
cb=12log1"errb errb
#
$ %
&
' (
!
0<errb<0.5
!
wib+1=wibexp
(
cb"ib)
,i=1,K,n!
wib+1
i=1 n
"
=n
!
wib=1,i=1,K,n
!
Cb(x), b=1, 2, ...,B
!
"(x)=argmax
y# $1,1{ }
cb%sgn(Cb(x),y)
b=1 B
&
!
"(i,j)=
1 if i=j 0 if i#j
$
% &
' &
! cb
Université Paris 13/Younès Bennani Traitement Informatique des Données 35
Sorties des modules pour la combinaison
2 types :
- un ensemble de labels (étiquettes) :
Exemple : c=3, L=5
- une matrice de décisions (Decision Profile)
! si" #={
$1,$2, ...,$c}
!
DP(x)=
d1,1(x) d1,2(x) ... ... d1,c(x) d2,1(x) ... ... ... d2,c(x)
: : : : :
: : : : :
dL,1(x) dL,2(x) ... ... dL,c(x)
"
#
$
$
$
$
$
$
%
&
' ' ' ' ' '
!
s1,s2, ...,sL
)3 )2 )2 )1 )2 Vote majoritaire )2
!
d(x)=majority
j
dij(x)
( )
?
!
DP(x)=
0.2 0.1 0.7 0.2 0.8 0.0 0.3 0.6 0.1 0.5 0.2 0.3 0.2 0.8 0.0
"
#
$
$
$
$
$ $
%
&
' ' ' ' ' '
Université Paris 13/Younès Bennani Traitement Informatique des Données 36
Formalisme unifié pour la combinaison
Soit un ensemble de L classificateurs et un ensemble de c classes.
Dans l’espace des décisions, chaque classe est modélisée par :
!
D=
{
D1,D2, ...,DL}
!
"=
{ #
1,#
2, ...,#
c}
!
"k
!
p D
(
i(x) /"k)
!
Di(x)=
[
di,1(x), di,2(x), ..., di,c(x)]
t!
P
( ) "
kFonction de densité Probabilité a priori
!
affecter x"#j si
P
(
#j/D1, ...,DL)
=maxk=1c P(
#k/D1, ...,DL)
Théorie de Bayes :
P("k/D1, ...,DL)= p D( 1, ...,DL/"k)P( )"k
p D( 1, ...,DL)
!
p D( 1, ...,DL)= p D( 1, ...,DL/"j)P( )"j
j=1 c
#
1
2 3
Université Paris 13/Younès Bennani Traitement Informatique des Données 37
Règles de combinaison
Règle du produit (Product Rule)
Distribution de probabilité jointe extraite par les modèles
!
affecter x"#j si P
( )
#j p D(
i/#j)
i=1 L
$
=maxk=1c P( )
#k p D(
i/#k)
i=1 L
$
4
2 3
!
p D
(
1, ...,DL/"k)
!
p D
(
1, ...,DL/"k)
= p D(
i/"k)
i=1 L
#
4 et dans
!
P("k/D1, ...,DL)=
P( )"k p D( i/"k)
i=1 L
#
P
( )
"j p D(
i/"j)
i=1 L
#
j=1 c
$
5
5 dans 1
6
!
affecter x"#j si P$(L$1)( )#j P(#j/Di)
i=1 L
% =maxk=1 c
P$(L$1)( )#k P(#k/Di)
i=1 L
%
Ou en fonction des probabilités a posteriori :
7
Université Paris 13/Younès Bennani Traitement Informatique des Données 38
Règles de combinaison
Règle de la somme (Sum Rule)
Hypothèse :
les décisions des différents modules sont proches de la probabilité a priori des classes.
!
affecter x"#j si
(1$L)P
( )
#j + P(
#j/Di)
i=1 L
%
=maxk=1c (1$L)P( )
#k + P(
#k/Di)
i=1 L
&
%
' ( )
* +
8
! 7
P
(
"k/Di)
=P( )
"k(
1+#ki)
#ki<<18 dans 9
!
P"(L"1)
#k
( ) P(#k/Di)
i=1 L
$ =P( )#k (1+%ki)
i=1 L
$
!
P( )"k (1+#ki)
i=1 L
$ =P( )"k +P( )"k #ki
i=1 L
% 10
7
et 8 dans
11 10
Université Paris 13/Younès Bennani Traitement Informatique des Données 39
Stratégies de combinaison
Les règles et constituent le schéma de base pour combiner des modèles.
!
P
(
"k/Di)
i=1 L
#
$mini=1L P(
"k/Di)
$1L P(
"k/Di)
$i=1 L
%
maxi=1L P(
"k/Di)
Les règles du produit et de la somme peuvent être approximées par les bornes sup et inf de
12
7 11
12
12
Cas de décision binaire :
!
"ki=
1 si P
(
#k/Di)
=maxj=1c P(
#j/Di)
0 sinon
$
%
&
&
'
&
&
13
Stratégies de combinaison
Stratégie du Max :
!
affecter x"#j si
(1$L)P
( )
#j +Lmaxi=1L P(
#j/Di)
=maxk=1c % & ' (1$L)P( )
#k +Lmaxi=1L P(
#k/Di)
( ) *Sous l’hypothèse d’équiprobabilité :
!
affecter x"#j si maxi=1
L P
(
#j/Di)
=maxk=1c max
i=1
L P
(
#k/Di)
$
% & '
( )
14
15
11 + approximation de la somme par le max des probabilités a posteriori, on obtient :
Université Paris 13/Younès Bennani Traitement Informatique des Données 41
Stratégies de combinaison
Stratégie du Min :
!
affecter x"#j si
P$(L$1)
( )
#j mini=1L P(
#j/Di)
=maxk=1c P$(L$1)( )
#k mini=1L P(
#k/Di)
Sous l’hypothèse d’équiprobabilité :
!
affecter x"#j si mini=1
L P
(
#j/Di)
=maxk=1c $ % & mini=1L P(
#k/Di)
' ( )16
17
7 + approximation de la somme par le min des probabilités a posteriori, on obtient :
Université Paris 13/Younès Bennani Traitement Informatique des Données 42
Stratégies de combinaison
Stratégie de la moyenne/médiane :
!
affecter x"#j si 1
L P
(
#j/Di)
i=1 L
$
=maxk=1c L1 P(
#k/Di)
i=1 L
$
Sous l’hypothèse d’équiprobabilité, la règle de la somme dans ! calcul de la moyenne des probabilités a posteriori pour chaque classe sur l’ensemble des L modules :
11
18
Une approximation robuste de la moyenne est la médiane :
!
affecter x"#j si medi=1
L
P
(
#j/Di)
=maxk=1c medi=1L P(
#k/Di)
19
Université Paris 13/Younès Bennani Traitement Informatique des Données 43
Stratégies de combinaison
Stratégie du vote majoritaire :
!
affecter x"#j si
$j i
i=1 L
%
=maxk=1c $k ii=1 L
%
Sous l’hypothèse d’équiprobabilité + + :11
20 13
!
"ki=
1 si P(#k/Di)=maxj=1c P(#j/Di)
0 sinon
$
%
&
&
'
&
&
Exemple
!
DP(x)=
0.2 0.1 0.7 0.2 0.8 0.0 0.3 0.6 0.1 0.5 0.2 0.3 0.2 0.8 0.0
"
#
$
$
$
$
$ $
%
&
' ' ' ' ' ' c=3, L=5
Max :
!
affecter x"#j si maxi=1
L
P
(
#j/Di)
=maxk=1c $ % & maxi=1L P(
#k/Di)
' ( ))2
!
affecter x"#j si mini=1
L P
(
#j/Di)
=maxk=1c $ % & mini=1L P(
#k/Di)
' ( ) Min :)1
!
affecter x"#j si
$j i i=1
L
%
=maxk=1c $k ii=1 L
%
"ki=
1 si P(#k/Di)=maxj=1c P(#j/Di)
0 sinon
$
%
&
&
'
&
&
Majorité :
)2