pace des combinaisons à explorer tout en garantissant l’optimalité de la solution trouvée. La
seconde catégorie de méthodes regroupe les méthodes dites heuristiques. Elles consistent
à appliquer des règles heuristiques sur l’ensemble des combinaisons en vue de réduire sa
taille. Cependant, contrairement aux méthodes de la première catégorie, elles ne
garan-tissent pas l’optimalité globale de la solution. Ainsi, les règles appliquées sont plus
contrai-gnantes, ce qui permet de fortement diminuer le nombre de solutions et donc le temps et
les ressources de traitement. La méthode dite séquentielle vers l’avant (Sequential forward
selectionen anglais) est un exemple de génération heuristique. Le principe repose sur une
progression linéaire dans l’espace des combinaisons. La méthode est itérative : à chaque
tour, un attribut est ajouté à l’ensemble existant suivant un critère qui estime son apport
à l’ensemble des attributs. La méthode démarre avec un ensemble vide et s’arrête lorsque
tous les attributs ont été ajoutés. La troisième catégorie de génération de sous-ensemble
re-présente les méthodes aléatoires. Constatant les limites des méthodes des deux catégories
précédentes dus au compromis entre optimalité et rapidité de résultat, l’idée est venue de
choisir aléatoirement les combinaisons d’attributs. La méthode est itérative : une
combinai-son est sélectionnée aléatoirement à chaque itération.
L’évaluation des combinaisons générées offre également de nombreuses fonctions
sui-vant qu’elles considèrent un sous-ensemble ou les attributs seuls, suisui-vant aussi que les
cri-tères dépendent de la tâche finale ou non. Par exemple, dans la suite, nous décrivons
l’éva-luation par ratio de gain d’information, qui classe les attributs individuellement. Nous
pré-sentons aussi une méthode basée sur la corrélation qui traite des sous-ensembles d’attributs.
La sélection des sous-ensembles est faite par la procédure diteSequential forwarding
selec-tion, qui augmente la taille du sous-ensemble de manière itérative en choisissant l’attribut
qui permet la plus forte augmentation de score suivant le critère considéré. Ces deux
mé-thodes reposent sur des critères dits objectifs, mais il existe aussi des méthode d’évaluation
qui dépendent de la tâche finale. C’est par exemple le cas lorsque l’on effectue une sélection
d’attributs avec un classifieur qui servira ultérieurement à la tâche de classification. Ce genre
de méthodes permet d’obtenir une sélection plus adaptée à la tâche définie, mais convient
moins à l’exploration générale.
2.4.1.2 L’évaluation par le ratio du gain d’information et la corrélation
Nous décrivons précisément les fonctions d’évaluation du gain d’information et de la
corrélation car ces deux méthodes offrent une description de la relation entre la classe et les
attributs, ce qui est particulièrement intéressant dans notre cas pour relier les attributs aux
scènes.
Le gain d’information
Dans la théorie de l’information, le gain d’information (Information Gainen anglais)
me-sure la différence d’information sur une variable résultant de l’observation d’une autre
va-riable. L’information est exprimée par l’entropie de la variable et le gain d’information par la
différence entre l’entropiea priorid’une variable et l’entropie conditionnelle de cette même
variable connaissant une seconde variable (Hall et Holmes (2003)). Si l’on considèreC la
classe etAun attribut, alors le gain d’information par l’observation de l’attributApeut
s’ex-primer suivant la formule de l’équation 2.1. Nous rappelons les formules de calcul de
l’en-tropie et de l’enl’en-tropie conditionnelle dans les équations 2.2 et 2.3, nécessaires à l’expression
du gain d’information.
IG=H(C)−H(C|A) (2.1)
H(C)= −∑
c∈Cp(c)log
2p(c) (2.2)
H(C|A)= −∑
a∈Ap(a)∑
c∈Cp(c|a)log
2p(c|a) (2.3)
Cependant, le calcul du gain d’information est influencé par le domaine des valeurs des
attributs. Pour éviter ce biais, notamment dans la comparaison d’attributs catégoriques et
numériques, il est possible de normaliser le gain avec l’entropie de l’attribut. On parle alors
de ratio de gain d’information (gain ratio, GR) :
GR= IG
H(A)=
H(C)−H(C|A)
H(A) (2.4)
L’évaluation par corrélation
La méthode de sélection par corrélation (Correlation-based Feature Selection) a été
pro-posée par Hall (1999). Elle évalue les sous-ensembles d’attributs (contrairement au calcul du
gain d’information qui s’effectue sur les attributs individuels). La méthode calcule un score
de mérite, qui exprime la pertinence d’un sous-ensemble pour la prédiction de la classe. Le
mérite est le ratio de deux éléments. Le numérateur exprime la corrélation des attributs du
sous-ensemble avec la classe. Le dénominateur exprime la redondance des attributs dans le
sous-ensemble, mesurée par l’inter-corrélation entre les attributs. Ainsi, le mérite sera élevé
pour un ensemble d’attributs corrélés à la classe et peu redondants. À l’inverse, un ensemble
hautement corrélé à la classe mais avec une forte redondance sera sanctionné d’un mérite
faible. De même, un ensemble faiblement corrélé à la classe mais peu redondant aura un
mérite faible.
sous-ensemble. Le termer
c fexprime la moyenne des corrélations calculées entre la classe
et chaque attribut du sous-ensemble. La corrélation est calculée en appliquant la formule
du coefficient de Pearson. Les équations 2.6 et 2.7 précisent le calcul du coefficient,
respec-tivement pour des variables continuesX etY et pour la combinaison de variables discrèteC
et continueY. Le termer
f freprésente l’inter-corrélation moyenne entre les attributs.
Mérite
s= kr
c f√
k+k(k−1)r
f f(2.5)
r
X Y=Cov(X,Y)
σXσY (2.6)
r
C Y=
k∑
i=1p(C=c
i)r
CiY(2.7)
2.4.2 Modèles et algorithmes d’apprentissage automatique
La section décrit cinq algorithmes ou modèles d’apprentissage automatique mentionnés
dans les travaux de reconnaissance d’éléments de contexte.
2.4.2.1 Réseau bayésien et réseau bayésien naïf
Pour définir un réseau bayésien, considérons un ensemble fini de variables aléatoire
Ω
X={X
1,...,X
n}, chacune pouvant prendre une valeurx
idans un ensemble de valeurs
as-sociéΩ
Xi. Un réseau bayésien est composé d’un graphe orienté acyclique (directed acyclic
graphen anglais) dont les nœuds correspondent aux variables aléatoires deΩ
Xet dont les
arcs entre les nœuds définissent les dépendances entre les variables associées.
Le graphe possède une propriété particulière qui indique l’indépendance conditionnelle
d’une variableX
ià toute autre variable, connaissant ses parents dans le graphe. Cette
hypo-thèse permet de simplifier l’expression de la probabilité conjointe de toutes les variables du
graphes à l’expression suivante :
P(X
1,...,X
n)=∏
Ni=1
P(X
i|pa(X
i)) (2.8)
oùpa(X
i) est l’ensemble des parents deX
idans le graphe G.
Nous illustrons la définition avec l’exemple d’un réseau bayésien dans la figure 2.5, repris
de l’article de Pearl (2011).
Le graphe exprime la réalisation de plusieurs événements, représentés par des variables
aléatoires, et structurés par des connaissances ou hypothèses représentées par les arcs.
D’après la propriété d’indépendance conditionnelle d’un nœud aux autres nœuds que ses
parents, la probabilité d’uneglissade(variableX
5) est conditionnellement dépendante de la
probabilité que le sol soitmouillé(variableX
4). Cette dernière variable est
conditionnelle-ment dépendante des états de l’arrosage automatique(variableX
3) et de lapluie(variable
Dans le document
Reconnaissance de scènes multimodale embarquée
(Page 46-49)