• Aucun résultat trouvé

Illustration du processus de sélection d’attributs, extrait de l’article de

pace des combinaisons à explorer tout en garantissant l’optimalité de la solution trouvée. La

seconde catégorie de méthodes regroupe les méthodes dites heuristiques. Elles consistent

à appliquer des règles heuristiques sur l’ensemble des combinaisons en vue de réduire sa

taille. Cependant, contrairement aux méthodes de la première catégorie, elles ne

garan-tissent pas l’optimalité globale de la solution. Ainsi, les règles appliquées sont plus

contrai-gnantes, ce qui permet de fortement diminuer le nombre de solutions et donc le temps et

les ressources de traitement. La méthode dite séquentielle vers l’avant (Sequential forward

selectionen anglais) est un exemple de génération heuristique. Le principe repose sur une

progression linéaire dans l’espace des combinaisons. La méthode est itérative : à chaque

tour, un attribut est ajouté à l’ensemble existant suivant un critère qui estime son apport

à l’ensemble des attributs. La méthode démarre avec un ensemble vide et s’arrête lorsque

tous les attributs ont été ajoutés. La troisième catégorie de génération de sous-ensemble

re-présente les méthodes aléatoires. Constatant les limites des méthodes des deux catégories

précédentes dus au compromis entre optimalité et rapidité de résultat, l’idée est venue de

choisir aléatoirement les combinaisons d’attributs. La méthode est itérative : une

combinai-son est sélectionnée aléatoirement à chaque itération.

L’évaluation des combinaisons générées offre également de nombreuses fonctions

sui-vant qu’elles considèrent un sous-ensemble ou les attributs seuls, suisui-vant aussi que les

cri-tères dépendent de la tâche finale ou non. Par exemple, dans la suite, nous décrivons

l’éva-luation par ratio de gain d’information, qui classe les attributs individuellement. Nous

pré-sentons aussi une méthode basée sur la corrélation qui traite des sous-ensembles d’attributs.

La sélection des sous-ensembles est faite par la procédure diteSequential forwarding

selec-tion, qui augmente la taille du sous-ensemble de manière itérative en choisissant l’attribut

qui permet la plus forte augmentation de score suivant le critère considéré. Ces deux

mé-thodes reposent sur des critères dits objectifs, mais il existe aussi des méthode d’évaluation

qui dépendent de la tâche finale. C’est par exemple le cas lorsque l’on effectue une sélection

d’attributs avec un classifieur qui servira ultérieurement à la tâche de classification. Ce genre

de méthodes permet d’obtenir une sélection plus adaptée à la tâche définie, mais convient

moins à l’exploration générale.

2.4.1.2 L’évaluation par le ratio du gain d’information et la corrélation

Nous décrivons précisément les fonctions d’évaluation du gain d’information et de la

corrélation car ces deux méthodes offrent une description de la relation entre la classe et les

attributs, ce qui est particulièrement intéressant dans notre cas pour relier les attributs aux

scènes.

Le gain d’information

Dans la théorie de l’information, le gain d’information (Information Gainen anglais)

me-sure la différence d’information sur une variable résultant de l’observation d’une autre

va-riable. L’information est exprimée par l’entropie de la variable et le gain d’information par la

différence entre l’entropiea priorid’une variable et l’entropie conditionnelle de cette même

variable connaissant une seconde variable (Hall et Holmes (2003)). Si l’on considèreC la

classe etAun attribut, alors le gain d’information par l’observation de l’attributApeut

s’ex-primer suivant la formule de l’équation 2.1. Nous rappelons les formules de calcul de

l’en-tropie et de l’enl’en-tropie conditionnelle dans les équations 2.2 et 2.3, nécessaires à l’expression

du gain d’information.

IG=H(C)−H(C|A) (2.1)

H(C)= −

cC

p(c)log

2

p(c) (2.2)

H(C|A)= −

aA

p(a)∑

cC

p(c|a)log

2

p(c|a) (2.3)

Cependant, le calcul du gain d’information est influencé par le domaine des valeurs des

attributs. Pour éviter ce biais, notamment dans la comparaison d’attributs catégoriques et

numériques, il est possible de normaliser le gain avec l’entropie de l’attribut. On parle alors

de ratio de gain d’information (gain ratio, GR) :

GR= IG

H(A)=

H(C)−H(C|A)

H(A) (2.4)

L’évaluation par corrélation

La méthode de sélection par corrélation (Correlation-based Feature Selection) a été

pro-posée par Hall (1999). Elle évalue les sous-ensembles d’attributs (contrairement au calcul du

gain d’information qui s’effectue sur les attributs individuels). La méthode calcule un score

de mérite, qui exprime la pertinence d’un sous-ensemble pour la prédiction de la classe. Le

mérite est le ratio de deux éléments. Le numérateur exprime la corrélation des attributs du

sous-ensemble avec la classe. Le dénominateur exprime la redondance des attributs dans le

sous-ensemble, mesurée par l’inter-corrélation entre les attributs. Ainsi, le mérite sera élevé

pour un ensemble d’attributs corrélés à la classe et peu redondants. À l’inverse, un ensemble

hautement corrélé à la classe mais avec une forte redondance sera sanctionné d’un mérite

faible. De même, un ensemble faiblement corrélé à la classe mais peu redondant aura un

mérite faible.

sous-ensemble. Le termer

c f

exprime la moyenne des corrélations calculées entre la classe

et chaque attribut du sous-ensemble. La corrélation est calculée en appliquant la formule

du coefficient de Pearson. Les équations 2.6 et 2.7 précisent le calcul du coefficient,

respec-tivement pour des variables continuesX etY et pour la combinaison de variables discrèteC

et continueY. Le termer

f f

représente l’inter-corrélation moyenne entre les attributs.

Mérite

s

= kr

c f

k+k(k−1)r

f f

(2.5)

r

X Y

=Cov(X,Y)

σXσY (2.6)

r

C Y

=

k

i=1

p(C=c

i

)r

CiY

(2.7)

2.4.2 Modèles et algorithmes d’apprentissage automatique

La section décrit cinq algorithmes ou modèles d’apprentissage automatique mentionnés

dans les travaux de reconnaissance d’éléments de contexte.

2.4.2.1 Réseau bayésien et réseau bayésien naïf

Pour définir un réseau bayésien, considérons un ensemble fini de variables aléatoire

X

={X

1

,...,X

n

}, chacune pouvant prendre une valeurx

i

dans un ensemble de valeurs

as-sociéΩ

Xi

. Un réseau bayésien est composé d’un graphe orienté acyclique (directed acyclic

graphen anglais) dont les nœuds correspondent aux variables aléatoires deΩ

X

et dont les

arcs entre les nœuds définissent les dépendances entre les variables associées.

Le graphe possède une propriété particulière qui indique l’indépendance conditionnelle

d’une variableX

i

à toute autre variable, connaissant ses parents dans le graphe. Cette

hypo-thèse permet de simplifier l’expression de la probabilité conjointe de toutes les variables du

graphes à l’expression suivante :

P(X

1

,...,X

n

)=

N

i=1

P(X

i

|pa(X

i

)) (2.8)

pa(X

i

) est l’ensemble des parents deX

i

dans le graphe G.

Nous illustrons la définition avec l’exemple d’un réseau bayésien dans la figure 2.5, repris

de l’article de Pearl (2011).

Le graphe exprime la réalisation de plusieurs événements, représentés par des variables

aléatoires, et structurés par des connaissances ou hypothèses représentées par les arcs.

D’après la propriété d’indépendance conditionnelle d’un nœud aux autres nœuds que ses

parents, la probabilité d’uneglissade(variableX

5

) est conditionnellement dépendante de la

probabilité que le sol soitmouillé(variableX

4

). Cette dernière variable est

conditionnelle-ment dépendante des états de l’arrosage automatique(variableX

3

) et de lapluie(variable