• Aucun résultat trouvé

3.4 Fusion de descripteurs bas-niveau

3.4.5 S´ election de descripteurs

Apr`es avoir pr´esent´e la fusion de descripteurs, nous allons nous int´eresser `a la deuxi`eme fa¸con de transformation de descripteurs, qui est la “s´election”. La s´election de descripteurs a pour objectif de d´ecouvrir seulement les descripteurs les plus informatifs, qui sont individuel-lement discriminant, de faible redondance, pour r´eduire le probl`eme de sur-apprentissage et d’augmenter la vitesse de calcul [Tor03].

Il existe trois grandes classes de m´ethodes de s´election : les «m´ethodes int´egr´ees» (em-bedded), les «m´ethodes symbiose» (wrapper) et les «m´ethodes de filtre» (filter) [BL97, Guy03,KJ97], qui seront trait´ees ci-dessous :

3.4.5.1 M´ethodes int´egr´ees“Embedded”

Elles consistent `a utiliser directement le syst`eme d’apprentissage dans l’espoir de d´ ecou-vrir automatiquement les descripteurs utiles pour la classification. Par exemple, un syst`eme d’induction d’arbre de d´ecision [CM02] effectue une s´election automatique des descripteurs en choisissant ceux qui sont suffisants pour la construction de l’arbre. Malheureusement, ce type d’approche est condamn´e `a produire des r´esultats peu fiables lorsque les donn´ees ne sont pas assez nombreuses par rapport au nombre d’attributs.

3.4. Fusion de descripteurs bas-niveau 97

3.4.5.2 M´ethodes symbiose“Wrapper”

Elles ´evaluent les sous-ensembles d’attributs en fonction des performances des m´ethodes de classification qui les utilisent. En effet, avec une m´ethode de classification (e.g. un percep-tron multi-couches) et un ensemble d’attributs Γ, la m´ethode symbiose explore l’espace des sous-ensembles de Γ, utilisant la validation crois´ee pour comparer les performances des clas-sifieurs entraˆın´es sur chaque sous-ensemble, comme le montre la Fig. 3.24. Deux strat´egies peuvent ˆetre utilis´ees : Ascendante «forward selection» (i.e. par ajouts successifs d’attri-buts), ou descendante «backward selection» (i.e. par retraits successifs d’attributs). Intui-tivement, les m´ethodes symbiose pr´esentent l’avantage de s´electionner les sous-ensembles d’attributs pertinents qui permettent les meilleures performances en g´en´eralisation, ce qui est souvent le but final. Cependant, r´ecemment, il a ´et´e soulign´e que cette approche pou-vait ˆetre biais´ee et trop optimiste sur le vrai contenu informatif des attributs s´ election-n´es [AM02, XJK01]. Le principal inconv´enient de ces m´ethodes est leur coˆut calculatoire attach´e `a l’exploration de l’espace des sous-ensembles de Γ.

Fig. 3.24 – Repr´esentation de la s´election des descripteurs par la m´ethode symbiose.

3.4.5.3 M´ethodes par filtre“Filter”

Elles sont utilis´ees dans une phase de pr´e-traitement, ind´ependamment du choix de la m´ethode de classification. La plupart d’entre elles ´evaluent chaque attribut ind´ ependam-ment en mesurant la corr´elation (selon une m´etrique `a d´efinir) de leurs valeurs comme par exemple la corr´elation de Pearson, divergence de Kullback-Leibler, l’information mutuelle, etc [LS03,Tor03]. En d’autres termes, ces m´ethodes ´evaluent l’information apport´ee par la connaissance de chaque attribut sur la classe des exemples. Sous certaines hypoth`eses d’in-d´ependance et d’orthogonalit´e, les attributs ainsi estim´es comme informatifs peuvent ˆetre optimaux par rapport `a certains syst`emes de classification. Un avantage important de cette approche est son faible coˆut calculatoire, puisqu’elle ne requi`ere qu’un nombre d’´ evalua-tions lin´eaires, plus une op´eration de tri [KJ97]. Nous allons pr´esenter bri`evement certains algorithmes utilis´es dans cette strat´egie [Jou03].

98 Chapitre 3. Fusion Multi-niveaux pour l’Analyse Multim´edia

1. Algorithme FOCUS introduit par Almuallim et al. [AD91, AD94] examine tous les sous-ensembles de descripteurs, puis s´electionne le plus petit sous-ensemble qui est suffisant pour d´eterminer l’appartenance `a une classe de toutes les instances dans l’en-semble d’entraˆınement. Cette technique prend en compte le crit`ereMIN-FEATURES bias18. Originellement d´efinie pour des donn´ees bool´eennes non bruit´ees, l’algorithme est restreint `a 2 classes. De plus Dash et al. [DLY97] indiquent que l’algorithme prend du temps si la taille du sous-ensemble reste importante. FOCUS pr´esente une com-plexit´e en temps de O(NM), avec M attributs s´electionn´es parmi lesN du d´epart.

2. Algorithme Relief [KR92] attribue un poids `a chaque descripteur pour voir son int´erˆet par rapport `a un concept cible. Il ´echantillonne au hasard dans l’ensemble d’apprentissage et remet `a jour la pertinence des valeurs bas´ees sur la diff´erence entre l’instance s´electionn´ee et les deux cas : proche ou non de la classe. Souvent, pr´esent´e comme une m´ethode r´esistante au bruit et de faible complexit´e. Cependant, il ne tient pas compte d’une ´eventuelle redondance entre les variables ou d’une forte corr´elation.

Cette m´ethode d´epend fortement du nombre d’exemples par classe.

3. Analyse de Variance “Anova”[GS00] est un test statistique permettant de d´efinir l’influence d’un ou de plusieurs attributs, en partant de l’hypoth`ese suivante : l’es-p´erance est la mˆeme pour toutes les classes (ce qui est une hypoth`ese forte et non v´erifi´ee dans nos donn´ees). D’abord, on suppose que pour chaque classe, les attributs suivent une loi gaussienne de mˆeme variance σ. Puis, on compare σ avec la variance interclasse (i.e. la variance entre les moyennes rencontr´ees pour chaque classe). On obtient ainsi pour chaque ´el´ement un nombre mesurant la corr´elation statistique avec la classe.

Ainsi, apr`es avoir pr´esent´e dans cette partie les diff´erentes m´ethodes de transforma-tion des descripteurs `a travers la fusion et la s´election des caract´eristiques bas-niveau. La prochaine partie exposera les r´esultats des exp´eriences conduites sur deux bases de donn´ees.

18Si deux fonctions sont compatibles avec les exemples d’entraˆınement, pr´ef´erez la fonction qui implique moins de descripteurs d’entr´ee.