S´ election de descripteurs - Fusion de descripteurs bas-niveau

3.4 Fusion de descripteurs bas-niveau

3.4.5 S´ election de descripteurs

Après avoir présenté la fusion de descripteurs, nous allons nous intéresser à la deuxième fa¸con de transformation de descripteurs, qui est la “sélection”. La sélection de descripteurs a pour objectif de découvrir seulement les descripteurs les plus informatifs, qui sont individuel-lement discriminant, de faible redondance, pour réduire le problème de sur-apprentissage et d’augmenter la vitesse de calcul [Tor03].

Il existe trois grandes classes de méthodes de sélection : les «méthodes intégrées» (em-bedded), les «méthodes symbiose» (wrapper) et les «méthodes de filtre» (filter) [BL97, Guy03,KJ97], qui seront traitées ci-dessous :

3.4.5.1 Méthodes intégrées“Embedded”

Elles consistent à utiliser directement le système d’apprentissage dans l’espoir de d´ ecou-vrir automatiquement les descripteurs utiles pour la classification. Par exemple, un système d’induction d’arbre de décision [CM02] effectue une sélection automatique des descripteurs en choisissant ceux qui sont suffisants pour la construction de l’arbre. Malheureusement, ce type d’approche est condamné à produire des résultats peu fiables lorsque les données ne sont pas assez nombreuses par rapport au nombre d’attributs.

3.4. Fusion de descripteurs bas-niveau 97

3.4.5.2 M´ethodes symbiose“Wrapper”

Elles évaluent les sous-ensembles d’attributs en fonction des performances des méthodes de classification qui les utilisent. En effet, avec une méthode de classification (e.g. un percep-tron multi-couches) et un ensemble d’attributs Γ, la méthode symbiose explore l’espace des sous-ensembles de Γ, utilisant la validation croisée pour comparer les performances des clas-sifieurs entraˆınés sur chaque sous-ensemble, comme le montre la Fig. 3.24. Deux stratégies peuvent être utilisées : Ascendante «forward selection» (i.e. par ajouts successifs d’attri-buts), ou descendante «backward selection» (i.e. par retraits successifs d’attributs). Intui-tivement, les méthodes symbiose présentent l’avantage de sélectionner les sous-ensembles d’attributs pertinents qui permettent les meilleures performances en généralisation, ce qui est souvent le but final. Cependant, récemment, il a été souligné que cette approche pou-vait être biaisée et trop optimiste sur le vrai contenu informatif des attributs s´ election-nés [AM02, XJK01]. Le principal inconvénient de ces méthodes est leur coût calculatoire attaché à l’exploration de l’espace des sous-ensembles de Γ.

Fig. 3.24 – Représentation de la sélection des descripteurs par la méthode symbiose.

3.4.5.3 M´ethodes par filtre“Filter”

Elles sont utilisées dans une phase de pré-traitement, indépendamment du choix de la méthode de classification. La plupart d’entre elles évaluent chaque attribut ind´ ependam-ment en mesurant la corrélation (selon une métrique à définir) de leurs valeurs comme par exemple la corrélation de Pearson, divergence de Kullback-Leibler, l’information mutuelle, etc [LS03,Tor03]. En d’autres termes, ces méthodes évaluent l’information apportée par la connaissance de chaque attribut sur la classe des exemples. Sous certaines hypothèses d’in-dépendance et d’orthogonalité, les attributs ainsi estimés comme informatifs peuvent être optimaux par rapport à certains systèmes de classification. Un avantage important de cette approche est son faible coût calculatoire, puisqu’elle ne requière qu’un nombre d’´ evalua-tions linéaires, plus une opération de tri [KJ97]. Nous allons présenter brièvement certains algorithmes utilisés dans cette stratégie [Jou03].

98 Chapitre 3. Fusion Multi-niveaux pour l’Analyse Multim´edia

1. Algorithme FOCUS introduit par Almuallim et al. [AD91, AD94] examine tous les sous-ensembles de descripteurs, puis sélectionne le plus petit sous-ensemble qui est suffisant pour déterminer l’appartenance à une classe de toutes les instances dans l’en-semble d’entraˆınement. Cette technique prend en compte le critèreMIN-FEATURES bias¹⁸. Originellement définie pour des données booléennes non bruitées, l’algorithme est restreint à 2 classes. De plus Dash et al. [DLY97] indiquent que l’algorithme prend du temps si la taille du sous-ensemble reste importante. FOCUS présente une com-plexité en temps de O(N^M), avec M attributs sélectionnés parmi lesN du départ.

2. Algorithme Relief [KR92] attribue un poids à chaque descripteur pour voir son intérêt par rapport à un concept cible. Il échantillonne au hasard dans l’ensemble d’apprentissage et remet à jour la pertinence des valeurs basées sur la différence entre l’instance sélectionnée et les deux cas : proche ou non de la classe. Souvent, présenté comme une méthode résistante au bruit et de faible complexité. Cependant, il ne tient pas compte d’une éventuelle redondance entre les variables ou d’une forte corrélation.

Cette m´ethode d´epend fortement du nombre d’exemples par classe.

3. Analyse de Variance “Anova”[GS00] est un test statistique permettant de définir l’influence d’un ou de plusieurs attributs, en partant de l’hypothèse suivante : l’es-pérance est la même pour toutes les classes (ce qui est une hypothèse forte et non vérifiée dans nos données). D’abord, on suppose que pour chaque classe, les attributs suivent une loi gaussienne de même variance σ. Puis, on compare σ avec la variance interclasse (i.e. la variance entre les moyennes rencontrées pour chaque classe). On obtient ainsi pour chaque élément un nombre mesurant la corrélation statistique avec la classe.

Ainsi, après avoir présenté dans cette partie les différentes méthodes de transforma-tion des descripteurs à travers la fusion et la sélection des caractéristiques bas-niveau. La prochaine partie exposera les résultats des expériences conduites sur deux bases de données.

18Si deux fonctions sont compatibles avec les exemples d’entraˆınement, préférez la fonction qui implique moins de descripteurs d’entrée.

Dans le document Multi-level fusion for content-based semantic multimedia indexing and retrieval (Page 116-119)