CLASSIFICATION PAR CORRÉLATION 81 - Mesures de ressemblances et corréla- corréla-tion

Mesures de ressemblances et corréla- corréla-tion

4.6. CLASSIFICATION PAR CORRÉLATION 81

Nom du descripteur MC1000 MC10000 ALL

Standard audio descriptors 2"7 18" 27’45"

MPEG-7 9" 1’30" 1h Structural descriptors 15" 2’30" 1h20’ HoG 0"6 7" 8’32" Bag-of-Visual-Words rgbSIFT 35" 6’ 10h TF-IDF of ASR 40" 8’ 2h TF-IDF of metadata 4" 53" 10’

Table4.10 – Temps de calcul du test d’un shot.

Cette méthode devient donc envisageable pour traiter de grandes bases de données.

4.6.5.3 Résultats et comparaisons à d’autres méthodes

[Mironica et al., 2013] utilise 6 méthodes pour la classification par genre sur les mêmes données de la base ME12TT. Les méthodes sont les SVM linéaires, les SVM Radial Basic Function (SVM RBF), les SVM Chi-Square (SVM CHI), les k plus proches voisins (5-NN), les Random Trees (RT) et Extremely Random Forest (ERF) qui ont été présentées au chapitre 3. Le tableau4.11présente les performances de ces différentes méthodes. La dernière colonne donne les performances de notre méthode appliquée sans sélection de descripteur mais res-treinte à 100 000 triplets pour la phase d’apprentissage et 10 000 triplets pour la phase de test. Ce qui représente respectivement 0, 002% et 0, 02% de la totalité des triplets.

Nom du descripteur SVM SVM SVM 5-NN RT ERF Notre

Linéaire RBF CHI méthode

Std audio descriptors 20.7% 24.5% 35.6% 18.3% 34.4% 42.3% 19.7%

MPEG-7 6.1% 4.3% 17.5% 9.6% 20.9% 26.2% 15.9%

Structural descriptors 7.6% 17.2% 22.8% 8.7% 13.9% 14.9% 8.1%

HoG 9.1% 25.6% 22.4% 17.9% 16.6% 23.4% 8.8%

BOW Visual rgbSIFT 14.6% 17.6% 20.0% 8.6% 14.9% 16.3% 8.5% TF-IDF of metadata 56.3% 58.1% 48.0% 57.2% 58.7% 57.5% 22.2%

Table4.11 – Performances des différentes méthodes.

Avec la plupart des descripteurs, notre méthode arrive à des performances analogues au SVM linéaire et au 5-NN, mais nettement en dessous des autres classifieurs. Il n’y a que les descripteurs MPEG qui lui permettent de dépasser nettement le SVM linéaire et le 5-NN.

Par ailleurs, si l’on ne considère pas l’efficacité des codes testés, le temps de calcul n’est pas un argument en faveur de notre méthode. Les temps de calcul des autres méthodes dans l’espace de travail Weka (http://weka.wikispaces.com) sont tout à fait satisfaisants, du même ordre ou voire meilleurs que ceux de notre méthode. Cependant l’implémentation de notre méthode n’est pas optimisée contrairement aux autres. Il sera intéressant à terme de recoder cette méthode pour réduire ses temps de calcul.

textuels. Ceci n’est pas imputable à la méthode par corrélation de rang en globalité mais uniquement à son aspect « Monte-Carlo ». Les données textuelles contiennent beaucoup de valeurs nulles. Les descripteurs textuels de type métadonnée contiennent en moyenne 98, 5% de valeurs nulles. Ceci amène la méthode de Monte Carlo à considérer des triplets qui ne sont pas représentatifs de la globalité. D’où les faibles performances. Pour ces descripteurs textuels, la méthode est applicable sans son aspect Monte-Carlo. Mais dans ce cas, les temps de calcul sont trop importants. Une possibilité de progrès serait peut être d’examiner comment améliorer ces temps en reconnaissant et exploitant algorithmiquement la forte proportion de valeurs nulles de ces descripteurs textuels.

4.6.5.4 Intérêt de la méthode

Cette méthode donne globalement des résultats comparables aux k-NN et aux SVM li-néaires mais moins bons que des méthodes comme les SVM non lili-néaires, les « Random Trees » et les« Extremely Random Forest ».

Cependant le principal intérêt de cette méthode est qu’elle est applicable directement avec des descripteurs non normalisés.

Un autre intérêt de cette méthode est qu’elle ne nécessite pas l’ajustement de paramètres comme il est nécessaire de le faire avec les paramètres du SVM RBF.

De plus, lors de la phase de test chaque classement d’objet est une tâche indépendante des autres classements. Ces tâches peuvent être distribuées sur toutes les ressources matérielles disponibles. La phase de test est donc très facilement parallélisable. La parallélisation et l’adjonction de la méthode de Monte-Carlo permettent d’obtenir une classification d’un grand ensemble d’objets de manière rapide.

4.7 Bilan

Dans la première partie de ce chapitre, nous avons produit une solution personnalisable d’exploration visuelle d’une base de documents et nous l’avons illustrée sur une base vidéo. Nous avons tout d’abord mis au point une méthode de sélection et fusion de descripteurs de types différents (texte et visuels). Le résultat obtenu est une métrique liant toutes les vidéos de la base multimédia. Cette méthode nécessite des données d’entraînement, c’est-à-dire une vérité terrain par paires sur une partie de la base. Cette connaissance par paires est facile à recueillir auprès des utilisateurs car il s’agit simplement de fournir un degré de ressemblance entre documents. Nous avons présenté dans la figure 4.4un logiciel qui permet de construire cette vérité terrain.

Le principal intérêt de la méthode est d’être automatique en ne nécessitant ni normalisa-tion des données, ni ajustement de paramètres. Nous obtenons une métrique sur la totalité de la base par corrélation de rang entre la vérité terrain partielle et les descripteurs disponibles. Une validation croisée nous a permis de contrôler que la métrique obtenue sur toute la base est une bonne extension de la vérité terrain partielle. Un des intérêts de cette exploration par ressemblance est qu’elle est personnalisable : la ressemblance est construite sur un extrait de la base selon les critères d’appréciation propres à l’utilisateur. Finalement, à l’aide d’une simple méthode de « k plus proches voisins », nous avons obtenu une structuration de la base de la CITIA exploitable par le prototype présenté dans la figure 4.11.

4.7. BILAN 83

une classification de la base multimédia pour regrouper ensemble les données ressemblantes afin de pouvoir les visualiser. Dans la seconde partie de ce chapitre, nous avons construit une méthode de classification basée sur des corrélations. Cette méthode est elle aussi automatique, ne nécessitant ni normalisation des données, ni ajustement de paramètres. Cependant avec cette méthode de classification nous obtenons des performances qui ne sont pas meilleures que les autres méthodes de l’état de l’art. Nous allons donc explorer dans le chapitre5d’autre façon d’effectuer des classifications.

Chapitre 5

Dans le document Structuration de bases multimédia pour une exploration visuelle (Page 100-104)