Paramètres - Application à la stéréovision

3.3 Application à la stéréovision

4.1.3 Paramètres

i=1 αiy_ix^Tx_i+w₀ ! (4.4)

4.1.3 Paramètres

Comme nous l’avons vu dans la section 4.1.1, décrire une image à l’aide d’histogrammes fait appel à de nombreux paramètres pour gérer le découpage de l’image en cellules, le regroupement des cellules en blocs, le type de normalisation des histogrammes et les caractéristiques des histogrammes. Voici la liste des paramètres à régler :

– Cellules

– Taille des cellules : nombre de pixels définissant une cellule. – Blocs

– taille : nombre de cellules par bloc,

– chevauchement : nombre de cellules entre chaque bloc, – facteur de normalisation.

– Histogrammes

– vote pondéré ou non, – gradient signé ou non, – nombre de niveaux.

Pour évaluer l’importance de chaque paramètre et régler ceux-ci de manière optimale, nous avons donc accom-pli un test exhaustif.

Nous disposons pour cela d’une base d’images infrarouges. Nous avons extrait manuellement environ 6000 images de piétons et non-piétons, soit plus de 3000 piétons. Comme nous l’avons précisé précédemment, les images doivent avoir les mêmes dimensions, nous avons donc redimensionné chaque image à la même taille : 128×64 pixels. Les images de non-piétons sont assez variées. Nous avons extrait des objets pouvant prêter à confusion tels que les arbres, les poteaux, mais également des objets anodins : voitures, route, mur.

Piétons Non-piétons

Pour tester chaque paramètre, nous procédons de la façon suivante : un ensemble d’images est réservé pour l’apprentissage, nous extrayons les descripteurs HOG de chaque image en fonction des paramètres demandés, nous apprenons le classifieur SVM linéaire avec ces descripteurs et nous appliquons le classifieur appris sur les descripteurs de la base de test, calculés avec les mêmes paramètres. La base d’images contenant beaucoup de redondance, nous avons choisi de réduire sa taille à 2200 images de piétons et autant de non-piétons.

Nous retenons ainsi les AUC des résultats obtenus pour chaque ensemble de paramètres et nous comparons ensuite ces valeurs afin de conserver l’ensemble correspondant à la meilleure AUC. Pour confirmer les résultats, chaque ensemble de paramètres est évalué sur des bases d’apprentissage et de test que nous renouvelons. Nous effectuons ainsi dix itérations pour chaque test. Afin que les résultats soient comparables, nous conservons les mêmes conditions d’évaluation, c’est-à-dire que nous utilisons les mêmes images en apprentissage et en test pour

chaque itération, quelque soit l’ensemble de paramètres testé. Voici les valeurs testées pour chaque paramètre :

– Cellules

– Taille des cellules : 8×8, 16×16 et 32×32 pixels. – Blocs

– taille : 2×2, 3×3 et 4×4 cellules, – chevauchement : 1, 2 cellules,

– facteur de normalisation : L1, L2, unitaire. – Histogrammes

– vote pondéré par la norme ou non, – nombre de niveaux : 4 et 8.

Nous affichons les courbes ROC (section 3.2.4) obtenues pour chaque type de paramètre, selon les variations de leur valeur sur la figure 4.5. Tous les résultats ont été obtenus avec l’ensemble de paramètres suivant :

– Cellules

– taille des cellules : 8×8 pixels. – Blocs – taille : 2×2 cellules, – chevauchement : 1 cellule, – facteur de normalisation : L2. – Histogrammes – vote pondéré, – nombre de niveaux : 4.

Comme nous pouvons le constater sur la figure 4.5, la modification de certains paramètres se révèle plus déter-minante au niveau de l’amélioration des performances globales de la méthode par rapport à d’autres paramètres. Ainsi, la taille des cellules, le facteur de normalisation et la pondération des votes se révèlent prépondérant par rapport à la taille des blocs, le nombre de niveaux dans l’histogramme et le chevauchement des blocs.

Comme nous l’avons souligné précédemment, la pondération du vote par la magnitude du gradient permet de tenir compte de la forme présente dans l’image. La normalisation des histogrammes est également importante, puisqu’elle permet de réduire les variations présentes dans l’image. Enfin la taille des cellules correspond à la taille des régions descriptives de l’image. Si les cellules sont trop grandes, elles couvrent une grande partie de l’image et décrivent donc l’image globalement. Inversement, des cellules de taille réduite apportent une information locale. Si la taille est alors trop réduite les cellules décrivent alors les pixels eux-mêmes. Dans ce cas, la description est très locale et devient sensible à la position de l’objet dans l’image. Le paramétrage optimal est donc le compromis entre ces deux cas de figure et doit alors apporter une information locale permettant de décrire la forme de l’objet, d’une taille suffisamment grande pour être insensible aux variations de position de l’objet.

Nous obtenons donc l’ensemble de paramètres suivant : – Cellules

– taille des cellules : 8×8 pixels. – Blocs – taille : 2×2 cellules, – chevauchement : 1 cellule, – facteur de normalisation : L2. – Histogrammes – vote pondéré, – nombre de niveaux : 8.

84 4.1. PRÉSENTATION

a b

c d

e f

FIG. 4.5 : Courbes ROC obtenues lors du test pour le paramétrage de la méthode HOG. Les différents para-mètres ont été testés : taille des cellules (a), taille des blocs (b), décalage des blocs (c), pondération du vote dans l’histogramme (d), nombre de niveaux des histogrammes (e) et type de normalisation des histogrammes dans

les blocs (f).

4.1.3.1 Dimension des données

La dimension du descripteur obtenu dépend directement des paramètres définis pour la méthode. Elle dépendra ainsi de la taille des cellules, selon que l’on souhaite une description globale ou locale de l’image. Elle dépend également de la taille des blocs et du recouvrement entre les blocs, c’est-à-dire l’importance que l’on souhaite accorder à la normalisation des histogrammes. Enfin, elle est fonction du nombre de niveaux dans les histogrammes et donc de la précision que nous souhaitons pour comptabiliser les directions du gradient.

Pour des cellules de 32 pixels, des blocs de taille 1, sans recouvrement entre blocs et 4 niveaux par histogramme, la dimension du descripteur est de 32. Lorsque le découpage est plus fin, par exemple des cellules de 2×2 pixels, des blocs de largeur 2 avec une cellule de recouvrement et 16 niveaux par histogramme, la dimension obtenue est de l’ordre de 30000.

Pour notre ensemble de paramètres optimaux, la dimension est de 3360. En comparant avec le nombre de pixels, l’image est composée de 8192 pixels.

Selon les paramètres, nous pouvons donc utiliser une représentation très compacte des données et permettre ainsi de réduire le temps de calcul lorsque nous devons déterminer le produit scalaire.

Dans le document Méthodes à noyaux pour la détection de piétons (Page 97-100)