Approche par r´ egion - Intégration de méthodes de représentation et de classification pour la

1.5 Conclusion

2.1.2 Approche par r´ egion

L’approche par région consiste à décomposer l’image en nombreuses régions de

tailles fixes ou variables avant de caract´eriser chacune d’entre elles. Cette d´

ecom-position se fait d’une manière généralement prévisible afin que les caractéristiques

extraites soient homog`enes entre elles.

Le découpage en régions peut être fait de deux fa¸cons. La première consiste à d´

e-finir préalablement des régions adjacentes de tailles fixes et d’y extraire le même

type de caractéristiques. Cette méthode est plus générique car elle peut être

em-ployée pour détecter n’importe quelle catégorie d’objet. La deuxième méthode

2.1 Repr´esentation des obstacles routiers 57

de découpage peut être appelée multiparties car elle définit des régions d’intérêt

sp´ecifiques `a chaque partie de l’objet.

2.1.2.1 Caract´erisation visuelle de r´egions fixes

Dans le cadre de la caract´erisation des OR par des r´egions de tailles fixes,

les deux références à ce sujet sont les pseudo-Haar (Haar-like features en anglais)

[OPS

⁺

97, HK09] et les histogrammes d’orientation de gradients [DT05, BBDR

⁺

07,

CSY08]. Ces deux caract´eristiques ont montr´e de bonnes performances pour la

caractérisation des véhicules ainsi que des piétons.

Les caract´eristiques pseudo-Haar

La caract´erisation par les pseudo-ondelettes de Haar [OPS

97, PTP98] reste

parmi les méthodes les plus connues en littérature pour la détection d’objets

dans les images. Elle a été utilisée dans le premier détecteur de visages en temps

réel [VJ02] et fut la première méthode proposant d’appliquer un classifieur SVM

[Vap95] pour la détection de piétons. L’avantage principal de ces caractéristiques

est la rapidité de leur calcul. Elles permettent de représenter la forme générale

contenue dans l’image tr`es rapidement en utilisant une technique d’image int´

e-grale.

Plusieurs configurations d’ondelettes ont été proposées [VJ02, LM02]. Les

confi-gurations les plus utilis´ees permettent de caract´eriser les contours dans les trois

directions possibles : horizontalement, verticalement et diagonalement. Ces

confi-gurations sont illustr´ees dans la figure 2.1.

Figure 2.1.Les trois configurations principales d’ondelettes de Haar et leurs r´esultats de filtrage pour une image de pi´eton.

L’image est donc caract´eris´ee par trois ensembles de coefficients issus de la

d´ecomposition en ondelettes. Chaque ensemble de coefficients est calcul´e en

utili-sant des fenˆetres qui d´elimitent des zones rectangulaires adjacentes. Ensuite, les

intensit´es de pixels des deux zones (sombre et claire, d´ependent du type du filtre

utilisé) sont additionnées, formant deux sommes dont la différence constitue une

caractéristique. D’où l’obtention d’une matrice de coefficients, dont les éléments

seront ensuite concaténés afin de former un vecteur de caractéristiques.

Cette méthode a démontré son efficacité en terme de caractérisation pertinente de

l’image et reste ainsi une référence dans le domaine de la détection des OR.

Les Histogrammes de gradient orient´e

Les histogrammes de gradient orient´e (HOG) sont des histogrammes locaux

de l’orientation du gradient calculés sur des régions régulièrement réparties sur

l’image [DT05]. La concat´enation de ces histogrammes permet de d´efinir un

vec-teur caract´eristique.

En littérature, les HOG ont été utilisés aussi bien que les caractéristiques

pseudo-Haar. Dans le cadre de la d´etection des OR, les travaux faisant l’objet de

compa-raison ont montr´e que ces caract´eristiques sont plus discriminantes que les

carac-t´eristiques de pseudo-Haar [LCL09, SAM

⁺

09].

Les vecteurs caractéristiques sont calculés systématiquement par le même

pro-cédé. Tout d’abord, un angle de gradient est calculé pour chaque pixel. Ensuite,

l’image est découpée en des régions de taille fixe (Comme le montre la figure 2.2).

Généralement, la taille des cellules est fixée au préalable selon les besoins et les

performances obtenues. Pour chaque cellule, un histogramme d’orientation de

gra-dient est calculé par l’accumulation des votes des pixels. La dernière étape consiste

`

a normaliser chaque histogramme afin de contourner les probl`emes de changements

d’illumination.

Figure 2.2.Exemple de découpage d’une image avant d’être caractérisée par les HOG

Les HOG sont des caract´eristiques tr`es pertinentes. Elles sont les plus

couram-ment utilisées pour caractériser et détecter les OR. Néanmoins, le découpage de

2.1 Repr´esentation des obstacles routiers 59

l’image est fait selon un modèle rigide qui suppose la présence d’un piéton sans

posture particulière (debout, non occulté, bien centrée dans l’imagette). De plus,

le problème d’occultation n’est également pas complètement résolu, sauf en

en-visageant dans l’ensemble d’apprentissage plusieurs images contenant des pi´etons

masqu´es partiellement (occult´es).

2.1.2.2 Extraction des caract´eristiques multiparties

Cette méthode se distingue de la première approche par régions fixes

puis-qu’elle définit des régions d’intérêt spécifiques à chaque partie de l’objet. Cette

méthode est utilisée surtout pour la caractérisation des piétons dans les images

[SGH04, ASDT

⁺

07, GM07]. Nous illustrons `a titre d’exemple dans la figure 2.3

deux méthodes de découpage qui respectent la spécificité des parties du corps d’un

pi´eton.

Figure 2.3. Deux exemples de découpage d’images en régions proposés, respectivement, dans [ASDT+07] et [SGH04]

La principale motivation derrière cette méthode est de considérer qu’un objet

est constitué de différentes parties non homogènes devant ainsi être caractérisées

et détectées par des algorithmes différents. Les principales caractéristiques citées

jusqu’`a maintenant : DCT, Gabor, matrice de cooccurence, Haar, HOG, l’image

de contours, NTU, . . . peuvent être utilisées pour caractériser des parties sp´

eci-fiques de l’objet. Dans [ASDT

⁺

07], l’auteur a adopt´e cette m´ethode en testant

plusieurs types de caract´eristiques pour chaque partie. Pour une repr´esentation

du piéton, il montre que les caractéristiques NTU sont très performantes pour la

tˆete, les bras et la zone situ´ee entre les jambes. Tandis que, l’image des contours

convient plus pour caract´eriser les jambes.

La caractérisation multiparties est très intéressante au point de vue

discrimina-tion, notamment pour les objets d´eformables. Plusieurs travaux ont montr´e qu’un

détecteur d’objet déformable qui procède par parties est plus efficace. Mais la

problématique posée ici, concerne le choix des caractéristiques à employer pour

repr´esenter une telle partie de l’objet.

Une solution alternative très prometteuse consiste à extraire les mêmes caract´

e-ristiques pour plusieurs parties et `a utiliser une m´ethode de boosting afin d’en

s´electionner les meilleures. Nous reviendrons sur la technique de boosting dans

la section 2.2.1. Viola et Jones ont adopt´e cette solution [VJ02] et leur m´ethode

fait partie des toutes premières méthodes capables de détecter efficacement et en

temps r´eel des objets dans une image

. Depuis, plusieurs travaux reprenant le

même principe ont été menés mais en employant des caractéristiques autre que

les pseudo-Haar. Parmi ces travaux, nous citons plus particuli`erement ceux qui

ont montr´e de bonnes performances dans le cadre de la cat´egorisation des OR

[WN06, WN07, TPM08, PSZ08]. Dans ce qui suit, nous d´etaillons ces m´ethodes.

Les Edgeletes

Les edgeletes sont des caract´eristiques locales extraites depuis la silhouette

de l’objet. Elles repr´esentent de courts segments de lignes ou de courbes dans

l’image de contours de l’objet. Les Edgeletes ont été utilisées pour la première

fois par Wu et Nevatia [WN05] dans le cadre de la d´etection de pi´etons. Les bons

résultats obtenus ont été confirmés dans des travaux ultérieurs [WN06, WN07].

Figure 2.4.Découpage des parties du corps du piéton en tête-épaules, torse et jambes

Comme le montre la figure 2.4, le d´ecoupage en r´egions se fait selon trois

par-ties du corps : tête-épaules, torse et jambes. Ce type de modélisation permet de

d´etecter les parties du corps ind´ependamment les unes des autres. Le

fonctionne-ment par parties assure ´evidemment une robustesse aux occultations. N´eanmoins,

la constitution d’une base d’apprentissage multiparties demande beaucoup

2.1 Repr´esentation des obstacles routiers 61

forts dans la mesure où chaque partie de l’objet doit être annotée manuellement.

Dans la suite, nous présentons la méthode proposée dans [TPM08] qui permet

de d´epasser cette limite en s´electionnant, dans le processus d’apprentissage, les

meilleures régions à considérer.

La covariance de r´egion

La covariance de r´egion rassemble un ensemble de 8 caract´eristiques issues

d’une matrice de covariance d’emplacement, d’intensit´es lumineuses et de

gra-dients. Ces caractéristiques sont calculées localement sur une région d’intérêt à

l’aide d’une image int´egrale.

Les caractéristiques de covariance ont d’abord été introduites dans [TPM06] pour

faire l’appariement et la classification de texture. Ensuite elles ont été appliquées

`

a la détection de piétons [TPM08]. Dans cette dernière référence, le piéton est

représenté par plusieurs régions, de tailles variables, et qui peuvent se

chevau-cher, la figure 2.5 en illustre le principe. Chaque région est caractérisée par des

descripteurs de covariance. Les régions les plus pertinentes sont sélectionnées par

une méthode de recherche gloutonne. Enfin, la classification est réalisée grâce à

plusieurs cascades de classifieurs boost´es. Nous revenons dans la section 2.2.1 sur

le mod`ele de cascade de classifieurs.

Figure 2.5. Génération de plusieurs descripteurs de covariance pour chaque image. L’image est parcourue dans tous les sens et avec des fenêtres de tailles différentes. Les régions les plus pertinentes sont ensuite sélectionnées par une méthode de recherche gloutonne.

L’approche par r´egion calcule une signature int´egrant l’influence de tous les

pixels. Ainsi, elle ne permet pas de surmonter les probl`emes d’occultations

pro-noncées ou ceux liés à la présence d’un fond chargé. Dans ces situations difficiles,

il convient de ne consid´erer que des zones qui sont rarement occult´ees et qui ne

subissent pas d’influence de fond chargé. C’est là tout l’intérêt de l’approche locale.

Dans le document Intégration de méthodes de représentation et de classification pour la détection et la reconnaissance d'obstacles dans des scènes routières (Page 58-64)