Segmentation globale par la couleur - Segmentation automatique des images

5.3 Segmentation automatique des images

5.3.3 Segmentation globale par la couleur

Cet algorithme s’inspire de la stratégie développée précédemment pour déduire automatiquement la couleur d’un objet à partir de plusieurs images correspondant à un même concept. Les pixels sont divisés en deux catégories : les pixels correspondant à l’objet traité, et les pixels correspondant au fond de l’image. Cette catégorisation permet ensuite de retrouver l’objet dans n’importe quelle autre image dont on sait qu’elle contient l’objet. Au lieu de se limiter aux 11 noms de couleurs, nous définissons 125 couleurs par quantification de l’espace RGB, et nous pouvons facilement faire varier ce nombre si nécessaire. Une autre différence avec les algorithmes précédents est que les pixels du fond de l’image sont également pris en compte par leurs contributions négatives.

La segmentation se fait par les ´etapes suivantes :

1. Chacun des trois plans de l’espace RVB est quantifi´e en 5 valeurs, formant un total de 125 couleurs.

2. Une fenêtre centrale est définie, comme étant la fenêtre centrée dont la largeur et la hauteur valent chacune la moitié de la largeur et la hauteur de l’image.

3. Pour chaque image, nous construisons deux histogrammes RVB à 125 compo- santes : histocentre prenant en compte les pixels contenus dans la fenêtre centrale et histobord prenant en compte les pixels en-dehors de cette fenêtre.

4. Les deux histogrammes sont normalisés indépendamment en fonction du nombre de pixels considérés pour construire chacun, afin qu’ils puissent être comparés. 5. Pour chaque valeur possible (r, v, b), nous calculons un score S(r, v, b) sur toutes les

images qui est augment´e de 1 si, pour une image, histocentre(r, v, b) > histobord(r, v, b) et r´eduit de 1 sinon.

6. Finalement, un triplet (r, v, b) est consid´er´e comme une couleur de l’objet si S(r, v, b) >

max(S(r,v,b))

5 et comme couleur du fond dans le cas contraire, o`u max(S(r, v, b)) est

le maximum calcul´e sur toutes les images.

L’ensemble des pixels obtenus est ensuite nettoyé par le même procédé que celui décrit en page 115 pour ne conserver qu’une région connexe.

En comparaison avec l’algorithme précédent qui segmentait les images en fonction du nom des couleurs de l’objet, les régions obtenues avec ce nouvel algorithme sont plus précises. Les noms des couleurs ont un sens pour nous, mais pour l’ordinateur, cela limite le nombre de couleurs considérées à 11. Parmi ces 11 couleurs, typiquement une ou deux seront sélectionnées comme couleurs représentant l’objet utilisées pour la segmentation, mais nous n’avons pas pu déterminer clairement comment savoir s’il faut conserver une ou deux couleurs. Dans l’algorithme que nous venons de présenter, 125 couleurs sont considérées, et il est facile d’augmenter ce nombre. Le nombre de couleurs à considérer comme étant les couleurs de l’objet est automatiquement déterminé à l’étape 6, et est en général supérieur à 10, mais ce nombre varie fortement selon l’objet à segmenter.

Fig. 5.14 – Schéma des trois nouveaux algorithmes de segmentation proposés s’appuyant sur les histogrammes RGB des objets et des fonds. Le premier algorithme est décrit dans la section 5.3.3, le deuxième en section 5.3.4 et le troisième en section 5.3.5.

Le figure 5.15 montre un exemple des limitations engendrées par l’utilisation des noms des couleurs. Le petit zèbre est considéré comme n’étant composé que de pixels marron clair pour les parties blanches, et marron foncé pour les parties noires. Le nouvel algorithme a pu mieux estimer l’ensemble des couleurs représentant l’animal.

Fig. 5.15 – Exemple des limitations engendr´ees par l’utilisation des noms des couleurs. `

A gauche : image originale. Au centre : résultat de la segmentation avec l’algorithme décrit en section 5.3.2 en utilisant les couleurs blanc et noir. A droite : segmentation avec l’algorithme présenté dans cette section. Les pixels du petit zèbre sont vus comme étant des teintes de marron (clair et foncé). Étendre la définition des couleurs blanc et noir pour inclure ces pixels causerait des segmentations trop larges dans d’autres images et pour d’autres objets.

Cependant, comme prévu, cet algorithme ne permet pas de corriger le problème de détection d’un objet si la couleur du fond, proche de celle de l’objet, est une couleur de l’objet dans de nombreuses autres images. Cela est illustré sur la figure 5.16 : la couleur du fond marron est aussi une couleur possible pour les tigres du Bengal et observée dans d’autres images. Le fond est de ce fait considéré à tort comme faisant partie de l’objet.

Fig. 5.16 – Résultat de l’algorithme de segmentation globale pour une image de Bengal tiger. Cet algorithme n’est pas capable de segmenter un objet dans une image où la couleur du fond est également une couleur de l’objet observée dans d’autres images.

L’algorithme que nous introduirons dans la section suivante se concentre sur la r´esolution de ce probl`eme.

A propos des paramètres, dans la cinquième étape de la segmentation, nous avons essayé d’introduire un facteur k > 1 pour n’incrémenter S que si histocentre(r, g, b) > k × histobord(r, g, b) et le décrémenter si histocentre(r, g, b) < (1/k) × histobord(r, g, b) afin d’ignorer les couleurs pour lesquels un pixel n’est pas clairement classifié comme étant objet ou fond, mais cela a eu très peu d’influence sur les résultats.

quelles couleurs sont considérées comme couleurs de l’objet est une autre fa¸con d’ignorer les couleurs qui ont statistiquement presque autant de probabilité de se trouver au centre d’une image que de se trouver au bord. Prendre S(r, g, b) > 0 revient à considérer que le nombre de couleurs de l’objet est potentiellement égal ou supérieur au nombre de couleurs du fond. Ce critère n’est pas assez sévère et faisait que des parties du fond étaient considérées comme des parties de l’objet. Utiliser un seuil positif est plus restrictif sur le nombre de couleurs de l’objet. Faire dépendre ce seuil de max(S) au lieu du nombre d’images (la plus grande valeur que S peut atteindre est le nombre d’image) nous assure de garder au moins une couleur. Nous avons essayé plusieurs valeurs et avons trouvé que S(r, g, b) > max(S)₁₀ ou S(r, g, b) > max(S)₅ (selon l’objet) offre un bon compromis alors que S(r, g, b) > max(S)₂ n’est pas assez tolérant. Une comparaison des effets de ces différents seuils est montrée sur la figure 5.17.

(a) (b) (c)

(d) (e)

Fig. 5.17 – Variation des résultats de la segmentation pour différentes valeurs du seuil, et nombre de couleurs considérées comme étant celles de l’objet, parmi les 125 couleurs issue de la quantification RGB. (a) Image originale. (b) S(r, g, b) > 0 : 37 couleurs. (c) S(r, g, b) > max(S)₁₀ : 12 couleurs. (d) S(r, g, b) > max(S)₅ : 8 couleurs. (e) S(r, g, b) > max(S)₂ : 5 couleurs. Sur cet exemple particulier, les segmentations (b) et (c) sont très proches car les 25 couleurs supplémentaires dans (b) sont en très petite quantité dans cette image. La différence est plus visible sur d’autres images où c’est sou- vent une partie du fond qui est considérée comme objet avec S(r, g, b) > 0 mais comme fond avec S(r, g, b) > max(S)₁₀ .

Nous remarquons que pour S(r, g, b) > 0 et S(r, g, b) > max(S)₁₀ , la plupart des pixels des zèbres ont été correctement conservés, mais il y a également du bruit provenant du fond, par exemple entre les pattes. Avec S(r, g, b) > max(S)₅ , il y a moins de bruit, et ce qui reste sera éliminé avec le post-traitement, mais une partie des bandes blanches est manquante (elles seront retrouvées avec l’ouverture qui est contenu dans le post- traitement). Avec le seuil S(r, g, b) > max(S)₂ , il n’y a presque plus de bruit, mais les parties manquantes sont plus larges, et ne pourront pas être retrouvées avec le post- traitement. Nous finalement décidé empiriquement de prendre S(r, g, b) > max(S)₅ comme seuil pour tous les objets.

Dans le document Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images (Page 121-125)