• Aucun résultat trouvé

Les schémas de codage basés contenu avec évaluation perceptuelle

3.5 Codage vidéo par analyse/synthèse de contenu

3.5.1 Les schémas de codage basés contenu avec évaluation perceptuelle

Le postulat sous-jacent de ce type de solutions admet qu’une texture qui compose une image peut être remplacée par une autre qui lui “ressemble”. Par exemple, l’herbe d’un terrain de foot ne doit pas nécessairement être identique à l’originale pour que le téléspectateur l’interprète comme telle. En fait, n’importe quelle texture d’herbe (plus claire ou plus foncée, présentant des motifs diffé-rents...) suffira à duper le système visuel humain pour que la scène semble naturelle. Avec ce type de formulation, nous retombons dans l’expression du problème de synthèse de texture. L’intérêt que nous avons à l’utiliser dans un contexte de codage d’image réside dans le fait qu’une texture peut être représentée par un nombre restreint d’information (comme nous l’avons vu précédemment), et peut donc contribuer à réduire le coût de codage d’une image.

Ces méthodes ne donnent pas à elles seules de résultats de codage satisfaisants : elles sont la plupart du temps couplées à des méthodes de codage classiques (codage hybride) avec lesquelles elles entrent en coopération ou en compétition. Un schéma de codage vidéo basé objet, de type MPEG-4 Visual (présenté et illustré dans la section 2.3.3), est particulièrement bien adapté à la représentation et à la compression de ce type de codage hybride. Pour tirer bénéfice de ces méthodes, de nouvelles techniques d’évaluation de la qualité sont par ailleurs nécessaires (voir [102]) car l’erreur quadratique moyenne, utilisée classiquement en codage, n’est plus pertinente pour des contenus synthétisés ou mixtes.

Nous pouvons faire le lien entre ces méthodes et les algorithmes de dissimulation d’erreur de trans-mission. L’objectif de remplir de façon naturelle des régions manquantes d’une image est commun,

3.5 Codage vidéo par analyse/synthèse de contenu 67 mais le type d’application est différent. Dans le cas qui nous intéresse, la finalité est d’améliorer les performances en terme de compression des encodeurs actuels.

Les méthodes présentées ci-dessous reposent sur une analyse sémantique de la scène, en prenant en compte les mouvements de caméra et/ou le déplacement des objets de la scène. Cette étape est nécessaire car elle assure une cohérence temporelle des éléments synthétisés : une texture créée dans une frame t doit être recopiée à l’identique dans toutes les frames suivantes au risque de créer un effet de scintillement à la lecture de la séquence. Ceci implique une segmentation spatio-temporelle assez lourde et non robuste, ce qui est à notre sens une des limites de ce type d’approche.

Dumitras et Haskell [55] ont proposé une méthode de compression vidéo par remplacement de tex-ture. En amont de l’encodeur, une analyse permet d’identifier et d’extraire les textures de l’image. La séquence résultante est codée de façon classique, et les paramètres statistiques des textures sup-primées sont transmis. Au décodeur, les régions manquantes sont synthétisées par une approche paramétrique et insérées dans la séquence. Bien que des gains significatifs soient obtenus pour cer-taines configurations d’encodage et types de contenus (jusqu’à 55% par rapport à H.264/AVC), les contraintes sur la taille des textures supprimées (au minimum 40% de la taille des images pour être rentable, sur au moins 50 images), le peu de fiabilité de la méthode de segmentation spatio-temporelle des textures et la nécessité d’avoir une séquence sans mouvement global font que la méthode n’est pas viable pour un codeur vidéo générique. De plus, aucun contrôle sur la qualité visuelle de la texture ne permet de garantir à tous les coups que la méthode de synthèse soit efficace.

Zhu et al. [166, 167] ont proposé un schéma de codage vidéo basé sur H.264/AVC et intégrant une méthode de détection et de synthèse non-paramétrique de texture sur les frames de type “B”, selon un partitionnement par bloc 8 × 8 pixels. Les frames “I” et “P” d’un GOP2 sont utilisées en tant qu’échantillon source pour la synthèse de texture. En exploitant les informations de compensation en mouvement des blocs, chaque GOP subit une segmentation spatio-temporelle reprise de [91]. Ainsi, une représentation temporelle adéquate permet de suivre une même portion d’image tout au long du GOP, indépendamment des mouvements de caméra et d’objets dans la séquence. Chaque bloc est classifié en tant que “structure” ou “texture” en utilisant un algorithme simple de détection de contour. Les blocs de texture seront synthétisés, alors que les structures seront codées par H.264/AVC, au même titre que les frames “I” et “P”. Cette étape de segmentation est la clé principale de ce type de méthode car elle assure la stabilité spatiale et temporelle des textures synthétisées de la séquence. En effet, le procédé de synthèse prend en compte les aspects aléatoires d’une texture, ce qui a pour conséquence de ne pas pouvoir reproduire exactement une texture (au sens du PSNR) dans deux frames différentes. Dans ce cas, cela se traduit par une gêne perceptuelle qui donne l’impression qu’une texture “bouge” dans le temps. Ce point est un handicap par rapport aux même types de méthodes cantonnées à la compression d’images fixes [89, 90, 151], beaucoup plus efficaces pour ce type d’application. Basée sur une estimation visuelle de la qualité, la méthode proposée par Zhu et al. peut atteindre 38.8% de gain de débit à qualité équivalente par rapport à H.264/AVC.

La segmentation spatio-temporelle basée bloc est reprise dans [101] (qui donne suite aux travaux des mêmes auteurs dans [102, 103, 100, 104]). De la même façon que dans Zhu et al., les frames “I” et “P” sont codées en respectant le standard H.264/AVC, selon le principe débit-distorsion basé sur une mesure MSE. Seules les frame “B” sont traitées dans la boucle de codage par analyse-synthèse. Après analyse d’un GOP de la séquence, la méthode propose deux types de synthèses pour les textures respectivement rigides et non rigides dans le temps (e.g. l’eau, le feu, ...) ; la synthèse de texture rigide est notée STr, et de façon complémentaire STnr).

2. Group Of Pictures

En ce qui concerne la synthèse de texture rigide STr, l’analyse du GOP a permis d’établir un masque de segmentation pour chaque frame. Ensuite, un traitement reposant sur un procédé de

warping (ou déformation), basé sur un modèle de mouvement présenté dans [106], permet de faire

correspondre une région de texture d’une frame de référence à une région de texture d’une frame à synthétiser. Les parties manquantes de texture, à cause d’effets de recouvrement-découvrement d’objets, sont synthétisées en utilisant une méthode non-paramétrique basée pixel (du type 3.3.2.1). Les informations transmises pour permettre de reconstruire l’image au décodeur sont, par type de texture, le masque de segmentation correspondant, les paramètres de mouvement (quantifiées et déquantifiées), et une référence pour indiquer la frame source.

Le module STnr est inspiré des travaux de Kwatra et al. [82] (voir 3.3.2.2) pour permettre de synthétiser un volume 2D + t de texture. Dans ce contexte, les images disponibles à l’extrémité du GOP définissent un état de départ et d’arrivée de la texture pour contraindre le procédé de synthèse, ainsi qu’un ensemble d’échantillons sources de texture. Les informations nécessaires au décodeur pour synthétiser chaque texture non rigide sont le masque de segmentation et ses paramètres de mouvement pour assurer l’alignement temporel de la texture.

Pour estimer la qualité des textures synthétisées, Ndjiki et son équipe ont mis au point un outil de contrôle de qualité visuelle VQA3 basé sur un modèle psychovisuel inspiré de [109]. La méthode, présentée comme à peine trois fois plus complexe qu’une mesure de PSNR, permet de mettre en évidence les artefacts introduits par le procédé de synthèse. Grâce à cet outil, la qualité des deux procédés de synthèse STr et STnr peut être mesurée. En cas d’échec de synthèse selon un critère débit-distorsion, l’encodeur conventionnel H.264/AVC est employé pour transmettre la texture. A notre sens, plusieurs difficultés montrent que ce type d’approche possède ses limites dans un contexte de codage vidéo :

– difficulté à proposer une analyse sémantique de la scène robuste et efficace.

– difficulté à proposer une métrique de qualité prenant en compte des aspects psychovisuels. – schémas de codage hybrides qui posent des problèmes d’intégrations avec H.264/AVC.

Sur ce dernier point, nous avons vu que le mécanisme interne du standard H.264/AVC est en grande partie basé sur la prédiction (2.3.2) en prenant en compte les blocs voisins préalablement codés (que ce soit en intra ou en inter). Or, en proposant une alternative au codage, ce mécanisme de prédiction est rompu et affaiblit les performances en compression de la partie H.264/AVC. Enfin, l’assemblage de régions codées par H.264/AVC et de textures synthétisées au sein d’une séquence peut engendrer une gêne perceptuelle en formant un ensemble peu naturel. Par exemple, nous pouvons concevoir qu’une texture très détaillée qui est synthétisée dans un contexte de codage à bas débit puisse contraster avec la portion très dégradée de la séquence. Il s’agit ici de définir un juste équilibre du compromis débit-distorsion entre les deux approches de codage, alors qu’aucune métrique de qualité viable, pour mesurer une texture synthétisée, ne semble faire l’unanimité.

En conclusion, bien que les méthodes décrites ci-dessus soient élégantes dans leur approche et qu’elles proposent un schéma de codage très innovant, il est difficile avec de tels mécanismes de proposer un encodeur générique satisfaisant. Il y a, à notre sens, beaucoup de verrous techniques qui en limitent les résultats : mesure de qualité subjective, segmentation spatio-temporelle robuste, etc. La section suivante tente de remédier à ces contraintes avec une approche différente.

3. Video Quality Assessor

3.5 Codage vidéo par analyse/synthèse de contenu 69

(a) Portion de l’image d’origine

(x1000)

(b) Coût débit-distorsion

Figure3.11 – Illustration du coût débit-distorsion par macro-bloc de H.264/AVC en codage intra-image.