• Aucun résultat trouvé

Application de la correction d'alignement temporel

Résultats objectifs des essais, Phase II du VQEG

6.4 Alignement temporel

6.4.2 Application de la correction d'alignement temporel

Pour toutes les caractéristiques de qualité, il faut que le décalage temporel calculé ici soit supprimé.

Pour les décalages positifs, on supprime des images au début du fichier traité et à la fin du fichier d'origine. Pour les décalages négatifs, on supprime des images à la fin du fichier traité et au début du fichier d'origine. En cas de resynchronisation de trame de séquences vidéo à balayage à entrelacement, la séquence traitée est soumise à une resynchronisation de trame. Il convient donc de supprimer une trame au début et à la fin de la séquence vidéo traitée en plus des suppressions susmentionnées. Il faut simultanément supprimer une image au début du fichier vidéo d'origine (pour un retard de trame global de –1) ou à la fin de ce fichier (pour un retard de trame global de +1).

La correction de l'alignement temporel a pour effet de réduire le nombre d'images disponibles dans la séquence vidéo. Dans un souci de simplicité, tous les calculs ultérieurs sont fondés sur le nombre d'images vidéo disponibles une fois que toutes les corrections liées à l'étalonnage ont été appliquées.

7 Caractéristiques de qualité 7.1 Introduction

Une caractéristique de qualité est définie comme étant une grandeur associée à - ou extraite d' - une sous-région spatio-temporelle d'un flux vidéo (d'origine ou traité). Les flux de caractéristiques qui sont produits sont fonction de l'espace et du temps. En comparant les caractéristiques extraites d'une séquence vidéo traitée étalonnée avec les caractéristiques extraites de la séquence vidéo d'origine étalonnée, on peut calculer un ensemble de paramètres de qualité (§ 8) qui donnent une indication des modifications perçues de la qualité vidéo. Le présent paragraphe décrit un ensemble de caractéristiques de qualité qui caractérisent les modifications perçues des propriétés spatiales, temporelles et de chrominance des flux vidéo. Un filtre de perception est généralement appliqué au flux vidéo afin d'accentuer certaines propriétés de la qualité vidéo perçue, comme les informations de contour. Une fois ce filtrage opéré, les caractéristiques sont extraites des sous-régions spatio-temporelles (S-T) au moyen d'une fonction mathématique (par exemple un écart type). Enfin, un seuil de perceptibilité est appliqué aux caractéristiques extraites.

Dans ce qui suit, un flux de caractéristiques d'une séquence d'origine sera désigné par fo(s, t) et le flux de caractéristiques de la séquence traitée correspondante sera désigné par fp(s, t), où s et t sont des indices qui désignent respectivement la position spatiale et la position temporelle de la région S-T dans les flux vidéo d'origine et traité étalonnés. Pour nommer les caractéristiques, qui

sont décrites dans les paragraphes qui suivent, on utilise des caractères en indice, ceux-ci étant choisis de manière à indiquer ce que la caractéristique mesure. Toutes les caractéristiques

concernent des images d'une séquence vidéo étalonnée (voir le § 6), les questions relatives à l'entrelacement étant abordées au moment de l'étalonnage. Toutes les caractéristiques sont indépendantes de la taille d'image (autrement dit la taille de la région S-T ne varie pas quand la taille d'image varie)8.

En résumé, les étapes du calcul des caractéristiques sont les suivantes. Pour certaines caractéristiques, les étapes marquées comme étant une [option] ne seront peut-être pas nécessaires.

Etape 1: [option] Appliquer un filtre de perception.

Etape 2: Subdiviser le flux vidéo en régions S-T.

Etape 3: Extraire les caractéristiques, ou les statistiques récapitulatives, de chaque région S-T (par exemple la moyenne, l'écart type).

Etape 4: [option] Appliquer un seuil de perceptibilité.

Pour certaines caractéristiques, on peut utiliser deux filtres de perception différents ou plus.

7.1.1 Régions S-T

En général, les caractéristiques sont extraites des régions S-T localisées après application d'un ou de plusieurs filtres de perception aux flux vidéo d'origine et traité. Les positions des régions S-T sont telles que les flux vidéo sont subdivisés en régions S-T contiguës. Comme le flux vidéo traité a été étalonné, pour chaque région S-T de ce flux, il existe une région S-T du flux d'origine ayant la même position spatiale et la même position temporelle dans le flux vidéo. Pour extraire les caractéristiques de chaque région S-T, on calcule des statistiques récapitulatives ou on applique une certaine autre fonction mathématique sur la région d'intérêt S-T.

Chaque région S-T correspond à un bloc de pixels. La taille d'une région S-T est décrite par:

– le nombre de pixels horizontalement;

– le nombre de lignes d'image verticalement; et

– la dimension temporelle de la région, donnée en nombre équivalent d'images vidéo d'un système vidéo à 30 fps9.

La Fig. 27 illustre une région S-T de 8 pixels horizontaux  8 lignes verticales  6 images vidéo NTSC, pour un total de 384 pixels. Dans le cas d'un système vidéo à 25 fps (PAL), cette même région S-T couvre 8 pixels horizontaux  8 lignes verticales  5 images vidéo, pour un total de 320 pixels.

Un cinquième de seconde est une dimension temporelle souhaitable, en raison de la facilité de conversion entre les fréquences d'images (un cinquième de seconde donne un nombre entier d'images vidéo pour les systèmes vidéo fonctionnant à 10, 15, 25 et 30 fps). La règle générale à appliquer pour la conversion entre fréquences d'images consiste à prendre la dimension de la région

8 On suppose implicitement que le rapport entre la distance de visualisation et la hauteur d'image reste fixe (on utilise des distances de visualisation plus courtes lorsque les images sont plus petites). On trouvera au § 9 davantage d'observations sur la distance de visualisation supposée.

9 Dans la présente Annexe, toutes les dimensions temporelles seront données en nombre équivalent d'images vidéo d'un système vidéo à 30 fps. Ainsi, une dimension temporelle de 6 images (F) représente à la fois 6 images d'un système NTSC (6/30) et 5 images d'un système PAL (5/25). Par ailleurs, on utilise 30 fps et 29,97 fps de manière interchangeable dans la présente Annexe, étant donné que cette légère différence de la fréquence d'images n'a pas d'incidence sur le calcul de la qualité VQM.

S-T en nombre d'images vidéo d'un système à 30 fps, à diviser par 30 puis à multiplier par la fréquence d'images du système vidéo testé. Les régions S-T qui contiennent une seule image vidéo sont supposées toujours contenir une seule image vidéo, indépendamment de la fréquence d'images.

La région d'intérêt spatial (SROI, voir § 3) englobant toutes les régions S-T est identique pour la séquence vidéo d'origine et la séquence vidéo traitée étalonnées. La SROI doit être entièrement comprise dans la PVR, éventuellement avec un tampon de pixels, comme cela est requis par les filtres de perception convolutifs. La dimension horizontale de la SROI doit être divisible par la dimension horizontale de la région S-T. De même, la dimension verticale de la région SROI doit être divisible par la dimension verticale de la région S-T. Un utilisateur peut ensuite contraindre la SROI à englober une région d'intérêt particulière, par exemple le centre de l'image vidéo.

1683-27

t t + 1 t + 2 t + 3 t + 4 t + 5

FIGURE 27

Exemple de taille de région S-T pour l'extraction des caractéristiques

Images vidéo Dimension temporelle (t) Dimension verticale (v) Dimension horizontale (h)

Temporellement, la séquence vidéo d'origine et la séquence vidéo traitée étalonnées sont subdivisées en un nombre identique de régions S-T, commençant à la première image vidéo alignée temporellement. Si le nombre d'images valables disponibles n'est pas divisible par la dimension temporelle de la région S-T, on ne tient pas compte des images se trouvant à la fin du clip.

Pour certaines caractéristiques, par exemple celles qui sont présentées au § 7.2, le bloc 8  8_6F permet d'obtenir une très bonne corrélation avec les évaluations subjectives. Il est toutefois à noter que la corrélation décroît lentement à mesure qu'on s'éloigne de la taille de région S-T optimale.

Des dimensions horizontales et verticales allant jusqu'à 32 voire davantage et des dimensions temporelles allant jusqu'à 30 images donnent des résultats satisfaisants, ce qui laisse une grande liberté au concepteur du système de mesures objectives pour adapter les caractéristiques au volume de stockage ou à la largeur de bande de transmission disponible [Wolf et Pinson, 2001].

Une fois que le flux vidéo a été subdivisé en régions S-T, l'axe temporel de la caractéristique (t) ne correspond plus à des images individuelles. En revanche, il contient un nombre d'échantillons égal au nombre d'images valables de la séquence vidéo étalonnée divisé par la dimension temporelle de la région S-T.

Lorsqu'on calcule simultanément deux caractéristiques ou plus, d'autres considérations deviennent importantes. Idéalement, toutes les caractéristiques devraient être calculées pour la même SROI.