L’adaptation dynamique du débit vidéo au cours de la transmission

Chapitre 4 Les adaptations Cross-layer ascendantes exécutées au niveau applicatif

4.2 L’adaptation du débit vidéo en fonction du débit physique 802.11

4.2.3 L’adaptation dynamique du débit vidéo au cours de la transmission

L’une des fonctionnalités principales du nouveau système de transmission XLAVS (Cross Layer Adaptive Video Streaming) est l’adaptation des flux vidéo grâce à son module « transcoder ». Cette adaptation est exécutée au début de la session et les paramètres de transcodage sont maintenus durant toute la vie d’une session (voir section 3.4.4.5).

Cependant, les conditions de transmission dans un réseau 802.11, principalement le débit physique, peuvent varier durant la transmission des flux. Par conséquent, il est important d’assurer une adaptation dynamique du débit des flux au cours de la session et non seulement au début. Puisque le débit vidéo est nettement plus élevé que le débit audio, nous nous sommes focalisés sur l’adaptation dynamique du débit vidéo et particulièrement les flux vidéo MPEG.

4.2.3.1 Le codage vidéo MPEG

Le codage vidéo MPEG se base sur deux caractéristiques principales du signal vidéo numérique, à savoir la redondance temporelle et la redondance spatiale. La première redondance est due principalement à la similitude qui existe entre les images vidéo successives. Pour réduire cette redondance, le codage temporel est appliqué pour coder la différence qui existe entre les images. Ainsi, des images de prédiction sont générées à partir d’une image de référence. Pour augmenter les performances de la prédiction, le codage temporel utilise des estimations de mouvement entre les images. Cette estimation, donnée sous formes de vecteurs de mouvement, permet au décodeur de compenser le mouvement des blocs de pixels entre l’image prédite et l’image de référence. Le codage temporel génère trois types d’image représentés dans la Figure 4-3:

• L’image I (Intra-coded): Elle représente l’image de référence et elle ne subit aucun codage temporel.

• L’image P (Predictive): Cette image est codée en utilisant une image précédente de type I ou P.

• L’image B (Bidirectional) : Cette image est codée en utilisant une image précédente (I ou P) et une image successive (P).

I B B P B B P

Figure 4-3 : Les types d’images dans le codage MPEG

Suite au codage temporel, chaque image subit un codage spatial qui permet de réduire la similitude entre les blocs de pixel. La Figure 4-4 illustre les principales procédures d’un codage spatial.

Color downsampling

DCT

transformation ^{Quantification} ^{Entropy coding} ^Buffer Original

video picture

Compressed Video picture Rate Control

Figure 4-4 : Le codage spatial dans la norme MPEG

Au début, l’image subit un sous-échantillonnage des couleurs qui permet de réduire le nombre de bits par pixel tout en donnant plus d’importance à la luminance (Y) par rapport à la chrominance (Cb et Cr), puisque la vision humaine est plus sensible à la composante luminance (Y). Ensuite, une transformée en cosinus discrète DCT (Discrete Cosine Transform) est appliquée à l’image pour transformer les données d’un domaine spatio-temporel (pixels) vers un domaine fréquentiel (fréquences). Cette transformée permet une meilleure représentation de l’information afin qu’elle puisse être compressée. La matrice DCT générée subit un dernier traitement avant la compression réel. Ce traitement est la quantification des données qui divise la matrice de DCT par une matrice de quantification afin de rendre nulle les fréquences élevées imperceptibles pour la vision humaine. La matrice de quantification est calculée à partir d’une équation en utilisant un facteur de quantification, appelé aussi facteur de qualité. L’équation Eq. 4-1 illustre un exemple de ce calcul.

Fq j i j i Q(, )=1+(1+ + )× Eq. 4-1

Enfin, un codage en entropie est appliqué pour compresser la matrice finale en tenant compte des propriétés statistiques de ses données. Les images compressées sont stockées dans un tampon qui a pour objectif de réguler le débit vidéo. Il existe deux types de codage pour le débit vidéo :

• Le codage à débit variable VBR (Variable Bit Rate) : Avec ce codage, aucun contrôle de débit n’est effectué. Pour cela, le facteur de quantification est fixe et le débit vidéo est variable.

• Le codage à débit constant CBR (Constant Bit Rate) : Avec ce codage, le débit vidéo généré par le codec est constant. Pour cela, un algorithme de contrôle de débit est utilisé entre le tampon de stockage et la procédure de quantification. Cet algorithme utilise une mémoire tampon pour estimer le débit vidéo compressé et il fait varier le facteur de quantification pour maintenir un débit stable.

4.2.3.2 Techniques d’adaptation dynamique du débit vidéo

Dans le nouveau système de transmission XLAVS, deux techniques peuvent être utilisées pour faire varier le débit vidéo dynamiquement : la variation de la résolution temporelle et la variation de la résolution SNR.

4.2.3.2.1 Variation de la résolution temporelle

La résolution temporelle d’une séquence vidéo représente le nombre d’images par seconde. La variation de cette résolution correspond à la suppression d’images en suivant la hiérarchie temporelle, c’est-à-dire, le type d’image généré par le codage temporel. Comme le décodage d’une image B dépend du décodage d’une image P qui, à son tour, dépend d’une image I ou d’une image

P précédente, la suppression des images commence inévitablement par les images B suivies des images P.

En variant le nombre d’images par seconde suivant la hiérarchie temporelle, nous varions le débit de transmission d’une vidéo sans affecter la qualité des images transmises (pas d’artefacts dans les images durant la lecture de la vidéo). La Figure 4-5 montre la variation de ce débit pour deux flux vidéo, vidéo 1 et vidéo 2, possédant des débits initiaux différents.

25 fps 22 fps 20 fps 18 fps 16 fps 14 fps 12 fps 10 fps 8 fps 6 fps 4 fps 2 fps

Figure 4-5 : La variation du débit vidéo suivant la variation de la résolution temporelle

Les caractéristiques techniques des deux flux sont résumées dans le Tableau 4-1.

Vidéo 1 Vidéo 2

Format de Codage MPEG4

La taille d’un GOP 12

Structure d’un GOP IBBPBBPBBPBB

Résolution CIF : 352x288 pixels

Nombre d’images par seconde 25 fps

Débit moyen/max/min ^970/1064/904_Kbits/s ^{1940/2032/1800}_Kbits/s

Durée de la séquence 360 secondes

Tableau 4-1 : Les caractéristiques techniques des flux vidéo

La Figure 4-6 donne le débit moyen réalisé par les deux flux vidéo pour chaque résolution temporelle. Nous constatons que le débit des deux vidéos diminue avec la diminution du nombre d’images par seconde, mais cette déminution est en relation directe avec le débit vidéo initial. De plus, la pente de la diminution est plus importante à partir de 8 images par seconde qui correspond au début de la suppression des images P dont les tailles sont plus grandes comparées aux tailles des images B.

0 500 1000 1500 2000 2500 0 5 10 15 20 25 30 Throughput(Kbps) Frame rate (fps) Video 1 Video 2

Figure 4-6 : Le débit vidéo moyen en fonction du nombre d’images par seconde

Le premier inconvénient de la variation de la résolution temporelle est la dégradation de la qualité vidéo. En effet, le manque d’image affecte principalement le mouvement des objets dans une scène. Le mouvement n’est plus continu mais il évolue en saccade. Cet effet est plus perceptible avec des scènes d’action, comparées à des scènes fixes. Le deuxième inconvénient est la difficulté de contrôler efficacement le débit puisqu’il dépend principalement du débit vidéo initial. De plus, pour réduire un débit vidéo initialement élevé, il faut réduire d’avantage le nombre d’images par seconde. Par exemple, pour avoir un débit de 600 Kbits/s, la vidéo 1 doit transmettre 8 images par secondes, par contre la vidéo 2 doit transmettre 4 images par secondes. Ainsi, cette méthode s’avère peu attractive vu la dégradation de la qualité et la complication liée à la prédiction du débit.

4.2.3.2.2 Variation de la résolution SNR

La deuxième technique qui permet de faire varier dynamiquement le débit vidéo se base sur la résolution SNR. Cette dernière correspond au degré de finesse des images vidéo définies par les fréquences élevées d’une matrice DCT. Ces fréquences sont réduites durant le codage spatial par la procédure de quantification en utilisant le facteur de quantification. Lorsque ce dernier est élevé, le nombre de fréquences nulles dans la matrice DCT augmente. Ceci réduit la finesse de l’image, mais réduit aussi le débit de la vidéo. Par contre, lorsque le facteur de quantification est faible, la matrice DCT contiendra plus de fréquence qui font augmenter la finesse des images, et par la même, le débit vidéo.

L’algorithme de contrôle de débit utilisé par CBR se base sur le facteur de quantification pour maintenir un débit vidéo stable. Donc, pour contrôler efficacement le débit vidéo, il suffit d’agir sur cet algorithme en le réinitialisant à chaque fois avec le débit voulu. Nous rappelons que dans notre architecture, le flux vidéo est transcodé en temps réel, ce qui rend possible cette variation dynamique du débit vidéo.

La Figure 4-7 illustre parfaitement cette variation pour les deux flux vidéo précédents (voir Tableau 4-1). Les deux flux sont transcodés dans le même format de codage MPEG-4 avec la même résolution d’image. Le débit des deux flux est réduit suivant le débit souhaité dans chaque intervalle de temps. Ceci démontre le contrôle parfait du débit réalisé en variant la résolution SNR. Ce contrôle est complètement indépendant du débit vidéo initial. Le temps de réaction de l’algorithme est de l’ordre de 2 secondes et la précision de l’adaptation est de l’ordre de 50 Kbits/s.

Initial rate ^Rate 800Kbits/s Rate 500Kbits/s Rate 200Kbits/s Rate 500Kbits/s Rate

800Kbits/s ^{Initial rate}

Figure 4-7 : La variation du débit vidéo en fonction de la résolution SNR

Il est claire qu’en réduisant le débit, nous réduisons la qualité de la vidéo, mais la séquence vidéo reste fluide. La Figure 4-8 montre des captures de la même image vidéo avec différents débits : 2 Mbits/s, 1 Mbits/s, 800 Kbits/s, 500 Kbits/s, 200 Kbits/s. Nous remarquons difficilement la différence entre les images et la qualité globale reste acceptable. De plus, les mouvements des objets dans les scènes ne sont pas saccadés.

2 Mbits/s 1 Mbits/s 800 Kbits/s

500 Kbits/s 200 Kbits/s

Figure 4-8 : Captures d’images vidéo codées avec différents débits

Dans le document Adaptations inter-couches pour la diffusion des services vidéo sans fil (Page 104-108)