Les méthodes de compensation de mouvement

2.8 Cas des séquences animées

2.8.2 Les méthodes de compensation de mouvement

Les industries de la télévision, de la vidéo et de la cinématographie utilisent de nombreux formats d’image. La résolution spatiale ou la fréquence d’images peuvent varier dans ces formats.

La fréquence d’images représente le nombre d’images par seconde. Par exemple, un film 35 mm est tourné à 24 images par seconde, alors que la télévision utilise 30 images/seconde en Amérique du Nord et 25 images/seconde en Europe. Il existe donc un besoin pour convertir les fréquences d’images [11].

La conversion des fréquences d’images peut être réalisée par une répétition des images, par un filtrage temporel ou par une interpolation à compensation de mouvement. La répétition des images produit un mouvement saccadé et les filtres temporels produisent des zones de mouvement floues [45]. Ces méthodes simples sont inadéquates lorsqu’on désire des images de haute qualité et de la finesse dans les mouvements. Bien que la méthode de l’interpolation des images à compensation de mouvement (IICM) soit plus complexe à réaliser, elle offre de bien meilleurs résultats que ceux obtenus par les autres méthodes. Le défi à relever est d’estimer de manière précise le mouvement réel entre les deux images et de traiter adéquatement les surfaces couvertes et nouvellement exposées créées par l’occlusion des mouvements.

Le CRC-FRC est un algorithme de conversion évolué de fréquences d’images pour les films de haute qualité et la conversion temporelle vidéo. Le cœur de CRC-FRC est une technique brevetée permettant l’interpolation de trames par compensation de mouvements basée sur les objets. Comme il est axé sur les objets images plutôt que sur des blocs ou des pixels, le CRC- FRC permet d’estimer avec une précision supérieure le vrai mouvement des objets. De nouvelles images sont créées par interpolation temporelle à compensation de mouvement entre deux images d’entrée et la direction du mouvement. Cette méthode produit des images de qualité supérieure et un mouvement plus harmonieux, comparé à une répétition d’images uniques, au filtrage temporel ou à l’interpolation d’images à compensation de mouvement conventionnelle.

Le mouvement réduit la similitude entre deux images et augmente la quantité de données nécessaires à la création de l’image de différence. La compensation de mouvement est utilisée pour accroître cette similitude. Le schéma ci-dessous en montre le principe.

Fig. 2.3 – Schéma de principe de la compensation de mouvement.

Quand un objet se déplace sur l’écran TV, il apparaît à un endroit différent, mais il ne change pas beaucoup d’aspect. La différence d’image peut être réduite en mesurant le déplacement au codeur. Ce déplacement est transmis au décodeur sous la forme d’un vecteur. Le décodeur utilise ce vecteur pour décaler une partie de l’image précédente vers l’emplacement approprié dans la nouvelle image. Un vecteur concerne le déplacement d’une zone entière de l’image appelée " macrobloc ". La taille d’un macrobloc est déterminée par le codage DCT et la structure de sous- échantillonnage couleur. La figure a, ci-dessous, montre que, dans un système 4 :2 :0, l’espacement horizontal et vertical des échantillons couleur est exactement le double de l’espacement de la luminance. Un simple bloc DCT de 8x8 échantillons couleur couvre la même surface que 4 blocs de 8x8 échantillons de luminance. C’est pourquoi c’est la taille minimale de la zone d’image qui peut être déplacée par un vecteur. Un macrobloc 4 :2 :0 contient donc 4 blocs de luminance, 1 bloc Cr et 1 bloc Cb. Dans la profil 4 :2 :2, la couleur n’est sous-échantillonnée que dans l’axe horizontal [68].

Fig. 2.4 – Sous-échantillonnage de chrominance 4 :2 :0 et 4 :2 :2.

La figure ci-dessus, montre que, dans un système 4 :2 :2, un simple bloc de 8x8 échantillons de chrominance couvre la même surface que deux blocs de 8x8 échantillons de luminance. Un macrobloc 4 :2 :2 contient donc 4 blocks de luminance, 2 blocs Cr et 2 blocs Cb. Le calculateur de mouvement utilise la comparaison des données de luminance entre deux images successives. Un macrobloc de la première image est utilisé comme référence. Quand le signal d’entrée est entrelacé, les pixels se trouveront à des endroits différents dans les deux trames et il sera alors nécessaire d’interpoler une trame avant de la comparer à une autre. La corrélation entre la référence et l’image suivante est effectuée pour tous les sens possibles de déplacement avec une résolution de 1/2 pixel dans toute la plage de recherche. Quand la plus grande corrélation est trouvée, elle est censée représenter le mouvement correct. Le vecteur de mouvement a une composante verticale et une composante horizontale. Dans une image de programme normal, le mouvement s’étend sur plusieurs images. On obtient un meilleur facteur de compression en transmettant différentiellement le vecteur de mouvement. Par conséquent, si un objet se déplace à vitesse constante, les vecteurs ne changent pas et la différence de vecteur est nulle. Les vecteurs de mouvement sont associés à des macroblocs et non à des objets réels de l’image ; il peut se trouver

des occasions où une partie seulement du macrobloc se déplace et l’autre pas. Il est impossible, dans ce cas, d’effectuer convenablement la compensation. Si le déplacement de la partie mobile est compensé par la transmission d’un vecteur, la partie fixe sera déplacée indûment et devra être corrigée par des données de différence. Si aucun vecteur de mouvement n’est transmis, la partie fixe sera correcte mais il faudra des données de différence pour corriger la partie mobile. Un compresseur devra donc essayer les deux méthodes et sélectionner la moins exigeante en données de différence [102].

En MPEG, trois différents types d’image sont nécessaires pour effectuer le codage différen- tiel et le codage bidirectionnel avec un minimum d’erreurs de propagation : Les images I sont intra-codées et ne nécessitent pas d’information supplémentaires pour être décodées. Elles néces- sitent beaucoup de données comparativement aux autres types d’image et c’est pourquoi elles ne sont transmises que quand cela est nécessaire. Elles consistent essentiellement en cœfficients de transformée et n’ont pas de vecteur de mouvement. Elles autorisent la commutation de voies et bloquent la propagation des erreurs. Les images P sont celles qui sont déduites d’une image antérieure qui peut être de type I ou P. Les données d’une image P sont constituées de vecteurs décrivant où chaque macrobloc doit être pris dans l’image précédente et des cœfficients non trans- formés décrivant la correction ou les données de différence à ajouter à ce macrobloc. Les images P comportent pratiquement la moitié des données d’une image I. Les images B sont prédictées bidirectionnellement à partir d’images antérieures ou postérieures de type I ou P. Les données des images de type B consistent en vecteurs décrivant l’endroit où les données doivent être prises dans les images antérieures ou postérieures. Elles contiennent également les cœfficients de trans- formée fournissant la correction. La prédiction bidirectionnelle est si efficace que les données de correction sont minimes et que l’image de type P utilise pratiquement le quart des données par rapport à une image de type I. Introduisons le concept de Groupe d’Images (GOP = Group Of Pictures). Le GOP commence par une image I, suivie de quelques images P espacées et entre lesquelles se placent les images restantes qui sont de type B. La fin du GOP se situe à la dernière image précédant immédiatement une nouvelle image I. La longueur d’un GOP est variable, mais la valeur la plus courante se situe entre 12 et 15. En fait, si les données d’une image B doivent être utilisées pour construire une image ultérieure, ces données doivent rester disponibles dans le décodeur. Par conséquent, le codage bidirectionnel implique que les données soient extraites de la séquence et provisoirement sauvegardées [102].

Fig. 2.5 – L’ordonnancement du Flux vidéo.

La figure ci-dessus montre également que les données de l’image P sont émises avant celles de l’image B. Notez également que les dernières images B du GOP ne peuvent être transmises qu’après la première image I du GOP suivant dans la mesure où elles ont besoin de son contenu pour être décodées bidirectionnellement.

Afin de replacer convenablement les images dans leur ordre, une référence temporelle est in- cluse dans chaque image. Comme des en-têtes sont régulièrement insérés dans le flux de données, un fichier MPEG peut être affiché dans l’ordre chronologique sur un ordinateur, par exemple. L’extraction des données d’image d’une séquence non seulement nécessite un supplément de mémoire dans le codeur et le décodeur mais aussi génère du retard. Le nombre d’images bidi- rectionnelles insérées entre des images d’autres types doit être réduit pour diminuer le coût des équipements et limiter le retard si celui-ci doit répondre à des contingences. Un compromis doit être fait entre le facteur de compression et le retard de codage.

Pour une qualité donnée, l’émission d’images I uniquement double pratiquement le débit par rapport à une séquence IBBP. Quand les facilités de montage sont essentielles, une séquence IB constitue un compromis pratique.

Dans le document Outils de compression et de crypto-compression : Applications aux images fixes et vidéo (Page 74-80)