• Aucun résultat trouvé

Technique de compression temporelle

Chapitre 2 :Impact de la compression video en Téléchirurgie à longue distance

III. Techniques de compressions

III.3. Différents modes de compression 137

III.3.4. Technique de compression temporelle

Elle a pour but de diminuer la redondance d’information entre plusieurs images entre elles.

Lorsque l’on code une succession d’images qui compose une vidéo, on fait intervenir la

compression temporelle. Afin de diminuer les redondances temporelles d’une séquence, on va utiliser

le codage différentiel et la compensation de mouvement.

En effet, dans une vidéo faisant défiler 25 images par minute, il existe des redondances entre

les différentes images. Nous avons par exemple un paysage fixe avec un sujet en mouvement dans

l’image i. Le sujet en mouvement n’est pas au même endroit dans le paysage entre l’image i et l’image

i+1. Cependant, de nombreux éléments sont identiques entre deux images successives voir même

plusieurs images successives (Figure 65). Une des solutions va pouvoir être de ne coder que les

différences entre les deux images. Dans ce dessein, le mouvement peut être déterminé par des

vecteurs de mouvements.

1)

2)

Dans une même image, nous allons avoir différentes zones :

- les zones d’images Fixes (zones F). À ce niveau, la compression spatiale va s’applique à

réaliser une compression offrant une bonne définition spatiale de l’image (a) avec des

détails bien visibles. Cette image (a) va ensuite servir à prédire l’image (a+1) au niveau des

zones F (exemple de la maison dans la Figure 65).

- les zones d’images Mobiles (zones M). Cette zone concerne une portion de l’image i en

mouvement. Entre l’image (a) et l’image (a+1), on va avoir une translation de l’élément en

mouvement (exemple du sujet qui court dans la Figure 65: Compression temporelle). À ce

niveau, on va privilégier la résolution temporelle à la résolution spatiale. Une analyse du

mouvement va donc être nécessaire.

Figure 65: Compression

temporelle.

1) images successives

avec mouvement.

2) détermination des

zones Fixes (orange) et

Mobiles (verte) entre

l’image initiale et les

suivantes.

- À noter qu’entre une image (a) et une image (a+1), l’information de différence va être

appelée « signal d’erreur ».

La Figure 66 présente un exemple chirurgical concret, où nous envisageons un exemple issu

d’une vidéo réalisée au cours d’une procédure chirurgicale au robot. On visualise sur cette figure 2

images consécutives extraites d’une vidéo de tumorectomie rénale. À l’œil nu, il ne semble pas exister

de différence entre l’image (a) et l’image (a+1) et on pourrait même envisager qu’il s’agit d’une seule

et même image. Par un procédé de soustraction d’image (a) – (a+1), on peut déterminer

informatiquement quelle est la différence entre les deux images. Cette différence est appelée source

d’erreur.

Figure 66 : Vue per-opératoire d'une tumorectomie. Image (a) et (a+1)

La source d’erreur, c’est-à-dire, la différence entre les 2 images consécutives (a) et (a+1) de la Figure

66, est représentée Figure 67. On notera que l’élément où ressort une différence plus importante est

localisé sur le ciseau qui, dans la vidéo, est l’élément le plus mobile puisque le chirurgien est en train

de sectionner le parenchyme rénal.

Figure 67 : Source d'erreur entre l'image (a) et (a+1)

On va donc utiliser cette redondance entre deux images consécutives pour diminuer la

quantité d’information à transmettre. Cela fait intervenir le codage différentiel. Il utilise une image

dite de référence I (I pour Intra) et on va ensuite comparer l’image qui suit I+1 à cette image de

référence I pour déterminer les éléments qui se sont modifiés entre les deux. On va ensuite appliquer

une méthode de prédiction adaptative du contenu d’une image en mouvement. Il s’agit d’anticiper le

mouvement d’un élément à partir des images antérieures. On doit donc réaliser une estimation du

mouvement. Cette estimation sera d’autant plus optimale que la vitesse sera modérée et le

mouvement homogène. L’estimation sera appliquée sur les blocs de pixels appartenant aux zones M

(mobiles). On essaie de prédire, de l’image précédente, la position de ce bloc dans l’image actuelle. Il

existe deux méthodes de prédiction avec compensation de mouvement :

- Méthode des équations récursives : consiste à extrapoler le mouvement (méthode peu

robuste non développée ici).

- Méthode des vecteurs de mouvements : ils mettent en correspondances les éléments en

mouvement dans une image et les précédentes (la plus utilisée notamment dans les

algorithmes de type MPEG).

On obtient donc après l’image de référence I, une image prédite P. Dans une vidéo

compressée, on intercalera périodiquement une image i puis, on en déduira les images P suivantes.

Cependant, ces images I et P ne sont pas suffisantes pour pouvoir compresser efficacement

une vidéo. En effet, dans certaines scènes, des éléments nouveaux peuvent intervenir. Mais ces

éléments nouveaux ne pourront pas êtres prédits des images I antérieures puisqu’ils ne sont pas

encore apparus dans ces images passées. Ils appartiennent aux images futures. Apparaissent à ce

niveau le troisième type d’images qui va être intégré : l’image bidirectionnelle ou image B. Cette image

B va également être une image prédite mais prédite d’une image I ou P passée ou future par rapport à

elle-même. Elle ne peut pas être prédite par rapport à une autre image B ce qui limite les possibilités

de transmission d’erreurs.

Il faut cependant, lors de la réception des images par le décodeur, qu’en cas d’image B prédite

d’une image I ou P future, ces images I ou P futures arrivent avant l’image B qui leur correspond

(Figure 68).

Figure 68 : Séquence de vidéo compressée selon MPEG

Lors de la transmission d’une séquence vidéo compressée, on va répertorier des GOP (Group

Of Picture). Ces GOP débuteront toujours par une image i de référence qui sera la première à encoder.

On retrouvera ensuite une succession d’image p et b. Les images p apparaissent à intervalles réguliers

et les images b seront intercalées entre les images p. Hormis la présence d’une première image i dans

le GOP, l’organisation des images est très variable et dépendante des algorithmes de compression.

Documents relatifs