Applications en vidéo - Approches théoriques en codage vidéo robuste multi-terminal.

Comme nous avons pu le voir, ces dernières années ont vu naître de nombreux et divers algorithmes de codage MD. Une des applications du codage MD qui a reçu le plus d’at- tention récemment est la transmission vidéo. La motivation principale pour l’utilisation du codage MD dans ce domaine est sa capacité d’assurer une qualité minimum sans nécessiter la retransmission de paquets perdus. Cette particularité rend le codage MD particuliè- rement intéressant pour des applications interactives, en temps réel, pour lesquelles une retransmission de paquets serait jugée inacceptable. Le problème posé par le codage vidéo par des descriptions multiples est lié à la prédiction de mouvement. La prédiction de mouvement est un composant fondamental dans tous les codeurs vidéo standard. Cependant, du fait de la prédiction, une erreur de transmission sur une description peut se répercuter sur un nombre important d’images ; on parle alors de drift. Il est donc impératif que les codeurs vidéo par descriptions multiples soient construits en tenant compte de l’erreur de propagation que des erreurs de transmission peuvent engendrer. La manière la plus simple de se prémunir contre cet effet de drift est d’introduire périodiquement des trames codées en Intra, ce qui a pour effet de réduire l’efficacité de codage. On suppose en général que l’erreur de prédiction dans la distorsion latérale n’est pas corrélée avec le reste de l’erreur introduite par l’encodage MD. Cette hypothèse n’est cependant plus valide si les codeurs encodent également l’erreur de prédiction.

Wang, Reibman et Lin et al. [53] ont proposé une classiﬁcation des codeurs vidéo par descriptions multiples suivant le fonctionnement de leur prédicteur et suivant le type de redondance utilisé. Les prédicteurs sont rangés en quatre classes :

A) Un prédicteur de classe A ne souﬀre pas de problème de prédiction. Ainsi, quelque soit l’état du décodeur, l’encodeur et le décodeur utilisent les mêmes signaux de prédiction. B) Un prédicteur de classe B est identique à celui qui serait utilisé pour le codage SD. Ce prédicteur minimise l’erreur de prédiction et donc n’introduit aucune redondance.

En général, un décodeur avec ce type de prédicteur ne pourra pas utiliser le signal de prédiction si les deux descriptions ne sont pas reçues, ce qui aura pour conséquence d’augmenter la distorsion latérale.

C) Enﬁn, un prédicteurs de classe C peut contrôler le compromis entre l’eﬃcacité de la prédiction et l’introduction de drift.

Les quatre types de redondance envisagés sont les suivants :

a) ρa est la redondance introduite en codant l’erreur de prédiction par le codage MD.

b) ρbest la redondance introduite en utilisant un prédicteur moins eﬃcace que le prédicteur

SD correspondant.

c) ρc est la redondance introduite en envoyant une information pour réduire l’eﬀet de drift.

d) ρd est la redondance introduite en envoyant une information adjacente.

La fonction débit-distorsion du décodeur central qui pour un débit R donne une distorsion D0 est alors exprimé ainsi :

R(D0) = R∗(D0) + ρ = R∗+ ρa+ ρb+ ρc+ ρd. (1.31)

où R∗_(D₀_{) est le débit utilisé par le meilleur codeur SD pour obtenir une distorsion D}₀_.

Parmi les codeurs MD utilisant un ou plusieurs prédicteurs de classe A se trouvent ceux qui eﬀectuent un sous-échantillonnage pour décomposer le signal d’origine en deux sous-ensembles, dans le domaine spatial, temporel, ou dans le domaine fréquentiel avant de réaliser la prédiction, en utilisant par exemple les techniques présentées dans [54]. Par exemple dans [55, 56], un sous-échantillonnage temporel produit deux descriptions codées séparément par un codeur prédictif. La redondance vient alors de la sous-optimalité de la prédiction qui s’eﬀectue sur des trames moins corrélées. Dans ce cas, le système n’introduit pas de redondance ρa mais produit une redondance ρb. Une autre stratégie consiste à

utiliser plusieurs boucles de prédiction. Par exemple, dans [57], un schéma de codage MD utilisant la technique DPCM est présenté. Deux prédicteurs sont utilisés à l’encodeur afin de simuler les deux scénarios possibles : les deux descriptions sont reçues ou l’une des deux est perdue. Les erreurs de prédiction sont ensuite codées par une DCT suivie d’une MDSQ. Un quantificateur grossier est utilisé dans les boucles de prédiction pour faire en sorte que les deux descriptions contribuent à améliorer la qualité au décodeur central. Dans ce cas, lorsque ρa augmente, l’efficacité de la prédiction augmente et ρb décroît. Une

technique n’utilisant qu’un seul prédicteur est présentée dans [58]. Elle utilise un codage SNR-scalable et génère les deux descriptions en dupliquant la couche de base et en lui adjoignant une couche supplémentaire de raffinement différente pour chaque description. La prédiction n’est alors effectuée que sur la couche de base.

Les prédicteurs de classe B sont des prédicteurs SD donc ρb = 0. Dans [58, 59], le

premier algorithme utilise une DCT pour coder l’erreur de prédiction, suivie d’une MDTC pour introduire de la corrélation. Un membre de chaque paire de coeﬃcients est envoyé dans chaque description. Les vecteurs de mouvement sont dupliqués dans les deux descriptions donc ρd est non nulle. La redondance ρa est contrôlée par la MDCT. Dans le

deuxième algorithme, les boucles de prédiction n’envoient qu’une partie de l’erreur de pré- diction des décodeurs latéraux. Dans ce cas, ρc peut être ajustée indépendamment de ρa.

Dans le troisième algorithme, seule la boucle de prédiction principale est utilisée. Dans ce cas, ρc est plus faible qu’avec le deuxième algorithme mais la distorsion latérale est plus

jamais totalement. Cependant, on peut réduire son impact en augmentant la fréquence d’apparition des trames codées en Intra.

Dans [60, 61], la prédiction d’une trame s’effectue à partir des deux trames précé- demment décodées. Le schéma de codage MD réalise un sous-échantillonnage temporel de l’erreur de prédiction par un facteur 2 afin d’obtenir deux descriptions. Lorsqu’une seule description est reçue, le décodeur ne peut se servir que d’une seule des trames qui ont servies à faire la prédiction. Dans ce cas, l’effet de drift n’est pas totalement éliminé mais il est possible de le diminuer en ajustant les paramètres de la prédiction, c’est-à-dire en augmentant la redondance ρb.

Enfin, une dernière stratégie consiste à utiliser des codes correcteur d’erreurs pour ajouter une protection inégale sur les différentes couches d’un flux vidéo scalable [45, 62, 63]. Le codage MD a également été utilisé en codage vidéo t+2D avec filtrage temporel com- pensé en mouvement. Par exemple, dans [64, 65], la redondance temporelle est introduite par des bancs de filtre 3-bandes. Une autre direction envisagée pour générer des descriptions dans un système de codage vidéo basé ondelettes est l’utilisation d’une décomposition polyphase des coefficients dans le domaine temporel et spatio-temporel [66, 67, 68].

De nombreux problèmes de communication sur réseau ne permettent pas la mise en œuvre du théorème de séparation source/canal. De plus, des contraintes telles que la né- cessité de communiquer en temps réel ou un contrôle strict de la charge du réseau peuvent empêcher la retransmission de paquets. Lorsque de telles conditions sont réunies, seul le codage conjoint source-canal peut permettre d’augmenter la robustesse. McCanne et al. [69, 70] ont proposé l’utilisation du codage conjoint source-canal pour la transmission multi- points de vidéo sur un réseau hétérogène. Dans leur approche, chaque récepteur peut choisir dynamiquement la capacité du réseau local en ajustant la qualité de la vidéo reçue. Sur un réseau tel qu’Internet, plusieurs descriptions peuvent être envoyé à un récepteur suivant plusieurs chemins [71]. Dans [72], Pereira et al. ont proposé un schéma de codage MD basé sur une DWT et une technique d’allocation de débit dérivée de [73] et adaptée au codeur vidéo 3D présenté dans [74]. Le taux de redondance est alors contrôlé automatiquement en fonction de l’état et du modèle du réseau. Ils considèrent des canaux binaires symétriques, gaussiens et UMTS. Une approche de streaming pair à pair robuste a été présenté par Padmanabhan, Wang et Chou [75], basée sur un algorithme de construction de multiples arbres de distribution aﬁn d’introduire une diversité dans les chemins réseau utilisés, et combiné avec un codage MD pour introduire la redondance dans les données transmises. Un autre système pour transmettre une vidéo sur un réseau pair à pair est présenté dans [76]. Il repose sur une architecture de codage MD qui adapte le nombre de descriptions, leur type et la quantité de redondance qu’elles contiennent en fonction de l’état du réseau.

Dans le document Approches théoriques en codage vidéo robuste multi-terminal. (Page 36-38)