Évaluation de la qualité d’usage

1.2 Qualité d’usage

1.2.2 Évaluation de la qualité d’usage

La QdU peut être mesurée à l’aide de deux moyens : les tests subjectifs ou les métriques objectives. Les tests subjectifs d’évaluation de qualité consistent en un groupe de personnes qui utilisent le service et lui attribuent une note de qualité. Cette note de qualité doit refléter leur degré de satisfaction. D’autre part, les métriques objectives de qualité sont des algorithmes établis dans le but d’automatiser le processus d’évaluation. Leurs performances sont mesurées par rapport aux résultats des tests subjectifs.

1.2.2.1 Méthodes subjectives

L’utilisateur du service multimédia est le plus apte à évaluer la qualité d’usage. Les tests subjectifs se font dans des environnements normalisés. Les conditions de test tels l’illumination de la salle, son isolation accoustique, la distance entre l’observateur et l’écran et les caractéristiques de ce dernier doivent être conformes aux normes. Par exemple, les normes P.800 [itu96] et P.910 [itu99] de l’ITU-T spécifient respectivement les méthodologies d’évaluation de la qualité des signaux audio et vidéo d’un service de visioconférence sur des réseaux à commutation de paquets. L’inconvénient des tests subjectifs est qu’ils sont coûteux en termes de temps et de moyens humains. En effet, ils nécessitent au moins 15 personnes ayant une bonne acuité visuelle pour chaque série de contenus multimédias évaluée [itu99]. Les durées des tests dépendent du nombre d’échantillons à évaluer, de leurs durées et de la nature de la tâche assignée aux participants. Pour cette dernière, si le temps réservé à l’évaluation n’est pas fixé, le test peut prendre plus de temps que dans le cas où la durée de vote est limitée.

Les notes de qualité attribuées lors de tests subjectifs sont généralement choisies par les participants à partir d’une échelle de valeurs qui leur est proposée au début du test. Cette échelle peut être numérique ou sémantique, discrète ou continue, comparative ou absolue.

Une échelle sémantique contient des adjectifs indiquant l’appréciation comme “excellente”, “bonne” ou “mauvaise”. Une échelle continue couvre un intervalle (par exemple de 1 à 100) et le sujet peut choisir n’importe quelle valeur entière appartenant à cette intervalle. Une échelle comparative sert à comparer deux versions d’un même contenu ayant subi différents traitements. Des adjectifs comme “légèrement meilleure”, “identique” et “moins bonne” sont utilisés sur de telles échelles.

Excellente Bonne Assez bonne Médiocre Mauvaise Beaucoup mieux Meilleure Légèrement meilleure Identique

Légèrement moins bonne Moins bonne

Beaucoup moins bonne

5 4 3 2 1

Fig. 1.5 – Des exemples d’échelles utilisées lors des tests subjectifs d’évaluation de qualité. De gauche à droite : une échelle comparative, une échelle catégorielle qualitative et son échelle discrète correspondante.

Des exemples de plusieurs types d’échelles sont donnés figure 1.5. L’échelle de gauche est une échelle comparative à sept niveaux tandis que l’échelle centrale est sémantique à cinq niveaux. L’échelle de droite représente les niveaux de cette dernière traduits simplement sous la forme de chiffres. Nous revenons en détails aux tests subjectifs dans le chapitre 5.

1.2.2.2 Métriques objectives

Le but de l’utilisation de métriques objectives est d’évaluer la qualité de signaux ayant subi un traitement particulier sans avoir besoin de recourir aux tests subjectifs. Les traitements peuvent être de nature dégradante comme par exemple la compression et la transmission ou améliorante tels les post-traitements d’affichage qui ont lieu après le décodage. Les métriques objectives, appelées aussi critères objectifs de qualité, peuvent être classifiées selon qu’elles exploitent ou non des propriétés du Système Visuel Humain (SVH). Stéphane Péchard [Péc08] a adopté cette classification (illustrée figure 1.6) pour les critères de qualité de vidéos. La classification de Péchard reste valide pour les autres contenus multimédias (image, audio, etc.).

Les approches signal prennent en compte uniquement les données brutes de la vidéo. Un exemple de métrique appartenant à cette catégorie est le PSNR (Peak Signal-to-Noise Ratio).

Les approches perceptuelles modélisent à différents degrés les mécanismes du SVH dans l’évaluation de la qualité d’une vidéo. Elles comprennent quatre groupes de modèles.

Les modèles basés sur les mécanismes bas niveau du SVH simulent la réponse du SVH aux stimuli ou sa sensibilité au contraste par exemple. La métrique DVQ [Wat01] est un exemple appartenant à cette catégorie.

Les modèles structurels mesurent les dégradations de l’information structurelle extraite par le SVH à partir d’une image. La métrique SSIM [Wan04] compare ainsi la luminance, le contraste et la structure de deux signaux pour fournir une note de qualité.

Les modèles avec connaissance du système dégradant sont basés sur une mesure des dégra- dations les plus communes d’un système donné. Par exemple, Farias [Far04] considère le codage

Approches signal Approches perceptuelles

Modèles basés sur des principes perceptuels Modèles structurels Modèles avec connaissance du système dégradant

Modèles basés sur le SVH bas niveau

Fig. 1.6 – Classification des critères objectifs d’évaluation de la qualité visuelle de vidéos selon Péchard [Péc08].

MPEG-2 et mesure l’effet de blocs, le flou, le bruit et l’effet ringing.

Enfin, les modèles basés sur des principes perceptuels combinent les mécanismes bas niveau du SVH avec l’extraction de traits caractéristiques de l’image (à l’aide de filtres spatio-temporels par exemple).

La validation des performances d’un critère objectif de qualité se fait par comparaison de ses notes à celles recueillies lors de tests subjectifs. Cette comparaison est principalement établie à l’aide du coefficient de corrélation entre les notes objectives et les notes subjectives MOS (Mean

Opinion Score).

Dans le document Transmission d'images et de vidéos sur réseaux à pertes de paquets : mécanismes de protection et optimisation de la qualité perçue (Page 30-32)