• Aucun résultat trouvé

La stratégie d’insertion de la marque

Comme nous l’avons présenté à la section (I.6.1) du premier chapitre, l’insertion de la marque dans un document peut nécessiter le passage par ces trois phases : codage, insertion et dissimulation. Pour le codage et l’insertion, nous avons détaillé suffisamment ces points dans la même section. En ce qui concerne la dissimulation, qui se base essentiellement sur le masquage psychovisuels, la section ci-dessous portera plus de détailles et d’explications.

III.4.1 Masquage psychovisuel

La contrainte d’imperceptibilité impose aux tatoueurs d’insérer une marque suffisamment faible et dans les composantes les moins perceptibles. L’utilisation de modèles psychovisuels permet d’augmenter la puissance de la marque sans que le gain soit visuellement perceptible. L’objectif de ces techniques est de prendre en défaut le système visuel humain HVS et d’exploiter les différentes propriétés de masquage. C’est quoi le masquage ? Pour répondre à cette question nous nous référerons à la section précédente. En accord avec la modélisation perceptuelle présentée, les signaux ayant des caractéristiques voisines sont traités par les même canaux visuels et suivent donc le même cheminement de l’œil jusqu’au cortex. Il apparaît en effet que de tels signaux interagissent entre eux et sont soumis à des effets non linéaires. L’effet non linéaire le plus considéré est l’effet de masquage. Ce dernier traduit la variation du seuil de détection d’un stimulus due à la présence d’un signal, qualifié de signal masquant, ayant des caractéristiques voisines et un niveau plus fort. De nombreux modèles de masques psychovisuels ont été proposés pour le tatouage d’images [92][93]. Ils utilisent des propriétés empiriques du système visuel humain, combinées avec une analyse statistique. Ces masques sont classés en deux catégories : les masques spatiaux et les masques fréquentiels.

III.4.1.1. Masques spatiaux

La méthode la plus intuitive et facile à mettre en œuvre consiste à tenir en compte de l’activité de l’image. En effet, la conception des masques spatiaux se base sur les trois règles suivantes :

1- Les perturbations sont beaucoup moins visibles sur les régions fortement texturées que sur les surfaces uniformes.

2- Les contours sont plus sensible à l’ajout du bruit que les régions fortement texturées mais moins sensible comparativement aux zones uniformes.

3- Les perturbations sont beaucoup moins visibles dans les régions très sombre ou fortement éclairées.

Donc les masques spatiaux sont calculés à partir de la luminance et favorisent les contours et les régions de forte texture. L’approche la plus pratique pour prendre en compte les règles citées précédemment et les caractéristiques du HVS vues dans la section (III.3.3) est l’introduction d’une pondération perceptuelle. On peut donc se contenter d’une pondération par un facteur de masquage (ψ) qui limite la puissance du watermark (W). Il est cependant

préconisé d’utiliser un masque mesurant les variations locales de luminance, car l’œil est moins sensible aux modifications d’amplitude situées prés des contours et dans les régions fortement texturées. Ce modèle psychovisuel très simple s’appelle « loi de Weber » : la sensibilité du HVS est inversement proportionnelle à l’intensité lumineuse (voir section 5.1.1 de [1]). Ces masques spatiaux conduisent souvent à des tatouages passe-haut, ce qui peut nuire à la robustesse. Le masquage de contour n’est efficace que si le masque a la même orientation que l’image. C’est pourquoi le masquage de texture est souvent privilégié. L’un des masques spatiaux les plus courants est appelé « filtre Laplacien », car il annule les dérivées secondes horizontales, verticales et diagonales de l’image [94] : le masque (ψ) est

obtenu en prenant les valeurs absolues de l’image I convoluée par un masque Laplacien (h):

𝜓𝑘1 ,𝑘2 = ℎ𝜓⨂𝐼(𝑘1 , 𝑘2) (III.27)

ℎ𝜓(𝑘, 𝑙) =19−1 −1 −1−1 8 −1 −1 −1 −1

(III.28)

Les travaux de l’équipe de T. Pun [95] s’appuient sur une pondération calculée à partir d’une constatation simple : l’œil agit comme un filtre débruiteur. Plus le filtre supprime de bruit, et moins le HVS sera sensible à ce bruit. Les auteurs définissent alors une mesure, notée NVF (noise visibility function), d’une forme similaire à celle de la pondération d’un filtre de Winner. La fonction de visibilité du bruit (FVB) est calculée à partir des variances locales de l’image et du bruit :

𝐹𝑉𝐵 = 𝑝.𝜎𝑛2

𝑝.𝜎𝑛2+𝜎𝑥2 (III.29)

σx et σn représentent respectivement les variances locales de l’image et du bruit, p représente un facteur de pondération.

L’insertion de la marque s’effectue alors de la façon suivante :

𝐼𝑤 = 𝐼 + 𝑆(1 − 𝐹𝑉𝐵). 𝑊 (III.30)

Où S est une constante qui représente la force d’insertion de la marque.

Ce masque permet donc d’insérer une marque de dynamique importante dans les régions de l’image correspondant aux textures et aux contours. Par contre, la marque insérée dans les zones uniforme est très faible car la fonction FVB est proche de 1.

III.4.1.2. Masques fréquentiels

Les masques spatiaux concentrent le watermark sur les textures er les contours de l’image. Cependant, les contours d’une image concernent peu de ponts, ce qui réduit la taille du watermark à insérer et la robustesse. De plus, une modification d’un contour peut générer des artefacts perceptibles. Cette limitation est mise en avant par Delaigle et al. [96] qui ont été les premiers à proposer un schéma de tatouage liant étroitement le Système Visuel Humain et l’insertion de la marque dans l’image. Ils préconisent l’utilisation de filtres de contraste et de motif, beaucoup plus complexes et faisant intervenir le domaine fréquentiel. Dans le domaine fréquentiel, les masques sont beaucoup plus efficaces et indispensables afin de ne pas modifier les basses fréquences (composantes les plus perceptibles) ou les hautes les hautes fréquences (les plus vulnérables aux attaques).

Bartolini et al. proposent d’améliorer un schéma utilisant la transformation en cosinus discrète (DCT) par l’utilisation d’un masque qui exploite les propriétés du HVS [97]. Le masque M crée contient des valeurs appartenant à l’intervalle [0, 1]. Il permet de pondérer l’image originale I et l’image marquée sans masque Iw pour obtenir une autre image tatouée

Iwm en tenant compte des propriétés du masque :

𝐼𝑤𝑚 = (1 − 𝑀)𝐼 + 𝑀𝐼𝑤 = 𝐼 + 𝑀𝑊 (III.31) Où W représente la marque insérée : 𝑊 = 𝐼𝑤− 𝐼

Les auteurs comparent trois méthodes différentes afin de créer des masques psychovisuels. La première est basée sur un calcul d’activité de l’image à partir de la variance locale de l’image. La seconde utilise un modèle du système visuel humain. La dernière est la méthode qui offre le meilleurs compromis invisibilité / robustesse, elle s’appuie sur une analyse des moyennes fréquences de l’image. Ces composantes moyennes fréquences, après une décomposition

DCT, sont isolées et utilisées pour l’insertion de la marque. Les auteurs prennent aussi en

compte les composantes sombres et très lumineuses de l’image, ainsi que les composantes correspondant aux contours de l’image. Le principe de la création du masque est illustré sur la figure (III.17).

Seuillage Seuillage Détection de contours Filtrage passe-bande Image originale Masque M

Figure III.17. Création de masque par le schéma de Bartolini

Une autre façon de prendre en compte le HVS est d’utiliser des seuils de perception. Ce type de seuil ne mesure pas une distorsion, mais indique la distorsion maximale autorisée sans que la modification soit visible. Au dessous de ce seuil, la modification ne pourra pas être remarquée, mais au dessus elle pourra être perçue. Ce niveau de distorsion maximal est noté JND (Just Noticeable Difference). Watson [98] a déterminé expérimentalement des seuils de perception du bruit pour les coefficients DWT, utilisés afin de calculer des matrices de quantification pour faire de la compression d’images.

Cette notion de seuil de différence juste visible a été employée par Wolfgang et al. qui ont proposés une pondération dans deux domaines transformés, l’un après transformation

DCT sur des blocs de 8x8, l’autre après une transformation par ondelettes [99]. Dans les deux

domaines, l’insertion de la signature, représentée par une séquence aléatoire de répartition gaussienne est calculée par addition :

𝑌(𝑢, 𝑣) = �𝑋(𝑢, 𝑣) + 𝐽(𝑢, 𝑣)𝑊(𝑢, 𝑣) 𝑠𝑖 |𝑋(𝑢, 𝑣)| > 𝐽(𝑢, 𝑣)

𝑋(𝑢, 𝑣) 𝑠𝑖 |𝑋(𝑢, 𝑣)| < 𝐽(𝑢, 𝑣) (III.32) Ce seuil JND représenté par J(u, v) est utilisé pour déterminer les pas de quantification des coefficients DCT lors de la compression JPEG

Sadaane et al. propose une approche qui exploite une modélisation du HVS en canaux séparables polairement [100]. La sélection des sites propices au watermarking est effectuée sur l’image des luminances. Cette sélection exploite la décomposition en canaux perceptuels de la figure (III.16). Pour chacun des sites retenus un modèle de visibilité des erreurs permet

de déterminer la force maximale au-delà de laquelle le watermark inséré engendre des dégradations visibles. Cette force maximale est ensuite utilisée pour pondérer le watermark avant son insertion.