Méthode basée sur les blocs - Extraction des caractéristiques

2.1 Détection de falsification par CM

2.1.1 Extraction des caractéristiques

2.1.1.2 Méthode basée sur les blocs

Cette méthode est basée sur le fait qu’il existe une relation entre la région de l’image origi-nale copiée et la région collée. Pour l’extraction de caractéristiques, la méthode basée sur des blocs subdivise l’image en de régions rectangulaires. Pour chacune de ces régions, un vecteur de caractéristiques est calculé. Les vecteurs caractéristiques similaires sont ensuite appariés.

Les méthodes basées sur les blocs peuvent être regroupées en quatre catégories : les caractéris-tiques basées sur le moment, sur la réduction de dimension, sur l’intensité et sur le domaine fréquentiel.

En général, les méthodes basées sur les blocs suivent un même canevas. La figure ci-dessous illustre les étapes de cette méthode :

FIGURE2.1 – Schéma illustrant la méthode basée sur les blocs

Voici quelques travaux effectués pour l’extraction de caractéristiques par la méthode de bloc.

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

• Caractéristiques basées sur les moments

– La méthode proposée par Mahdian et Saic[9] qui utilise les moments invariants de flou pour représenter des régions d’image car ils ne pouvaient pas être affectés par la dégradation du flou et du bruit additif. Leur méthode commence par la division des images par blocs d’une taille particulière. Chaque bloc est représenté avec des invariants de flou. Le vecteur de caractéristiques de chaque bloc est de longueur 72.

Celles-ci sont normalisées afin d’améliorer les capacités de détection de duplication de l’algorithme. Ils ont appliqué la transformation en composantes principales (PCT) pour réduire la dimension du vecteur de caractéristiques. L’algorithme k-d tree est ensuite utilisé pour l’analyse de similarité des blocs.

– La méthode proposée par Ryu et al[10] qui permet de faire une détection à l’aide de moments Zernike. Puisque la magnitude des moments de Zernike est algébri-quement invariante par rapport à la rotation, la méthode proposée peut détecter une région forgée même si elle a subit une rotation. Le système résiste également aux dis-torsions intentionnelles telles que le bruit gaussien, le blanc additif, la compression JPEG et le flou.

• Caractéristiques basées sur la réduction de la dimensionnalité

– La méthode proposée parPopescu et Farid[11] qui utilise PCA (Analyse en Compo-sante Principale). Leur méthode est similaire à l’approche DCT et permet de mieux saisir les caractéristiques discriminantes. La méthode PCA est utilisée pour repré-senter les différents blocs de manière alternative. PCA est capable de détecter des variations même mineures dues au bruit ou à une compression avec pertes. Leur mé-thode ne concerne que les images en niveaux de gris. Cependant, la mémé-thode peut également fonctionner pour les images couleur en traitant l’image pour chaque ca-nal de couleur, ce qui donne trois cartes de duplication. Ensuite, PCA est appliquée à chaque carte séparément pour détecter les contrefaçons. Leur méthode est très ef-ficace pour détecter les contrefaçons par copie-transfert et génère également moins de faux positifs. Cependant, l’efficacité diminue lorsque la taille du bloc diminue et également si la qualité de l’image est faible.

– La méthode proposée par Ting et Rang-ding[12] qui utilise la décomposition en va-leurs singulières (SVD). L’algorithme développé est moins complexe du point de vue informatique et résiste aux techniques de post-traitement. Ils ont utilisé la corrélation entre les régions copiées et collées et recherché des régions identiques. Dans un pre-mier temps, ils ont divisé l’image en plusieurs petits blocs superposés. Ensuite, ils ont appliqué SVD à chaque bloc et extrait des vecteurs uniques de valeurs singulières pour chaque bloc. À l’aide de ces vecteurs, ils ont trouvé les blocs correspondants en

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

transformant chaque caractéristique du bloc en un arbre k-d. Ils ont utilisé une va-leur de seuil pour augmenter la robustesse. Leur algorithme a détecté avec succès la falsification, même lorsque le post-traitement est effectué sur les images. Cependant, il ne parvient pas à détecter que sur deux blocs correspondants, quel bloc est copié et quel bloc est collé.

– La méthode proposée parBashar et al[13]. Dans cette méthode, ils proposent une ap-proche de détection de duplication pouvant adopter deux fonctionnalités robustes basées sur la transformation en ondelettes discrète (DWT) et analyse des composants principaux du noyau (KPCA). Ils ont utilisé ces méthodes en raison de leur fonc-tionnalité de correspondance de blocs robuste. Ils ont divisé l’image en plusieurs blocs de petite taille. Ils ont calculé des vecteurs basés sur KPCA et des vecteurs DWT pour chaque bloc. Ces vecteurs sont ensuite disposés dans une matrice pour le tri lexicographique. Les blocs triés sont utilisés pour trouver les points similaires et on calcule leurs fréquences de décalage. Pour éviter les fausses détections, ils ont placé une valeur seuil pour la fréquence de décalage. Ils ont développé un nouvel algorithme pour détecter les types de contrefaçon par rotation à l’aide d’une tech-nique d’étiquetage et d’une transformation géométrique. Cet algorithme a montré des améliorations prometteuses par rapport à l’approche PCA conventionnelle. Il détecte également les faux qui ont un bruit additif et une conversation JPEG avec perte.

– La méthode proposée par Zimba et Xingming[14]. Ici on propose une nouvelle mé-thode de détection des contrefaçons par copie-déplacement. Après la conversion de l’image couleur en une image en niveaux de gris, ils ont appliqué DWT à l’image entière. Cela donne quatre sous-bandes, à partir desquelles la sous-bande basse fré-quence qui contient plus d’information suffit pour effectuer le processus de détec-tion. Après division de l’image en plusieurs blocs qui se chevauchent, on applique l’analyse en composantes principales avec la décomposition en valeurs propres (PCA-EVD) sur les blocs. Ils ont placé ces vecteurs de caractéristiques dans la matrice et fait un tri lexicographique sur les entrées. Cette méthode de tri rend la correspondance moins complexe. Ils ont calculé le vecteur de décalage normalisé, puis la fréquence de décalage. Cette fréquence de décalage est soumise à un traitement morphologique pour donner des résultats finaux. Ils ont rendu cette méthode plus efficace que la mé-thode PCA conventionnelle en réduisant la taille de l’image au début du processus.

Leur algorithme peut détecter les duplications impliquant une rotation à des degrés divers. Ils comprenaient des opérations morphologiques pour éviter les fausses dé-tections. Le seul inconvénient est que la région dupliquée doit être supérieure à la taille du bloc, sinon elle ne peut pas être détectée. En outre, leur méthode ne détecte pas les contrefaçons impliquant une mise à l’échelle, une rotation et une compression importante.

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

• Caractéristiques basées sur l’intensité

– L’étude proposée parLuo et al[15]. Dans cette méthode, ils divisent l’image en plu-sieurs blocs qui se chevauchent. Ensuite, les blocs sont répartis en deux parties égales et quatre directions. Un vecteur de caractéristiques de bloc est calculé pour tous les blocs à l’aide de l’opération AWGN (Additive White Gaussian Noise) et un tri lexico-graphique est fait. Etant donné que chaque paire de vecteurs de caractéristiques de bloc similaires ne représente pas nécessairement une région dupliquée de l’image, une méthode est développée pour déterminer quelles paires représentent réellement la région dupliquée. Pour ce fait, ils ont utilisé la méthode du vecteur de décalage en définissant une valeur particulière de vecteur de décalage et deux blocs sont considé-rés comme égaux lorsque le vecteur de décalage de cette paire le dépasse. Le vecteur de décalage le plus élevé est trouvé et les paires sont écartées, leurs vecteurs de dé-calage étant très différents de cette valeur. Ensuite, ils ont utilisé une méthode pour s’assurer que la falsification est réellement faite ou non. Leur algorithme a une com-plexité informatique inférieure et est robuste pour les opérations de post-traitement.

Il ne tient bien que lorsque les régions forgées sont plus grandes que la taille du bloc. Cependant, l’algorithme échoue lorsque les images sont fortement déformées et comportent de grandes régions lisses.

– La méthode proposée par Bravo-Solorio et Nandi[16]. Ils ont mené une étude sur la technique de détection impliquant la réflexion, la rotation et la mise à l’échelle. Ils ont divisé l’image sous forme de bloc de pixels et calculé des vecteurs de caracté-ristiques dépendant de la couleur. De ce fait, ils ont réduit le nombre de recherches, augmentant ainsi l’efficacité. Ils ont calculé quatre caractéristiques parmi lesquelles trois sont calculées indépendamment en tant que composantes rouge, verte et bleue.

La quatrième caractéristique est calculée comme l’entropie du canal de luminance.

Ils ont utilisé cette quatrième fonctionnalité pour éliminer les blocs contenant des in-formations de textures insuffisantes. Ces fonctionnalités sont répertoriées après un tri lexicographique, puis la correspondance est effectuée. Ils ont utilisé des descrip-teurs unidimensionnels pour réduire l’utilisation de la mémoire. Ces descripdescrip-teurs unidimensionnels sont invariants à la rotation et à la réflexion. Cette méthode est plus efficace que beaucoup d’autres méthodes en termes de calcul et de détection de régions altérées avec post-traitement.

– La méthode proposée par Lin et al[17]. Dans cette méthode, ils ont divisé l’image en plusieurs blocs de taille égale qui ont ensuite été divisés en quatre blocs. Ils ont calculé l’intensité moyenne d’un seul bloc en utilisant l’intensité des quatre sous-blocs. L’intensité relative est ensuite calculée en recherchant la différence entre les intensités individuelles et l’intensité moyenne. Ils l’ont fait pour tous les blocs et ont obtenu des vecteurs de caractéristiques. Ces vecteurs de caractéristiques sont des

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

entiers ; ils ont donc utilisé la méthode de tri radix au lieu du tri lexicographique. Ils ont enregistré le coin en haut à gauche de chaque bloc et l’ont utilisé pour calculer un vecteur de décalage en trouvant la différence entre les vecteurs de caractéristiques adjacents. Ce vecteur de décalage est par nature cumulatif pour les régions qui ont été falsifiées et la détection de falsification est basée sur cette valeur. Leur méthode est efficace et capable de détecter même la compression JPEG et le bruit gaussien.

Cependant, leur algorithme échoue lorsque la région altérée est tournée à certains angles arbitraires.

• Caractéristiques basées sur la fréquence

– Une étude deZhang et al[18] décrit un algorithme efficace et robuste basé sur le DWT et la mise en correspondance de pixels. Leur algorithme peut détecter les régions du-pliquées dans une image en niveaux de gris. Premièrement, ils ont calculé le DWT pour l’ensemble de l’image afin d’obtenir une sous-bande. Ensuite, ils ont calculé le décalage spatial entre la région copiée et la région collée. L’image est décalée avec cette valeur de décalage et est superposée à l’image donnée. La région copiée de l’image donnée et la région collée de l’image décalée partagent la même région spa-tiale. Par conséquent, les pixels seront identiques si une falsification par CM est ef-fectuée sur l’image. Leur méthode est efficace et robuste pour diverses techniques de falsification par copie.

– Bayram et al[19] ont mené une étude à l’aide de la transformée de Fourier-Mellin (FMT). Ils ont choisi FMT car il résiste aux effets de post-traitement.Ils ont divisé l’image en plusieurs blocs de petite taille et ont calculé la transformation de Fourier de chaque bloc. Ils ont ré-échantillonné, projeté et quantifié la transformation obtenu pour obtenir des vecteurs de caractéristiques. La rotation de ces vecteurs de carac-téristiques est invariante pour les petits angles de rotation. Les vecteurs de caracté-ristiques similaires sont trouvés en utilisant le tri lexicographique. Même une image naturelle peut avoir plusieurs blocs similaires. Par conséquent, ils ont authentifié la falsification uniquement lorsqu’il y a un certain nombre de blocs connectés à une même distance. Cela réduit les faux positifs, ce qui rend la technique plus efficace.

Leur méthode permettait de détecter les contrefaçons impliquant des blocs avec des rotations allant jusqu’à 10 degrés et une mise à l’échelle de 10. Leur algorithme est également robuste à la compression JPEG.

– La méthode proposée parMuhammad et al[20] qui utilise la transformation dyadique en ondelettes (DyWT). Leur méthode est basée sur l’extraction d’une composante basse fréquence et d’une composante haute fréquence. DyWT est le plus couram-ment utilisé dans de nombreuses méthodes de détection. L’image est décomposée à l’aide d’un filtre passe-bas et d’un filtre passe-haut. Ensuite, ils ont utilisé un algo-rithme pour calculer DyWT de cette image. Quatre sous-bandes sont obtenues à la

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

sortie et elles ont la même taille que celle de l’image d’origine. On obtient deux sous-bandes, LL et HH. Ils ont divisé ces sous-bandes en blocs de 16 x 16 pixels avec un chevauchement de 8 pixels. L’appariement effectué sur LL et HH, ainsi LL doit être identique et HH doit être très différent des régions forgées. La similitude, est faite à l’aide de la méthode de la distance euclidienne.

– La méthode deGhorbani et Firouzmand[21] qui utilise DWT et DCT. Après conversion de l’image en niveaux de gris, ils ont appliqué DWT au début pour obtenir quatre sous-bandes. La sous-bande basse fréquence est utilisée pour la détection. Ensuite, ils ont divisé l’image en plusieurs blocs superposeés de même taille et ils ont appliqué DCT pour obtenir les vecteurs de caractéristiques. Ces vecteurs caractéristiques sont disposés dans une matrice. Pour réduire la complexité des calculs, ils ont fait un tri lexicographique sur la matrice. Pour chaque paire de lignes adjacentes dans la matrice, ils ont calculé le vecteur de décalage normalisé. Ils ont compté le nombre de fois qu’un vecteur de décalage apparaît. Une valeur de seuil est définie pour la valeur de comptage et les blocs ne doivent être forgés que si la valeur de comptage dépasse cette valeur de seuil. Leur méthode est efficace pour détecter les faux, par rapport aux autres méthodes. Cependant, cette méthode ne permet pas de détecter les contrefaçons lorsque la région altérée subit un post-traitement tel qu’une rotation, une mise à l’échelle et une compression importante. De plus, cette méthode impose certaines restrictions aux zones forgées.

Dans le document Mise en œuvre d’un système de détection de fraude et de falsification de documents scannés. (Page 26-31)