Figure montrant une amélioration de la zone de fausse correspondance

La littérature foisonne de plusieurs méthodes pour la correspondance des caractéristiques après l’étape d’extraction. Ici nous parlons des trois méthodes les plus utilisées.

2.1.2.1 Le tri lexicographique

La grande similarité entre deux descripteurs d’entités est interprétée comme une indica-tion pour une région dupliquée. Pour les méthodes basées sur les blocs, la plupart des auteurs proposent d’utiliser le tri lexicographique pour identifier des vecteurs de caractéristiques simi-laires. Dans le tri lexicographique, une matrice de vecteurs de caractéristiques est construite de sorte que chaque vecteur de caractéristiques devienne une ligne dans la matrice. Cette matrice est ensuite triée par rangée. Ainsi, les caractéristiques les plus similaires apparaissent dans des lignes consécutives. Les travaux effectués par les auteurs des différentes articles ([11], [14], [16], [17], [22], [19], [21], [23]), implémentent cette technique.

2.1.2.2 L’algorithme kd-tree

D’autres auteurs utilisent la méthode de recherche Best-Bin-First dérivée de l’algorithme kd-tree¹pour obtenir approximativement le plus proche voisins. En particulier, les méthodes basées sur des points-clés utilisent souvent cette approche. La correspondance avec kd-tree donne une recherche relativement efficace du plus proche voisin. Par exemple, cette technique

1Un arbre k-d (abréviation d’arborescence k-dimensionnelle) est une structure de données à partitionnement d’espace permettant d’organiser des points dans un espace k-dimensionnel. Les arbres k-d sont une structure de données utile pour plusieurs applications, telles que les recherches impliquant une clé de recherche multidimen-sionnelle (par exemple, les recherches par plage et les recherches par le voisin le plus proche). Les arbres k-d sont un cas particulier d’arbres de partitionnement d’espace binaire.[24]

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

est utilisée dans les travaux ([9], [12]) pour apparier les régions de l’image en utilisant les vec-teurs caractéristiques .

Il a été démontré que l’utilisation de la correspondance kd-tree conduit en général à de meilleurs résultats que le tri lexicographique, mais les besoins en mémoire sont nettement plus élevés.

2.1.2.3 La distance euclidienne

En générale, la distance euclidienne est utilisée comme mesure de similarité ([20], [25]). Elle est donnée par l’équation 2.1.

oùd(p, q)donne la distance entre les blocspetq,pietqicorrespondent aux valeurs de coefficient de transformation LL correspondantes aux blocs et N est le nombre total de pixels d’un bloc.

2.1.3 Filtrage

L’étape de filtrage permet de réduire la probabilité de fausses correspondances. Par exemple, une mesure commune de suppression du bruit implique la suppression de correspondances entre régions spatialement proches. Pixels voisins ont souvent des intensités similaires, ce qui peut conduire à de fausses détections. Différents critères de distance ont également été pro-posés, afin de filtrer les correspondances faibles. Par exemple, plusieurs auteurs ont proposé la distance euclidienne entre les vecteurs de caractéristiques appariés ([9], [10]). En revanche, Bravo-Solorio et Nandi [16] ont proposé le coefficient de corrélation entre deux vecteurs carac-téristiques comme critère de similarité.

2.1.4 Post-traitement

Le but de cette dernière étape est de conserver les correspondances qui présentent un com-portement commun. Considérons un ensemble de correspondances appartenant à une région copiée. Ces correspondances sont censées être proches les unes des autres dans les régions sources et les régions cibles. Les correspondances provenant de la même action de copier-déplacer doivent présenter des niveaux similaires de translation, de mise à l’échelle et de ro-tation. La variante de post-traitement la plus largement utilisée gère les valeurs éloignées en imposant un nombre minimal de vecteurs de décalage similaires entre les correspondances.

Un vecteur de décalage contient la traduction (en coordonnées de l’image) entre deux vecteurs caractéristiques appariés. En effet, Mahdian et Saic[9] considèrent qu’une paire de vecteurs de caractéristiques appariés sont forgés si :

Chapitre 2. État de l’art 2.2. Détection de falsification par Splicing

a- ils sont suffisamment similaires, c’est-à-dire que leur distance euclidienne est inférieure à un seuil ;

b- le voisinage autour de leur emplacement spatial contient des caractéristiques similaires.

2.2 Détection de falsification par Splicing

La falsification par splicing est une astuce très courante et simple dans la falsification et constitue une menace pour l’intégrité et l’authenticité des images. Par conséquent, la détection de ce type de falsification est d’une grande importance en criminalistique numérique. Plusieurs travaux ont été effectués dans la détection de la falsification par splicing.

• La méthode proposée parZhongwei et al[26] qui est basée sur les caractéristiques de Mar-kov extrait de DCT (Discrete Cosine Transform), mais aussi dans le domaine DWT (Dis-crete Wavelet Transform). Le choix d’utilisation des fonctionnalités de Markov est fait en raison de leur efficacité et de leur simplicité, ce qui permet de supprimer toutes les fonctionnalités basées sur le moment. D’abord les caractéristiques de Markov extraites du domaine DCT sont utilisées dans le but de capturer non seulement les corrélations intra-bloc mais aussi les corrélations inter-bloc entre les coefficients DCT. Ensuite, plus de fonctionnalités sont construites dans le domaine DWT pour caractériser les trois types de dépendance entre les coefficients d’ondelettes à travers les positions, les échelles et les orientations. Une fois toutes les fonctionnalités associées générées, la méthode appelée SVM-RFE (machine à vecteurs de support récursive par élimination des caractéristiques) est adoptée pour réduire la dimensionnalité du dernier vecteur de caractéristiques, ce qui permet de gérer la complexité du calcul. Enfin, le vecteur de caractéristiques n-D obtenu est utilisé pour distinguer des images authentiques et altérées avec le classificateur SVM.

• Minyoung et al[27] ont proposé une méthode qui utilise un algorithme d’apprentissage pour la détection de manipulations d’images visuelles, formé uniquement à l’aide d’un grand ensemble de données de photographies réelles. L’algorithme utilise les métadon-néesEXIF²(Exchangeable image file format) de photos enregistrées automatiquement en tant que signal de supervision pour former un modèle de classification afin de déterminer si une image est cohérente, c’est-à-dire si son contenu aurait pu être produit par une seule image. Les EXIF sont des spécifications de l’appareil photo qui sont gravées numérique-ment dans un fichier image au monumérique-ment de la capture et qui sont disponibles partout. Ils appliquent ce modèle d’auto-cohérence pour détecter et localiser les cas de splicing sur une image. Le modèle est auto-supervisé en ce sens que seul des photographies réelles et leurs métadonnées EXIF sont utilisées pour la formation. Un classificateur de cohérence

2Les EXIF sont des spécifications de l’appareil photo qui sont gravées numériquement dans un fichier image au moment de la capture et qui sont disponibles partout.

Chapitre 2. État de l’art 2.3. Détection de falsification sur les documents numérisés

est appris pour chaque balise EXIF séparément à l’aide de paires de photographies, et les classificateurs résultants sont combinés ensemble pour estimer la cohérence des paires de photographies dans une nouvelle image d’entrée.

2.3 Détection de falsification sur les documents numérisés

Les documents numérisés sont un accessoire direct de nombreux actes criminels et terro-ristes. Les exemples incluent la falsification ou modification de documents numérisés utilisés à des fins d’identité, sécurité ou enregistrement des transactions.

z La méthode proposée parRamzi M. Abed[28] pour la détection de faux dans les documents numérisés. Il a proposé un système de détection de falsification développé sur la base de l’identification du scanner utilisé pour numériser le document. Pour lui, cette technique dépend de l’identification de la signature du scanner. Il est observable que la qualité des bords des caractères dans les documents numérisés varie en fonction du scanner utilisé.

Lors du processus de numérisation, les scanners haute résolution produisent des lignes noires plus solides avec des bords plus nets, tandis que les scanners à basse résolution produisent des caractères représentés par lignes noires composées de variations du noir et de gris, et les bords des caractères sont graduels. Ces différences entraînent des chan-gements de texture. Le système proposé doit pouvoir décider de la falsification ou de l’authenticité du document numérisé qui lui est soumis. La figure 2.4 décrit les étapes que suit le système :

F^IGURE 2.4 – Schéma fonctionnel de la détection de l’authenticité d’un document numérisé

Dans le document Mise en œuvre d’un système de détection de fraude et de falsification de documents scannés. (Page 33-36)