Correspondance des caractéristiques - Détection de falsification par CM

2.1 Détection de falsification par CM

2.1.2 Correspondance des caractéristiques

La correspondance consiste à trouver une possible région dupliquée dans l’image. L’idée principale de la méthode de détection de falsification de copy-move basée sur le tri lexicogra-phique consiste à comparer les vecteurs propres de deux régions. Les rangées de la matrice formée par les vecteurs caractéristiques sont triées par ordre lexicographique. Chaque paire de lignes est comparée. Si la différence entre les deux rangées est inférieure à un seuilT1, les deux blocs sont considérés comme similaires. Si le nombre de blocs semblables dans certaines régions dépassent le seuilT2, on considère que la falsification est identique. Mais l’algorithme pourrait trouver trop de blocs correspondants, y compris de faux blocs correspondants. Afin d’améliorer la précision de l’appariement, on utilise un algorithme de tri lexicographique basé sur distance.

On suppose qu’une partie (région copiée) de l’image est copiée et collée dans une autre partie (région altérée) de la même image. Sur la figure 2.2, le point A désigne le vecteur propre de la région copiée etB, le vecteur propre de la région altérée. Pour simplifier, on suppose que le vecteur propre n’a que deux valeurs propres xet y. Les deux valeurs propres peuvent former deux types de vecteurs propres selon différents modes de tri.

Mode 1: la priorité dexest supérieure à celle dey, donc le vecteur propre est[x, y].

Mode 2:ya une priorité plus élevée quex, donc le vecteur propre est[y, x].

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

Si le vecteur propre est trié par mode 1, la valeur propre dans le champ de la barre oblique de la figure 2.2a affectera la précision de l’appariement. Seulement lorsqueBest adjacent à A, les blocs d’image représentés par les deux points sont considérés comme similaires. S’il y a un autre vecteur propre C entre A et B (dans la zone des barres obliques), la valeur x de C est plus proche de celle deB. Puisque les vecteurs propres sont triés parxd’abord,Best considéré comme non adjacent àA, ce qui conduit à une fausse correspondance.

(a) Trié par mode 1 (b) Trié par mode 2

FIGURE2.2 – Figure montrant la zone de fausse correspondance

De même, les vecteurs propres dans la zone de barre oblique de la figure 2.2b affecteront la précision de la correspondance lorsque le tri est fait par mode 2. La figure 2.2 montre que les décalages de l’axe des x affectent les résultats plus que l’axe des ordonnées lorsque le tri est fait par mode 1. Les décalages de l’axe y affectent davantage les résultats triés par mode 2.

Afin de réduire l’effet des axes, on réduire la taille de la zone de barre oblique de la figure 2.2 si possible. Ainsi, la distance entreAetBest calculée. La distance est utilisée alors comme valeur propre au lieu dexouy. Les zones de barre oblique qui conduisent à la détection d’erreur sont illustrées à la figure 2.3. La figure 2.3 montre que la surface oblique a diminué, ce qui améliore la robustesse de l’algorithme de détection. On calcule donc la distance des coefficients groupés entre chaque paire de blocs. Cette distance est utilisée pour le tri, ce qui réduit le rapport de faux appariement.

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

(a) Trié par mode 1 (b) Trié par mode 2

FIGURE2.3 – Figure montrant une amélioration de la zone de fausse correspondance.

La littérature foisonne de plusieurs méthodes pour la correspondance des caractéristiques après l’étape d’extraction. Ici nous parlons des trois méthodes les plus utilisées.

2.1.2.1 Le tri lexicographique

La grande similarité entre deux descripteurs d’entités est interprétée comme une indica-tion pour une région dupliquée. Pour les méthodes basées sur les blocs, la plupart des auteurs proposent d’utiliser le tri lexicographique pour identifier des vecteurs de caractéristiques simi-laires. Dans le tri lexicographique, une matrice de vecteurs de caractéristiques est construite de sorte que chaque vecteur de caractéristiques devienne une ligne dans la matrice. Cette matrice est ensuite triée par rangée. Ainsi, les caractéristiques les plus similaires apparaissent dans des lignes consécutives. Les travaux effectués par les auteurs des différentes articles ([11], [14], [16], [17], [22], [19], [21], [23]), implémentent cette technique.

2.1.2.2 L’algorithme kd-tree

D’autres auteurs utilisent la méthode de recherche Best-Bin-First dérivée de l’algorithme kd-tree¹pour obtenir approximativement le plus proche voisins. En particulier, les méthodes basées sur des points-clés utilisent souvent cette approche. La correspondance avec kd-tree donne une recherche relativement efficace du plus proche voisin. Par exemple, cette technique

1Un arbre k-d (abréviation d’arborescence k-dimensionnelle) est une structure de données à partitionnement d’espace permettant d’organiser des points dans un espace k-dimensionnel. Les arbres k-d sont une structure de données utile pour plusieurs applications, telles que les recherches impliquant une clé de recherche multidimen-sionnelle (par exemple, les recherches par plage et les recherches par le voisin le plus proche). Les arbres k-d sont un cas particulier d’arbres de partitionnement d’espace binaire.[24]

Chapitre 2. État de l’art 2.1. Détection de falsification par CM

est utilisée dans les travaux ([9], [12]) pour apparier les régions de l’image en utilisant les vec-teurs caractéristiques .

Il a été démontré que l’utilisation de la correspondance kd-tree conduit en général à de meilleurs résultats que le tri lexicographique, mais les besoins en mémoire sont nettement plus élevés.

2.1.2.3 La distance euclidienne

En générale, la distance euclidienne est utilisée comme mesure de similarité ([20], [25]). Elle est donnée par l’équation 2.1.

oùd(p, q)donne la distance entre les blocspetq,pietqicorrespondent aux valeurs de coefficient de transformation LL correspondantes aux blocs et N est le nombre total de pixels d’un bloc.

Dans le document Mise en œuvre d’un système de détection de fraude et de falsification de documents scannés. (Page 31-34)