Discussion - Mise en œuvre d’un système de détection de fraude et de falsification de documents

L’étude sur les paramètres à considérer pour une bonne détection a fourni des preuves d’une relation entre les tailles de bloc et de police par rapport à la NVP. Afin de donner une idée de la largeur et de la hauteur moyennes des symboles dans les images forgées de différentes tailles de police, nous avons effectué nos tests sur trois(03) différents blocs. Dans la plupart le NVP le plus élevé a été obtenu avec une taille de bloc de 16x16. La taille du bloc est donc un paramètre important pour le système. L’étude a aussi démontré que la taille de l’image influence fortement le résultat de la détection. Une solution consisterait à mettre à l’échelle chaque entrée d’image à une taille fixe. Cependant cela influencerait les performances de la détection. Dans le cas d’un sous-échantillonnage, la taille de la région altérée est également réduite, inhibant davantage la détection. Ainsi, nous avons mené toutes les expériences, en résolution d’image complète et no-tons cependant que les images elles-mêmes ont des tailles différentes, allant de 693x241 pixels à 2583x1163 pixels. En ce qui concerne les grandes valeurs du NFP démontrées dans certains tests, on peut dire que, la cause principale est la détermination erronée des espaces vides entre les lignes de texte copiées. Cependant, les résultats présentés ne peuvent pas être généralisés à tous les paramètres expérimentaux possibles. La décision finale de savoir si un pixel est au-thentique ou forgé est influencée par une combinaison de plusieurs paramètres. Pour avoir une image complète de la performance des méthodes CMFD dans le cas d’un document numérisé images, il est nécessaire de réaliser un grand nombre de tests expérimentaux et exécuter toutes les combinaisons de valeurs de paramètres. On a comparé notre travail aux autres travaux, et on a remarqué que notre méthode présente des résultats satisfaisants. Mais notre méthode pré-sente des insuffisances. Par exemple, lorsque les images sont grandes, le temps de détection est plus long et aussi le NFP est grande pour certaines images. Le système conçu a été intégré dans une application web pour faciliter l’utilisation de la méthode et permettre au grand public de tester l’application.

Conclusion

Dans ce chapitre nous avons évalué la performance de notre système à travers la précision.

L’analyse de nos résultats et leur confrontation aux méthodes disponibles dans la littérature, nous permettent de déduire que notre méthode présente des résultats satisfaisants. Ceux-ci peuvent néanmoins être encore améliorés.

Conclusion et perspectives

Dans notre travail, nous avons mise en place un système de détection de falsification sur les documents scannés. Il est évident que ce système a son utilité dans plusieurs domaines. Ainsi, le travail présenté a permis de détecter les altérations sur les images de document. Après une étape de pré-traitement qui consiste à convertir les images en niveau de gris, à appliquer un filtre passe haut et passe bas en utilisant la transformée discrète en ondelette et à diviser la composante (LL) en bloc superposé de taille 8x8. Cette étape est suivie de celle de l’extraction de caractéristiques de l’image. Nous avons utilisé les moments invariants Hu qui ont pour rôle l’extraction de paramètres pertinents des régions de l’image tout en tenant compte des variantes telles que la rotation, la translation des pixels. Le but de cette extraction de caractéristiques est de trouver les éléments nécessaires pour trouver les similarités entre les blocs afin de détecter les possibles blocs altérés à l’aide du tri lexicographique. Nous avons obtenus des résultats satisfaisants avec un taux de 88,61%.

De cette étude, on déduit que la combinaison de la transformée discrète en ondelette (HDWT) et les moments invariants Hu peuvent être efficacement utilisés pour la détection des falsifications dans les documents scannés. Elle montre également que le système mise en place peut être efficacement utilisé pour faciliter la détection sans connaissance du document original. En guise de perspective, on peut :

P améliorer la performance de notre système en nous basant sur l’analyse des caractéris-tique à extraire pour réduire le taux des mauvaises détections ;

P associer des OCR à notre méthode. L’OCR permettra de segmenter les images suivant les caractères et donc l’extraction des caractéristiques sera faite directement sur les caractères.

Cela permettra d’améliorer la précision du système ;

P utiliser l’apprentissage automatique (en anglais machine learning) afin d’apprendre le système à partir de donnée des images pour améliorer le système. Mais le problème qui se pose à ce niveau est l’inexistence d’une base de données pour ces types d’image.

English part

Theme :

Implementation of a system for detecting fraud and

forgery in scanned documents.

Chapitre 5

English version

Introduction

Document fraud is an intentional act designed to obtain a financial advantage or an un-due service. There are several types of approaches : modifying authentic documents to distort information (by removing, adding, modifying content) or creating false documents. The phe-nomenon of fraud and falsification of documents has expanded dramatically. There are many ways that some people nowadays are working to dishonestly achieve their goals. Many ad-ministrations and companies therefore request the implementation of standard computerized processes for detecting such malicious behaviors that can have costly consequences. Verifica-tion of the authenticity of documents then becomes a major problem for administraVerifica-tions and companies. As a result, the introduction of a standardized digital system for fraud and falsifi-cation of documents is becoming a major issue for companies and governments to ensure the legality and conformity of documents with originals. To be as efficient as possible, this system must combine several methods of complementary analysis, which together allow an optimal appreciation of the authenticity of the elements.

To solve these problems, we propose system to detect forgery in scanned document text. Our method use image processing techniques to achieve this goal. By proceeding that way, our ob-jectives are to :

• authenticate a document without knowledge of the original trusted document ;

• mark or frame areas that have been altered ;

This document present our work. It will be structured in four parts :

â the first part present general knowledge about fraud and falsification of documents and image processing ;

â the second part present a state of the art techniques used in detection of falsification on digital images ;

â the third part present explain and describe our approach ;

â the third part will present the obtaining results followed by their interpretation..

5.1 Document forgery

5.1.1 Document forgery definition and classification

Document forgery is an intentional act that tends to make a document unlawful by entering false data for the purpose of committing fraud, deception, embarrassing, discrediting or singing people.

There are two types of image analysis techniques that are : the active approach and the passive approach.

1. Active approach

In this active approach, digital images requires preprocessing during which watermarks are embedded or digital signatures are generated during the creation of the image. But today there are many images that do not contain watermark or digital signature which limits the use of this approach to verify the authenticity of the image.

2. Passive approach

In this passive approach, the authentication of the image does not require knowledge of the image information but of the image itself. The detection of forgery in this case is based on the characteristics and inconsistencies of the image. The algorithms are therefore used to process the image in order to locate the altered areas. This approach makes it possible to classify the image into two categories : either the image is original or the image is falsified.

5.1.2 Types of image forgery

1. Image retouching

It is considered the least harmful type of digital image forgery. It does not change the information or the content of the image, but reduces or enhances certain features of the image as the color, the background areas.

2. Copy-Move Attack

This is the most used and most popular modification technique. It is difficult to detect with the naked eye and consists of covering a region or a significant part of the scene in the image by adding or removing information. The purpose of this technique is to hide a scene or information in the original image with another part of the same image. Thus, the counterfeiter copies part of the image and superpose it on a part of the same image. The detection of this type of forgery thus consists in determining the identical or similar zone.

3. Image splicing

It’s a technique of copying information or scenes on one or more other images and pasting them on an original image to create the forged image. Thanks to the digital image proces-sing tools available, this technique is simple to perform even for inexperienced users.

5.1.3 Digital image processing

A digital image is a numeric representation, normally binary, of a two-dimensional image.

It usually refers to raster images or bitmapped images (as opposed to vector images). Digital image processing focuses on the development of a computer system capable of processing an image. The input of this system is a digital image and the system processes this image using po-werful and efficient algorithms and outputs an image or information or features of this image.

Image processing stages are : image acquisition, pre-processing, segmentation and interpreta-tion

Dans le document Mise en œuvre d’un système de détection de fraude et de falsification de documents scannés. (Page 61-66)