Authentification biométrique par dynamique de
frappe pour évaluation à distance utilisant SVM à
une classe
Mémoire Chuan Chang Maîtrise en informatique Maître ès sciences (M.Sc.) Québec, Canada c Chuan Chang, 2016Authentification biométrique par dynamique de
frappe pour évaluation à distance utilisant SVM à
une classe
Mémoire
Chuan Chang
Sous la direction de :
Thierry Eude, directeur de recherche Philippe Giguère, codirecteur de recherche
Résumé
La machine à vecteurs de support à une classe est un algorithme non-supervisé qui est capable d’apprendre une fonction de décision à partir de données d’une seule classe pour la détection d’anomalie. Avec les données d’entraînement d’une seule classe, elle peut identifier si une nouvelle donnée est similaire à l’ensemble d’entraînement.
Dans ce mémoire, nous nous intéressons à la reconnaissance de forme de dynamique de frappe par la machine à vecteurs de support à une classe, pour l’authentification d’étudiants dans un système d’évaluation sommative à distance à l’Université Laval. Comme chaque étudiant à l’Université Laval possède un identifiant court, unique qu’il utilise pour tout accès sécurisé aux ressources informatiques, nous avons choisi cette chaîne de caractères comme support à la saisie de dynamique de frappe d’utilisateur pour construire notre propre base de données. Après avoir entraîné un modèle pour chaque étudiant avec ses données de dynamique de frappe, on veut pouvoir l’identifier et éventuellement détecter des imposteurs. Trois méthodes pour la classification ont été testées et discutées.
Ainsi, nous avons pu constater les faiblesses de chaque méthode dans ce système. L’éva-luation des taux de reconnaissance a permis de mettre en évidence leur dépendance au nombre de signatures ainsi qu’au nombre de caractères utilisés pour construire les signatures. Enfin, nous avons montré qu’il existe des corrélations entre le taux de re-connaissance et la dispersion dans les distributions des caractéristiques des signatures de dynamique de frappe.
Abstract
One-Class Support Vector Machine is an unsupervised algorithm that learns a decision function from only one class for novelty detection. By training the data with only one class, this method is able to classify new data as similar (inlier) or different (outlier) from the training set.
In this thesis, we have applied the One-Class Support Vector Machine to Keystroke Dynamics pattern recognition for user authentication in a remote evaluation system at Laval University. Since all of their students have a short and unique identifier at Laval University, this particular static text is used as the Keystroke Dynamics input for a user to build our own dataset. After training a model for each student with his or her keystroke data, we then use this model to detect imposters in the later phase. Three methods were tried and discussed for the classification.
Then, we were able to identify weaknesses of each method in such a system by evaluating the recognition accuracy depending on the number of signatures and as a function of their number of characters. Finally, we were able to show some correlations between the dispersion and mode of distributions of features characterizing the keystroke signatures and the recognition rate.
Table des matières
Résumé iii
Abstract iv
Table des matières v
Liste des tableaux viii
Table des figures ix
Remerciements xii 1 Introduction 1 1.1 Motivation . . . 1 1.2 Problématique . . . 2 1.3 Objectif . . . 2 1.4 Organisation du mémoire . . . 3 2 Concepts de base 5 2.1 Formation et évaluation à distance . . . 5
2.1.1 Diffusion de formation à distance . . . 5
2.1.2 Évaluation à distance de connaissances acquises . . . 6
2.2 Authentification forte . . . 7
2.2.1 Définitions . . . 7
2.2.2 Avantages de solutions biométriques . . . 8
2.2.3 Systèmes d’authentification biométrique . . . 9
2.2.4 Limites de plusieurs techniques biométriques . . . 11
2.2.5 Authentification par dynamique de frappe . . . 12
2.3 Conception d’un système de reconnaissance . . . 13
2.4 Apprentissage automatique . . . 14
3 Revue de littérature 15 3.1 Données d’entrées . . . 15
3.1.2 Cas particulier de texte statique : le nom d’utilisateur . . . 18
3.1.3 Influence de la longueur du texte . . . 18
3.1.4 Influence du nombre de saisies . . . 18
3.1.5 Données d’entrée appliquées . . . 19
3.2 Caractéristiques des données à extraire . . . 21
3.2.1 Définitions . . . 21
3.2.2 Caractéristiques appliquées . . . 23
3.3 La classification . . . 23
3.3.1 Définitions . . . 23
3.3.2 Procédé pour faire la classification . . . 24
3.3.3 Classificateurs divers . . . 25
3.3.4 Classificateur appliqué : machine à vecteurs de support . . . 26
3.4 Machine à vecteurs de support à une classe . . . 28
3.4.1 Définitions . . . 28
3.4.2 Hyper-paramètres de la SVM à une classe avec noyau Gaussien 30 3.5 Outil logiciel : LibSVM . . . 32
4 Collecte de données 33 4.1 Introduction . . . 33
4.2 Collecte des données positives . . . 34
4.2.1 Processus de collecte de données positives . . . 34
4.2.2 Implantation de pages web pour la collecte . . . 38
4.2.3 Résultats . . . 42
4.3 Collecte de données négatives . . . 43
4.3.1 Processus de collecte de données négatives . . . 43
4.3.2 Implantation de pages web pour la collecte . . . 44
4.3.3 Résultats . . . 47
4.4 Prétraitement et regroupement des données collectées . . . 47
5 Méthodologie 49 5.1 Méthode vorace « Grid Search » . . . 49
5.1.1 Définitions . . . 49
5.1.2 Expériences effectuées . . . 51
5.1.3 Résultats . . . 54
5.2 Méthode indirecte : DFN . . . 57
5.2.1 Définitions . . . 57
5.2.2 Application à la dynamique de frappe . . . 58
5.3 Méthode directe : DTL . . . 60
5.3.1 Définitions . . . 60
5.3.2 Discussion . . . 63
5.3.4 Résultats . . . 66
6 Conclusion 70
6.1 Démarche et contributions . . . 70 6.2 Travail futur . . . 71
Liste des tableaux
2.1 Comparaison des limites des méthodes traditionnelles d’identification par rapport aux méthodes utilisant la biométrie [15] . . . 9 3.1 Comparaison de résultats de performances avec les deux types de saisies
dans l’état de l’art . . . 17 3.2 Comparaison des résultats de dynamique de frappe par rapport à la
longueur de texte et le nombre de saisies. N dénote le nom d’utilisateur, et C dénote la chaîne de caractères de connexion. . . 20 5.1 Comparaison de valeur moyenne, médiane, maximale et minimale du
taux de reconnaissance pour les deux méthodes . . . 66 5.2 Comparaison de valeur moyenne, médiane, maximale et la valeur
Table des figures
2.1 Phase d’entraînement et phase de test dans un système d’authentification 10 2.2 Variations en fonction du niveau de sensibilité du système
d’authentifica-tion du taux de fausse acceptad’authentifica-tion (FAR), du taux de faux rejet (FRR) et du taux d’erreurs égales (EER) lorsque les deux premiers assument la même valeur . . . 11 3.1 Les caractéristiques les plus mentionnées en signature de frappe (a) et
leur nombre d’occurences trouvée dans la littérature (b). Les flèches vers le bas et vers le haut dans (a) représentent respectivement les instants de pression et la relâche de chaque touche [37]. . . 22 3.2 En utilisant « les Méthodes à Noyaux », la SVM peut efficacement faire
une classification non-linéaire (a), avec des algorithmes de classification linéaire (b). Ces figures sont générées par libSVM. . . 27 3.3 a) SVM à deux classes. b) OCSVM L’hyperplan construit par l’OCSVM
sépare les données positives du point d’origine avec une distance maxi-male. Ces figures sont générées par LibSVM. . . 29 4.1 Page de saisie de l’IDUL présentée à chaque connexion afin de « construire
» la signature . . . 34 4.2 Page d’acceptation pour conservation des données . . . 36 4.3 Si l’étudiant ne désire pas participer, il a toujours le choix d’accéder
directement au contenu par un lien prévu en conséquence . . . 37 4.4 La page d’entrée du contenu de cours GIF-1003 à la session d’hiver 2015
sans participation à l’étude . . . 38 4.5 Compatibilité de la fonction performance.now() avec des navigateurs
fré-quemment utilisés, où les rectangles en vert sont les versions de naviga-teurs qui supportent performance.now(), en rouge ceux qui ne la supporte pas. La hauteur représente le taux d’utilisation des navigateurs. . . 40 4.6 Organigramme de fonctionnement de notre système de collecte de
4.7 Exemples de signatures de dynamique de frappe (données positives) sto-ckées dans le fichier de résultats (les noms d’IDULs sont ici masqués par des « x » pour des raisons de confidentialité) . . . 42 4.8 Organigramme de développement pour la collecte de données négatives 45 4.9 Page Web pour la collecte de données négatives réalisée . . . 46 4.10 Mise en œuvre des jeux de données 1 et 2 . . . 48 5.1 Protocole de la méthode Grid Search . . . 52 5.2 Valeurs de sensibilité obtenues pour différentes phases d’entrainement en
appliquant la validation croisée : on constate des disparités entre certains résultats (les trois sensibilités obtenues) pour les IDULs No. 5, 23, 29 et 33 (en cadre rouge) . . . 54 5.3 Évaluation de la performance par la mesure du taux de reconnaissance
et du Taux de Fausse Acceptation pour les différents IDUL collectés et classés selon le rang dans le tri en ordre décroissant du nombre de signa-tures. En général, plus de signatures mènent à un taux de reconnaissance plus élevé dans la phase de test (la ligne de tendance grise). Le taux de reconnaissance obtenu peut être très bas (les colonnes bleues), ce qui peut être dû au taux de Faux Positif élevé (les colonnes vertes). C’est le cas par exemple, pour les IDUL #17 et #29. Au contraire, l’IDUL #7 qui a un taux de Faux Positif bas présente un taux de reconnaissance élevé. 55 5.4 Évaluation de performance selon la longueur de l’IDUL : le taux de
re-connaissance diminue légèrement, mais le FAR augmente rapidement à mesure que la longueur d’IDUL décroit . . . 56 5.5 Distributions de caractéristiques de temps des touches qui sont
mono-modales et concentrées (touches 1 à 6, temps d’appui à gauche en bleu, et temps de relâche à droite en orange). . . 59 5.6 Distributions de caractéristiques de temps des touches qui sont
multimo-dales et dispersées. (touches 1 à 6, temps d’appui à gauche en bleu, et temps de relâche à droite en orange). . . 60 5.7 Schéma pour la détection d’étroitesse [49]. La figure a représente la
fron-tière lâche et la figure b représente la fronfron-tière sérrée. . . 61 5.8 les taux de reconnaissance de la méthode Grid Search pour les 36 IDULs 67 5.9 les taux de reconnaissance de la méthode DTL + recherche vorace pour
les 36 IDULs . . . 67 5.10 les taux de fausse acceptation de la méthode Grid Search pour les 36
IDULs . . . 68 5.11 les taux de fausse acceptation de la méthode DTL + recherche vorace
Je repars dans la paix, Comme je suis arrivé, silencieux, Je me secoue les manches, Pour n’emporter avec moi aucun morceau de nuage. – Hsü Chih-Mo « Adieux à Cambridge »
Je dédie ce travail à Ying, mon épouse et à mes parents Li-Hua et Heng, pour avoir accepté tant de sacrices durant ces dernières années.
Remerciements
Je tiens à remercier les personnes qui m’ont apporté leur soutien et qui ont contribué à l’élaboration de ce mémoire de recherche appliquée.
Mes remerciements vont dans un premier temps, à Monsieur Thierry Eude, mon direc-teur de recherche pour sa direction et pour le temps qu’il a bien voulu me consacrer, Monsieur Phillippe Giguère, mon co-directeur de recherche pour ses nombreux conseils et son suivi durant la finalisation de ce mémoire. Je remercie également le membre du jury Monsieur Bernard Moulin, pour avoir accepté d’examiner ce mémoire.
Dans un deuxième temps, j’exprime mes sincères remerciement à mon épouse et à mes parents pour leur aide et sans lesquels ce travail m’aurait été impossible.
Pour terminer, j’adresse toute ma reconnaissance à mes collègue du groupe de recherche et mes professeurs pour le temps de discussion et leur patience qu’ils m’ont accordée.
Chapitre 1
Introduction
1.1
Motivation
Avec la croissance de la réseautique et des nouveaux moyens de communication comme les environnements virtuels d’apprentissage ou encore les plateformes de vidéoconférence adaptées à l’enseignement, la formation à distance en ligne a pris cette dernière décennie, une importance considérable. Cependant, pour qu’une formation puisse être reconnue, elle doit impliquer un processus d’évaluation individuel fiable. Le premier élément de ce processus est l’identification.
L’identification ou authentification est un processus permettant de déterminer si quelqu’ un est bien la personne qu’elle a déclarée être [5]. Le défi à relever ici est de la réaliser à distance. Afin de pallier aux faiblesses de l’authentification traditionnelle par les mots de passe et d’améliorer le taux de reconnaissance1, l’utilisation d’une technologie d’identication émergente telle que la biométrie apparait comme un excellent candidat à la vérification d’identité.
Parmi les méthodes biométrique souvent utilisées, on peut citer la dynamique de frappe2.
Cette méthode de reconnaissance de personnes efficace est basée sur le rythme de frappe du clavier d’ordinateur [27]. Elle présente entre autres l’avantage d’être relativement simple à mettre en œuvre, contrairement à d’autres techniques biométriques
nécessi-1. « Accuracy » en anglais
tant par exemple des équipements matériels spécifiques.
1.2
Problématique
Dans cette recherche, on s’intéresse à l’identification biométrique par dynamique de frappe d’étudiants désirant passer un examen à distance. Le but est de déterminer, si un étudiant est bien celui qu’il prétend être et non un imposteur, ceci à partir de sa dynamique de frappe. Ceci implique que l’on doit créer un modèle de cette dynamique de frappe, afin de pouvoir l’associer à un étudiant en particulier.
Cependant, en pratique il n’est pas toujours possible d’obtenir des données négatives simulant des imposteurs pour construire ces modèles de signatures. Le problème que l’on cherche à résoudre est alors le suivant : de quelle façon pouvons-nous implémenter un système d’identification biométrique par la dynamique de frappe performant, facile d’utilisation, à bas coût, c’est-à-dire sans matériel spécifique et utilisant uniquement les signatures de dynamique de frappe des étudiants désirant passer un examen.
1.3
Objectif
L’objectif de notre recherche est d’étudier les caractéristiques de dynamique de frappe et de fournir une solution d’identification d’utilisateur qui s’intègre facilement au sys-tème d’identification existant de l’Université Laval. Pour ceci, il s’agit de choisir un classificateur pertinent pour effectuer l’identification avec un taux de reconnaissance suffisant pour l’application visée.
Globalement, l’objectif général est de mettre en place un système permettant d’atteindre des résultats d’identification avec un taux de fausse acceptation de 0.01% et un taux de faux rejet de 1% (Ces limites sont celles exigées par la Norme Européenne des systèmes de contrôle d’accès[41]).
• Construire une base de données originale de dynamique de frappe pour l’analyse. • Étudier une ou plusieurs méthodes pour effectuer la classification avec la base de
données collectée afin d’identifier la plus performante.
• Analyser les résultats obtenus et envisager des travaux futurs.
Ainsi, nous avons tout d’abord développé une application associée à un site web pour collecter des signatures de dynamique de frappe d’étudiants. Cette collecte nous a per-mis de disposer de données positives.
Nous avons ensuite développé une autre application associée à un site Web pour collecter des signatures de dynamique de frappe d’imposteurs, ce qui nous a permis de disposer de données négatives. Nous avons alors pu faire une analyse avec cette banque de données pour trouver un bon classificateur de signature de frappe. Une première méthode de classification a alors été évaluée pour effectuer l’identification. Les résultats obtenus ont pu mettre en évidence les lacunes de celle-ci. Une deuxième méthode de classification a ensuite été proposée et ses performances comparées à celles de la première méthode étudiée.
1.4
Organisation du mémoire
Le chapitre 2 expose d’abord des concepts de base. Nous débutons par la présentation du contexte visé, soit la formation et l’évaluation à distance. Ensuite, nous discutons l’authentification forte et introduisons des solutions biométriques, y compris la dyna-mique de frappe. Finalement, nous décrivons le processus de conception de ce système et l’outil informatique : apprentissage automatique.
Le chapitre 3 présente une revue de littérature sur l’état de l’art de dynamique de frappe et la classification par machine à vecteurs de support. L’outil logiciel retenu pour l’appliquer est ensuite décrit.
positives et négatives. Les créations de pages Web pour les collectes sont aussi présentées dans ce chapitre.
Le chapitre 5 est consacré à la méthodologie et à l’analyse de résultats obtenus. Trois méthodes sont discutées dans ce chapitre.
Finalement, le chapitre 6 conclut sur nos contributions et donne des pistes d’améliora-tion pour nous rapprocher de l’objectif de ce travail.
Chapitre 2
Concepts de base
Dans ce chapitre, nous exposons le contexte de recherche. Nous présentons tout d’abord la formation et l’évaluation à distance dans la section 2.1. Ensuite, dans la section 2.2, nous introduisons la dynamique de frappe qui se classe parmi les méthodes biométriques pour réaliser l’authentification pour l’évaluation à distance. Finalement, pour mettre en oeuvre un tel système d’authentification, nous décrivons le processus de conception d’un système de reconnaissance (section 2.3) et l’apprentissage automatique (section 2.4).
2.1
Formation et évaluation à distance
2.1.1
Diffusion de formation à distance
La formation à distance est un système de formation qui permet à un apprenant d’ap-prendre seul ou en situation de collaboration, avec du matériel didactique approprié, avec différents moyens de communication et avec le soutien à distance de personnes-ressources [46]. Elle s’applique tant à la formation continue qu’à la formation universi-taire, tant de manière individuelle que collective [48].
Aujourd’hui, grâce aux progrès de l’informatique associés à ceux des moyens de té-lécommunication, la formation à distance désigne plutôt la formation en ligne. Elle permet aux apprenants d’apprendre avec du matériel pédagogique accessible en ligne, peu importe la distance. L’apprenant peut donc apprendre en ayant la possibilité de
télécharger ou de consulter en ligne des documents didactiques, afin d’apprendre seul ou en situation de collaboration.
Les avantages de la formation à distance sont : la flexibilité horaire et l’absence de contrainte de déplacement. En effet, l’apprenant peut gérer, de manière autonome, le temps consacré et peut suivre la formation à son rythme. La formation à distance peut également répondre à des situations d’éloignement géographique. Elle aide donc l’apprenant à réduire, voire à supprimer, tout déplacement. Elle s’inscrit alors dans le développement durable en contribuant à la réduction des gaz à effet de serre.
2.1.2
Évaluation à distance de connaissances acquises
Tous les cours à distance de l’Université Laval sont en ligne. Cependant, pour qu’une formation puisse être reconnue, elle nécessite au moins une activité d’évaluation som-mative des apprentissages, tout en respectant le calendrier universitaire. Par exemple, à l’Université Laval, la très grande majorité des cours à distance ont au moins un exa-men sous surveillance que l’étudiant peut faire soit sur le campus, soit dans un centre d’examens au Québec, soit hors Québec avec un répondant qui acceptera de surveiller l’examen à une date et à une heure prédéterminées [46]. Dans tous les cas, cela oblige l’étudiant à se déplacer.
La formation ouverte à distance (FOAD)1 est une des formes d’enseignement où l’on retrouve les premières expériences d’évaluation à distance. La FOAD est dite « ou-verte » dans la mesure où elle est gratuite et accessible au plus grand nombre, soit à toute personne souhaitant suivre une formation. Cependant, dans un cadre diplômant, deux questions majeures et liées se posent : comment réaliser des évaluations dans un enseignement à distance et comment garantir la valeur de ces évaluations. En effet, la première génération de FOADs (FOAD 1.0) ne prenait aucune mesure pour garantir des résultats d’apprentissages, manquant de moyens de contrôle ou de surveillance. Il a fallu attendre la deuxième génération de FOADs (FOAD 2.0, les acteurs majeurs dans ce domaine sont Udacity, Edx et Coursera2) pour s’intéresser à l’identification (eg, au-thentification) des étudiants lors des évaluations menant à l’obtention de crédits ou de certicats informels en ligne (voir un standard européen de FOADs [21]. Cependant, le problème de l’enregistrement, soit de la construction de la signature, reste actuellement
1. « Massive open online courses (MOOCs) » en anglais
un problème ouvert. En effet, cet enregistrement est généralement réalisé en une seule séance impliquant un effet d’entraînement.
Bien que l’Université Laval offre depuis quelques années des cours en FOAD, les cours à distance qui y sont offerts restent non ouverts. Ces cours sont inscrits dans des pro-grammes académiques normatifs et impliquent actuellement des évaluations présen-tielles sous surveillance. Il s’agit alors d’envisager de reprendre les expériences apprises de la FOAD 2.0 pour mettre en œuvre l’évaluation à distance dans un cadre normatif. Aussi, une des premières préoccupations à considérer est que la réalisation d’examens normatifs à distance sous surveillance passe nécessairement par un processus d’authenti-fication. Cependant, la seule utilisation, par exemple de mots passe apparait insuffisante pour vérifier une identité. En effet, les mots de passe d’étudiants peuvent être perdus, volés ou même transmis à quelqu’un d’autres consciemment [34]. Cela ouvre la voie à la possibilité qu’une personne puisse se substituer à une autre comme dans le scénario de tricherie par embauche d’écrivain fantôme (ghost writer). Il est alors essentiel de s’in-téresser à des méthodes alternatives permettant de garantir une authentification fiable à distance. L’authentification biométrique est l’une de ces méthodes.
2.2
Authentification forte
2.2.1
Définitions
L’authentification est un processus permettant de déterminer si quelqu’un est bien la personne qu’elle a déclarée être [5]. Tout système qui permet un accès informatique après une double vérification est appelé authentification forte.
L’objectif de l’authentification forte est d’améliorer l’authentification unique. Ses utili-sations montrent certaines limites à garantir l’authentification de la personne dans des environnements à sécurité élevée [15].
Toute organisation soucieuse de sa propre sécurité est donc amenée à prévoir un méca-nisme d’authentification forte, garantissant que seuls les individus et terminaux autori-sés accèdent aux systèmes et réseaux de l’organisation, ceci en fonction des niveaux de droits d’accès qu’ils détiennent.
D’ailleurs, spécifiquement pour le système d’authentification d’évaluation à distance, il est nécessaire de confirmer non seulement son droit d’accès, mais aussi son identité (si c’est la “bonne personne” qui se connecte).
Aujourd’hui, on peut constater que la biométrie est une véritable alternative aux mots de passe et autres identifiants. Elle est un domaine émergeant où la technologie améliore notre capacité à identifier une personne et à se protéger contre l’usurpation d’identité. Les technologies biométriques sont définies comme des méthodes automatiques de vérifi-cation ou de reconnaissance de l’identité d’une personne vivante basée sur ses caractéris-tiques physiologiques ou comportementales [34, 37]. Du fait que ces traits physiologiques et caractéristiques comportementales soient uniques à chacun, ils sont tout désignées pour la vérification d’identité et sont exploités dans la biométrie. Les traits physiolo-giques sont basés sur des traits biolophysiolo-giques innés ou naturellement venus (le visage, la paume, l’iris, etc.). Il s’agit de la biométrie physiologique. Les caractéristiques compor-tementales sont quant à elles basées sur des habitudes ou des traits qui sont appris ou acquis (la voix, l’écriture, la signature, la dynamique de frappe, etc.). Dans ce cas, il s’agit de la biométrie comportementale [27].
2.2.2
Avantages de solutions biométriques
La biométrie est donc un excellent candidat à la vérification d’identité. Elle permet de vérifier que l’utilisateur est bien la personne qu’elle prétend être. Même si l’utilisateur donne ses mots de passe volontairement à une autre personne, celle-ci ne pourra pas accéder facilement au système au nom de cet utilisateur. Cela empêche donc, à toutes fins utiles, la substitution de participation à des examens.
L’authentification biométrique supprime les risques de substitution d’identité (volon-taire ou passive), prenant tout son sens dans ce que l’on appelle l’authentification « multifactorielle » [40]. En associant « ce que vous connaissez » : des identifiants (par exemple, un mot de passe) et « ce que vous êtes » : une caractéristique biologique (par exemple, la dynamique de frappe), il devient alors beaucoup plus difficile pour une personne, de se faire passer pour une autre. En fait, les technologies biométriques nous fournissent un niveau supplémentaire de sécurité lorsqu’elles sont utilisées conjoin-tement avec des méthodes traditionnelles pour l’authentification. La comparaison des limitations des méthodes traditionnelles devant celles des méthodes biométriques est
rappelée dans le tableau 2.1.
Copie Vol Oubli Perte
Clé X X X X
Badge - X X X
Mot de passe X - X
-Biométrie - - -
-Table 2.1 – Comparaison des limites des méthodes traditionnelles d’identification par rapport aux méthodes utilisant la biométrie [15]
De plus, l’authentification biométrique possède les avantages suivants [15] :
• Sécurité : Elle sécurise les contrôles d’accès en supprimant le doute sur l’identité. • Utilisabilité : Elle facilite l’utilisation à long terme par les organisations publiques
et privées grâce à son coût économique.
• Confort : La biométrie économise aussi le temps perdu par les services informa-tiques pour retrouver les mots de passe oubliés.
2.2.3
Systèmes d’authentification biométrique
Comme montré dans la Figure 2.1, les systèmes d’authentification physiologique et com-portementale opèrent logiquement en deux phases, soient une phase d’inscription et une phase d’identification [37]. Pendant la phase d’inscription, les données biométriques de l’utilisateur sont acquises, traitées et stockées dans une base de données. Cette dernière est ensuite utilisée comme référence par le système dans les opérations d’identification subséquentes. Pendant la phase d’identification, les nouvelles données biométriques du demandeur sont acquises et également traitées. La décision d’authentification sera basée sur le résultat d’un processus d’appariement de la biométrie présentée aux formes de référence [27, 37]. Le taux de reconnaissance est défini par la formule T P +F P +T N +F NT P +T N , où TP, TN, FP, FN3 dénotent les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs respectivement.
Figure 2.1 – Phase d’entraînement et phase de test dans un système d’authentification
Cependant, étant donné qu’il y a toujours une marge de fluctuation naturelle sur les traits personnels, un système d’authentification biométrique peut faillir de deux façons : soit un utilisateur autorisé est rejeté par le système, soit un utilisateur non autorisé est accepté [34]. On définit alors deux taux d’erreur comme étant les mesures de perfor-mance des systèmes d’authentification biométrique :
• Taux de faux rejet4 : mesure le pourcentage de fois qu’un utilisateur légitime est
faussement rejeté, il est défini par T P +F NF N .
• Taux de fausse acceptation5 : mesure le pourcentage de fois qu’un imposteur est
faussement accepté comme un utilisateur légitime, il est défini parT N +F PF P . Ces deux taux d’erreur varient selon le niveau de sensibilité de l’algorithme : l’un aug-mente lorsque l’autre diminue [37] (voir la Figure 2.2). On peut alors définir une mesure à l’équilibre :
• Taux d’erreurs égales6 : représente la valeur d’erreur lorsque le FAR et le FRR
prennant la même valeur. Contrairement aux FAR et FRR, cette mesure ne dé-pend pas du niveau de sensibilité de l’algorithme de classification [37].
4. False Rejected (FR), False Rejected Rate (FRR) 5. False Acceptance (FA), False Acceptance Rate (FAR) 6. Equal Error Rate (EER)
Figure 2.2 – Variations en fonction du niveau de sensibilité du système d’authentifi-cation du taux de fausse acceptation (FAR), du taux de faux rejet (FRR) et du taux d’erreurs égales (EER) lorsque les deux premiers assument la même valeur
Le système devient plus fiable, lorsque les taux d’erreur sont bas. Par ailleurs, la qualité globale d’un système d’authentification biométrique est évaluée en termes de son exac-titude, sa rapidité d’exécution, sa consommation mémoire, son coût de mise en œuvre, et sa facilité d’utilisation [27].
En bref, un des critères importants dans un système d’authentification biométrique est de permettre de contrôler les taux d’erreur de façon optimale selon l’application dans lequel il est utilisé. En général, un « FAR » plus bas est préféré dans des applications qui ont besoin de sécurité de haut niveau [5]. En effet, les erreurs de fausse acceptation sont plus problématiques et doivent être limitées. Par contre, les erreurs de faux rejet sont moins problématiques et peuvent être remédiées par faire la saisie plusieurs fois.
2.2.4
Limites de plusieurs techniques biométriques
Bien que plusieurs dispositifs basés sur ces techniques biométriques soient déjà com-mercialisés et disponibles, les résultats ne sont pas toujours satisfaisants. Les uns sont trop chers ou trop complexes à mettre en œuvre ; les autres sont moins robustes à
l’usurpation [34].
Par exemple, pour effectuer l’authentification biométrique par la reconnaissance de formes d’iris, un terminal supplémentaire spécifique est nécessaire. Les coûts de dé-ploiement de ces appareils de lecture ont freiné les projets d’intégration de la biométrie aux programmes de contrôle de cyber-identité. Il est possible de flouer un dispositif de contrôle par l’empreinte digitale. Il suffit de recueillir l’empreinte digitale sur une surface en verre, pour la reproduire sur une plaquette en silicone. Les conditions d’utilisation peuvent aussi poser des problèmes empêchant l’adoption des solutions biométriques. Il faut être sûr que l’appareil requis sera disponible à l’endroit et au moment où l’utilisa-teur en a besoin pour s’identifier ou obtenir un accès.
Par conséquent, dans le cadre de l’application à laquelle on s’intéresse, soit l’authentifi-cation préalable à un examen normatif à distance, on désire une méthode peu coûteuse, simple à mettre en oeuvre, mais également robuste. On doit alors s’orienter vers des méthodes faisant appel à un appareil que l’utilisateur a déjà en sa possession. Il nous permettra de rendre les coûts et les conditions d’utilisation bien plus raisonnables et de favoriser la généralisation des solutions biométriques pour l’organisation dans un futur proche. L’authentification par dynamique de frappe répond à ces critères.
2.2.5
Authentification par dynamique de frappe
La dynamique de frappe est une biométrie comportementale efficace de reconnaissance des personnes basée sur le rythme de frappe du clavier d’ordinateur. Des étudiants qui veulent passer l’examen à distance peuvent être identifiés par la reconnaissance de dynamique de frappe. Dans ce contexte, ses avantages évidents, face aux autres techniques biométriques sont :
• Bas coût et facilité de la mise en œuvre : le procédé d’authentification par la dynamique de frappe reste très naturel, et comme tous les individus concernés détiennent des ordinateurs, l’organisation n’a pas besoin d’investir dans des équi-pements supplémentaires, ni de les distribuer ou d’en assurer la maintenance. C’est une solution biométrique qui peut être mise en œuvre seulement par lo-giciel (Software Only) [40]. Elle est donc simple et compétitive à implémenter rapidement pour un grand nombre d’utilisateurs avec un investissement limité.
• Unicité : la dynamique de frappe utilise la manière et le rythme par lequel chaque individu frappe les touches de son clavier et qui leur est propre [34, 37]. En fait, les facteurs neurophysiologiques similaires qui rendent des signatures écrites uniques résident aussi dans la forme de frappe d’un individu [34]. Il est donc peu pratique de reproduire la signature de dynamique de frappe des autres, puisque l’événement de frappe peut être mesuré par logiciel jusqu’à une précision de la milliseconde. En général, c’est une solution biométrique robuste et fiable, qu’il est très difficile de leurrer.
• Transparent et non-envahissant : la capture de modèle de la frappe est faite via la mise en œuvre d’un logiciel d’arrière-plan, favorisant le fait que l’utilisateur ne sera pas perturbé par la présence d’un système. Aussi, l’utilisateur n’est pas conscient qu’il est protégé par une couche supplémentaire d’authentification. De plus, aucune carte ni jeton n’étant utilisé, cela évite une perte de ceux-ci [43]. • Renforcement de mot de passe et sa durée de vie : la biométrie de dynamique de
frappe fournit la capacité de fusionner la simplicité du mot de passe avec la fiabilité augmentée par la biométrie. Elle réduit sensiblement la nécessité de changement de mot de passe et la sollicitation des services informatiques [43].
2.3
Conception d’un système de reconnaissance
La conception d’un système de reconnaissance par la dynamique de frappe suit le même processus que celui des systèmes automatiques de reconnaissance de formes : l’acquisi-tion de données, l’extracl’acquisi-tion de traits caractéristiques et la classifical’acquisi-tion.
L’acquisition de données fournit les informations mesurées qui caractérisent la forme à identifier. On pourra souvent écrire une série de données corrélatives pour un échantillon sous forme de vecteur. Ce vecteur pourra alors être considéré pour l’analyse comme un point dans un espace Euclidien multi-dimensionnel. L’extraction de traits caractéris-tiques permet la réduction de la dimension des vecteurs de mesures. Elle a alors pour objectif de trouver les traits les plus représentatifs. Enfin, après avoir une expression pertinente des données, la classification est effectuée pour l’identification [34, 43].
Plus spécifiquement dans la dynamique de frappe, il est demandé à l’utilisateur de réaliser une saisie un certain nombre de fois pour construire sa signature de dynamique de frappe. En général, un grand nombre de saisies mène à une signature de meilleure qualité. À l’aide d’un algorithme qui exploite le temps d’appui sur chaque touche et le temps écoulé entre chaque appui, il suffit d’une dizaine de saisies pour bâtir le profil de l’utilisateur qui servira ensuite de référence. Aux accès suivants, en suivant la même approche, la saisie sera comparée au profil de référence. Le droit d’accès est alors accordé en fonction du niveau de ressemblance de ce profil avec la référence. Suivant le degré de filtrage qu’un administrateur aura défini, cet accès sera plus ou moins exigeant [15].
2.4
Apprentissage automatique
Pendant la conception d’un système de reconnaissance par dynamique de frappe, une étape importante est la classification, qui résout le problème de l’identification dans le domaine de l’apprentissage automatique. L’apprentissage automatique7 est une des disciplines scientifiques recherchant des méthodes de création ou de simulation de l’intel-ligence [13]. Celui-ci se réfère au développement des systèmes automatisés qui peuvent traiter des grandes quantités de données pour extraire des informations significatives et potentiellement utiles (l’extraction de données) qui seront employées dans des problèmes pratiques (le support à la décision) [29]. Nous abordons l’apprentissage automatique par l’étude de méthodes de classification dans le chapitre suivant.
Chapitre 3
Revue de littérature
Dans ce chapitre, nous présentons une revue de littérature sur l’état de l’art. Nous étudions les données d’entrées (section 3.1), les caractéristiques des données à extraire (section 3.2) utilisées par les chercheurs qui ont obtenu de bon résultats de reconnaissance au cours des dernières vingt années. Les méthodes de classification y compris la machine à vecteurs de support sont présentées dans les sections 3.3 et 3.4. L’outil logiciel retenu pour appliquer cette dernière dans notre projet est décrit dans la section 3.5.
Les approches de dynamique de frappe peuvent être catégorisées selon les types de saisies appliqués, les caractéristiques d’entrée sélectionnées et les méthodes de classification employées. L’objectif de ce chapitre est de résumer les approches connues à la dynamique de frappe par rapport à ces catégories, ceci dans les deux dernières décennies.
3.1
Données d’entrées
3.1.1
Types de saisies
La dynamique de frappe peut s’appliquer de deux façons : les saisies de texte statiques ou les saisies de texte dynamiques [5, 37, 43]. Les saisies de texte statiques correspondent
à demander aux utilisateurs de taper une chaîne de caractères prédéfinie, par exemple un nom d’utilisateur ou un mot de passe. Cependant, toutes les saisies qui prennent seulement une partie des textes prédéfinis (par exemple, les 100 premières frappes d’un paragraphe prédéfini dans un article) sont aussi jugées comme des saisies de texte statiques qui pourraient être appelées « les saisies de texte pseudo-dynamique » [19]. Les saisies de texte dynamiques consistent quant à elles, à demander aux utilisateurs de taper n’importe quel texte d’une façon non contrainte [14]. Le comportement de frappe est alors contrôlé de manière continue ou périodique [5].
Bien que la saisie de texte dynamique soit une meilleure approximation de situations réelles et permette de faire l’authentification de façon plus transparente, la performance de sa reconnaissance n’est pas aussi bonne que la reconnaissance basée sur le texte sta-tique. De plus, la reconnaissance basée sur le texte dynamique peut être beaucoup influencée par les conditions de saisies (par exemple, l’attention distraite ou l’état émo-tionnel pendant la saisie). Par ailleurs, si la saisie n’est pas contrainte, l’utilisateur peut être peu coopératif [34]. Les performances de ces deux types de saisies ont été comparées dans les travaux de Monrose et al. [33, 34]. Ces résultats soutiennent l’utilisation de texte contraint (avec un taux de reconnaissance 92.14%) au lieu de celui non contraint (avec un taux de reconnaissance 84.6%).
En fait, dans les travaux sur l’identification par dynamique de frappe des deux dernières décennies, il est toujours montré que la saisie de texte statique fournit des taux d’erreur plus acceptables et est beaucoup plus facile à mettre en œuvre que la saisie de texte dynamique. La saisie d’une chaîne de caractères plus simple et plus familière donne toujours de meilleurs résultats de FAR et FRR [14]. Un autre avantage de la saisie de texte statique est qu’elle permet de minimiser le nombre de caractères à saisir. On trouve une comparaison des résultats de dynamique de frappe par rapport aux types de saisies dans le tableau 3.1 :
Recherche Types de saisies Classificateur Nombre d’échantillons FAR FRR Bleha et al. (1990) [7] Statique Statistique 32 0.5% 3.1% Joyce et al. (1990) [25] Statique Statistique 33 0.25% 6.67% Leggett et al. (1991) [30] Dynamique Statistique 17 5.8% 11.7% Monrose et al. (1997) [33]
Dynamique Statistique 31 Taux de reconnaissance 84.6% Cho et al. (2000) [12] Statique Réseau de neurones 25 1% 0% Monrose et al. (2000) [34]
Statique Statistique 63 Taux de reconnaissance 92.16% Araujo et al. (2004) [4] Statique Statistique 30 1.89% 1.45% Yu et al. (2004) [51] statique SVM, Réseau de neurones 21 0% 1% Gunetti et al. (2005) [19] Dynamique Statistique 205 < 0.005% < 5% Ahmed et al. (2008) [1] Dynamique Réseau de neurones 22 0.0152% 4.82% Teh et al. (2010) [42] Statique Statistique 100 1% 1% Alarcon er al. (2011) [2] Statique Statistique 20 2.89% 3.35%
Table 3.1 – Comparaison de résultats de performances avec les deux types de saisies dans l’état de l’art
Par contre, ces résultats peuvent difficilement départager les différentes méthodes en termes de performance. En effet, chaque auteur utilise des caractéristiques de frappe, des classificateurs et des bases de données différents.
3.1.2
Cas particulier de texte statique : le nom d’utilisateur
John D. Garcia suggère dans son Brevet américain « Personal Identification Apparatus » que les meilleures données pour la vérification d’identité sont une chaîne de caractères qui est dérivée du nom de l’individu [18]. En effet, il a prouvé que les caractéristiques temporelles produites par l’utilisateur dans la dynamique de frappe de son nom sont stables et uniques en pratique avec un FAR de 0.0001% et un FRR de 0.5%. Le nom d’un individu est donc tout désigné pour construire une signature électronique par dynamique de frappe. De plus, le nom est une des chaînes de caractères les plus faciles à se souvenir.
R. Joyce et G. Gupta ont étudié l’influence du fait que l’utilisateur tape son prénom, son nom de famille, son nom d’authentication, ses mots de passe et toutes leurs associations [25]. Leurs résultats appuient l’utilisation des quatre chaînes de caractères dans la saisie, leur permettant d’obtenir un bon FAR de 0.17 % (toutes les 600 tentatives d’imposteur échouent sauf une) mais un FRR de 13.3 % (4 faux rejetés parmi 30 tentatives de vrais utilisateurs) qui n’est pas n’est pas considéré comme bon.
3.1.3
Influence de la longueur du texte
La longueur du texte utilisée pour les signatures par dynamique de frappe de texte sta-tique a une influence sur les performances. En général, les chercheurs qui utilisent des chaînes de caractères plus longues dans leurs travaux ont obtenu de meilleurs résultats [7]. Robinson et al. ont ainsi obtenu de bons résultats avec un FRR de 10% et un FAR de 9% en moyenne, en utilisant seulement les prénoms d’utilisateurs ayant une longueur moyenne de 6,4 caractères [38]. Par ailleurs, Bleha et al. ont obtenu des résultats simi-laires (un FRR de 9% et un FAR de 8% en moyenne) en utilisant les prénoms et les noms de famille. Dans ce cas, la longueur de chaîne de caractères double (la longueur varie de 11 à 17 caractères) [8]. Par contre, l’augmentation au delà de ce nombre de caractères n’apporte pas d’amélioration.
3.1.4
Influence du nombre de saisies
les résultats obtenus avec les méthodes proposées des deux dernières décennies selon le nombre de saisies pendant la phase d’inscription. En général, plus de saisies pendant la phase d’inscription mènent à un meilleur résultat [28, 43]. Par exemple, dans leurs travaux publiés en 2000 Cho et al. ont obtenu un FAR de 0 et un FRR de 1% avec le nombre de saisies entre 75 et 325 [12]. Un peu plus tard (en 2003) avec un nombre de saisies entre 150 et 400, ils ont obtenu un FAR de 0 et un FRR de 0.814% [50]. D’une façon générale, dans la plupart des travaux ayant 30 saisies pendant la phase d’inscription, les chercheurs ont obtenu des résultats assez bons (FAR et FRR tous inférieurs à 5%). Le tableau 3.2 présente une comparaison des résultats de dynamique de frappe par rapport à la longueur de texte et au nombre de saisies.
3.1.5
Données d’entrée appliquées
Partant de la revue de littérature présentée ci dessus, nous avons donc retenu, la saisie du texte statique pour notre application. Cependant, Epp et al. et Nahin et al. ont montré dans leurs travaux que l’état émotionnel (joyeux, peureux, stressé, relaxé, etc.) peut affecter la signature de dynamique de frappe d’utilisateurs [16, 35]. Par conséquent, pour atteindre des taux d’erreur assez bas, les comportements utilisés pour la signature biométrique devraient être aussi naturels et cohérents que possibles. En ce qui concerne le cas de l’Université Laval, l’utilisation de l’Identifiant Université Laval (IDUL) semble appropriée.
Cet identifiant est assigné à chaque étudiant à son arrivée à l’Université Laval. Il se compose de deux parties : il commence par cinq lettres et peut se terminer par des chiffres (de 0 à un nombre à trois chiffres). Parmi les cinq lettres, les deux premières lettres sont extraites de son prénom et les trois autres sont extraites de son nom de famille. Les cinq lettres peuvent être suivies d’aucun à trois chiffres qui sont générés aléatoirement (par exemple, JACAR123 pour Jacques Cartier). L’IDUL et les mots de passe créés par l’étudiant donnent accès ensemble à des systèmes informatiques. Donc, nous considérons que l’IDUL est bien une chaîne de caractères de connexion dérivée du nom de l’individu qui a une longueur de texte suffisante (5 à 8 caractères).
Recherche longueur de texte Chaîne de saisies Nombre d’échan-tillon Nombre de saisies Classificateur FAR FRR Joyce et al. (1990) [25] 21-28 N+C 33 8 Statistique 0.25% 16.36% Bleha et al. (1990) [7] 11-17 N 26 30 Statistique & Bayésien 2.8% 8.1% Bleha et al. (1993) [9] 11-17 N 24 2 Perceptron 8% 9% Robinson et al. (1998) [38] 3-8 C 10 20 Apprentissage inductif 9% 10% Cho et al. (2000) [12] 7 C - 75-325 Réseau de Neurones 0 1% Haider et al. (2000) [22] 7 C - 15 Réseau de Neurones 22% 20% Yu et al. (2003) [50] 6-10 C 21 150-400 SVM 0 0.814% Bartlow et al. (2006) [6] 31-37 N+C 41 120 en moyenne Statistique 1% 14% Kang et al. (2007) [26] 7-10 C 21 - Statistique EER 3.8% Hosseinzadeh et al. (2008) [23] >10 N 41 30 Statistique 4.3% 4.8% Hwang et al. (2009) [24] 8 C 25 30 Statistique EER 1% Teh. et al. (2010) [42] 22-28 C 100 10 Statistique 1% 1% Alarcon er al. (2011) [2] 10 C 20 20 Statistique 2.89% 3.35%
Table 3.2 – Comparaison des résultats de dynamique de frappe par rapport à la lon-gueur de texte et le nombre de saisies. N dénote le nom d’utilisateur, et C dénote la chaîne de caractères de connexion.
D’ailleurs, un de nos objectifs est de fournir une solution d’identification qui s’intègre facilement au système existant, nous avons choisi l’IDUL pour construire les signatures des utilisateurs. En effet, il est saisi très régulièrement et naturellement par chaque étudiant de l’Université. Ce choix nous permet donc d’obtenir suffisamment de saisies pour construire une base de données avec une taille d’échantillon assez importante. De plus, cela permet de renforcer la robustesse de l’identification à chacune de ces nouvelles connexions, puisque l’IDUL est très souvent utilisé.
3.2
Caractéristiques des données à extraire
3.2.1
Définitions
Pour pouvoir construire les profils, les valeurs des touches (‘A’ ou ‘E’ par exemple) sont enregistrées. Les instants où chaque touche est appuyée puis relâchée sont aussi enregistrés comme des données de base pour construire un vecteur de caractéristiques qui sera utilisé pour l’identification. Le vecteur de caractéristiques est utilisé comme l’entrée de la dernière étape du processus d’authentification, soit la classification. Les caractéristiques les plus mentionnées dans la littérature sur la dynamique de frappe sont [37] :
• DU1 : l’écart temporel entre les instants où une touche est appuyée et relâchée. Il est aussi appelé « durée de frappe » ou « temps de demeure » et il représente le temps où la touche reste appuyée.
• DU2 : l’écart temporel entre les instants où une touche est appuyée et la touche suivante est relâchée.
• UD : l’écart temporel entre les instants où une touche est relâchée et la touche suivante est appuyée. On le connaît aussi comme l’« intervalle de frappe » ou « temps de vol ».
• DD : l’écart temporel entre les instants où une touche est appuyée et la touche suivante est appuyée.
• UU : l’écart temporel entre les instants où une touche est relâchée et la touche suivante est relâchée.
Ces caractéristiques sont représentées de façon graphique dans la Figure 3.1-a, dans laquelle les flèches vers le bas et vers le haut représentent respectivement les instants d’appui et de relâche de chaque touche. Parmi elles, comme le montre la Figure 3.1-b, il y a deux composants orthogonaux : DU1 (le temps de demeure) et UD (le temps de vol) qui sont utilisés dans la plupart des études [28, 44].
De plus, la touche d’entrée doit être prise en compte comme faisant partie des caractères saisis, ce qui a l’avantage d’augmenter la longueur de chaîne de n à n+1 caractères et ainsi possiblement augmenter la qualité de l’identification [28].
Normalement, les données capturées avec une résolution temporelle plus haute abou-tissent à une meilleure exactitude de classification, alors que celles avec une basse réso-lution (par exemple, 100 ms) peuvent aboutir à des taux d’erreur de 50% ou plus élevés [37]. La touche de Majuscule et de Verrouillage en Majuscules sont les facteurs supplé-mentaires pour classifier les signatures contenant un mélange de lettres minuscules et majuscules. Il aide à réduire les taux d’erreur des classificateurs [37].
Figure 3.1 – Les caractéristiques les plus mentionnées en signature de frappe (a) et leur nombre d’occurences trouvée dans la littérature (b). Les flèches vers le bas et vers le haut dans (a) représentent respectivement les instants de pression et la relâche de chaque touche [37].
3.2.2
Caractéristiques appliquées
Selon l’état de l’art de dynamique de frappe présenté dans cette section, ce sont les touches elles-mêmes avec les deux composants orthogonaux des instants (DU1 et UD) où chaque touche est appuyée puis relâchée qui sont enregistrées comme les caractéristiques de dynamique de frappe pour construire notre base de données. Une résolution à l’échelle de la milliseconde sera préférée. De plus, la touche de Majuscule et de Verrouillage en Majuscules seront aussi enregistrées comme les informations supplémentaires pour utilisation future.
3.3
La classification
Après avoir exprimé les données observées sous forme de vecteurs de mesure dans l’es-pace des caractéristiques, l’identification des utilisateurs est effectuée par classification. Le choix du classificateur est alors une étape critique. Nous le discutons dans les para-graphes suivants.
3.3.1
Définitions
La classification de données est une tâche commune dans l’apprentissage automatique. Ayant étudié un grand ensemble de données étiquetées, les systèmes sont capables d’éti-queter automatiquement des données n’ayant encore jamais été vues. En général, le but est de développer un système de support à la décision qui aide des humains à prendre des décisions, souvent dans des environnements inconnus.
3.3.2
Procédé pour faire la classification
La première étape dans un processus de classification consiste à étudier des exemples dans un ensemble de données préalablement collecté, afin de trouver les caractéristiques ou les attributs des données qui sont les plus informatifs. Les caractéristiques peuvent être continues, catégorielles ou binaires. Cependant, un ensemble de données collecté peut contenir du bruit et des valeurs de caractéristiques manquantes. Cela exige donc un prétraitement [29].
Une tâche de classification implique souvent la séparation des données en deux parties : l’ensemble d’entraînement et celui de test. Chaque exemple dans l’ensemble d’entraî-nement ou de test contient une valeur cible (par exemple, les étiquettes de classe) et plusieurs attributs (par exemple, les caractéristiques des durées de frappe). Il y a trois techniques recommandées pour diviser l’ensemble de données afin de calculer la précision d’un classificateur. La première technique consiste à utiliser une partie de l’ensemble de données (par exemple, deux tiers) pour l’entraînement et l’autre partie (un tiers) pour tester la performance. Cependant, pour être plus rigoureux, une deuxième technique « validation croisée1 » est préférée. Il s’agit de diviser l’ensemble d’entraînement en k
sous-ensembles de tailles égales et mutuellement exclusifs. On choisit le k d’une façon expérimentale. Pour chaque sous-ensemble, le classificateur est entraîné sur l’union de tous les sous-ensembles restants et testé sur ce sous-ensemble. Tous les sous-ensembles seront entraînés et testés en rotation. La moyenne du taux d’erreur de chaque sous-ensemble est donc une estimation du taux d’erreur du classificateur. La consommation de ressources informatiques est donc un défaut de la validation croisée. La troisième technique « validation leave-one-out » est un cas particulier de validation croisée : on considère tous les échatillons comme un sous-ensemble. Donc le leave-one-out prend encore plus de ressources informatiques, mais il est intéressant lorsque l’on requiert une estimation plus précise [29].
Bien que la technique « validation croisée » consomme plus de ressources que la première technique, celle-ci permet d’atténuer le problème de sur-apprentissage (overfitting) en
1.
Validation Croisée à k plis : le jeu d’entraînement est divisé en k plus petits ensembles. Pour chacun des k plis, un modèle est entraîné utilisant les k-1 plis comme des données d’entraînement, et le modèle obtenu est testé sur la partie restante des données pour calculer le taux de reconnaissance. La moyenne des k valeurs calculées est alors le taux de reconnaissance obtenu par la validation croisée.
phase d’entraînement. Le sur-apprentissage est une erreur méthodologique causée par l’apprentissage et le test : la prédiction serait parfaite avec les données d’entraînement, mais il échouerait à prévoir quoi que ce soit sur des échantillons qui ne sont pas encore vus. Pour éviter ceci, il est souvent suggéré d’effectuer une expérience d’apprentissage automatique supervisé avec une partie des données réservées comme le jeu de test2.
3.3.3
Classificateurs divers
Un classificateur est un algorithme qui met en œuvre la classification, particulièrement dans une mise en œuvre concrète qui projette des données sur une catégorie. Le choix d’algorithme d’apprentissage spécifique au domaine d’application est une étape cri-tique. Sur les résultats présentés dans l’état de l’art dans [37], il est important de noter des différences importantes dans les conditions d’expérimentation comme la banque de données et les mesures d’évaluation utilisées. Dans le cas qui nous intéresse, la perfor-mance du classificateur dépend fortement du type de saisies de système de dynamique de frappe et du type de données collectées, qui diffère d’une étude à l’autre. L’évalua-tion du classificateur est plus souvent basée sur la précision de prédicL’évalua-tion (le nombre de reconnaissances correctes sur le nombre total de prédictions).
Beaucoup d’algorithmes de classification sont applicables pour la dynamique de frappe. Ceux qui sont les plus utilisés dans l’état de l’art sont les algorithmes statistiques, les réseaux de neurones et la machine à vecteurs de support3.
Les algorithmes statistiques les plus simples se basent sur le calcul de moyenne et de l’écart type des données. Ces caractéristiques sont utilisées pour la comparaison de distance (distance absolue, distance pondérée, distance Euclidienne, etc.). Joyce et al. ont obtenu avec une méthode statistique un bon FAR de 0.17 % (1 de 600) mais un FRR de 13.3 % (4 de 30) qui n’est pas bon [25], comme montrés dans la section 3.1.2. De plus, Guven et al. ont obtenu un taux de reconnaissance de 95% dans [20] avec l’analyse de vecteur temporelle. Cependant, les algorithmes ne peuvent pas fournir de bons résultats, puisque les caractéristiques de frappe semblent être non-linéaires [5].
2. http ://scikit-learn.org/stable/modules/cross_validation.html#cross-validation 3. « Support Vector Machine (SVM) » en anglais
Un réseau de neurones est un outil de modélisation adaptive non-linéaire de données statistiques. Les paramètres pondérés peuvent être attribués pendant la phase d’entraî-nement. Obaidat et al. ont obtenu un taux de reconnaissance de 97.8% avec le réseau de neurones [36]. L’avantage des réseaux de neurones est qu’ils peuvent tenir compte de beaucoup de paramètres en même temps. Cependant, ils peuvent être lents, non seule-ment pendant l’entraîneseule-ment, mais aussi dans la phase de test. Yu et al. ont obtenu respectivement un FAR de 0% et un FRR de 1% en utilisant la SVM et le réseau de neurones. La SVM ne nécessite que 0.1 seconde pour entraîner un modèle, alors que le réseau de neurones nécessite plus de 100 secondes pour atteindre le même taux de reconnaissance [51]. De plus, il est difficile d’identifier les caractéristiques les plus impor-tantes pour la classification par le réseau de neurones, à cause de son mode d’opération de type « boîte noire » [5].
La machine à vecteurs de support a non seulement de forts fondements théoriques mais aussi d‘excellents succès. Par exemple, Yu et al. [50] ont obtenu un FAR de 0 et un FRR de 0.814% comme montré dans le tableau 3.2. Il a un avantage notable quant à la performance de calcul informatique comparée au Réseaux de Neurones [43], particulièrement lorsque peu de données d’entraînement sont disponibles. C’est donc le classificateur que nous avons retenu pour notre application.
3.3.4
Classificateur appliqué : machine à vecteurs de support
Comme il a été précédemment, la SVM est notre premier choix. L’algorithme est origi-nalement basé sur la séparation de l’espace des caractéristiques par un hyperplan avec marge maximale, qui fut proposé par Vapnik et al. en 1963 [3]. En ce sens, il fonctionne comme un classificateur linéaire. Cependant, en 1992, Boser et al. ont suggéré une façon de créer des classificateurs non-linéaires en appliquant les méthodes à noyaux4 aux hy-perplans avec marge maximale [10]. Depuis, la SVM est devenue une technique pratique pour la classification de données et a eu beaucoup de succès dans de nombreuses tâches d’apprentissage automatique.
Figure 3.2 – En utilisant « les Méthodes à Noyaux », la SVM peut efficacement faire une classification non-linéaire (a), avec des algorithmes de classification linéaire (b). Ces figures sont générées par libSVM.
Le but d’une SVM est de produire un modèle (basé sur les données d’entraînement avec des valeurs cibles et des attributs) qui prévoit les valeurs cibles des données de test, étant donné seulement les attributs de données de test. Dans la classification binaire par SVM, l’ensemble de données d’entraînement {x1, . . . , xn} consiste en des points dans un
espace d-dimensionnel X ⊆ Rd et leurs étiquettes sont {y1, . . . , yn} avec yi∈ {−1, 1}. Il
s’agit alors de savoir si la SVM peut construire un hyperplan (d-1)-dimensionnel pour séparer de tels points pour la classification. En réalité, il existe de nombreux hyperplans qui pourraient classifier les données. Cependant, intuitivement, une bonne séparation est faite par l’hyperplan qui sépare les points de données de deux classes avec la plus grande distance5 (voir la Figure 3.2-b). On étiquette tous les vecteurs (perpendiculairement de
l’hyperplan aux points) qui se trouvent d’un côté de l’hyperplan à la valeur -1, et tous les vecteurs qui se trouvent à l’autre côté à la valeur 1. Les données d’entraînement qui se trouvent le plus près de l’hyperplan sont appelées les vecteurs de support6. De cette manière, la SVM fonctionne comme un classificateur linéaire binaire et non-probabiliste. Cependant, il arrive souvent que l’ensemble de données ne soit pas linéairement
sépa-5. Cette distance est aussi dite la marge maximale 6. « Support Vectors » en anglais
rable dans l’espace original en dimension finie. C’est pourquoi il a été suggéré de pro-jeter l’espace original en dimension finie dans un espace en dimension beaucoup plus élevé, pour faciliter la séparation linéaire dans cet espace. En utilisant « les méthodes à noyaux » [32], la SVM peut efficacement faire une classification non-linéaire avec des algorithmes de classification linéaire, ceci sans avoir besoin de faire une projection ex-plicite dans l’espace. Les méthodes à noyaux consistent à considérer les données xi de
l’espace original X implicitement projetées dans l’espace de caractéristiques en dimen-sion plus élevée (et parfois même infini) F . On obtient la projection φ (xi) dans l’espace
de caractéristiques via une fonction de projection φ (· ). Ainsi, Kxi, xj ≡ φ(xi)Tφ(xj)
dénote la fonction de noyau [32, 10]. Plusieurs types de noyaux peuvent être utilisés, tels que les noyaux linéaire, polynômial, fonction de base radiale7 ou encore sigmoïd
[32].
Ensuite, la SVM calcule la marge maximale d’hyperplan dans F [11, 32, 45]. Ceci est beaucoup moins coûteux du point de vue de l’utilisation des ressources informatiques [49].
3.4
Machine à vecteurs de support à une classe
3.4.1
Définitions
La classification à une classe8 consiste à construire un modèle de description d’un ensemble de données dont les échantillons n’appartiennent qu’à une seule classe, et de détecter ensuite si un nouvel échantillon ressemble à cet ensemble de données selon la description construite. Ceci est aussi appelé la détection d’anomalie. C’est un type de classification non-supervisée. Au lieu de considérer tous les échantillons d’entraînement, la machine à vecteurs de support à une classe9proposée par Schölkopf et al. [39] n’utilise
pour le calcul que les échantillons qui se trouvent sur la frontière de la classe. Ces échantillons correspondent aux Vecteurs de Support10. Cette méthode qui est appelée
l’OCC clairsemée coûte beaucoup moins cher en termes de ressources et de temps de
7. « Radial Basis Function (RBF) » en anglais 8. One-Class Classification (OCC)
9. One Class Support Vector Machine (OCSVM) 10. Support Vectors (SVs)
calcul nécessaires, que des méthodes de calcul générales [49].
De plus, la SVM à une classe est basée sur la SVM à deux classes. Au lieu de séparer les données positives et négatives par un hyper-plan comme dans le cas de la SVM à deux classes (voir la Figure 3.3-a), on cherche un hyperplan construit par l’OCSVM qui sépare les données positives du point de l’origine, ceci avec une distance maximale. Ainsi, comme le montre dans la Figure 3.3-b, toutes les données positives se trouvent de l’autre côté de l’origine.
Figure 3.3 – a) SVM à deux classes. b) OCSVM L’hyperplan construit par l’OCSVM sépare les données positives du point d’origine avec une distance maximale. Ces figures sont générées par LibSVM.
L’hyper-plan peut être défini par :
Π : {w, φ(x)} − ρ = 0 (3.1)
où w est le vecteur de poids et ρ est le biais dans l’espace de caractéristiques [49]. Pour résoudre le problème de classification par OCSVM, il s’agit de minimiser l’équation quadratique suivante :
min w∈F ,ξ∈Rn,ρ∈R 1 2w Tw + 1 νn Xn i=1ξi− ρ s. t. hw, φ (xi)i ≥ ρ − ξi, ξi ≥ 0 i = 1, . . . , n (3.2)
où ξi est la variable d’écart pour permettre à une donnée d’être possiblement
incorrec-tement classifiée par un hyper-plan [47, 49] et νn1 est le paramètre de pénalité du terme d’erreur, ν étant un paramètre de pourcentage qui sera défini plus tard.
En général, après avoir appris des données d’un ensemble, l’OCSVM peut déterminer le domaine où ses profils se trouvent. Par ailleurs, les données n’appartenant pas à l’ensemble peuvent être détectées comme des données aberrantes car leurs profils sont à l’extérieur du domaine (voir les données aberrantes dans la figure 3.3-b).
3.4.2
Hyper-paramètres de la SVM à une classe avec noyau
Gaussien
Dans la méthode de l’OCSVM, le noyau adopté a une influence importante sur la perfor-mance, parce qu’il détermine la distribution de projection de données dans l’espace de caractéristiques. Il s’agit alors de rechercher une fonction de noyau appropriée, ainsi que les meilleures valeurs pour les hyper-paramètres ; ceci pour pouvoir réaliser une bonne séparation par l’hyperplan. Les hyper-paramètres viennent en effet limiter la possibilité de sur-apprentissage, en offrant la possibilité d’avoir un noyau gaussien suffisamment large pour forcer la généralisation, ce qui diminue le sur-entrainement.
Aussi, c’est le noyau gaussien qui est généralement utilisé. Les hyper-paramètres suf-fisamment larges assurent aussi la généralisation et limitent le sur-entrainement, ce qui diminue aussi le sur-apprentissage. En effet, ce noyau évite l’influence des mises à l’échelle des échantillons puisqu’il implique des projections de longueur unitaire dans l’espace de caractéristiques. De plus, le noyau Gaussien n’a qu’un seul paramètre, sa largeur, ce qui facilite les mises au point. Le noyau Gaussien est défini par la fonction
suivante :
K(xi, xj) = exp(−
k xi− xj k2
s ) (3.3)
où s est l’inverse de la largeur du noyau Gaussien. On trouve parfois des équivalents tels que γ ou σ avec γ = 1s = 2σ12.
En utilisant « les méthodes à noyaux », on obtient la fonction de frontière de décision de l’OCSVM f (x) avec :
f (x) = hw, φ (x)i − ρ =Xn
i=1αiK(xi, x) − ρ (3.4)
On étiquettera des échantillons comme des données normales si f (x) ≥ 0, ou des données aberrantes si f (x) < 0 [49].
Nous avons introduit un paramètre de pénalité du terme d’erreur «νn1 » dans la formule 3.2, où ν est un paramètre de compromis entre la complexité de modèle et l’erreur d’en-traînement dans le principe de l’OCSVM. En fait, ν peut être vu comme une estimation a priori de la fraction d’échantillons cibles non représentatifs dans l’ensemble de données d’entraînement. Il est prouvé que ν est une borne supérieure de la fraction des échan-tillons d’entraînement qui se trouvent sur le côté envers de l’hyper-plan Π (à l’extérieur des frontières de décision) [39]. Il est une borne inférieure de la fraction des vecteurs de support. ν affecte aussi la forme de frontières de décision. Quand ν augmente, le nombre de vecteurs de support augmente et le nombre d’échantillons d’entrainement qui sont mal classés augmente. Il est souvent fixé à une faible valeur pour s’assurer d’un taux réduit de faux positifs [47].
D’autre part, le paramètre γ correspondant au paramètre de largeur du noyau Gaussien (voir la formule 3.3) joue un rôle clé dans la classification. L’effet de γ sur les frontières de décision est monotone : plus γ est grand, plus les frontières sont serrées. Ainsi, par exemple, quand γ diminue, le nombre de vecteurs de support diminue et les frontières de décision deviennent plus larges. En même temps, le taux de faux négatifs diminue et le taux de faux positifs augmente [47]. On voit donc l’importance de la sélection des hyper paramètres pour l’entrainement du modèle.
3.5
Outil logiciel : LibSVM
La librairie LibSVM11est un outil logiciel gratuit complet et performant pour mettre en œuvre la classification en utilisant SVM. Son utilisation typique implique aussi l’entraî-nement et le test. C’est une librairie open-source fréquemment utilisée dans le domaine de l’apprentissage automatique [11].
La librairie LibSVM est écrite en C++ et offre une Interface de Programmation Ap-plicative12 en C. Elle met en œuvre l’algorithme SMO13pour des SVMs à noyaux, qui
soutient la classification. La bibliothèque a été largement utilisée avec toutes sortes de systèmes d’exploitation (multi-plateformes) et offre beaucoup de liens14 avec des
lan-gages de programmation comme Java, MATLAB et R (disponibles dans libsvmtools). Le code d’apprentissage de SVM dans la LibSVM est souvent réutilisé dans d’autres boîtes à outils d’apprentissage automatique open source, y compris GATE, KNIME, Orange et Scikit-Learn.
La librairie LibSVM soutient aussi les tâches d’apprentissages d’OCSVM [11]. Simple d’utilisation, elle permet facilement d’identifier les bons hyper-parametres et aide à trouver les bonnes valeurs d’hyparametres pour éviter le surentraînement. Ceci per-mettant de résoudre la plupart de problèmes de classification. D’ailleurs, une fonction de validation croisée est fournie par LibSVM. C’est donc cette librairie qu’on a utilisée.
11. la librairie LibSVM est développée à l’Université nationale de Taïwan. Plus de 250,000 téléchar-gements du paquet de LibSVM ont été effectués entre 2000 et 2010 [11].
12. Application Program Interface (API)
13. SMO : Sequential Minimal Optimization (Optimisation minimale séquentielle) 14. Bindings