Domaines de la criminalistique liés à la LADJ

2. État de la question et cadre théorique

2.2. LADJ

2.2.2. Domaines de la criminalistique liés à la LADJ

Puisque la LADJ, selon sa définition étroite, relève directement de la criminalistique étant donné ses objectifs, il convient de s’attarder à certains domaines de la criminalistique qui peuvent s’inspirer de la linguistique et dont McMenamin (2002) fait état. Pour ma part, je me suis attardée à trois d’entre eux : il s’agit de l’expertise de document, de l’expertise judiciaire en informatique11_{et de la détection informatisée du plagiat.}

2.2.2.1. Expertise de documents

L’expertise de documents peut parfois faire appel à certains paramètres linguistiques, mais se fonde avant tout sur l’étude matérielle du document. Par exemple, l’analyse de certains marqueurs de style liés à la dimension physique du document peut être faite par les experts. Ce type d’analyse demande, dans tous les cas, l’étude de la mise en page et de la variété de papier. Lorsque le document n’est pas manuscrit, on doit également faire l’examen des polices de caractères utilisées et du mode de production (dactylographie, impression, photocopie). Si les documents sont imprimés, on tentera de déterminer le type d’encre et le modèle d’imprimante employés. Lorsque le document est produit à la main, c’est l’étude calligraphique qui sera au centre de l’examen. Ce type d’expertise a déjà fait ses preuves au Canada. La Gendarmerie Royale du Canada (GRC) et le Ministère de la Sécurité publique du Québec offrent d’ailleurs des services en ce sens. À cet effet, André Münch (2000) démontre de quelle façon ce type d’expertise a pu mener à identifier l’un des auteurs de l’enlèvement de Léna Blanchet en 1975 dans les environs de Sherbrooke. Deux documents litigieux étaient au centre de cette investigation, le premier était une lettre signée de la main de Léna Blanchet (P01); le deuxième, un billet dactylographié par le ou les ravisseurs (P02). Un examen comparatif des écritures de P01 et de spécimens d’écriture de Léna Blanchet a mené à la conclusion que P01 était authentique et donc que Mme Blanchet était toujours vivante au moment où le document a été produit. Dans le cas de P02, c’est l’examen comparatif de la frappe dactylographique du document avec les spécimens de frappe contenus dans la banque du laboratoire d’expertise qui a permis :

10_{Que je privilégierai ici.}

11_{Traduction du GDT de la séquence computer forensics souvent utilisée en remplacement de software forensics, dont je n’ai}

trouvé aucun équivalent en français. Pour désigner le même concept, j’utilise également l’expression « linguistique judiciaire », qui est la traduction faite par Termium Plus de la séquence computer software.

[…] d’établir que la machine à écrire utilisée par le ou les ravisseurs était de marque Olympia et qu’il devait s’agir d’un modèle portatif, SM8 ou SM9. De plus, la dactylographie du document litigieux présentait des caractéristiques ou des défauts de frappe significatifs qui pouvaient permettre de procéder à son identification, et ce, dans le cas où la machine utilisée serait éventuellement retracée. (Münch, 2000 : 160)

Cet indice a poussé les enquêteurs à procéder à l’examen des factures des huit dernières années de l’unique vendeur de machines à écrire de la région de Sherbrooke. Ils ont rencontré les différents acheteurs de machines à écrire de marque Olympia et de modèle SM8 ou SM9 afin d’obtenir des spécimens de frappe à comparer avec P02.

L’affaire n’a pas été résolue grâce à l’expertise de document, puisque des informations permettant la localisation des ravisseurs et de leur victime ont été reçues par les corps policiers avant la fin de l’analyse. Néanmoins, l’expertise de document aurait pu être la clef de cette affaire, puisque des recherches plus approfondies ont permis de découvrir, chez un marchand de Drummondville (75 km dans les environs de Sherbrooke), la facture d’une Olympia SM9 signée par Fernand Béland, l’un des ravisseurs.

2.2.2.2. Expertise judiciaire en informatique

La linguistique judiciaire, quant à elle, consiste en une analyse stylistique appliquée au code de logiciels ou d’applications. Développée par des ingénieurs informatiques qui se sont grandement inspirés des études en analyse de paternité textuelle, elle est principalement utilisée pour l’identification de concepteurs de virus ou de vers informatiques, de chevaux de Troie ou de bombes logiques. Elle repose sur l’analyse de marqueurs stylistiques tout aussi variés que ceux utilisés lors d’analyses de paternité textuelle. Spafford et Weeber (1993) basent leur étude sur deux analyses distinctes, soit celle du code exécutable et celle des fichiers sources. Le code exécutable sera examiné selon :

- la structure de ses données et algorithmes,

- les informations relatives au système et au compilateur utilisés lors de sa création, - les aptitudes de programmation et la connaissance du système de son auteur, - le choix des instructions d’appel du système,

- les erreurs qui s’y trouvent.

Lors de l’analyse des fichiers sources, ce sont le langage de programmation utilisé, sa mise en forme, les caractéristiques particulières comme des macros pouvant relever d’un environnement de programmation spécifique, le style dans les commentaires les noms donnés aux variables, la grammaire et l’orthographe, la fréquence d’utilisation de certaines fonctions, les chemins d’exécution, les bogues, la complexité du code, etc.

D’autres études ayant obtenus des résultats satisfaisants sont centrées sur des marqueurs uniques comme la fréquence de certains n-grammes (Frantzeskou et coll., 2007), c’est-à-dire la fréquence de séquences de n unités.

La linguistique judiciaire sert non seulement à identifier l’auteur d’un code, mais peut aussi être utilisée pour vérifier si plusieurs individus ont participé à l’écriture, si les résultats catastrophiques causés par le logiciel étudié sont le fruit d’une erreur de programmation ou de la malveillance de son auteur. Tout comme dans le cas des analyses de paternité textuelle, on pourra également créer un profil du programmeur en déterminant, par exemple, son bagage éducationnel par le style observé dans son codage. (Gray et coll., 1997)

2.2.2.1. Détection informatisée du plagiat

La détection informatisée du plagiat se classe également parmi les domaines de la criminalistique et plusieurs logiciels ont été développés afin d’identifier les séquences d’un texte propices à défier les droits d’auteur. Puisque les chances que deux personnes emploient des mots identiques pour exprimer une même idée décroissent plus la séquence utilisée est longue, plusieurs logiciels destinés à la détection du plagiat prennent en compte la totalité ou d’importantes parties d’un document.

Ces applications sont basées sur la compilation et la comparaison des données textuelles. Par exemple, Plagiarism Detector commence par segmenter le texte mis en question en phrases qu’il recherche ensuite sur le web grâce à un moteur de recherche, chacun des résultats concordants est téléchargé et sa source est analysée pour finalement obtenir un rapport témoignant du pourcentage d’originalité du texte.

Le professeur Louis Bloomfield de l’Université de la Virginie a mis au point un logiciel disponible en ligne permettant de déceler le plagiat, le WCopyfind. Ce logiciel offre à l’utilisateur la possibilité de déterminer par lui-même les paramètres à employer. Par contre, comme d’autres logiciels du même type (CopyTracker) il faut soi-même fournir le document de référence avec lequel sera comparé le document mis en question, alors que plusieurs logiciels offrent une comparaison à partir des bases données qui leur sont spécifiques ou à partir de la toile (Compilatio.net, Plagiarism Detector). Dans le cas de Turnitin, le corpus de référence comprend 14 milliards de pages web, 90 000 journaux et livres, puis 150 millions de copies archivées, ce qui constitue une base de données impressionnante. Malheureusement, sa société créatrice, IParadigms, a fait office de cordonnier bien mal chaussé, puisqu’elle a dû se défendre devant les tribunaux d’avoir elle-même attenté au droit d’auteur en s’appropriant les textes soumis à leur expertise pour bonifier leur base de données.

Ces trois domaines de la criminalistique n’exploitent pas directement la linguistique, mais y sont suffisamment rattachés pour inspirer son utilisation dans un cadre relatif à la justice et à l’enquête. L’expertise de documents a pour objet le support physique portant le texte, plutôt que le texte qui s’y inscrit; la criminalistique

informatique extrapole les méthodes d’analyse de paternité textuelle pour identifier le programmeur et la détection informatisée du plagiat, si elle ne repose pas directement sur des critères linguistiques, touche du moins au texte et à ses unités.

Dans le document Délit de langue et paternité textuelle : une approche informatisée (Page 34-37)