Le choix d’un logiciel de détection des similarités en fonction des utilisateurs finaux

SECTION II - LES PROJETS ORGANISATIONNELS

6. Outils de détection des similarités et leur intégration à l’université

6.5 Le choix d’un logiciel de détection des similarités en fonction des utilisateurs finaux

sera aussi facile d’utiliser un de ces logiciels de détection des similarités que Word ou PowerPoint, par exemple. Il s’agit donc à présent de sélectionner un ou des logiciels avec une perspective «client», c’est-à-dire de considérer le point de vue de l’utilisateur final de l’outil.

Il ne semble guère raisonnable de penser développer en interne un logiciel de détection, car les coûts sont élevés et le savoir-faire en la matière ne semble pas faire partie des priorités des labos dans notre université. Par contre, il est envisageable de participer au développement et/ou au test de logiciels développés par une communauté «open source». Nous l’avons fait à petite échelle en tant qu’experts externes pour le logiciel CopyTracker développé par l’Ecole Centrale de Lille (7). D’autres initiatives de ce type pourraient intéresser soit des chercheurs en informatique, soit des étudiants (travaux de bac et maîtrise en informatique et systèmes d’information). Cette option est intéressante à moyen et à long terme car elle permettrait un échange d’expériences et la mise en place d’un réseau et d’une véritable communauté de pratique.

Compte tenu de l’importance de se doter rapidement d’un outil qui puisse, d’une part, permettre d’éviter les cas d’inconduite les plus flagrants, d’autre part, de communiquer avec les autres établissements universitaires ayant déjà pris des mesures de précaution, il s’agit d’envisager l’évaluation, puis l’achat d’un (ou deux) logiciel(s) de détection. Il en existe aujourd’hui de nombreux disponibles sur le marché (8). Cette tâche devrait être confiée à la Division informatique de l’université, seule capable d’adopter une perspective intégrée et de valider la bonne compatibilité du logiciel choisi avec les autres composantes du système d’information de l’université.

a) Sur le plan technique, la plupart des logiciels sélectionnés par des organisations universitaires (et non par des acteurs individuels) nécessitent que le document soit chargé sur un serveur distant, via un espace virtuel ou envoyé par e-mail (ex. Compilation.net ou Mydropbox). Chaque utilisateur dispose d’un compte personnel, dans lequel il télécharge le document à analyser. C’est depuis ce même compte que l’utilisateur reçoit le résultat des analyses pour distinguer ce qui est plagié de ce qui ne l’est pas. La préconisation d’un logiciel ou d’un autre doit donc prendre en compte la pratique de l’utilisateur final.

b) Les résultats ne sont pas immédiats, loin s’en faut. Il convient d’analyser la nuisance comparée de ces délais entre les diverses propositions du marché. Ainsi, l’analyse d’un texte de 20 pages peut durer plus d’une demi-heure. Certes il y a des logiciels très rapides (quelques dizaines de minutes) et d’autres beaucoup plus lents (quelques heures, voire quelques jours pour les plus lents). Notons que les logiciels à installer sur les ordinateurs personnels fonctionnent généralement avec des délais plus courts, mais ils impliquent que l’ordinateur reste allumé pendant toute l’analyse. Cet impératif technique peut se concevoir s’il existe une solution centralisée, mais le découragement individuel face à cette nécessité peut très vite atténuer les bonnes intentions des utilisateurs individuels (professeurs et assistants).

c) Le résultat de l’analyse par un logiciel n’est jamais immédiatement utilisable par l’enseignant. Ainsi, tous les logiciels, à notre connaissance, offrent d’abord un chiffre brut: le pourcentage de similarité entre le document analysé et les sources retrouvées.

Aucun ne va différencier les citations et certaines expressions d’usage très courant qui

seront considérées comme similaires, sans pour autant révéler un acte de plagiat. Ainsi, aucun logiciel n’enlève du travail aux enseignants. Ils en rajoutent automatiquement puisque les utilisateurs finaux devront décider à quel moment la «similarité» se transforme en «plagiat».

d) Ce pourcentage de similarité est calculé d’après la quantité de texte «originel» retrouvé dans la base de données indexée, en regard de la quantité de texte similaire proposé par l’auteur du texte examiné. Les logiciels indiquent de manière plus ou moins nette, et cela doit être examiné, quels sont les passages similaires afin que l’utilisateur final puisse rapidement se forger une opinion. En outre, les logiciels indiquent quelles sont les sources retrouvées pour chaque passage similaire. Certains outils proposent même un classement des sources les plus fréquemment retrouvées. Ici encore l’ergonomie de présentation doit être comparée dans une optique de confort pour l’utilisateur final.

e) La plupart des logiciels retrouvent les extraits à l’identique et non les phrases réécrites ou traduites. Certains logiciels proposent tout de même une vérification sémantique, en substituant des mots ou des expressions par d’autres synonymes, ou encore par des traductions. Mais dans la pratique, une traduction «humaine» est rarement similaire aux traductions possibles suggérées par les logiciels. Là où l’œil exercé verra tout de suite une paraphrase, le logiciel, même le meilleur, peut se montrer aveugle. Nous suggérons donc à la Division informatique de réaliser des pré-tests des logiciels présélectionnés avec un échantillon d’utilisateurs finaux pour vérifier le confort d’utilisation et l’accoutumance à ce qui, somme toute, sera une modification de la pratique.

f) Ce pré-test avec des utilisateurs finaux est d’autant plus important que la réponse du logiciel n’est pas l’ultime étape du processus. Ainsi, lorsque l’enseignant reçoit le résultat de l’analyse, il peut s’apercevoir qu’un extrait ne provient pas d’un plagiat mais d’une citation. Ou bien il découvre que des extraits proviennent de ses textes donnés aux étudiants, ou de sources proposées. Il s’agit de toute évidence d’une maladresse réalisée de bonne foi et non de plagiat. Certains logiciels, mais pas tous, permettent d’adapter et d’ajuster les résultats de l’analyse, par exemple en ignorant une source ou un extrait du texte, puis de recalculer le pourcentage de similarité. Cela implique que l’utilisateur final

puisse avoir accès à l’interface technique ou à la personne chargée de l’examen du document, qui modifiera le diagnostic.

6.6 La question du plagiat d’un point de vue système d’information

On définit, en général, le système d’information (SI) d’une organisation comme l’ensemble des moyens humains et informatiques qui permettent d’acquérir, de stocker, de traiter et de diffuser l’information nécessaire à l’accomplissement des objectifs de l’organisation.

Le choix d’adopter une politique anti-plagiat n’est pas neutre. En effet, détecter qu’un document contient ou non une part de plagiat, c’est créer une information supplémentaire à propos de ce document (sous forme de liens d’intertextualité avec d’autres documents). La question est alors: que faire de cette nouvelle information, de ce nouveau cas de plagiat? On doit se poser la question de son acquisition, de son stockage, de sa diffusion, de son utilisation à diverses fins. Et cela, aussi bien au niveau organisationnel (politique, administratif) qu’au niveau technique (conservation, mise à disposition, etc.).

Notre propos, ici, n’est pas de fournir un modèle organisationnel et technologique complet autour du traitement du plagiat, nous nous contenterons d’évoquer quelques points cruciaux et quelques pistes à étudier. Le SI permet à des acteurs humains d’effectuer certaines tâches pour accomplir leur travail sur les documents à traiter. Ces acteurs déclenchent des processus (automatisés ou non) qui traitent des informations représentées par des ensembles de données (données numériques, textes, documents, images, sons, etc.). Nous abordons maintenant ces trois aspects.

Dans le document La relation éthique-plagiat dans la réalisation des travaux personnels par les étudiants (Page 119-122)