Typologie des principales difficultés liées à l’utilisation du machine learning

LEXISNEXIS Valérie Sicot

2. Typologie des principales difficultés liées à l’utilisation du machine learning

On présentera ici les principales difficultés rencontrées au cours de projets de machine learning appliqué au droit. Cette présentation n’a pas vocation à être exhaustive mais à montrer les enjeux de ce type de projet, illustrée d’applications concrètes.

a) Au moment du choix du cas d’usage

La nature de la technologie d’apprentissage supervisé, qui consiste à apprendre du passé pour « prédire » l’avenir, entraîne la nécessité de prendre en compte beaucoup de paramètres avant de se lancer dans un projet :

o Stabilité de la jurisprudence : la jurisprudence est-elle suffisamment stable pour permettre un apprentissage garantissant une représentation fidèle du réel ?

Exemple : en droit de la famille, la jurisprudence évolue beaucoup sur les décisions en faveur des hommes (montants plus élevés, garde plus souvent partagée…). Apprendre sur le passé induit nécessairement le risque de figer ou de transformer cette évolution (effet performatif). o Evolution du droit applicable : des changements législatifs ou de réglementation peuvent rendre obsolète une jurisprudence jusqu’ici stable, et donc supprimer l’intérêt d’un outil dit « prédictif » sur ce domaine.

Exemple : la mise en place de plafonds pour les indemnités de licenciement rend totalement obsolète la jurisprudence antérieure à la loi du 6 août 2015… jusqu’à une prochaine remise en cause de ladite loi ?

o Officialisation de barèmes : dans le même ordre d’idée, des barèmes jusqu’ici utilisés de façon plus ou moins officieuse par les magistrats peuvent être amenés à être officialisés et rendus contraignants, modifiant ainsi fondamentalement la jurisprudence à venir.

Exemple : barèmes utilisés en droit de la famille ou en matière de préjudices corporels. o Respect des droits fondamentaux : avec cet outil, porte-t-on atteinte aux droits

fondamentaux ?

Exemple : un outil de traitement de la jurisprudence peut porter atteinte au droit à la vie privée des particuliers si les parties personnes physiques sont identifiables (même indirectement).

o Identification des éléments déterminants de la décision : les éléments chiffrés d’une décision de justice n’ont d’utilité que s’ils sont mis en rapport avec un certain nombre d’éléments déterminants pour le juge. Ainsi, le montant d’une obligation alimentaire doit être mis en rapport avec les ressources du créancier et les besoins du débiteur de l’obligation. De la capacité à déterminer ces éléments décisifs et à les extraire avec pertinence dépendra l’utilisabilité de l’outil.

Exemple : en droit social, le critère d’ancienneté est souvent utilisé par les juges. Il est néanmoins assez difficile à extraire, car il est exprimé de façon variable (dans une procédure longue, à quelle date la prendre en compte ? ; si ce n’est pas l’ancienneté mais la date d’embauche qui est mentionnée, il faut faire un calcul de soustraction avec la date de fin de contrat ; la date d’embauche elle-même est une date difficile à extraire car mentionnée de façon assez diverse : date de signature du contrat, date de début du travail effectif…). b) La qualité des données brutes

Les données brutes sont les données au sein desquelles on souhaite extraire des informations ou que l’on souhaite classer. Ces données sont susceptibles de comporter des biais ou vices inhérents, qui peuvent introduire en conséquence des biais dans l’outil. Il est donc indispensable, en amont du projet, de connaître précisément les données sur lesquelles on souhaite travailler, et notamment d’identifier les éléments suivants :

o Indisponibilité des données ou « trous » dans les données : les données sont parfois purement et simplement indisponibles. Dans ce cas, l’apprentissage est évidemment impossible. Plus fréquemment, les données sont disponibles seulement en partie. Apprendre sur ce corpus entraînera donc une représentation faussée de la réalité.

Exemple : en matière de jurisprudence judiciaire en France, les données de première instance ne sont pas disponibles (sauf collecte individuelle auprès des greffes). On ne peut donc aujourd’hui faire des outils que sur les données d’appel. Or le taux d’appel étant, par exemple, en matière civile dans les TGI, autour de 20%, les chiffres fournis par des outils dits « prédictifs » ne représentent qu’une portion du contentieux (portion non représentative de la première instance, car seules les affaires d’une certaine importance financière ou symbolique vont en appel). Sans parler évidemment des effets liés à la représentation par avocat (obligatoire en appel mais non en première instance) et du fait que le juge d’appel est lié par sa saisine (et ne statue pas sur l’ensemble de ce qui a été tranché en première instance). o Stabilité des données dans le temps : c’est une autre facette de l’indisponibilité des données. Parfois, un fournisseur de données interrompt temporairement ou définitivement la transmission des données, pour des raisons techniques, un changement de licence…

o Difficultés d’alignement des données : les jeux de données alimentant un projet sur la jurisprudence peuvent provenir de sources différentes. Il y a bien sûr les différents producteurs de données de jurisprudence, mais aussi d’autres données qui peuvent être utiles (données statistiques de la Justice, données de l’INSEE, données sur les entreprises…). Pour

effectuer des analyses correctes, un alignement de ces différents jeux de données est nécessaire, travail parfois difficile, voire source d’erreurs.

o Biais dans les données : enfin, il convient de rappeler que les biais des outils IA sont parfois une reproduction fidèle de discriminations présentes dans la réalité. Il convient de les connaître pour les anticiper, communiquer dessus, les corriger (même s’il faut être éminemment prudent sur la manipulation des données), voire opter d’autres technologies dans ces cas-là.

Exemple : le logiciel Compas, utilisé par de nombreuses juridictions américaines pour évaluer le risque de récidive dans le cadre des décisions de mise en liberté sous caution, a été mis en cause par l’ONG ProPublica qui a mené une analyse et prouvé que les erreurs de l’algorithme étaient deux fois plus fréquemment à l’encontre des afro-américains que des blancs. Pour se défendre, Northpointe (éditeur du logiciel) argue que les scores de risque reflètent une prévalence réelle et sous-jacente : les prévenus afro-américains sont effectivement plus souvent re-arrêtés. Le logiciel, reflétant une réalité (du fait de la répartition démographique de certaines zones géographiques « chaudes » ou encore des biais raciaux de certains individus membres des forces de l’ordre ou du corps judiciaire), serait donc parfaitement « juste ». C’est à notre sens oublier le rôle tant du concepteur que des utilisateurs de ces outils dans l’anticipation de ces risques.

c) Les données d’apprentissage (voir aussi le livre blanc du projet Open Law IA et droit)

L’apprentissage automatique se fait grâce à la création de jeux de données d’apprentissage, nécessaires pour que l’algorithme puisse créer le modèle permettant d’extraire les informations ou de classer les décisions. Pour produire un outil fiable, il est donc essentiel que ces données d’apprentissage soient exhaustives, cohérentes et représentatives des données brutes. Donc c’est un vrai travail que celui de la constitution de ces jeux de données, qui peut être totalement manuel ou en partie automatisé. Dans tous les cas, mais en particulier lorsque l’annotation se fait manuellement, de nombreux éléments doivent être surveillés, à chaque étape de la constitution : conception, formation des annotateurs, tests et évaluation... Ces principaux points d’attention sont les suivants :

o Choix des outils d’annotation : le choix de l’outil est essentiel pour permettre une qualité satisfaisante d’annotation. Il faut en particulier veiller à ce que les fonctionnalités utiles aux annotateurs soient présentes, et à la rapidité d’utilisation de l’outil, pour ne pas « perdre » les annotateurs en route – quitte à développer des outils ad hoc pour le projet.

Exemple : dans un outil de classification de paragraphes comme le projet Open Law IA et droit, il était essentiel que les annotateurs disposent en permanence de l’ensemble de la décision, car la qualification d’un paragraphe ne peut pas se faire indépendamment du contexte dudit

paragraphe. Il était donc indispensable de disposer d’un outil qui, à la différence des outils habituellement disponibles sur le marché, permettait l’affichage de grands documents. o Cohérence du plan d’annotation : la constitution de données d’apprentissage se fait selon un

plan de classement ou d’annotation qui sera suivi par les annotateurs. Il faut donc construire un plan d’annotation avec des catégories très bien définies au départ, et prenant en compte tous les cas de figure. Si le plan est incohérent, l’apprentissage le sera également.

Exemple : dans un projet de classification de la jurisprudence, on avait constitué deux catégories, licenciement et licenciement économique. Faute d’avoir correctement constitué le plan de classement et formé les annotateurs, ces catégories ont été diversement utilisées lors de l’annotation (certains annotateurs plaçant les décisions relatives au licenciement économique dans les deux catégories, d’autres considérant que les catégories s’excluaient l’une l’autre). L’apprentissage n’a pas permis de distinguer ces deux catégories.

o Qualité de l’annotation : bien entendu, la qualité des annotations elles-mêmes doit être surveillée avec la plus grande attention. Plusieurs techniques d’évaluation sont possibles, comme de la comparaison entre les annotations de plusieurs annotateurs (interagreement) ou à partir d’un jeu d’annotations de référence (gold dataset). On peut également prévoir une évaluation manuelle, par le biais par exemple d’un système de modération par des annotateurs experts.

Exemple : les exemples d’annotations de mauvaise qualité ayant entraîné un outil de mauvaise qualité ne manquent pas, on en a même fait un proverbe (« garbage in, garbage

out »). Dans le projet Open Law IA et droit, par exemple, il était demandé de distinguer au

sein des motifs les paragraphes qui traitaient de la règle de droit, ceux qui rappelaient les faits, ou encore ceux où le juge donnait sa solution. Comme le travail était particulièrement difficile, certaines décisions ont été intégralement taggées avec la troisième catégorie, rendant l’apprentissage sur les deux autres complètement impossible. Un travail manuel a dû être fait pour corriger ou dans certains cas écarter les décisions du jeu de données d’apprentissage. o Représentativité du jeu de données : il est nécessaire d’évaluer la représentativité du jeu de

données par rapport à l’ensemble des données brutes, car si le jeu de données d’apprentissage ne représente pas correctement l’ensemble des cas de figure présents dans les données brutes à enrichir, alors ces cas de figure ne seront pas pris en compte par le modèle. Inversement, si le jeu de données d’apprentissage sous- ou sur-représente un cas de figure, celui-ci risque d’être sous- ou sur-représenté par le modèle.

Exemple : dans un autre projet de classification automatique de la jurisprudence, on avait repris comme données d’apprentissage une indexation faite par des rédacteurs en droit social

lors de la rédaction de leurs commentaires d’arrêts. Ceux-ci commentaient peu la jurisprudence en droit de la famille, et seule la catégorie « divorce » du plan de classement était utilisée dans cette matière. Par voie de conséquence, lors de l’application du modèle au reste de la jurisprudence, l’algorithme classait en « divorce » toutes les décisions contenant un couple ou des enfants. Les autres catégories (PACS, mariage…) restaient vides.

o Volume du jeu de données : beaucoup d’exemples sont nécessaires pour que l’apprentissage soit de qualité. Ce volume pourra être variable en fonction du projet et de la difficulté de la tâche demandée à l’algorithme. En cas d’annotation manuelle, cela nécessite un temps humain considérable qu’il ne faut pas négliger.

d) L’algorithme lui-même (la boîte noire)

Les algorithmes de machine learning sont pour la plupart disponibles en open source. Il en existe des centaines, et de nouveaux sortent chaque semaine, ainsi que d’innombrables publications scientifiques. Une vaste communauté (avec ses chapelles) existe, discute, commente, implémente, améliore ces algorithmes. C’est pourquoi la création d’un outil à base d’apprentissage automatique ne s’envisage pas tant en termes de développement d’algorithme mais plutôt de choix et de paramétrage.

Ainsi, on choisira tel algorithme pour sa qualité par rapport à une tâche donnée, mais aussi pour ses propriétés. L’interprétabilité de l’algorithme n’aura par exemple pas la même importance pour un projet de classification de décisions dans le but d’ajouter une fonctionnalité de tri dans un moteur de recherche, ou pour un projet de profilage contentieux de personnes morales. Le paramétrage de l’algorithme, les features utilisées ou la détermination du taux d’erreur acceptable sont encore autant d’éléments à prendre en compte au moment de la réalisation d’un projet d’apprentissage automatique.

Dans le document SEMINAIRE e-Juris (Page 62-67)