• Aucun résultat trouvé

Le traitement automatique des langues — Natural Language Processing

1. La nature technique et juridique des assistants vocaux

1.1 Une définition technique, juridique et historique de l’intelligence artificielle

1.1.4 Le traitement automatique des langues — Natural Language Processing

Processing

Le traitement automatique des langues est le processus par lequel la voix d’une personne est transformée en texte130, que ce soit au moyen de différentes approches incluant l’utilisation de réseaux de neurones artificiels131. Il s’agit d’une technique similaire, mais diamétralement opposée à celle de la synthèse du langage, le text-to-speech, qui cherche à synthétiser une voix humaine depuis un texte écrit. Dans le cas des assistants vocaux, ces deux éléments fonctionnent

TechCrunch (2018), en ligne : <http://social.techcrunch.com/2018/02/07/nest-is-being-rolled-into-googles-

hardware-team/>.

129 Le professeur Legg soutient que l’information a priori inaccessible aux justiciables pourrait éventuellement

l’être en utilisant des mécanismes qui existent déjà en droit procédural et de la preuve. Écouter : E. VOWLES et J. STORY CARTER, préc., note 119.

130Le traitement automatique des langues est un champ d’études qui existe depuis le début des années cinquante et

qui s’est développé concurremment aux recherches en linguistiques. Voir à ce sujet : M BATES, « Models of natural

language understanding. », (1995) 92-22 Proc Natl Acad Sci U S A 9967, 9977.

131 Le traitement automatique des langues peut aussi faire appel à des techniques n’étant pas en elle-même de

l’intelligence artificielle, comme la classification au moyen d’arbre de décision ou encore la reconnaissance de certains termes en mémoire. Elle repose aussi essentiellement sur l’analyse sonore de l’information captée. Voir à ce sujet l’ouvrage : Alexander CLARK, Chris FOX et Shalom LAPPIN, The Handbook of Computational Linguistics

souvent en simultané, les assistants vocaux devant écouter, mais tentant aussi de répondre à leur interlocuteur.

Pour fonctionner, la reconnaissance vocale doit écouter l’utilisateur et comparer les données recueillies avec le contenu de sa base de données, c’est-à-dire les échantillons de sons et de voix qu’a catégorisés et organisés le fournisseur du service, souvent en collectant l’information des utilisateurs eux-mêmes au fil du temps132. La reconnaissance vocale transforme alors — avec plus ou moins d’efficacité — la voix en texte.

Ce texte est par la suite utilisé par l’assistant vocal, soit pour effectuer une recherche ou pour déclencher d’autres mécanismes faisant eux aussi appel à des agents autonomes soutenus par des outils d’intelligence artificielle133. L’assistant vocal peut ainsi avoir recours à une base de connaissances pour répondre à une question précise, par exemple la température extérieure à un endroit donné, ou effectuer une recherche sur Internet, par le biais d’un navigateur Web. Les auteurs Këpuska et Bohouta décrivent le fonctionnement général des assistants vocaux de la manière suivante :

« [T] here are many different architectures for dialog systems. Which sets of components are included in a dialog system, and how those components divide up responsibilities differs from system to system. A dialogue system has mainly seven components: Input Decoder, Natural Language Understanding, Dialogue Manager, Domain Specific Component, Response Generator, and Output Renderer. However, there are six main components in the general dialogue systems, which includes the Speech Recognition (ASR), the Spoken Language Understanding (SLU), Dialog Manager (DM), Natural Language Generation (NLG), Text to Speech Synthesis (TTS), and the knowledge base. »134

(Références omises)

132 Dr Michael J. GARBADE, « A Simple Introduction to Natural Language Processing », Medium (15 octobre 2018),

en ligne : <https://becominghuman.ai/a-simple-introduction-to-natural-language-processing-ea66a1747b32> ; Julia HIRSCHBERG et Christopher D. MANNING, « Advances in Natural Language Processing », (2015) 349-6245

Science 261 ; A. CLARK, C. FOX et S. LAPPIN, préc., note 131.

133 Veton KËPUSKA et Gamal BOHOUTA, Next-generation of virtual personal assistants (Microsoft Cortana, Apple Siri, Amazon Alexa and Google Home), 2018 IEEE 8th Annual Computing and Communication Workshop and Conference (CCWC), Las Vegas, Institute of Electrical and Electronics Engineer, 2018 IEEE 8th Annual

Computing and Communication Workshop and Conference (CCWC), janvier 2018, p. 99‑103, en ligne: <https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8301638&tag=1>.

Les outils de traitement automatique des langues s’enrichissent au fur et à mesure de l’utilisation qu’on en fait. Dit autrement, plus un assistant vocal est utilisé – ou tout autre outil qui implique la reconnaissance vocale – plus cet outil vocal aura de la facilité à comprendre son utilisateur et à lui répondre. Il en est ainsi à cause de la nature des algorithmes soutenant ces outils, qui s’améliorent de manière autonome.

Sur le plan du droit de la preuve, le traitement automatique des langues pose plusieurs questions intéressantes. D’abord, il y a la collecte des données, laquelle est effectuée par les outils auprès des utilisateurs au moment de l’utilisation. Ces données peuvent prendre la forme d’extraits audios. Dans ces cas, ces extraits s’ajoutent au matériel à la disposition du juriste pour étayer sa preuve, tant que ces enregistrements soient accessibles a posteriori. En effet, les historiques d’utilisation de certains outils permettent d’avoir accès à ces traces, notamment les historiques des produits proposés par Google et Amazon.

Toutefois, un autre élément est disponible, dans la majorité des cas, soit l’historique de ce que l’assistant vocal a compris des commandes de son utilisateur. Ces commandes sont transformées, comme nous l’avons expliqué, en texte, par un algorithme d’intelligence artificielle. Elles constituent en quelque sorte une forme de transcription, de propos rapportés par une machine. Quiconque s’est déjà adressé à un agent autonome incluant une fonction de reconnaissance vocale sait que ces outils manquent encore de précision à l’heure actuelle et ne peuvent adéquatement comprendre leurs utilisateurs dans plusieurs contextes135. On peut donc ici sérieusement douter de l’authenticité de ce qui a été dit, de la véracité des propos tenus. Une situation qui pourra, selon notre analyse, influencer la recevabilité du genre de preuve dont nous discutons.

En somme, la reconnaissance de la voix humaine par une machine est un domaine en constante évolution et se révélant d’une très grande complexité. Si les résultats des outils de reconnaissance vocale peuvent être impressionnants, en l’absence d’enregistrement, la

135 Les travaux du professeur Frederic Lederer montrent cependant que lorsque ce genre de système de

reconnaissance vocale est adapté à un locuteur particulier, il peut être très précis. Dans ces recherches, le professeur Lederer a mené des expériences sur l’utilisation de la reconnaissance vocale pour remplacer le sténographe dans un cyber tribunal. Voir notamment : Fredric LEDERER, « The Road to the Virtual Courtroom? A Consideration of

Today’s and Tomorrow’s High Technology Courtrooms”, (1999) 50 S.C. L. Rev. 800; Miklós KENGYEL et Zoltán

NEMESSÁNYI, Electronic Technology and Civil Procedure. New Paths to Justice from Around the World, New

transcription automatique faite par ces outils pourrait poser des problèmes de recevabilité, considérant la nature même de ces transcriptions, soit le fait qu’elles résultent essentiellement de comparaisons statistiques produites par un algorithme et de certains processus qui échappent à la connaissance de l’utilisateur et peuvent varier d’un fournisseur à l’autre ; Google et Apple n’utilisant pas les mêmes procédés pour comprendre et répondre aux questions de leurs utilisateurs.

Parallèlement et dans la même veine, les problématiques conceptuelles et techniques précédemment évoquées mises à part, il y a aussi le but inhérent des assistants vocaux — soit répondre à des commandes — qui les conditionnent à répondre à des questions lorsqu’elles sont formulées d’une certaine manière. Sans avoir connaissance de la manière dont ils sont configurés, il est difficile de comprendre les réponses qu’ils donnent à leurs utilisateurs.