• Aucun résultat trouvé

De la linguistique aux métiers de langues

N/A
N/A
Protected

Academic year: 2021

Partager "De la linguistique aux métiers de langues"

Copied!
5
0
0

Texte intégral

(1)

De la linguistique aux métiers de langues

Yaqiu LIU, doctorante à Paris IV

« Le malheur, pour la linguistique d’aujourd’hui, est qu’elle n’est plus la seule discipline qui ait quelque chose à dire sur le langage naturel. La psychologie, la philosophie, l’informatique, l’intelligence artificielle, les neurosciences, etc., ont toutes développé des hypothèses et des théories sur le langage, qu’elles aient trait à l’apprentissage, à l’acquisition, à la signification, à la référence, au traitement de la parole, au dialogue homme-machine, à la traduction automatique, ou encore à l’étude des pathologies liées au langage. La situation de monopole dont jouissait la linguistique il y a quarante ans relativement à ces différentes problématiques a maintenant disparu. »1

0. Introduction

Si malheur est bon pour quelque chose, pour reprendre l’adage populaire, il semble que j’aie été bénéficiaire de la fin du monopole dont jouissait la linguistique.

Cet article a pour objectif de rendre compte d’une première expérience professionnelle d’une jeune linguiste en formation dans une entreprise de l’Intelligence Artificielle (IA). Il n’a pas la prétention d’établir l’état de l’art de nouvelles technologies numériques, encore moins d’apporter des propositions théoriques. Il s’agit plutôt de l’exposé d’un retour d’expérience d’une doctorante en linguistique ayant passé un peu plus de quatre mois dans un milieu professionnel où les métiers de langue sont reconnus et recherchés.

Dans cet article, je vais d’abord essayer de présenter le secteur économique ainsi que la place et la nature de l’activité de l’entreprise Snips. Ensuite, je parlerai de l’environnement de travail dans lequel j’ai passé l’expérience en question. Enfin, je vais exposer précisément ce qu’on attend d’un linguiste dans ce secteur.

1. Une nouvelle économie : l’intelligence artificielle

La linguistique n’est donc plus l’unique discipline qui étudie les faits des langues. L’intelligence artificielle est un secteur émergent qui s’intéresse également au traitement de faits de langue dans ses activités. Par ailleurs, l’extension de la linguistique dans des domaines connexes, comme le traitement automatique de langue, la traduction automatique, etc. a conduit à une conjonction de compétences entre linguistes et informaticiens.

L'essor des nouvelles technologies, surtout le domaine de l’intelligence artificielle, a ouvert un champ important aux apports de la linguistique. Associée aux nouvelles technologies, la linguistique ouvre des perspectives vers les différents métiers des industries de la langue et de l'ingénierie linguistique : par exemple, les entreprises utilisant la reconnaissance et la synthèse vocales, les sociétés d'édition de logiciels, les entreprises cherchant à optimiser la gestion de leur documentation, etc. La tâche du linguiste ne se limite plus à décrire seulement les faits de langues, elle consiste également à développer les formes de communication entre l'homme et la machine, à l'oral comme à l'écrit, par exemple, transformation d’un message vocal à un SMS, reconnaissance de la voix, synthèse vocale, dictionnaire et traduction automatique multilingue, correcteur orthographique, détection d’émotion des paroles, résumé automatique, etc.

1.1 Snips : un exemple start-up

Snips est une start-up française fondée en 2013. Son siège social est à Paris et elle a une succursale à New York. Les activités de Snips sont principalement concentrées sur des

1 Moeschler, J., & Auchlin, A. (2009), Introduction à la linguistique contemporaine, Armand Colin, p. 6.

* Tous mes remerciements à mes collègues de Snips qui m’ont accueillie et formée avec patience et générosité, plus particulièrement Alice Coucke, Joseph Dureau, Clément Doumouro.

(2)

problèmes d'apprentissage automatique (machine learning), un domaine important de l'intelligence artificielle (Artificial Intelligence: AI). Une partie significative des solutions développées relèvent de l'apprentissage profond (deep learning). La philosophie de Snips est de « faire disparaître la technologie en mettant l'intelligence artificielle à l'interface entre l'homme et la machine », selon le PDG fondateur de Snips, Rand Hindi.

Snips s’applique à créer une plateforme vocale qui est embarquée directement sur un objet connecté (on-device), donc, toutes les opérations sont faites localement. Par ailleurs, cette plateforme respecte par principe la confidentialité des données de l’utilisateur (Private-by-Design), donc, rien n’est envoyé à un serveur distant. La plateforme vocale de Snips combine la détection de "hotwords", ces mots à prononcer pour "réveiller" l'assistant vocal, la reconnaissance vocale (automatic speech recognition), qui transforme les paroles de l'utilisateur en texte, la compréhension du langage naturel (natural language understanding), qui traduit ce texte en instructions pour la machine, et la génération de réponses vocales.2 2. Une nouvelle ambiance de travail

Depuis l’essor de l’informatique appliquée dans des activités économiques, on a vu surgir un secteur qui, en plus de son caractère innovant, développait un nouveau type de rapport au travail.

D’après mon observation et mes expériences pendant mon séjour à Snips, voici ce que j’ai observé sur ce plan :

Premièrement, l’ambiance du travail est étonnamment décontractée, presque amicale, tutoiement de vigueur. En outre, une excellente communication interne facilite les échanges et la coordination. Les équipes disposent d’un réseau interne (Slack) pour la circulation des informations. Ce qui permet des échanges instantanés, sans formalisme, entre les collègues.

Deuxièmement, le soin et l’attention témoignés à l’égard du personnel. Par exemple, il y a un poste d’office&happiness manager (« directeur du bonheur » !), qui organise et coordonne un bureau fonctionnel, agréable et stimulant ; il/elle s’occupe aussi de la gestion administrative, comptable et événementielle et de la mise en place d'actions favorisant la cohésion et le bien-être de l'équipe. En plus, l’entreprise se munit d’une salle du sport avec tous types d’équipements sportifs et une salle de jeux vidéo pour que les employés se détendent après le travail ou pendant la pause.

Troisièmement, une organisation du travail horizontale sans hiérarchie apparente, ce qui n’exclut pas une veille sur le résultat. Par exemple, l’extrême flexibilité des horaires et l’autonomie de travail de chacun. Il suffit pour chacun de noter le jour d’absence sur le calendrier en ligne créé par la Direction des Ressources Humaines (DRH) et à la fin de chaque mois, tout le monde déclare sa charge du travail (workload) en répondant aux questions en ligne que le DRH a préparées.

3. Un nouvel acteur dans l’industrie : Linguiste

Le développement des produits industriels impliquant l’utilisation de langues naturelles a nécessité de faire appel aux compétences de linguistes. Comment intégrer des commandes orales dans un outil automatisé sans la validation d’un linguiste ? Qui peut fournir au fabricant, sinon le linguiste, des traductions automatiques des équivalents dans une langue cible ? Comment faire comprendre la machine une langue sans constituer un corpus d’entraînement et un corpus de test par le biais d’analyse de traits morphologiques, syntaxiques et sémantiques de cette langue, sans l’expertise d’un linguiste ? Toutes ces exigences ont nécessité l’intégration de linguistes dans des équipes de conception de produits. Et les linguistes, sortant de leurs laboratoires ou de bulles livresques, sont appelés à assumer de nouvelles tâches. Bien évidemment, il ne s’agit pas de tâches théoriques.

2

(3)

Dans cette partie, je vais exposer explicitement les tâches auxquelles j’ai assisté dans les divers secteurs d’activités avec mes collègues ingénieurs.

3.1 Présentation des tâches à Snips :

Il y a deux départements de recherche à Snips : l’un est Compréhension du langage naturel (Natural Language Understanding, NLU), l’autre est Reconnaissance vocale (Automatic Speech Recognition, ASR). La majeure partie de mon travail s’est fait au sein du groupe de Compréhension du langage naturel. Ensuite, j’ai aussi assuré quelques tâches au sein du groupe de Reconnaissance vocale.

Je travaillais toujours avec un ingénieur à chaque étape de mon travail : d’abord avec Clément Doumouro, ingénieur en apprentissage automatique (data scientist) du département NLU avec qui j’ai cherché, collecté et testé des ressources pour construire les bases du projet chinois; ensuite avec Hubert De La Jonquiere, un autre ingénieur en apprentissage automatique du même département, avec lequel j’ai construit la version chinoise de Rustling (une librairie de Snips que je vais présenter dans la suite). Dans un deuxième temps, avec Alaa Saade, ingénieur en apprentissage automatique du département ASR, j’ai cherché et recueilli des corpus vocaux avec transcription en chinois pour les premières étapes de l’ASR. Enfin, avec David Leroy, ingénieur en apprentissage automatique du département NLU, j’ai travaillé sur le processus de génération de données (data generation).

3.1.1 Les tâches de la compréhension du langage naturel (Natural Language

Understanding, NLU)

En général, le système de NLU se base sur trois composantes principales : un lexique en langage naturel, un parseur (ou analyseur syntaxe) et une grammaire définissant un ensemble des règles afin de pouvoir segmenter des énoncés.

En lien avec ces trois missions principales, le département de NLU à Snips procède par deux étapes : la classification d’intention et l’extraction d’entités nommées. Il décompose ses tâches en six sous-étapes essentielles : agrégation de ressources, pré-traitement, évaluation des performances, intégration en Rust, Rustling et grammaires de génération. J’ai contribué à chacune de ces sous-étapes : quatre premières avec Clément, la cinquième avec Hubert et la dernière avec David. Je vais les présenter une par une :

- Agrégation de ressources : à cette étape, j’ai d’abord vérifié la liste de mots vides (stop

words, ce sont les mots d’articulation qui n’ont pas de sens propre) en chinois que Clément a créée. Ensuite on a essayé de construire des gazetteers qui sont des dictionnaires spéciaux afin d’identifier les entités nommées. J’ai établi, par exemple, une liste de noms en chinois de tous les pays dans le monde, de toutes les villes et les provinces en Chine et leurs acronymes, une liste de nombres en chinois ce qui est plus compliqué qu’en anglais ou français, une liste des expressions temporelles, etc.

- Analyse d’erreurs : à cette étape, j’ai créé d’abord une liste des « intents »3 en chinois comme un corpus d’entraînement. Une fois le parseur entraîné sur ce corpus, je l'ai ensuite testé en compilant une liste d'erreurs via des lignes de commandes que l'ingénieur a préparées. Après avoir détecté les erreurs, je les ai analysées, entité par entité, en marquant si les expressions ont été mal analysées.

- Tests unitaires : dans cette partie, j’ai traduit d’abord le corpus de test anglais en mandarin.

Ensuite, j’ai testé la segmentation (tokenization)4 des phrases dans le corpus de test avec un tokenizer, Jieba (un logiciel écrit en Python pour segmenter les textes chinois). Si les requêtes

3 Intents sont des requêtes correspondant à un cas d’usage donné : demander la météo, réserver un taxi, jouer de la

musique, etc. dans lequel les entités nommées ont été clairement identifiées.

4 Segmentation ou tokenization est une méthode d’analyse de texte au niveau lexical, la partie segmentée s’appelant token

(4)

ont été bien segmentés, j’ai marqué « 1 », s’ils ont été mal segmentés, j’ai marqué « 0 ». Précisément, la segmentation posait problème en chinois, puisque celle-ci manque d’espace entre les caractères ou les mots. De ce fait, il n’était pas facile de créer des algorithmes de segmentation automatique en vue de segmenter les énoncés chinois à l’instar d’autres langues comme l’anglais ou le français.

- Rustling : pour commencer à cette étape, on a transposé les règles déjà construites dans

Duckling 5 à Rustling6. Vu que les performances des règles de Duckling étaient insatisfaisantes, j’ai fait une analyse d’erreurs en marquant les règles qui ne marchaient pas convenablement ou qui n’existaient pas dans les règles de Duckling. Après le diagnostic, j’ai réécrit des règles en expressions régulières selon les caractéristiques syntaxiques et sémantiques de la langue chinoise.

- Grammaires de génération : pendant cette étape de NLU, je travaillais avec Hubert. On a

construit des règles en Python (un langage informatique) pour la génération de chiffres, de dates et de durée, etc. pour la langue chinoise. D’après moi, cette partie est la partie la plus compliquée parmi les autres tâches du NLU vu que la langue chinoise est une langue isolante qui est pauvre en morphologie. En ce cas, cette caractéristique linguistique rend difficile de décrire un certain fait de langue en une petite quantité des règles par rapport à la langue anglaise et française. Par exemple, en anglais, les règles de génération des expressions temporelles décrites en Python prennent environ 200 lignes alors qu’en chinois standard, elles en prennent presque deux fois plus.

- Génération de données : cette partie est la dernière étape de NLU que j’ai accomplie avec

David. La génération de données est une étape clef dans le processus de construction de l'assistant vocal. Elle permet de constituer un corpus d'entraînement pour les différents algorithmes du NLU et de l'ASR. Une des spécificités de Snips est d'être totalement embarqué sur un objet connecté, aucune donnée utilisateur n'est donc récupérée par le service pour l'améliorer.

Dans cette partie, j’ai traduit des présentations et instructions anglaises ou françaises en chinois destinées à décrire les différents cas d'usage et les étapes de la génération de données, par exemple, query generation, query validation, audio validation, audio validation qualification, etc.

3.1.2 Les tâches de la reconnaissance vocale (Automatic Speech Recognition, ASR)

L’objectif de la reconnaissance vocale est de transformer les paroles de l'utilisateur en texte. Je travaillais avec Alaa pendant cette étape.

La première partie de mon travail était de chercher et collecter des ressources de données audio et de prononciation en mandarin, par exemple, livres audio avec transcription, groupes des données publiques ou payants, vidéos avec sous-titre, feuilletons avec sous-titre accessible, l’alphabet phonétique chinoise - pinyin, etc. Ces différentes ressources sont essentielles pour entraîner les différents algorithmes de l'ASR, notamment le modèle acoustique qui transforme la voix en suite de phonèmes (les unités distinctives de la prononciation) ainsi que le modèle de langage qui passe des phonèmes aux mots écrits.

La deuxième partie consistait à enregistrer oralement les requêtes en chinois que j'avais préalablement regroupées autour de différents cas d'usage, comme demande de la prévision de la météo, demande de jouer de la musique et demande d’allumer ou éteindre la lumière, etc. qui permettaient d'évaluer les performances de l'algorithme de reconnaissance vocale.

5 Duckling est un logiciel qui sert à analyser des expressions temporelles suivant un ensemble de règles préétablies. Il a été développé par l’entreprise Wit.ai, depuis rachetée par Facebook qui l’utilise aujourd’hui dans une version un peu modifiée. 6 Rustling est développé par Snips et est fortement inspiré de Duckling à ceci près que le langage de programmation choisi est Rust qui est un langage plus efficace et donc plus adapté à l'embarqué que Clojure qui est un langage dans lequel est codé Duckling. Snips cherche à améliorer les règles préétablies par Duckling.

(5)

4. Perspectives

Même si le domaine d’intelligence artificielle est en plein essor, il reste encore un long chemin à parcourir et des défis à relever. Étant donné la grande diversité des langues, les nouvelles technologies dans ce domaine créeront certainement de nouvelles problématiques aux linguistes, surtout aux spécialistes de la typologie et de la dialectologie.

Ayant passé quelques mois à la faveur d’une année de césure de mes études doctorales, mon expérience personnelle au cœur de l’industrie informatique me conduit à conclure qu’en dehors de l’enseignement et de la recherche, la linguistique sera appelée à occuper une place de plus en plus importante dans une multitude de secteurs économiques.

Références

Documents relatifs

Constitués en réseau, les 5 Instituts Nationaux de Sciences Appliquées sont localisés dans de grandes métropoles régionales: Lyon, Rennes, Rouen, Strasbourg et Toulouse. Les

Les informations que nous avons collectées résultent des perceptions des ingénieurs formés par la voie de l’apprentissage dans leurs interactions avec les autres élèves

Complètement inscrit dans le Domaine d’Activités Stratégiques « Smart Mobility » du Centre de Référence porté par l’IMREDD, le projet a pour objectif de concevoir,

L’apprenti-ingénieur est employé dans le cadre d’un contrat d’apprentissage signé pour une durée de 3 ans avec une entreprise?. La contribution de l’entreprise aux frais

Sous réserve d'autorisations par la direction des formations en alternance et de leur entreprise d'accueil, les apprentis ont la possibilité de suivre des modules

- trouver une entreprise disposée à vous accueillir en alternance pendant 3 ans ou vous mettre, dès à présent, à la recherche de cette entreprise, en précisant bien les conditions

Le Service Relations Entreprises et Partenariats propose un accompagnement personnalisé et un suivi individuel pour tous les admissibles en recherche d’un contrat

Le mode de fonctionnement a été collégial et chaque candidat présent a été auditionné par tous les membres du jury.. Toutes les décisions ont été prises