• Aucun résultat trouvé

SyllabO + a été créé en tout premier lieu pour répondre aux besoins de notre équipe et d’autres équipes de chercheurs œuvrant dans les domaines des neurosciences cognitives, de la psycholinguistique et de la psychologie expérimentale, où l’élaboration de devis expérimentaux implique l’utilisation de stimuli langagiers. Que ce soit des mots, des non-mots, des séquences de syllabes ou de phonèmes – en perception ou en production langagière – (Deschamps & Tremblay, 2014; Karuza et al., 2013; Leonard et al., 2015; Peeva et al., 2010; Tremblay et al., 2016; Vitevitch, 2003) les chercheurs ont besoin de références pour s’assurer de la validité de leur tâche et du caractère généralisable de leurs résultats à des situations de la vie courante. En effet, SyllabO + permet de vérifier que les stimuli sont représentatifs du langage spontané (ou, au contraire, qu’ils en sont nettement distincts), ou encore qu’ils sont équilibrés en termes de fréquences syllabiques ou phonétiques, de structure syllabique, de mesures d’association, etc. Par exemple, il est possible d’équilibrer des stimuli lexicaux en s’assurant que tous les mots soient composés de deux syllabes CV ayant une fréquence déterminée.

SyllabO + démontre déjà son utilité à cet effet au sein de notre laboratoire, où les stimuli d’une nouvelle étude (en cours) ont pu être entièrement construits et manipulés grâce aux informations de la base de données. L’objectif de ce projet était d’identifier les paramètres qui, seuls ou en interaction, entraînent des difficultés lors de la prononciation de séquences de syllabes au cours de la vie adulte. Des séquences de trois syllabes (non-mots) ont été construites selon les paramètres syllabiques de fréquence, de structure syllabique et de probabilité de transition. La fréquence a été établie comme fréquente (rang centile ≥ 94) ou rare (rang centile < 94), la structure comme simple ([CV]) ou complexe ([CCV] ou [CVC]) et la probabilité de transition comme élevée (≥10), moyenne (0 < 10) ou faible (0). Ce devis expérimental 2 x 2 x 3 a donc généré des catégories de stimuli qui permettront d’identifier les paramètres qui, seuls ou en interaction, entraînent des difficultés lors de la prononciation de séquences de syllabes. Les stimuli de cette étude illustrent une possibilité parmi les multitudes qu’offre SyllabO + pour les recherches expérimentales sur le langage. En effet, notre laboratoire prévoit utiliser SyllabO + dans de nombreuses recherches, autant dans le cadre d’études comportementales que d’études en neuroimagerie. De nombreuses technologies – telles que la TMS (trancranial magnetic stimulation) et l’IRM (imagerie par résonance magnétique) – sont utilisées pour mener des études en perception et en production de la parole, où des stimuli linguistiques sont utilisés (que ce soit des sons, des syllabes, des mots ou des non-mots). Cet outil nous permettra donc d’effectuer un contrôle des stimuli employés. De plus, puisque SyllabO + représente des productions langagières de locuteurs adultes de tout âge et qu’il permet l’extraction des données par tranches d’âges, nous comptons l’utiliser pour effectuer une analyse de corpus qui mettra en évidence les caractéristiques du langage oral chez l’adulte et au cours du

vieillissement normal. SyllabO + sera donc un vecteur de productivité pour notre équipe et, nous l’espérons, pour de nombreux autres chercheurs également.

Au-delà du contexte expérimental, SyllabO + sera utile dans les domaines de phonétique et de phonologie comme outil descriptif du langage spontané. En effet, puisqu'il s’agit de la première base de données sous-lexicale en français oral québécois, SyllabO + constitue une référence précieuse, représentant fidèlement le langage spontané des locuteurs. À partir des données, il sera possible non seulement de décrire la composition de la langue en termes de syllabes et de phones, mais également d’établir des règles phonotactiques se manifestant dans le corpus. Par exemple, il est possible de déterminer quelles séquences de structures syllabiques sont fréquentes, rares ou inexistantes en analysant l’ensemble des groupes de syllabes prononcées. Par exemple, a-t-on observé dans le corpus des paires de syllabes ayant des structures consécutives [CCVC – CCVC] ou cette suite est-elle « illégale » en français québécois oral?19 Ainsi, SyllabO + pourra être la source de nombreuses analyses de corpus, effectuées selon une diversité de facteurs. Qui plus est, cet outil est consacré à la langue québécoise et met donc en valeur la variété de français employée au sein de notre communauté, avec les caractéristiques linguistiques qui lui sont propres. SyllabO + rend honneur au patrimoine linguistique du Québec par son corpus entièrement québécois et par la possibilité d’étudier les richesses de cette langue française québécoise sous un nouvel angle.

19 La base de données SyllabO + montre que cette séquence de structures syllabiques est

effectivement légale en français québécois oral, quoiqu’elle ait une fréquence faible (85 occurrences sur un total de 302 910 paires).

Le domaine de l’orthophonie pourra également bénéficier du potentiel de SyllabO +. Les spécialistes des troubles de la communication utilisent du matériel d’intervention ciblé selon les problèmes langagiers de leur clientèle (dysphasie, aphasie, difficultés articulatoires, trouble moteur, etc.). La première base de données des unités sous- lexicales du français québécois oral sera un ajout précieux à leurs outils de référence. En effet, la représentativité de SyllabO + en fait une ressource remarquable pour élaborer du matériel linguistique fidèle à l’usage. Puisque la rééducation du langage a comme objectif de développer ou restaurer les habiletés langagières de gens de tout âge, il est important d’avoir une référence caractéristique du langage « cible ». De plus, les interventions des orthophonistes doivent souvent être progressives, d’où l’utilité de connaître la distribution des fréquences ou des mesures d’association des unités linguistiques pour élaborer du matériel. En effet, il serait possible de créer des séquences de syllabes (ou de mots) à prononcer qui augmentent graduellement en difficulté selon les paramètres désirés. Par exemple, pour des séquences de deux syllabes, la première section pourrait être constituée de syllabes CV sans voyelle nasale et avec fréquence élevée, la deuxième section serait identique mais avec des voyelles nasales, la troisième section contiendrait des syllabes CV sans voyelle nasale mais dont la fréquence est faible, et ainsi de suite en faisant progresser les paramètres de structure (p. ex., CVC, CCV, CCVC), de nasalité et de fréquence.

SyllabO + pourrait aussi se révéler utile dans l’étude de l’acquisition des langues, que ce soit l’acquisition en langue maternelle ou en langue étrangère. En effet, le langage recensé dans le corpus et représenté dans les bases de données illustre les caractéristiques de la langue orale « cible », c’est-à-dire représentative d’un locuteur adulte, natif du français québécois. Ainsi, il est possible de comparer le traitement langagier des enfants par rapport à cette référence. De plus, une

comparaison avec les caractéristiques linguistiques d’autres langues (structures syllabiques, règles phonotactiques, etc.) pourrait être utile pour des finalités descriptives dans le domaine de la linguistique comparative. Par exemple, il serait possible de mettre en évidence les ressemblances et différences entre toutes les langues latines quant à l’utilisation des voyelles nasales. De plus, de telles études comparatives pourraient également aider à déterminer des objectifs d’acquisition du français québécois par des locuteurs étrangers, et ce, en fonction des différences avec leur langue maternelle. Par exemple, si un nouvel apprenant du français a une langue maternelle qui diffère considérablement du point de vue des structures syllabiques, il serait intéressant de fixer des objectifs d’acquisition des syllabes complexes en français québécois de manière progressive en se basant sur les fréquences présentées dans SyllabO + (p. ex., CCV, CCVC, CVCC, CCCV, CCCVC, etc.). Par contre, si un apprenant utilise déjà les mêmes structures syllabiques dans sa langue, mais qu’il n’utilise que six voyelles (parmi les 23 voyelles du français québécois), il serait pertinent de cibler les difficultés de perception et de prononciation de cet apprenant par rapport aux voyelles « manquantes ». Le nombre de possibilités de SyllabO + est donc grand dans ce domaine.

Nous espérons aussi que la méthodologie utilisée pour la création du corpus et des bases de données dans le cadre du projet SyllabO + puisse s’avérer utile à quiconque désire construire d’autres outils du même type, pour sa variété de langue particulière. La construction de corpus et de bases de données est un travail de grande envergure et il peut être très profitable de s’appuyer sur des projets dont la méthodologie a été mise en pratique avec succès.

Finalement, il est possible qu’un jour le corpus puisse servir à la création de nouveaux outils informatiques de traitement automatique du langage. En effet, les

données orthographiques pourraient éventuellement être « alignées » aux données phonétiques pour construire des algorithmes qui traduisent de manière automatique le langage écrit vers une représentation orale. À ce jour, de nombreuses technologies utilisent des algorithmes qui créent des automates20 (p. ex., finite-state

automaton) à partir de règles phonologiques (Jurafsky & Martin, 2000). Une des utilisations principales est la synthèse vocale (text-to-speech), grâce à laquelle un texte est converti en une représentation phonétique, qui est ensuite « prononcée » (réalisée en ondes acoustiques) à l’aide un synthétiseur de parole.

Une technique qui peut être utilisée pour ce type de traitement est un système d’apprentissage automatique (machine-learning system). Le rôle d'un système d'apprentissage est de générer automatiquement un modèle (p. ex., modèle de « traduction ») pour un certain domaine, en utilisant des données propres à ce domaine (et d'autres informations). Ainsi, un système apprenant des règles phonologiques recevrait au moins un ensemble d'unités à partir desquelles travailler (dans notre cas, l'ensemble des transcriptions orthographiques). Deux types d'algorithmes peuvent être utilisés : d'abord, soit un algorithme supervisé, où les « bonnes » réponses sont fournies pour une partie des données (dans notre cas les « réponses » seraient les notations phonétiques associées aux séquences orthographiques correspondantes) et servent à élaborer un modèle généralisable à de nouvelles données (p. ex., le reste des transcriptions orthographiques). Sinon, il existe des algorithmes non supervisés qui génèrent le modèle seulement à partir des données (selon la nature des règles qui doivent être créées).21 Les modèles

phonologiques sur lesquels sont basés les algorithmes doivent donc être fondés sur

20 Des automates (ou "machines") à états finis consistent en des modèles mathématiques de calcul.

Ils servent à élaborer des programmes informatiques et des circuits de logique séquentielle. 21 Ce paragraphe est largement inspirée de Jurafsky & Martin (2000), chapitre 4, page 117.

des données spécifiques à la langue d’intérêt. Les données de notre corpus (texte orthographique et notation phonétique de la prononciation) pourraient donc servir de point de départ à de tels processus informatiques, pour des utilisations particulières au français québécois.

Documents relatifs