• Aucun résultat trouvé

Identification des frontières lexicales

L'effet du débit sur l'identification des frontières lexicales 45

4.1.1. Identification des frontières lexicales

La reconnaissance de la parole pose la problématique cruciale de l'identification des frontières entre les mots. Etant donné que, contrairement à l'écrit, les éléments d'un énoncé oral ne sont pas séparés par des "espaces blancs", la question qui fait couler beaucoup d'encre est la suivante: comment les auditeurs arrivent-ils à "découper" (ou segmenter) la parole continue en unités discrètes, permettant ainsi d'accéder à la représentation de ces dernières, et par conséquent de comprendre l'énoncé entendu?

Lorsqu'un auditeur entend la séquence de phonèmes /lasalpln/, il accède dans son lexique mental aux mots la, salle, est, pleine. Sur la base de quelles informations

compliquer si l'auditeur est confronté à une suite ambiguë telle que /tnatl/. Dans ce cas, existent-ils des indices acoustiques permettant de reconnaître ton attelle plutôt que ton natel46? En outre, est-ce que la reconnaissance de telles suites est influencée par le débit auquel elles sont produites? Il semble légitime d'envisager qu'une suite ambiguë soit reconnue différemment selon qu'elle est produite à un débit lent ou rapide.

Dans les sections suivantes, nous présentons les diverses études traitant des informations utilisées lors de la segmentation des mots47. Relevons que, bien que notre travail traite principalement des informations acoustiques, la revue de la littérature qui suit porte également sur d'autres aspects déterminants dans la segmentation lexicale. Il nous semble en effet indispensable que le lecteur prenne conscience de la complexité du processus d'identification des frontières lexicales, et ce, à travers une présentation exhaustive des informations utilisées lors dudit processus.

Informations lexicales

Selon l'approche lexicale (également appelée en anglais "serendipitous", Cutler, 1996), la segmentation lexicale n'est que la conséquence du processus d'accès au lexique. La reconnaissance d'un mot permet de déterminer son début et sa fin. A l'intérieur de ce cadre, deux théories s'opposent. Selon la première, l'accès au lexique s'effectue de manière séquentielle, un mot après l'autre, et de gauche à droite (voir par exemple, Cole

& Jakimik, 1980). En d'autres termes, la reconnaissance d'un mot permet d'identifier sa fin et par conséquent le début du mot suivant. Cependant, bien que cette approche permette de rendre compte de la reconnaissance de nombreux mots, elle pose problème lorsque le point d'unicité48 d'un mot apparaît après la fin de ce dernier. En effet, un mot enchâssé à l'intérieur d'un autre mot ne peut pas être reconnu avant sa fin et l'auditeur a besoin de davantage de temps et d'information pour l'identifier et ainsi déterminer sa fin (entre autres, Grosjean, 1985). Par exemple, la reconnaissance du mot réveillon se

46 "Téléphone portable" en Suisse.

47 Notons que par souci de simplification, nous utiliserons les termes segmentation des mots et segmentation lexicale comme synonymes de identification des frontières lexicales, et que cette utilisation terminologique n'implique pas une prise de position quant au processus même de l'accès au lexique.

48 Cf. Note 11.

révèle problématique pour les modèles séquentiels. Premièrement, les mots enchâssés en position initiale, rêve et réveil pourraient être reconnus, laissant les séquences eillon et on non identifiées. Deuxièmement, à l'intérieur de ce mot se trouvent les mots éveil, veille et veillons qui pourraient également être reconnus. En conséquence, un mécanisme strictement séquentiel ne permet pas de rendre compte de la reconnaissance des mots enchâssés.

Au vu de ces problèmes, les tenants de la deuxième théorie, dite compétitive, postulent que la segmentation lexicale constitue le résultat de l'activation et de la compétition parallèles de plusieurs candidats lexicaux, ceux-ci pouvant se chevaucher. Par exemple, réveillon activerait rêve, réveil, éveil, veille, veillons, qui entreraient en compétition, jusqu'à ce que le candidat qui corresponde le plus au signal acoustique reçoive la plus grande quantité d'activation pour enfin être reconnu. Sans entrer dans le détail, notons que l'activation et la compétition lexicale sont au centre de modèles tels que Cohort (Marslen-Wilson, 1987), TRACE (McClelland & Elman, 1986) ou SHORTLIST (Norris, 1994).

De nombreuses études ont apporté des preuves empiriques en faveur de l'approche compétitive (McQueen, Norris & Cutler, 1994; Norris, McQueen & Cutler, 1995;

Cutler, Norris & McQueen, 1996). Par exemple, McQueen, et al. (1994) ont montré à l'aide d'une tâche d'extraction de mot que les sujets prenaient plus de temps pour extraire un mot lorsque le contexte dans lequel celui-ci se trouvait pouvait constituer le début d'un mot plus long. Par exemple, les temps de réaction des sujets étaient plus longs lorsqu'ils devaient extraire le mot anglais mess de domes que de nemes. En effet, domes active également domestic qui entre en compétition avec le mot à extraire et retarde ainsi sa reconnaissance. De même, Vroomen & de Gelder (1995) ont montré que le nombre de compétiteurs lexicaux influençait la reconnaissance des mots en néerlandais.

Norris, McQueen, Cutler & Butterfield (1997) suggèrent que l'activation des candidats lexicaux s'effectue sur la base de ce qu'ils appellent la "Posssible Word Constraint"

(PWC). Selon eux, dans toutes les langues, un mot (possible word) doit être composé au minimum d'une voyelle. Ils affirment par conséquent qu'un candidat lexical qui laisserait une consonne ou un groupe de consonnes seules ne recevrait pas autant

dans marbre perdrait de l'activation, car la consonne m se retrouverait sans traitement possible. Leur étude a effectivement montré que les auditeurs ont eu davantage de difficultés à extraire un mot enchâssé, lorsque le contexte le précédant n'était constitué que d'une consonne, que lorsqu'il comprenait au moins une voyelle. Par exemple, l'extraction du mot apple s'est révélée plus difficile dans le non-mot fapple que dans le non-mot vuffapple, car dans le premier cas, la consonne restante f ne pouvait pas constituer un mot possible, tandis que vuff pouvait représenter un mot possible de la langue anglaise.

Outre les informations lexicales, d'autres indices présents dans la parole peuvent également faciliter le processus de segmentation lexicale. Ils sont décrits dans la section suivante.

Informations présentes dans la parole

Les tenants de l'approche dite de segmentation explicite (appelée également sous-lexicale, Bagou, 2006) postulent que certaines caractéristiques présentes dans la parole sont d'une aide précieuse lors de la segmentation des mots. Les propriétés susceptibles de faciliter l'identification des frontières lexicales peuvent être de type rythmique, phonotactique (phonologique), ou encore acoustique. De nombreuses études ont tenté de déterminer le rôle joué par ces différentes caractéristiques lors de la segmentation des mots.

Caractéristiques rythmiques

On sait que l'organisation rythmique (ou prosodique) d'une langue peut fournir des informations déterminantes pour la segmentation des mots. Etant donné les propriétés prosodiques souvent différentes selon les langues (par exemple, rythme syllabique, accentuel ou moraïque), il est capital de déterminer sur quelles informations rythmiques s'appuie le processus de segmentation des mots selon les langues.

L'effet syllabique (syllable effect), mis en évidence il y a une trentaine d'années par Mehler et son équipe (Mehler, Dommergues, Frauenfelder & Segui, 1981), a fait couler beaucoup d'encre. En effet, Mehler et al. (1981) ont montré qu'en français les sujets détectaient plus rapidement une séquence phonémique quand celle-ci correspondait à la syllabe initiale d'un mot. Par exemple, la séquence pa était détectée plus rapidement

dans le mot pa-lace que dans pal-mier et inversement, la séquence pal était reconnue plus rapidement dans le mot pal-mier que dans pa-lace. C'est cette interaction entre le type de cible (CV et CVC) et le type de mot (CV et CVC) que l'on appelle effet syllabique.

De nombreuses études se sont données pour but de vérifier si l'effet syllabique existait également dans d'autres langues. En ce qui concerne les langues romanes, les recherches ont porté sur l'espagnol (Sebastián-Gallés, Dupoux, Segui & Mehler, 1992), le catalan (Sebastián-Gallés et al., 1992), le portugais (Morais, Content, Cary, Mehler & Segui, 1989) et l'italien (Tabossi, Collina, Mazzetti & Zoppello, 2000). Rappelons que malgré la présence d'un accent lexical, l'espagnol et l'italien sont classés, comme le français, dans les langues à rythme syllabique (Dauer, 1983; Ramus, Nespor & Mehler, 1999;

Ramus et al., 2003). Par contre, le catalan et le portugais sont considérés comme des langues mixtes (Dauer, 1983; Ramus et al., 1999; Ramus et al., 2003). En effet, ils partagent la structure syllabique et l'accent lexical de l'espagnol, mais admettent, comme l'anglais (et contrairement à l'espagnol), la réduction vocalique.

Les résultats concernant l'effet syllabique dans les diverses langues romanes ne sont pas unanimes. L'étude de Sebastián-Gallés et al. (1992) a révélé l'absence d'un effet syllabique en espagnol. Cependant, les auteurs ont noté que l'effet émergeait si les sujets étaient ralentis dans leurs réponses. En outre, leur étude a montré qu'en catalan, l'effet syllabique n'apparaissait que lorsque la première syllabe du mot n'était pas accentuée.

Ce résultat est comparable à celui du français, puisque la syllabe initiale en français n'est pas accentuée. En ce qui concerne le portugais, la recherche de Morais et al. (1989) a fait apparaître la présence d'un effet syllabique. Relevons toutefois que les auteurs n'ont pas discuté les résultats en fonction de la présence (ou non) de l'accent lexical sur la première syllabe du mot. Enfin, Tabossi et al. (2000) n'ont pas trouvé d'effet syllabique en italien, résultat similaire à l'espagnol.

Comment expliquer ces résultats différents au sein des langues romanes? Sebastián-Gallés et al. (1992) ont mis en évidence deux facteurs susceptibles d'expliquer la présence d'un effet syllabique. Le premier d'entre eux, l'ambisyllabicité, se traduit par la possibilité de rattacher une consonne à la syllabe la précédant ou à la syllabe la suivant.

Une langue admettant l'ambisyllabicité ne présente par conséquent pas de frontières

ambisyllabique, et le mot peut donc être syllabé "bal-ance" ou "ba-lance". Ainsi, selon Sebastián-Gallés et al. (1992), l'effet syllabique est fonction de la clarté des frontières syllabiques: les locuteurs d'une langue dont les frontières syllabiques sont claires ont recours à une stratégie syllabique (et présentent donc un effet syllabique), alors que les locuteurs d'une langue dont les frontières syllabiques ne sont pas claires (ambisyllabiques) mettent en oeuvre d'autres stratégies. Relevons toutefois, que puisque les langues romanes étudiées ne permettent pas l'ambisyllabicité et présentent des frontières syllabiques claires, ce facteur n'explique pas les différences observées.

La "transparence acoustique" constitue le deuxième facteur évoqué par Sebastián-Gallés et al. (1992) pour expliquer la présence (ou non) de l'effet syllabique. Ils la définissent ainsi: "the ease with which a system might quickly come to a decision concerning the various segments present in the signal" (p. 30). La transparence acoustique dépend du système vocalique d'une langue donnée et se traduit par le nombre de voyelles, par leur caractère distinct, ainsi que par la présence d'un accent lexical. Une langue avec un système vocalique limité (comme l'espagnol, avec cinq voyelles) est plus transparente qu'une langue possédant un large éventail de voyelles (comme le français, avec seize voyelles). De plus, une syllabe accentuée est plus claire acoustiquement qu'une syllabe inaccentuée. Ainsi, selon Sebastián-Gallés et al. (1992), les langues peu transparentes acoustiquement déclenchent une stratégie syllabique et présentent par conséquent un effet syllabique, alors que les langues transparentes mettent en œuvre des stratégies dites sub-syllabiques et ne montrent donc pas d'effet syllabique. De ce fait, l'effet syllabique a été observé en français et en portugais en raison de leur transparence moindre, ainsi qu'en catalan lorsque l'accent lexical était absent (et le mot donc moins transparent). Pour ce qui est de l'espagnol et de l'italien, il semblerait que les locuteurs de ces deux langues utilisent une stratégie syllabique si la tâche entraîne un ralentissement dans les temps de réponse (Dupoux, 1989) ou s'ils sont confrontés à une tâche de détection de phonèmes (Pallier, Sebastián-Gallés, Felguera, Christophe &

Mehler, 1993).

Les études présentées ci-dessus ont montré que, dans le cas des langues romanes, l'effet syllabique était présent selon la transparence acoustique de la langue. Qu'en est-il des langues à rythme accentuel? Si l’effet syllabique apparaît en fonction de la clarté des frontières syllabiques et de la transparence acoustique d’une langue, apparaît-il en

anglais? Rappelons que l’anglais est une langue accentuelle dans laquelle l’ambisyllabicité (ambiguïté des frontières syllabiques) est très répandue et que, malgré la présence d’un accent lexical, la transparence acoustique dans cette langue est moindre (voyelles nombreuses et présence de réduction vocalique). Comme on pouvait s'y attendre, Cutler, Mehler, Norris & Segui (1986), ainsi que Bradley, Sánchez-Casas &

García-Albea (1993) n’ont pas répliqué l’effet syllabique en anglais. Malgré un matériel similaire à celui utilisé dans les langues romanes, il semblerait que les locuteurs anglophones ne mettent pas en œuvre une stratégie de segmentation syllabique. Cutler et al. (1986) ont expliqué leurs résultats en mentionnant qu'une stratégie de segmentation syllabique était inefficace dans une langue à rythme accentuel, langue dans laquelle d'autres stratégies basées sur les syllabes fortes – et donc plus appropriées – étaient disponibles. Il semblerait donc que les locuteurs adaptent leur système perceptif dans le but d'exploiter de manière optimale les propriétés phonologiques de leur langue (voir également Peretz, Lussier & Béland, 1998).

Les résultats en néerlandais ne sont pas aussi clairs qu'en anglais ou en français. En suivant l'hypothèse de Cutler et al. (1986) et de Sebastián-Gallés et al. (1992), l'effet syllabique ne devrait pas apparaître en néerlandais, une langue accentuelle dans laquelle l'ambisyllabicité est très répandue. Zwitzerlood, Schriefers, Lahiri & Van Donselaar (1993) n'ont effectivement pas obtenu, en néerlandais, l'interaction caractéristique de l'effet syllabique. Cependant, en confrontant les locuteurs néerlandais uniquement à des stimuli avec des frontières syllabiques claires, ils ont trouvé un effet syllabique, et ont ainsi répliqué les résultats obtenus en français. Par conséquent, des différentes études qu'ils ont menées, Zwitzerlood et al. (1993) ont conclu que les locuteurs néerlandais étaient sensibles à la structure syllabique des mots (conclusion toutefois réfutée par Cutler (1997)).

Plusieurs chercheurs se sont intéressés aux stratégies de segmentation mises en œuvre dans une langue seconde. Cutler et al. (1986) par exemple, ont trouvé que les locuteurs francophones utilisaient une stratégie syllabique même confrontés à des stimuli anglais, alors qu'au contraire, les locuteurs anglophones ne montraient pas d'effet syllabique en présence de stimuli français. Ces résultats suggèrent que les locuteurs utilisent des stratégies de segmentation dépendantes de leur langue maternelle, stratégies basées sur les unités rythmiques de celle-ci, et ceci même dans une langue seconde. Otake, Hatano,

Cutler & Mehler (1993) sont arrivés à une conclusion similaire en utilisant des stimuli japonais. Les locuteurs japonais, sensibles au rythme moraïque, n'ont pas montré d'effet syllabique, mais un effet de more. Les locuteurs francophones par contre ont révélé un effet syllabique, au contraire des locuteurs anglophones. En somme, il semblerait que les locuteurs exportent et appliquent la stratégie de segmentation qu'ils utilisent dans leur langue maternelle pour traiter la parole dans une langue seconde.

En résumé, la présence de l'effet syllabique dépend de facteurs bien plus complexes qu'il n'y paraît à première vue. En effet, l'effet syllabique dépendrait de la clarté des frontières syllabiques d'une langue, de la transparence acoustique des voyelles, ainsi que de la tâche demandée (détection de syllabes versus détection de phonèmes). Nous pouvons conclure que les locuteurs de langues romanes, présentant des frontières syllabiques claires, sont sensibles à la structure syllabique de leur langue. Le tableau est plus nuancé pour les langues à rythme accentuel, dans lesquelles les frontières syllabiques peuvent souvent être ambiguës. Il semblerait que, dans ce cas, les auditeurs mettent en œuvre d'autres stratégies basées sur les propriétés rythmiques de la langue.

Les langues à rythme accentuel présentent en effet des syllabes dites fortes et des syllabes dites faibles. Les premières portent l'accent lexical et sont en général composées de voyelles pleines, alors que les secondes ne portent pas d'accent et sont constituées de voyelles réduites. Par conséquent, les syllabes fortes sont bien plus marquées acoustiquement dans le signal sonore que les syllabes faibles (différences au niveau de la fréquence fondamentale, de l'amplitude et de la durée (Chomsky & Halle, 1968)). Ces observations ont poussé de nombreux chercheurs à accorder un statut particulier aux syllabes fortes (ou accentuées) dans la reconnaissance lexicale. Selon Grosjean & Gee (1987), les syllabes accentuées présentes dans le signal déclenchent l'accès au lexique, tandis que l'identification des syllabes faibles découle de la reconnaissance des syllabes accentuées, ainsi que des informations phonotactiques et morphophonémiques présentes dans l'énoncé. Par exemple, le mot petrol est accédé par sa première syllabe pe, étant donné qu'elle est accentuée. Par contre, l’accès au lexique du mot patrol s’effectue par la syllabe forte trol, la deuxième syllabe dans ce cas.

Cutler & Norris (1988) se sont également penchés sur le rôle joué par la syllabe forte dans la segmentation lexicale, et donc dans la reconnaissance des mots. La constatation que les mots anglais commencent généralement par une syllabe forte (Cutler & Carter,

1987) les a amenés à émettre l'hypothèse que l'accès lexical était non seulement déclenché par les syllabes fortes, mais aussi que celles-ci, en tant que débuts de mots potentiels, représentaient des indices capitaux dans la segmentation lexicale. Pour vérifier cette hypothèse, ils ont demandé à des sujets anglais de détecter des mots dans des non-mots bisyllabiques. Ces derniers étaient composés soit d’une syllabe forte et d’une syllabe faible (SW, par exemple, mintef) soit de deux syllabes fortes (SS, par exemple mintayf). Ils ont trouvé que la reconnaissance de mint dans mintayf (SS) était plus lente que dans mintef (SW) et ont expliqué leurs résultats ainsi: la deuxième syllabe forte dans SS a déclenché le processus de segmentation et l’accès au lexique a été initialisé par tayf. Etant donné que les informations de part et d’autre du point de segmentation entraient en conflit (mint d’un côté et tayf de l’autre), la détection du mot mint en était ralentie. Ce ralentissement n’apparaissait pas dans le cas de SW, puisque selon l’hypothèse des auteurs, la deuxième syllabe, faible, ne déclenchait pas le processus de segmentation et qu’il n’y avait pas de conflit d’informations de part et d'autre de la frontière syllabique. Etant donné que les deux types de non-mots (SS et SW) possédaient la même structure syllabique, les auteurs ont conclu que la structure accentuelle était cruciale en anglais et que les syllabes fortes jouaient un rôle capital dans la reconnaissance des mots, puisque ce sont elles qui déclenchaient le processus de segmentation. Cette conclusion a donné naissance à la Metrical Segmentation Strategy (MSS), qui a été par la suite appuyée par de nombreuses études empiriques (Cutler &

Butterfield, 1992, entre autres).

En ce qui concerne la langue néerlandaise, il semblerait que, comme en anglais, les syllabes fortes représentent généralement des débuts de mot. En effet, Vroomen & de Gelder (1995) ont trouvé que seulement 12.3% des mots néerlandais commençaient par une syllabe faible. Par conséquent, il apparaît que MSS soit particulièrement appropriée pour rendre compte de la reconnaissance lexicale en néerlandais. Les résultats des études de Vroomen, van Zon & de Gelder (1996) et de Vroomen & de Gelder (1997) ont révélé que MSS entrait effectivement en jeu lors de la segmentation des mots en néerlandais.

Par ailleurs, on peut se demander si les indices fournis par la structure accentuelle sont également utilisés lors de la segmentation lexicale dans une langue dont le rythme n'est pas accentuel. La langue française, par exemple, se caractérise par la présence d'un

accent en fin de groupe rythmique, accent principalement marqué par un allongement syllabique et par des variations mélodiques (Delattre, 1966; Di Cristo, 1998). Ainsi, quelques études ont en effet démontré que les auditeurs francophones utilisaient également les régularités rythmiques du français (allongement syllabique, principalement) lors de la segmentation lexicale (Dahan, 1996; Banel & Bacri, 1997).

En résumé, il apparaît que les informations rythmiques (ou prosodiques) sont cruciales lors de la segmentation des mots, quelle que soit la langue étudiée. Les diverses études présentées précédemment ont montré que les locuteurs d'une langue à rythme syllabique

En résumé, il apparaît que les informations rythmiques (ou prosodiques) sont cruciales lors de la segmentation des mots, quelle que soit la langue étudiée. Les diverses études présentées précédemment ont montré que les locuteurs d'une langue à rythme syllabique