Des similitudes entre musique et langue - La musique comme support à l’acquisition et à l’appre

Chapitre I Acquisition d’une

I.2 Outils, méthodes et approches « musicales » en intégration phonétique : pratiques courantes et pratiques émergentes

I.2.2 La musique comme support à l’acquisition et à l’apprentissage

I.2.2.3 Des similitudes entre musique et langue

Le choix d’utiliser la musique pour améliorer les apprentissages provient de résultats majeurs : les premiers dévoilent son efficacité pour l’acquisition et l’apprentissage ; les seconds mettent en évidence son rapport étroit avec la langue, tant du point de vue du traitement cognitif, comme évoqué précédemment sur la hauteur ou la durée (cf. Section I.1.5.1), que du point de vue syntaxique ou bien des origines et de leur développement (Brown, 2000).

Langue et musique auraient une genèse commune et universelle (Marler, 1970 ; Doupo et Kuhl, 1999 ;

Brown, 2000 ; 2001 ; Mithen, 2005), et se seraient spécialisées par la suite (Wiggins, 1998 ; Brown, 2000 ;

2001 ; Dodane, 2003 ; Mithen, 2005). Outre le fait que tous les êtres humains portent en eux un instrument vocal,

si aucune déficience ne gêne l’expérience chantée ou parlée, ils accèderaient sans nécessité d’un apprentissage formel préalable à la parole et au chant – du moins à un niveau initial en ce qui concerne la musique – (Delbé, 2009). Certaines études suggèrent en effet l’existence de modules innés pour l’acquisition de la musique, lesquels seraient mobilisés au contact de l’environnement (Sloboda, 1985 ; Bigand, 1997 ; Tillmann, Bharucha et Bigand,

2000 ; Ilahi, 2002 ; Patel, 2003 ; McDermott et Hauser, 2005 ; Trafuri, 2005 ; Bigand et Poulin-Charronnat, 2006). Du point de vue développemental, le ‘musicolangage’ (musilanguage en anglais) (Brown, 2001) serait directement observable sur les premiers stades du développement du langage (Cross, 2003) et plus tard, sur la coordination interindividuelle (Fenk-Oczlon, 2010). Le système auditif de l’être humain deviendrait fonctionnel dès le stade embryonnaire (Rubel et Fritzsch, 2002). Pour certains auteurs, les aptitudes à la parole et à la musique se développeraient avec la perception des rythmes et des vibrations, puis de l’intonation entre 17 et 19 semaines de gestation, période à laquelle le fœtus commencerait à entendre (propos rapporté par Vaissière, 2011) la respiration et les battements cardiaques (Mannes, 2011). Jadri et al. (2008) et Jadri et al. (2012) ont trouvé une activité cérébrale dans le lobe temporal gauche chez le fœtus âgé de 33 semaines de gestation lorsqu’il est exposé à des sons de parole. Lecanuet et al. avaient auparavant (1987) relevé une réaction cardiaque de fœtus âgés entre 35 et 38 semaines exposés à des paires de syllabes. Ils ont relevé un changement de leur rythme cardiaque à chaque inversion de l’ordre des syllabes émises (/babi/ vs /biba/), résultats qui suggéraient une habileté du fœtus à percevoir et discriminer des modifications dans la chaîne d’unités de parole24_{. Des recherches ont également}

établi que le nouveau-né présente une habileté à discriminer l’ensemble universel des contrastes phonétiques

(Werker et al., 2012) mais aussi des échelles musicales (Brandt et al., 2012). Le développement des deux modes

de communication partage des similitudes et se poursuit parallèlement à la croissance de l’humain. En ce qui concerne l’expérience du chant, Trehub (2001) et Bergeson et Trehub (2002) montrent que l’enfant chante dès 12 mois, et que, dès 18 mois, ses mélodies sont reconnaissables par les personnes de son entourage. En ce qui concerne la parole, l’enfant commence par produire l’intonation et la prosodie durant le babillage avant d’énoncer entre 12 et 18 mois ses premiers mots reconnaissables comme tels par sa communauté environnante (Boysson-

Bardies, 1996 ; Kern, 2001). Du point de vue perceptif, musicien ou pas, l’enfant atteint autour de ses 12 ans un

niveau de sensibilité harmonique semblable à celui d’un adulte, et vers 18 ans sa compétence de discrimination de l’accentuation est comparable à celle d’un adulte (Brandt et al., 2012). Du point de vue articulatoire, le jeu exploratoire vocal qui se développe chez le nourrisson entre 4 et 6 mois résulterait de comportements proto- linguistiques/proto-musicaux et serait à l’origine du babillage répété entre 7 et 13 mois (Cross, 2003). Par ailleurs, selon les résultats de Tillmann et al. (2000), le maintien de ces aptitudes en chant et en parole dépend de leur degré d’utilité, et leur mode de développement dépend du milieu d’apprentissage et de vie, autrement dit du cadre et des modalités d’exposition (Fonseca-Mora, 2000). Au sujet du chant et plus précisément de la justesse mélodique d’une chanson populaire simple, il a par exemple été démontré que certains amateurs atteignent le niveau de professionnels (Dalla Bella, Giguère et Peretz, 2007).

Quoiqu’il puisse exister une origine commune de la langue et de la musique, l’histoire et les cultures influent sur les formes langagières et musicales, lesquelles s’interpénètrent et s’empruntent des usages les unes aux autres (Lemarquis, 2013). Du point de vue ethnolinguistique et sociolinguistique, les définitions attribuées à l’acte chanté et à l’acte parlé résultent des représentations culturelles et de l’imaginaire collectif, révélant une frontière instable et une absence de catégorisation nette pour ces types d’émission. En français, l’étymologie partagée de quelques vocables utilisés pour décrire la musique et la phonétique de la langue en est une illustration.

24 _{compétence qui pourrait se développer plus tôt encore, vers la 38}ième_{semaine de gestation selon des chercheurs, tels}

Par exemple, le terme prosodie provient de l’ancien grec ôdê, qui signifie chant, tandis que intonation vient du latin intonare, qui peut être traduit comme tonner ou bien faire retentir (Dodane, 2003).

Plus extrême encore, voix et musique peuvent s’apparenter et se compléter dans certaines cultures, par exemple pour exprimer des sentiments comme suggéré par Rousseau (1781) pour la langue française, et comme le démontrent certains typologies de systèmes de langues tambourinées (ou langages tambourinés) répandues en Océanie, en Afrique subsaharienne et en Afrique de l’Est. Ce mode de communication exploite des caractéristiques musicales pour la transmission de messages à des villages distants de plusieurs dizaines de kilomètres (Arom, 2009). Au Cameroun par exemple, à l’image de la langue tonale correspondante, les frappes sont effectuées sur un tambour à deux hauteurs tonales, et le discours est alors constitué de véritables phrases musicales, conservant de plus le rythme de l’élocution correspondante (Rialland, 2007 ; Arom, 2009). Dans la mesure où le son devient signe évocateur de sens et où le système accepte – dans certaines limites – l’innovation grammaticale (Arom, 2009), les codes tambourinés sont reconnus par les linguistes comme des langues (Cloarec-

Heiss, 1997 ; Arom, 2009). Il en va de même pour les langues sifflées. Les utilisateurs du Silbo Gomero par

exemple communiquent par le biais de sifflements à travers le terrain montagneux des îles Canaries (Rialland, 2003). Le sifflement se base entre autres sur la hauteur fréquentielle du deuxième formant de l’espagnol (qui est la langue parlée correspondante), le deuxième formant étant étroitement lié aux mouvements antérieurs et postérieurs de la langue (ibid. ; à propos des langues sifflées, cf. aussi Meyer, 2005). Dans cette perspective, pourrait être repensée la conception habituelle faisant de la musique d’une part un outil de plaisir et d’émotion seulement, et de la parole d’autre part un objet de communication uniquement (Besson et Regnault, 2000). Cet exemple montre aussi que langue et musique sont toutes deux utilisées pour transmettre un message, même si la parole permet une précision sémantique bien plus forte que la musique dont le principal effet est émotionnel

(Fonseca-Mora, 2000).

Le chant peut être exploité dans une dominante rituelle et sacrée, parfois même avec un interdit d’usage pour la sphère du plaisir et du jeu (comme dans certaines communautés ethniques), il peut être davantage associé à un acte artistique ou créatif (Besson et Regnault, 2000), mais dans tous ces cas, une écoute holistique est envisageable selon Hagège (2009). Il s’agirait dans ce cas d’une écoute de la musique en tant qu’un tout, durant laquelle l’émotion servirait de guide. La culture et le savoir ne seraient pas mobilisés par l’auditeur, évitant de fait une analyse du système (ibid.). Il est intéressant de remarquer que le même processus d’écoute est évoqué

par Renard (1977 ; 1979 ; 2002) à propos d’un non-natif exposé à une langue étrangère dans laquelle il serait

naïf et que c’est une des raisons qui justifie la volonté d’une approche non analytique, donc inductive, de la langue étrangère (cf. Section I.2.1).

Parole et musique sont aussi apparentées du fait que chacune procède d’une organisation hiérarchique et codée, attribuant une valeur spécifique à des unités abstraites, les agençant et les combinant selon des relations définies pour un contexte de parole ou un genre musical (Nattiez et Dunsby, 1977 ; Jackendoff et Lerdhal, 1980 ; Narmour, 1990 ; Wiggins, 1998 ; Patel, 2003 ; Huron, 2006 ; Schreuder, 2006 ; Szendy, 2009 ; Hagège, 2009 ;

Jackendoff, 2009). Bien qu’au contraire des mots, les associations d’accords ou de fréquences tonales ne soient

Tillmann et al., 2000) dont l’ordre est également interprétable par une communauté donnée (Wiggins, 1998 ;

Cross et Tolbert, 2008), ce qui justifie la volonté de certains chercheurs, telle Aubin (cf. entre autres son article

de 2008a), de défendre la reconnaissance du terme langue-culture en vue de rappeler que les deux sont étroitement

liés.

L’absence d’équivalences rigoureuses entre certains paramètres inhérents à la parole et à la musique, par exemple entre les spectres acoustiques d’une note de musique et d’un son de langue, n’empêche pas les structures inhérentes à chaque système d’être composées de nombreux éléments simples qui, combinés les uns aux autres selon une organisation linéaire (Ribière-Raverlat, 1997), forment un message pertinent (Jackendoff et Lerdhal,

1980 ; Narmour, 1990 ; Fonseca-Mora, 2000). Il s’agit d’unités distinctives élémentaires, les phonèmes et les

notes, ou d’unités suprasegmentales comme les syllabes, les mots et les intervalles, les propositions et les figures mélodiques, les phrases et les phrasés, l’énoncé et la section... (Ribière-Raverlat, 1997 ; Arleo, 2000 ; Dodane, 2003). Musique et parole reposent de plus sur différents niveaux de traitement : pragmatique, syntaxique, sémantique, prosodique, phonologique et orthographique dans la parole ; transcription musicale, rythmique, mélodique et harmonique dans la musique (Besson et Regnault, 2000). Besson et Friederici (1998) relèvent d’ailleurs une activité cérébrale commune pour les traitements syntaxiques et prosodiques de la parole et les traitements harmoniques, mélodiques et rythmiques. Les structures hiérarchiques de la langue et de la musique sont également comparables du point de vue de la prosodie. Ribière-Raverlat (1997), Arleo (2000) et Dodane

(2003) comparent respectivement rythme et mélodie avec accent et intonation et Fonseca-Mora (2000) ajoute un

usage commun du son, du volume, de l’intensité, de l’accent, du ton, du rythme et des pauses. Ribière-Raverlat

(1997) et Arleo (2000) précisent aussi que parole et musique se ressemblent en ce sens qu’elles suivent

inévitablement une ligne temporelle. En parole, les frontières de sens sont interprétées par l’auditeur à partir d’indices acoustiques. Les propositions se détachent ainsi les unes des autres par le biais d’une modification de la fréquence fondamentale ou encore, pour le français ou l’anglais, d’un allongement temporel de la syllabe précédant la frontière (Klatt et Cooper, 1975). De façon comparable, les frontières musicales sont indiquées par une chute de la fréquence fondamentale, laquelle est souvent combinée à un allongement de la durée des notes

(Jusczyk et Krumhansl, 1993). Il a même été montré que, dans une langue-culture donnée, la prosodie de la

langue influence les contraintes rythmiques de la musique (Patel et Daniele, 2003 ; Jeannin, 2002).

En parole comme en musique, le répertoire d’unités et les règles d’assemblage sont numériquement limités, mais les associations sont infinies – dans le respect d’un code et d’une grammaire donnés (Gilbers et

Schreuder, 2002 ; Delbé, 2009) –, permettant des énoncés imprévisibles et un renouvellement permanent des

formes (Zbikowski, non publié, 2011). Il existe donc un processus grammatical génératif dans les deux formes de communication. De la même manière qu’un locuteur doit intérioriser la grammaire d’une langue pour bien communiquer, un musicien doit apprendre une grande part des règles d’un style musical. Ces savoirs, acquis de manière inductive ou déductive selon les contextes, permettent à l’auditeur de juger de la bonne forme d’un énoncé, mais aussi de l’interpréter correctement en cas d’altération partielle du message. Quoique les niveaux de traitements cognitifs soient encore méconnus, de nombreuses études comparant musique et langue (et plus précisément, la parole) observent ainsi le comportement des sujets face à des violations grammaticales, souvent d’ordre sémantique ou mélodique (Besson et Regnault, 2000 ; Schön, Magne et Besson, 2004 ; Magne et al.,

2006 ; Marques, Moreno, Castro et Besson, 2007). Les sujets musiciens identifient significativement mieux que les profanes les incongruités musicales. Sloboda (1976) a aussi montré que cette grammaire peut être assimilée au point que des musiciens corrigent spontanément, et sans même s’en rendre compte, une erreur de notation dans les partitions musicales. Ces derniers jouent la mélodie attendue selon les règles du système et non pas la transcription qu’ils sont censés lire. Néanmoins, tout écart de l’organisation structurale et des règles conduisent à un risque majeur d’incompréhension au sein de la communauté parlante et mélomane (Gilbers et Schreuder, 2002), et parfois, le dysfonctionnement de processus intrinsèques à l’une détériore le fonctionnement de l’autre.

Peretz, avec Belleville et Fontaine d’abord (1997), puis Kolinsky ensuite (1998) et Liu et al. (2010) l’ont

démontré lors d’une étude sur l’amusie chez des adultes. Les deux groupes de chercheurs ont trouvé une corrélation entre perturbation des compétences musicales et difficulté de perception des variations de fréquences fondamentales en parole. Alcock, Passingham, Watkins et Vargha-Khadem (2000) ont obtenu des résultats comparables sur le lien unissant perception de la musique et perception de la parole avec une étude sur la mutation anormale d’un gène qui a pour effet directement observable de dégrader les aptitudes en parole. Ils ont également relevé une affection corrélée des compétences en perception et en production du rythme musical. En 2009, l’étude

de Peretz et Kolinsky sur cette même déficience a révélé un impact additionnel sur les compétences en production

chantée, confirmant le partage de voies neurales pour les deux systèmes (cf. Section I.1.5.2).

Étant donné que les études montrent une meilleure réussite scolaire chez les individus ayant bénéficié d’un enseignement musical ou intégré de musique et suggèrent que la musique améliore les conditions d’apprentissage et renforce les processus d’acquisition, il nous semble pertinent d’identifier la place qu’occupe (ou plutôt « accordée à ») la chanson en classe de langue, et en l’occurrence du FLE puisque c’est notre discipline d’intérêt. Puisque les similarités entre musique et langue sont nombreuses, et que la chanson et la parole partagent des caractéristiques vocales, il reste à déterminer si la chanson est un outil adapté à la correction phonétique de la parole et si elle est utilisable en ce sens en classe de FLE.

Dans le document L’apport de la voix chantée pour l’intégration phonético-phonologique d’une langue étrangère : application auprès d’italophones apprenants de FLE (Page 81-85)