• Aucun résultat trouvé

3. Actuellement

3.4 Rôle de la langue

Les langues ne sont pas toutes construites de la même façon. Elles diffèrent selon les patterns d'accentuation, le nombre de consonnes et de voyelles, leur arrangement dans les mots ou la distribution fréquentielle des phonèmes dans le mot. Ces différences pourraient intervenir dans la construction des représentations lexicales des enfants.

Les langues trochaïques qui mettent l'accent sur la première syllabe pourraient influencer des représentations plus détaillées en début du mot qu'en fin de mot, alors que les langues iambiques, qui mettent l'accent sur la deuxième syllabe, auraient des représentations plus spécifiées sur cette syllabe. Pour le français, des auteurs comme Hallé et de Boysson-Bardies (1996) ont montré que des bébés de 11 mois préféraient des mots familiers à des mots non-familiers dont la consonne était modifiée en position initiale de la deuxième syllabe, accentuée en français. Cependant, ils n'avaient plus de préférence lorsque le changement était effectué sur la première syllabe non-accentuée en français. Pour des enfants anglophones du même âge, Vihman et collègues (2004) ont trouvé des résultats inverses qui vont dans le sens que la spécificité des représentations phonologiques dépendrait du pattern d'accentuation de la langue.

D'autre part, le ratio entre le nombre de consonnes et de voyelles (C:V) est différent selon les langues : par exemple, pour l'anglais (US) 24:17, le hollandais 19:16, l'espagnol 20:5 et le français 18:16 (Nazzi 2005). Il pourrait donc aussi avoir un effet de la langue sur les résultats selon le type de phonème modifié. Creel et al., (2006) ont fait varier ce facteur lors de l'apprentissage d'un lexique artificiel par des adultes. Dans une phase test où le participant devait choisir l'image correspondante au mot cible, les auteurs mesuraient le taux d'erreur par rapport à un distracteur partageant des caractéristiques avec le mot cible. Ils ont remarqué qu'un distracteur partageant les mêmes consonnes induisait plus souvent des erreurs que lorsqu'il partageait les mêmes voyelles. Ils ont aussi modifié le ratio consonnes-voyelles dans l'apprentissage du nouveau lexique, mais cette variable n'influence pas les résultats. Un lexique appris récemment utiliserait donc plus l'information des consonnes que des voyelles pour définir l'identité d'un mot, quel que soit le ratio C:V de la langue. Cependant, lorsque le participant apprenait un lexique avec une structure VC plutôt que CV, les mots partageant des voyelles augmentaient la confusion dans l'identification de mots. La position en début de mot serait donc plus saillante, quel que soit le type de phonème à cette position. Ce résultat infirme l'hypothèse de Nespor et al. (2003). Creel et collaborateurs (2006) se sont demandés

si les mêmes résultats seraient obtenus avec une langue naturelle. Pour l'anglais, Van Ooijen (1996) a trouvé que les adultes substituaient plus souvent une voyelle d'un non-mot pour aboutir à un mot dans une tâche de reconstruction de mots. Quant à Cutler et collègues (2000), ils ont trouvé le même pattern de résultats avec le hollandais qui possède un ratio C:V proche de 1 et l'espagnol qui contient seulement 5 voyelles par rapport à 20 consonnes. Chez les adultes, il n'y aurait donc pas d'influence du nombre de consonnes par rapport aux voyelles dans une tâche de reconstruction de mots, mais bien une différence dans l'information portée par les voyelles et les consonnes pour la reconnaissance de mots. La répartition du nombre de consonnes ou de voyelles ainsi que leurs traits distinctifs pourraient aussi jouer un rôle. Par exemple, si une langue comme l'espagnol ne possède que 5 voyelles (a-e-i-o-u) qui sont relativement différentes phonétiquement, est-ce que celles-ci seraient détaillées plus précocement ? Au contraire, est-ce qu'une langue qui en possède 16 comme le français aurait des voyelles spécifiées plus tardivement parce qu'elles seraient plus proches phonétiquement les unes des autres ? Il n'y a pas encore assez d'études comparables avec des langues distinctes pour savoir si les représentations phonologiques se développent différemment selon ce critère. Il serait aussi intéressant de tester une langue qui possède plus de voyelles que de consonnes pour vérifier les résultats de Creel et al. (2006) dans une langue naturelle.

D'autres auteurs se sont demandés si des patterns structuraux plus fréquents dans une langue étaient mieux détaillés. Par exemple, Nazzi et Bertoncini (2009) ont testé des changements sur des consonnes dans une structure de syllabe consonne labiale – voyelle – consonne coronale ou l'inverse (consonne coronale – voyelle – consonne labiale) qui est moins fréquente en français, mais ils n'ont pas trouvé de différence significative dans leurs résultats. De même, les contrastes qui seraient plus pertinents d'une langue à l'autre pourraient être plus spécifiés. Mani et collègues (2008) trouvent que l'arrondissement des voyelles n'est pas spécifié chez des enfants anglophones de 18 mois. Ces auteurs expliquent leurs résultats par une redondance de l'information portée par cette dimension en anglais. En effet, les voyelles antérieures ne sont pas arrondies alors que les postérieures le sont (Ladefoged, 1971, cité par Mani et al., 2008). Selon ces auteurs, il faudrait comparer ces résultats avec des langues où l'arrondissement est plus pertinent comme le français ou le coréen pour vérifier cette hypothèse.

Il y a encore peu d'études qui ont comparé systématiquement les différences entre les langues, mais au vu des divergences dans les expériences, ce facteur est à prendre en considération. Dans notre étude, nous allons comparer les résultats obtenus par les équipes anglophones de Plunkett ou de Swingley en utilisant la même méthode qu'eux.

4. Notre recherche

Notre étude s'inscrit dans le cadre plus large d'une autre expérience commencée en 2007 par Zesiger et al. (en prép.) avec des enfants francophones de 12, 18 et 24 mois et financée par le Fonds National Suisse qui encourage la recherche suisse. À l'aide de la méthode du regard préférentiel intermodal (Intermodal Preferential Look – IPL), ces auteurs voulaient savoir à partir de quel âge les représentations phonologiques étaient détaillées et de quelle manière. Ils ont utilisé des mots familiers et nouveaux et ont effectué un changement sur des consonnes et des voyelles. Les modifications portaient aussi sur la position dans le mot et sur différents traits phonologiques substitués. Suite aux résultats obtenus, une série d'autres expériences est maintenant conduite avec des enfants de 14, 18 et 22 mois, car les résultats étaient insatisfaisants pour les 12 mois, probablement en raison d'un problème méthodologique. La méthode a été simplifiée, le nombre de mots a été réduit, la familiarité des mots, ainsi que la distance phonologique du changement ont été augmentées. Un renforcement de l’attention a aussi été introduit à l’aide d’un smiley qui applaudit. Nous nous sommes intéressés à la tranche d'âge des 14 mois pour ce mémoire, en observant le type de phonème modifié ainsi que le changement sur la position dans le mot.

Selon plusieurs études, il semblerait qu'à 14 mois, des changements s'opèrent dans les représentations phonologiques des bébés, ce qui en fait une population intéressante à tester.

En effet, ils se situent avant la période de l'explosion lexicale et obtiennent de meilleurs résultats que les enfants de 12 mois. C'est aussi à cet âge qu'on commence à pouvoir observer et mesurer une habileté dans l'apprentissage de mots. Werker et collaborateurs (1998) montrent que les enfants anglophones de 14 mois mais pas avant, arrivent à associer une paire de deux mots distincts phonologiquement avec deux objets mouvants en utilisant une méthode de Switch Task. Ils arrivent à faire cette association sans l'aide du contexte ou de l'adulte et après une brève exposition aux mots.

De plus, nous avons pris en compte les différents facteurs existants dans la littérature.

Nous utilisons le paradigme de regard préférentiel intermodal qui demande relativement peu de ressources attentionnelles de la part des enfants, ce qui permettra de mieux mettre en évidence leurs compétences réelles. C'est la même méthode que les études anglophones de l'équipe de Plunkett ou de Swingley. Les expériences francophones de l'équipe de Nazzi utilisent une méthode de NBC avec des enfants plus âgés et il n'existe pas encore d'études en

français avec la méthode IPL et des enfants de moins de 20 mois. Nous pourrons comparer nos résultats avec les études anglophones et observer s'il y a un effet de langue. Les changements effectués sur les mots présentés à l'enfant touchent le type de phonèmes (consonne ou voyelle) ainsi que la position dans le mot (première ou deuxième syllabe pour les expériences 1 et 2 ; onset ou coda pour l'expérience 3), ce qui permet d'évaluer finement les représentations des enfants selon plusieurs critères. Pour réduire les différences acoustiques entre les consonnes et les voyelles, nous avons changé les mêmes traits (place d'articulation et nasalité) ; nous pourrons ainsi mieux comparer les deux types de phonèmes.

Hypothèses théoriques

Nous faisons les hypothèses théoriques suivantes :

1. Si les enfants francophones de 14 mois ont des représentations phonologiques détaillées, comme le montre la plupart des études, alors les mots bien prononcés devraient être mieux reconnus que les mots mal prononcés.

2. Nous nous attendons à avoir des représentations détaillées pour les consonnes et les voyelles avec peut-être une asymétrie en faveur des consonnes. Plusieurs auteurs ont trouvé que celles-ci étaient plus spécifiées que les voyelles car les consonnes auraient un rôle plus important pour le lexique, alors que les voyelles seraient plutôt requises pour la prosodie et la morpho-syntaxe (Nespor et al., 2003). Les études réalisées en français par l'équipe de Nazzi obtiennent des résultats dans ce sens.

3. Comme le français est une langue plutôt iambique, la deuxième syllabe est généralement plus marquée et nous nous attendons à ce que les bébés de 14 mois soient plus sensibles aux changements sur la deuxième syllabe que sur la première syllabe. Cependant, la première syllabe pourrait être plus spécifiée, si l'on prend en compte le traitement incrémental du signal de la parole. Les bébés de 14 mois seraient alors plus sensibles aux changements sur la première syllabe.

4. Pour des changements de consonnes en position initiale et finale, nous pouvons garder les mêmes hypothèses que la troisième, à savoir la saillance de l'onset pour un traitement incrémental de la parole ou une deuxième syllabe plus saillante pour le français. Cependant, il est difficile de faire une prédiction sur les résultats de notre expérience 3, car nous avons mélangé des mots mono- et bi-syllabiques.

Deuxième partie : Partie expérimentale

Notre étude comporte 3 expériences. L'expérience 1 et 2 où l'on effectue le changement respectivement sur une consonne ou une voyelle de la première ou la deuxième syllabe, dans des mots bisyllabiques familiers et l'expérience 3 où les modifications se font sur la consonne initiale ou finale de mots mono- et bi-syllabiques familiers.

1. Méthode

1.1 Expérience 1

1.1.1 Participants

Quarante-trois enfants de 14 mois (M = 14 mois et 13 jours ; min = 13 mois et 25 jours ; max = 15 mois et 13 jours) dont 23 garçons et 20 filles, ont participé à notre expérience. Ils étaient tous francophones avec un minimum de 80% de français parlé par l'entourage pour les enfants évoluant dans un milieu multilingue. Ces enfants n'avaient pas d'antécédents médicaux, de problèmes de vue ou d’ouïe et étaient issus d'un listing de l'Office Cantonal de la Population recensant toutes les naissances du canton de Genève entre février et avril 2009.

Les parents ont été contactés par courrier et étaient libres de répondre à la demande de participation d’une expérience sur le développement du langage. Un enfant a été exclu de l'expérience car il n'a pas terminé la passation.

1.1.2 Matériel Stimuli auditifs

Les stimuli auditifs étaient 8 noms bisyllabiques familiers et facilement illustrables, sélectionnés dans la liste de Kern (2003), l'adaptation française des normes du MCDI (MacArthur Communicative Development Inventory). Ces mots ont été choisis lorsqu'ils avaient une fréquence de reconnaissance de plus de 70% à 14 mois. La modification des mots s'est faite sur la consonne initiale ou médiane, avec un changement dans le trait de la place articulatoire ou de la nasalité car ces deux modifications pouvaient aussi être réalisées pour les voyelles, permettant une certaine comparaison entre les deux types de phonèmes. Ces mots modifiés aboutissaient à un non-mot. Par exemple, poussette était transformé en moussette. L’ensemble des stimuli est présenté dans l'annexe I. Les mots ont été enregistrés par une locutrice francophone, avec une intonation enjouée, dirigée vers l'enfant. Lors de

l'expérience, les mots étaient introduits par un prompt dans une phrase porteuse de type :

« regarde, <mot cible> » pour que les stimuli soient présentés de la manière la plus naturelle possible. Chaque item, ainsi que le prompt ont été enregistrés à 44 Hz Mono et normalisés avec le logiciel « CoolEdit ». Seize items étaient présentés pendant l'expérience, ainsi que 2 items-essais en début de passation. La moitié des items étaient des mots bien prononcés alors que l’autre moitié correspondait aux items modifiés.

Stimuli visuels

Les stimuli visuels étaient des photos d'objets en couleur, travaillées sur un fond bleu clair et de taille similaire. Elles provenaient d'internet ou de nos propres photographies et correspondaient à des objets familiers associés ou non aux stimuli auditifs. Les images étaient adaptées aux enfants, par exemple pour le mot chaussure, c'est une chaussure d'enfant et non d'adulte qui était représentée. Il y avait 8 images pour les mots cibles et 16 images distractrices ; ces images étaient appariées en fréquence de reconnaissance. Elles étaient projetées sur un écran disposé à 1m50 de l'enfant et étaient séparées de 40 cm (cf. figure 1).

1.1.3 Procédure

Pour notre expérience, nous avons repris la méthode du regard préférentiel intermodal (Intermodal Preferential Looking Task - IPL) de Golinkoff et al. (1986), où l'enfant faisait une tâche de reconnaissance de mots. Cette procédure consistait à présenter à l'enfant deux images sur un écran, puis un stimulus auditif d'un mot bien ou mal prononcé correspondant à l'une des deux images. Ces auteurs postulent que l'enfant regarde préférentiellement l'image qui est nommée. Nous avons utilisé le programme MatLab pour la présentation des stimuli.

La salle insonorisée dans laquelle l'enfant passait l'expérience était composée d'un espace jeu où l'enfant pouvait se familiariser avec l'endroit et d'une cabine en bois isolée par un rideau contenant un écran de 106 cm de large, en dessous duquel se trouvaient deux caméras se situant sous chaque image présentée à l'écran, ainsi qu'un haut-parleur de chaque côté de l'écran (cf. Figure 1).

écran haut-parleurs

caméras

Figure 1 Dispositif expérimental

Avant de commencer l'expérience à proprement parler, un expérimentateur jouait avec l'enfant pour le mettre à l'aise, pendant qu'un autre questionnait le parent sur les données personnelles, les langues parlées à la maison ou en dehors, par exemple à la crèche, et le développement général et langagier de l'enfant. Les parents remplissaient un formulaire de consentement éclairé après avoir reçu des informations sur le déroulement de l'expérience.

Pour nous donner une idée du vocabulaire réceptif et productif de leur enfant, nous avons demandé aux parents de remplir l'Inventaire Français du Développement Communicatif chez le nourrisson : mots et gestes (l'IFDC, Kern, 1999) qui est une adaptation française du MacArthur Communicative Development Inventory (MCDI). Après l'expérience, l'enfant repartait avec un certificat de bébé diplômé de l'Université de Genève et un T-shirt imprimé avec le logo de l'Université de Genève et du Fonds National Suisse (FNS).

Lors de l'expérience, le parent prenait l'enfant sur ses genoux afin de le tenir bien droit.

Pour éviter tout biais de la part de l'adulte, celui-ci portait des lunettes noires et recevait la consigne de rester le plus neutre possible. Chaque item était précédé par l'apparition de points de couleurs clignotant au milieu de l'écran et accompagnés d'un son de clochettes pour capter l'attention de l'enfant vers le milieu de l'écran. Chaque item était lancé manuellement par l'expérimentateur situé dans une salle de contrôle adjacente. Les deux images apparaissaient 1500ms avant le début du prompt « regarde » qui durait 1000ms, s'ensuivait une pause de 500ms, puis le mot cible était présenté. Il apparaissait ainsi après 3000ms ce qui correspondait à la moitié de l'essai. La durée de chaque essai était de 6000ms (cf. tableau I).

L’enfant était filmé par deux caméras qui nous permettaient de voir vers quelle image l’enfant regardait. Entre chaque item, les points de couleurs et le son de clochettes étaient présentés systématiquement pour que l'enfant porte son regard au milieu de l'écran. Chaque fois que

image x image

l'enfant portait son regard au centre de l'écran, un nouvel item était lancé manuellement par l'expérimentateur situé dans la salle adjacente. L'expérience était constituée de 18 items et durait environ six minutes. Pour que l'enfant reste attentif durant toute l’expérience, un smiley applaudissait après les deux items d'essai et chaque quatre items de l'expérience.

Tableau I

Structure temporelle d'un essai

1.2 Expérience 2

1.2.1 Participants

Cette expérience se déroulait de la même manière que la précédente, avec la participation de 40 enfants de 14 mois (M = 14 mois et 10 jours ; min = 13 mois et 23 jours ; max = 15 mois et 3 jours) dont 22 garçons et 18 filles. Ces enfants n'avait aucun antécédents médicaux, ni de troubles sensoriels et ils provenaient du même listing que dans l'expérience 1. Aucun enfant n'a été exclu de cette expérience.

1.2.2 Matériel Stimuli auditifs

Les stimuli auditifs étaient identiques à l'expérience 1, excepté que leur modification se faisait sur une voyelle dans la première ou la deuxième syllabe, en changeant le trait de la place articulatoire ou de la nasalité. Par exemple, bébé était transformé en bébin. L’ensemble des stimuli est présenté dans l'annexe I. Les changements se faisaient sur les mêmes traits (place articulatoire et nasalité) que ceux des consonnes, ce qui permettra de comparer les deux résultats.

Stimuli visuels

Identiques à l'expérience 1.

1.2.3 Procédure

L'expérience 2 s'est déroulée de la même manière que l'expérience 1.

1.3 Expérience 1 et 2

1.3.1 Plan expérimental

Les variables indépendantes de notre expérience étaient la prononciation du mot (bien ou mal prononcé) et le type de phonèmes modifiés (consonnes ou voyelles). Nous avions trois indices différents pour nos variables dépendantes. Le « Proportional Target Looking » (PTL), le « Longest Look Difference » (LLD) et la latence (LAT). Le PTL correspond au temps de regard sur l'image cible (C) divisé par le temps de regard sur l'image cible (C) et distractrice (D) : PTL = C/(C+D). Cet indice indique donc un pourcentage de temps. L'indice LLD mesure le regard le plus long sur l'image cible dont on soustrait au regard le plus long sur l'image non-cible. Le regard le plus long correspond à la durée la plus longue en nombre de frames où l'enfant regarde l'image sans détourner des yeux. Si la valeur du LLD est positive, alors le regard le plus long est fait sur l'image cible. Au contraire, une valeur négative indique que le regard le plus long est fait sur l'image distractrice. Pour ces deux indices, on compare les résultats obtenus en pré-phase (avant que le mot cible ne soit présenté) et en post-phase (après que le mot cible soit présenté). On s'attend à ce qu'en pré-phase, l'enfant regarde les deux images d'une durée équivalente pour les deux. Le PTL et le LLD devrait obtenir une valeur proche de 50% pour l'indice PTL et proche de zéro pour l'indice LLD en pré-phase, alors qu'en post-phase, on s'attend à ce que le bébé change de comportement et regarde plus l'image qui corresponde au mot cible lorsque celui-ci est bien prononcé. On s'attend donc à avoir un PTL et un LLD plus élevé pour la condition mot bien prononcé par rapport à mal prononcé en post-phase. Finalement, la variable de latence (LAT) mesure le temps (en ms) que met l'enfant pour passer de l'image non-cible à l'image cible lorsque le stimulus auditif est présenté. Cet indice n'est valable que pour les items où l'enfant regarde l'image non-cible

Les variables indépendantes de notre expérience étaient la prononciation du mot (bien ou mal prononcé) et le type de phonèmes modifiés (consonnes ou voyelles). Nous avions trois indices différents pour nos variables dépendantes. Le « Proportional Target Looking » (PTL), le « Longest Look Difference » (LLD) et la latence (LAT). Le PTL correspond au temps de regard sur l'image cible (C) divisé par le temps de regard sur l'image cible (C) et distractrice (D) : PTL = C/(C+D). Cet indice indique donc un pourcentage de temps. L'indice LLD mesure le regard le plus long sur l'image cible dont on soustrait au regard le plus long sur l'image non-cible. Le regard le plus long correspond à la durée la plus longue en nombre de frames où l'enfant regarde l'image sans détourner des yeux. Si la valeur du LLD est positive, alors le regard le plus long est fait sur l'image cible. Au contraire, une valeur négative indique que le regard le plus long est fait sur l'image distractrice. Pour ces deux indices, on compare les résultats obtenus en pré-phase (avant que le mot cible ne soit présenté) et en post-phase (après que le mot cible soit présenté). On s'attend à ce qu'en pré-phase, l'enfant regarde les deux images d'une durée équivalente pour les deux. Le PTL et le LLD devrait obtenir une valeur proche de 50% pour l'indice PTL et proche de zéro pour l'indice LLD en pré-phase, alors qu'en post-phase, on s'attend à ce que le bébé change de comportement et regarde plus l'image qui corresponde au mot cible lorsque celui-ci est bien prononcé. On s'attend donc à avoir un PTL et un LLD plus élevé pour la condition mot bien prononcé par rapport à mal prononcé en post-phase. Finalement, la variable de latence (LAT) mesure le temps (en ms) que met l'enfant pour passer de l'image non-cible à l'image cible lorsque le stimulus auditif est présenté. Cet indice n'est valable que pour les items où l'enfant regarde l'image non-cible