• Aucun résultat trouvé

La base de données CHILDES : acquisition du langage et nouvelles technologies nouvelles technologies

Introduction générale

Partie 2. Corpus et méthodes d’analyse

1. C HOIX DU CORPUS DE THESE

1.1. La base de données CHILDES : acquisition du langage et nouvelles technologies nouvelles technologies

Depuis les années 1970, le recueil de données linguistiques en milieu naturel est facilité par l’enregistrement sonore et/ou vidéo qui permet la transcription informatisée « en différé » d’échanges conversationnels. Les chercheurs ont à leur disposition des outils informatiques performants pour faciliter la transcription des conversations, même si cela reste une tâche fastidieuse et coûteuse (en temps et en argent).

La base de données CHILDES (Child Language Data Exchange System, http://childes.psy.cmu.edu/) est née d’un projet audacieux fondé en 1984 par le psychologue Brian MacWhinney. CHILDES est basée sur la mise à disposition en ligne et gratuite de corpus d’enfants recueillis par des chercheurs du monde entier. À ce jour, le projet compte plus de 4500 membres, 130 corpus avec plus de 1500 articles publiés (et plus de 3200 études menées).

La dimension interlangues de la recherche en acquisition du langage est une priorité avec 32 langues représentées dans le but d’étudier les universaux et les différences linguistiques.

CHILDES propose des corpus de nature très différente, notamment des corpus unilingues d’interactions enfant/adulte, des corpus bilingues ou encore des corpus d’enfants présentant des retards dans l’acquisition du langage. Il y a de nombreux corpus en anglais, ce qui nécessite une sélection réfléchie, en adéquation avec nos questions de recherche.

1.1.1. Le format CHAT et le programme CLAN

La création d’une telle base de données a nécessité la création d’un langage de transcription commun, adapté à l’étude des situations naturelles de dialogue et exécuté sur une plate-forme commune pouvant automatiser un certain nombre de procédures de transcription.

L’ensemble des normes de transcription est connu sous le nom de CHAT (Codes for the Human Analysis of Transcripts), accessible en ligne (http://childes.psy.cmu.edu/manuals/CHAT.pdf) sous forme de manuel électronique. Le processus de transcription s’effectue dans un logiciel créé à cet effet, qui porte le nom de CLAN (Computerized Language Analysis), téléchargeable

en ligne (http://childes.psy.cmu.edu/clan/). Le logiciel CLAN permet de transcrire une conversation à partir d’un fichier audio et vidéo, et ainsi obtenir une transcription alignée à ce fichier :

Figure 16. Capture d’écran du logiciel CLAN

Toutes les transcriptions effectuées sous CLAN comportent un chapeau (encadré en rouge) composé d’informations sur la session d’enregistrement : la langue, les participants (et le code qu’ils prennent, *CHI pour l’enfant et *MOT pour la mère), le média associé (audio ou vidéo), la date d’enregistrement, le nom du transcripteur, le lieu et la situation. La transcription en elle-même se fait sur une ligne principale qui débute toujours par le code du participant qui prend la parole. À la fin de cette ligne, le point noir correspond à une balise de temps qui assure l’alignement avec le fichier audio ou vidéo. Sous cette ligne principale, on trouve une ou plusieurs lignes secondaires (encadré vert) qui débutent toujours par %. Elles sont tout le temps en rapport avec la ligne principale et réfèrent à des informations de nature et de visée différentes :

 %xmor : l’énoncé est découpé en catégories grammaticales, par exemple pro|we signifie que we est un pronom, v:aux|do v-cl|neg|not v|want matérialise le verbe lexical want à la forme

PARTIE 2 – Chapitre 1 – Corpus de thèse

négative au présent simple (auxiliaire do). Cette ligne permet d’effectuer des analyses quantitatives proposées par des programmes intégrés à CLAN ;

 %err : l’énoncé comporte une erreur identifiée (que nous appelons forme non standard) et indiquée par le transcripteur ;

*CHI: I want a sweets [*]

%err: sweets=sweet

 %com : un commentaire est attaché à l’énoncé (souvent en rapport avec la gestuelle).

*CHI: a mess

%com:pointing to Nin+Nin (his mother) - saying that she looks a mess?

CLAN comprend un certain nombre de programmes intégrés qui permettent de mener des analyses quantitatives automatiques. Ces programmes sont également l’objet d’un manuel en ligne (http://childes.psy.cmu.edu/manuals/CLAN.pdf) qui détaille notamment les commandes à entrer dans la fenêtre commands du logiciel pour faire fonctionner les programmes. Dans notre thèse, nous avons principalement utilisé quatre programmes :

Tableau 11. Programmes de CLAN utilisés dans le cadre de notre thèse MLU/MLT Nombre total d’énoncés/de tours de parole

Nombre total de morphèmes ou de mots

MLU : Mean Lenght Utterance (Longueur Moyenne des Énoncés) FREQ Nombre total de mots et de mots différents

Fréquence des « types » (nombre de types de mots différents), des « tokens » (nombre d’occurrences produites) qui donne le rapport type/occurrence (indice de diversité lexicale)7

COMBO Recherche combinée de mots dans les énoncés et fréquences de ces combinaisons

KWAL Recherche combinée de mots dans les énoncés et contextes d’apparition de ces combinaisons

7 Par exemple, si l’enfant produit 6 occurrences verbales, 1 WANT et 5 THINK, le rapport sera de 2 types / 6 occurrences = 0,35. Plus le rapport est proche de 1, plus la diversité lexicale est grande.

Figure 17. Capture d’écran d’une commande dans CLAN

Cette capture d’écran est un exemple de l’utilisation du programme FREQ dans la fenêtre commands du logiciel CLAN. Nous avons ici demandé la fréquence (freq) de tous les lexèmes verbaux (+s….) chez l’enfant (+t*CHI). Quel que soit le programme, il y a toujours trois informations à indiquer : le(s) fichier(s) sur le(s)quel(s) nous voulons mener une analyse automatique, le(s) participant(s) sur le(s)quel(s) portent cette analyse et l’objet de l’analyse (ce que l’on cherche).

1.1.2. Quel type de corpus sélectionner dans CHILDES ?

Notre manière d’envisager l’étude de l’acquisition du langage se traduit par plusieurs impératifs qui orientent le choix de notre corpus de thèse :

 le suivi d’un même enfant, entre l’âge de 2 et 5 ans (corpus longitudinal) ;

 un corpus de conversations orales spontanées d’interactions adulte-enfant, avec de préférence les pistes audio disponibles ;

 des sessions d’enregistrement fréquentes et régulières ;

 un corpus déjà transcrit et annoté.

1.1.2.1. Choix de la variété d’anglais

Dans notre revue de travaux, nous nous sommes interrogés sur l’impact de la variété d’anglais sur la fréquence de PP au sein du système aspecto-temporel en présentant notamment les résultats de recherches quantitatives sur l’adulte.

Dans l’article de Slobin (1994 :120), l’auteur déclare que le PP est devenu « trop marginal [en anglais américain] pour une analyse adéquate de ses fonctions précoces ». Cromer (1968) et Nussbaum & Narremore (1975) indiquent également que l’usage du PP par les enfants

PARTIE 2 – Chapitre 1 – Corpus de thèse

américains n’est pas significatif avant l’âge de 5 ans. Cependant, les travaux plus récents de Hundt & Smith (2009) sur l’évolution du PP en anglais britannique et américain, ne concluent pas à un déclin du PP en anglais américain mais plutôt à une relative stabilité dans les deux variétés, l’anglais américain partant d’une fréquence plus basse (p.57). Nous avons également observé, avec les recherches sur l’anglais australien menées par Engel & Ritz (2000), qu’il peut exister des spécificités d’usage du PP, liées à la variété d’anglais ou du moins à une zone géographique bien définie. Même si l’ensemble de ces recherches ne présentent pas de résultats unanimes, notamment en raison de méthodologies et de questions de recherche différentes, il nous semble que l’anglais britannique offre plus de possibilités pour notre étude en raison d’une apparition du PP plus précoce et d’une plus grande fréquence chez l’adulte qui semble traduire un usage plus typique qu’en anglais américain. Aussi, pour éviter le biais des différences liées à la variété d’anglais (qui ne sont d’ailleurs pas clairement identifiées), il nous semble préférable de sélectionner deux enfants d’origine géographique similaire.