• Aucun résultat trouvé

Chapitre 5 Méthodologie

5.5 Identification des SP

5.5.1 Première étape

Comme aucune méthode d’identification existante ne nous satisfaisait, nous avons choisi d’appliquer non pas une seule méthode mais de croiser plusieurs méthodes d’identification comme Wray le recommande (2008 : 110). Nous avons relevé ce qui nous paraissait préfabriqué selon des critères applicables à un corpus de productions L2. S’il est difficile d’identifier clairement les SP chez les natifs car le langage préfabriqué se mêle au langage créatif, il est plus facile, en revanche, de les reconnaître chez les locuteurs non-natifs grâce à leurs erreurs (Wray, 2002 : 39) comme du reste chez les enfants et les sujets pathologiques.

64

« researching formulaic language has many challenges but probably the single most persistent and unsettling one is knowing wether or not you have identified all and only the right material in your analyses. » (Wray, 2009 : 28)

133

Nous nous sommes trouvée confrontée à quelques doutes, dus certainement à notre première analyse du corpus, trop formelle. De ce fait, nous avons appliqué plusieurs méthodes pour certifier notre relevé des SP. Mais notre démarche d’authentification s’est peu à peu transformée au cours de ces années de recherche.

Tout d’abord, nous avions essayé de vérifier si les séquences identifiées pouvaient être authentifiées 1) par des juges natifs et 2) par leur présence dans des corpus oraux ou des dictionnaires.

1. les juges natifs

Un grand nombre d’études ont eu recours à l’expertise de juges natifs (Foster, 2001 ; mais aussi Forsberg, 2006 ; Forsberg-Lundell et al. 2014). Mais, dans toutes ces études, les SP ont été identifiées selon leur plus ou moins grand degré de figement. Nous rappelons brièvement la méthode d’identification qu’a choisie Forsberg (2006). Elle utilise d’abord le moteur de recherche Google pour l’identification des séquences. Une première recherche est effectuée pour identifier une SP. Par exemple, elle trouve 5240 occurrences du syntagme verbal déposer

un dossier. Ensuite elle lance la recherche pour la même séquence mais modifiée selon le

principe de la commutation restreinte. Pour vérifier la nature préfabriquée d’un syntagme, Forsberg (2006 : 52) applique aussi d’autres techniques :

« a) Substitution d’un mot de la SP contre un synonyme

b) Changement d’article (du défini à l’indéfini ou suppression d’article) c) Changement du nombre (du singulier au pluriel ou vice-versa)

d) Changement d’ordre des mots (par exemple égalité femmes / hommes au lieu de égalité

hommes / femmes

e) Changement contre un antonyme (par ex. ça marche mal au lieu de ça marche bien) » La même recherche est effectuée pour une séquence synonyme, laisser un dossier. Le nombre très faible d’occurrences : 25 (vs 5240) obtenu sur Google certifie que le syntagme déposer un

dossier est un bien une SP préférée des natifs et donc conventionnelle. Mais afin d’être plus

sûre du statut préfabriqué des séquences, Forsberg a également demandé à « deux locuteurs natifs de choisir la séquence qui leur paraissait la plus naturelle et la plus courante » et qui ont confirmé le résultat des recherches sur Google.

Nous avons été dans un premier temps intéressée par la méthode de ce chercheur, mais très vite nous avons préféré choisir plusieurs modes d’identification Nous avons donc demandé à deux juges natifs, une étudiante en linguistique déjà initiée à la phraséologie et une didacticienne du français langue étrangère de regarder notre corpus de productions non-natives et non-natives. Leur contribution à cette recherche s’est faite spontanément, toutes deux

134

étant intéressées par le sujet. Les deux juges ont eu accès aux transcriptions complètes (texte et pauses) et avaient pour consigne de relever tout ce qui leur paraissait produit en bloc, sans que les séquences relèvent obligatoirement du figement. Dans le travail que les juges natifs ont accompli sur 20% du corpus natif et non-natif, les séquences ont été relevées selon des critères plus linguistiques que psycholinguistiques, et cela malgré nos recommandations. Si nous avons tenu compte des remarques des juges, nous avons vite compris que le jugement des natifs n’était pas d’un grand intérêt pour cette recherche qui considère la préfabrication selon une perspective plus psycholinguistique que linguistique. L’identification des SP par les juges natifs nous a permis néanmoins de confirmer ou infirmer nos choix de départ, et nous l’avons utilisée plutôt comme un garde-fou. Cette identification a permis et légitimé l’élimination d’expressions (dans la maison, dans la cuisine) pressenties comme des préfabriqués (avec toutefois une certaine incertitude) selon les critères de cohérence phonologique et de fréquence mais que les deux juges n’ont pas confirmé.

Dans cette étude, plusieurs modes d’identification ont été croisées, d’abord les critères d’identification des chercheurs (voir chapitre 2 : Hickey, 1993, Wray, 2008), le jugement des natifs (1), et le recours aux dictionnaires et corpus en ligne (2).

2. Voici les outils que nous avons consultés :

- Corpus en ligne : « lextutor », (un corpus de langage oral de 700 000 mots), qui nous a permis de trouver en quantité des formes récurrentes de certaines séquences comme la séquence et après employée 101 fois dans notre corpus L2 et les formes avec l’adjectif petit.

- Dictionnaires en ligne, le Trésor de la langue française (ATILF et CNRTL) ainsi que le dictionnaire Médiadico qui nous a permis de vérifier que des séquences du type indiquer le

chemin/la sortie, étaient bien attestées comme des expressions. Les juges natifs ne les

considéraient pas comme des SP à cause de leur transparence. L’identification des juges était basée sur des critères formels essentiellement. Nous avons trouvé dans le dictionnaire

Mediadico des expressions construites avec sortie et chemin, que nous considérons comme

des collocations verbales non contraintes. Notre « intuition » nous poussait à accepter des séquences comme « indiquer le chemin/la sortie » prendre/chercher la sortie, qui n’étaient pas reconnues comme des collocations par un des juges natifs (pour qui une collocation relevait forcément du figement). Lors de notre recherche sur le site Médiadico, ces expressions étaient indiquées dans la rubrique expressions avec « sortie ». Nous avons donc validé notre choix d’autant plus aisément que ces expressions répondaient aux deux critères obligatoires (chapitre2).

135

Nous avons aussi identifié certaines séquences automatisées à force de répétition et d’input, par exemple les séquences apprises en cours de langue du type c’est, il y a, il/elle est + adjectif, petit + N ou des séquences verbales. Ainsi, les formes réflexives (pronominales) des verbes à la troisième personne relèvent, à notre avis, de la préfabrication. Ces formes verbales à la troisième personne (se + V) comportent deux unités, un pronom réfléchi et un verbe, et doivent être automatisées pour être produites correctement. Pour appuyer notre propos, nous avons trouvé une forme incorrecte dans notre corpus, on *t’inquiète pas pour cette mouche. Cette forme erronée montre bien que la forme verbale du pronominal à la troisième personne doit passer par la mémorisation et l’automatisation pour être produite correctement. Ici l’apprenante qui appartient au groupe des plus avancés a sans doute mixé les deux formes du verbe : l’injonction « t’inquiète pas » et la troisième personne du verbe avec « on ». Une séquence est préfabriquée lorsqu’elle a été apprise en bloc ou automatisée, c’est-à-dire lorsque l’expression vient d’elle-même sans qu’on y pense. Si l’on s’en tient strictement à cette définition, on pourrait aussi inclure dans les SP les formes verbales composées d’un auxiliaire et d’un participe passé. Nous avons cependant exclu les formes composées du verbe et cela malgré une utilisation importante du passé composé dans les productions de nos sujets. Les apprenants passent le plus souvent par une étape d’erreur dans l’utilisation des auxiliaires de conjugaison en français (souvent selon leur LM) et ce n’est que dans une ultime étape de l’acquisition que les formes composées sont produites de manière automatique par le locuteur. Comme Wood (2006), nous les avons éliminées de notre relevé considérant que cela fait partie davantage de l’acquisition de la morphologie des verbes que de la préfabrication. Nous acceptons comme séquences les verbes pronominaux (pronom réfléchi et verbe), les verbes à construction prépositionnelle du type « obéir à » et les verbes à double construction « dire N à N », (dire, donner qch à qqn) avec un open-slot65 (Erman et Warren, 2000 : 35). Ces verbes à régime prépositionnel sont d’ailleurs souvent suivis d’une hésitation dans notre corpus, qui peut prendre la forme d’une pause vide ou sonore ou la forme d’une répétition, ce qui démontre bien qu’elles sont produites en bloc [il commence à / à courir].

Les formes verbales suivies d’un groupe prépositionnel tels que « sortir de (la maison) » qualifiées de colligation par certains (Legallois, 2012 ; Firth, 1957) ont été relevées et comptées car nous considérons qu’elles sont produites comme un tout. En effet, il arrive souvent que la préposition soit suivie d’une hésitation comme si l’apprenant sortait le bloc avant de pouvoir planifier la suite. Dans ce cas, le critère phonologique a facilité

65

« […], open slots are represented in the dictionary by sth or sb (something or somebody), as in sth depends on sb. »

136

l’identification, ainsi que l’impossibilité de changer la préposition dans le groupe « sortir de

la maison » *sortir à vs sortir de, où sortir à (sortir à Paris) n’a pas le même sens.

Les séquences relevées peuvent être classées selon différentes catégories ou fonctions. Elles peuvent être discursives, lexicales ou grammaticales, avoir une fonction référentielle, métalinguistique (marqueurs de discours, marqueurs organisationnels) ou constructionnelle comme [de (fleur) en (fleur)] qui indique le mouvement. Elles peuvent être des groupes verbaux (V+ préposition), des mots qui relient (parce que, pendant que), des groupes qui introduisent une proposition, (je pense que, qu’est-ce que).

Parmi les autres séquences produites de manière récurrente par les apprenants, nous avons relevé pas moins de 145 occurrences de petit + N sous forme de syntagmes dont voici les principaux : petit garçon, petit enfant, petit cheval mais aussi petit banc, petit village, petite

abeille, petit insecte, petits grains de café, etc.

On trouve aussi un ensemble de syntagmes construits avec des adjectifs utilisés fréquemment en début d’apprentissage, ce que Peteers (2012) appelle les formes « primitives ». On les trouve dans tous les lexiques des langues sous forme de couple d'antonymes comme

petit/grand et vrai/faux très présents dans notre corpus : un grand cheval, le vrai cheval, le

faux cheval, des vraies fleurs, des fausses fleurs... L’emploi récurrent de ces adjectifs chez

certains apprenants en début d’apprentissage mériterait que l’on s’y attarde. Il serait par ailleurs intéressant d’approfondir l’étude de ces formes primitives que l’on trouve en grande quantité dans les productions non-natives au niveau débutant. Cependant, nous avons décidé de compter comme des SP seulement les syntagmes composés de l'adjectif petit +N. En effet, les productions natives comportent également de nombreuses occurrences de l’adjectif petit. Comme rien n’indique que petit est utilisé dans son acception de « diminutif », nous avons décidé de compter toutes les occurrences, sans distinguer entre sens diminutif ou autres. En français, l’adjectif petit serait en cours de figement dans certains cas comme un p’tit ami, un

p’tit café, une petite annonce. Nous développerons ce point dans un chapitre consacré aux

formes sur-employées dans les productions narratives (chapitre 9).

Parfois les sujets utilisent des expressions typiques qu'ils répètent tout au long de leur narration mais qui ne sont pas toujours considérées comme des SP. Nous avons accepté comme SP des syntagmes verbaux composés de la forme très simple du verbe être au présent à la troisième personne suivi d’un adjectif « il est » + adjectif. On peut en effet s’interroger sur la forme il est + adjectif, appris dès les premiers stades de l’apprentissage (mais aussi il est + N métier : il est professeur, il est médecin). Ce modèle, mémorisé à force d’input, permet à l’apprenant de qualifier l’objet (ici le personnage de la BD) dès les premiers stades : il est

137

fatigué, il est surpris, il est mignon. La forme verbale très simple, il est, facilite la production,

il suffit d’ajouter un adjectif pour former un syntagme complet. On peut donc la considérer comme un cadre collocationnel (Bolly, 2010). De même, la forme il a + âge, enseignée dès les premiers stades de l’apprentissage, permet la production de syntagmes complets. Mais nous n’avons aucune SP de ce type dans notre corpus. D’autres formes apprises et mémorisées semblent jouer un rôle dans la production de syntagmes, nous pensons notamment à la forme du futur périphrastique « il va + V infinitif » produit très souvent par les locuteurs. Nous avons compté il va comme préfabriqué seulement lorsqu’il était suivi du verbe à l’infinitif. Il peut être également suivi d’un groupe prépositionnel indiquant un lieu : il va + lieu (il va à la

maison).