• Aucun résultat trouvé

B. MÉTHODOLOGIE

6. Méthodologie de l’analyse du transfert négatif

6.4. La complexité de l’interlangue

Cela traduit que le sujet en cause a produit 9 calques, pour lesquels l’une des langues sources invoquées a été le roumain, dont 6 ont le roumain comme source exclusive. En ce qui concerne les substitutions, dans la production de notre sujet, on a trouvé un seul cas qui pourrait avoir comme source l’italien, mais celui-ci n’est pas la seule source invoquée pour cette erreur. Le premier chiffre montre donc combien de fois on a invoqué une certaine langue comme source des erreurs interlinguales, tandis que le chiffre qui suit la barre oblique indique le nombre de fois où cette langue a été considérée source exclusive.

6.4. La complexité de l’interlangue

Telle qu’elle a été menée jusqu’ici, l’analyse de l’interlangue nous révèle une seule dimension de son développement, à savoir sa conformité par rapport à la norme de la langue cible. Or, on a déjà vu, dans la partie théorique, qu’il est impossible d’étudier l’interlangue en ignorant son caractère de système complexe en soi. Alors, nous nous sommes demandée quel est le rapport entre la conformité avec la norme et la complexité de l’interlangue. Vont-elles de pair dans l’évolution de l’interlangue ? L’augmentation de la conformité est-elle directement proportionnelle avec la complexité ? Ou, au contraire, tendent-elles à entrer dans un mécanisme compensatoire (l’augmentation de la conformité entraîne-t-elle la baisse de la complexité et vice-versa) ? Ou les deux situations seront-elles possibles ?

Afin de trouver la réponse, nous envisageons un second niveau d’analyse où nous étudierons la diversité et la sophistication de l’interlangue, sans faire référence au système de la langue cible.

Nous considérons qu’il est probable qu’il y ait des cas où le texte d’un certain sujet ait un pourcentage élevé de conformité avec la norme mais que son lexique et sa syntaxe soient très simples. Cette situation trahirait la peur du sujet de faire des erreurs, de formuler des hypothèses sur le système linguistique de la langue qu’il utilise. Par conséquent, le manque d’erreurs

86

accompagné des bas indices de complexité indique la peur de formuler de nouvelles hypothèses concernant le système de la langue apprise.

Le revers de la médaille serait que le texte d’un certain sujet ait un pourcentage de conformité bas, mais des indices de complexité élevés. Cela porte à croire que l’apprenant en cause formule des hypothèses sur le système linguistique de la langue étrangère, dont un grand nombre ne sont pas confirmées. Cette étape clôt la piste B d’analyse de l’influence négative des autres langues romanes sur l’apprentissage du FLE. Ses objectifs sont :

1. Déterminer la diversité et la sophistication lexicale et syntaxique 2. Déterminer la complexité équilibrée

Disons d’emblée qu’afin de calculer les indices de complexité (diversité et sophistication), nous utiliserons les formules proposées par M. Schulze, M. Verspoor, P. Wood et B. Pokorny dans l’article inédit Towards automatic proficiency scoring in L2 writing : Balanced complexity. Précisons aussi que l’article nous a été fourni par l’un de ses auteurs, Mathias Schulze de l’Université de Waterloo (Canada) qui a eu l’amabilité de nous donner aussi des explications supplémentaires concernant ces calculs.

La littérature de spécialité propose de nombreuses formules de calcul pour des indices de complexité lexicale et syntaxique. Les auteurs de l’article mentionné ci-dessus choisissent les formules qui se sont avérées les plus efficaces et en usage dans la pratique des ces derniers années. La nouveauté qu’ils proposent consiste dans l’addition des quatre indices, la diversité lexicale et syntaxique et la complexité lexicale et syntaxique, dans une seule valeur. Celle-ci représente la complexité équilibrée8 d’un texte donné. Pour l’instant, nous nous occupons des indices et nous traiterons la question de la complexité équilibrée en temps voulu.

La détermination des indices de diversité lexicale et syntaxique se base sur le calcul du ratio unités lexicales uniques/ total des unités lexicales et du ratio unités syntaxiques uniques / total des unités syntaxiques.

Le type/token ratio (TTR) est un outil commun de mesure de la diversité lexicale. On sait bien que ce TTR est influencé négativement par la longueur du texte, c’est-à-dire que plus le texte est long, plus l’indice baisse parce que les mots tendent à se répéter au fur et à mesure que la longueur du texte augmente. De nombreuses critiques (Carroll, 1964, Arnaud, 1992, Wolf-Quintero et alii, 1998, Malvern et alii, 2004) ont été faites par rapport à l’utilisation du TTR tel

87

quel. On a tenté de transformer cette formule afin de neutraliser son caractère influençable. L’une des nouvelles propositions est le CTTR (Corrected Type Token Ratio) proposée par Carroll (1964 : 54) qui est « positively correlated with sample size » (Malvern : 2004 : 139).

Cependant, Schulze propose que l’on mesure la diversité lexicale à l’aide du ratio

type/token de Guiraud, même si celui-ci reste sensible à la longueur du texte. Il argumente son choix en supposant que les textes à analyser ont plus de quelques centaines de mots et, dans ce cas, intervient une loi compensatoire qui neutralise l’influence de la longueur du texte.

En ce qui nous concerne, comme la longueur des textes de notre corpus se situe entre 50 et 300 mots, nous choisissons d’employer le CTTR de Carroll que Schulze a utilisé au début de sa recherche. Ce ratio est calculé en divisant le nombre des types par la racine carrée de deux fois le nombre total des mots. De même, il est pertinent de mentionner que toutes les occurrences identiques d’un mot sont comptées comme un seul type. Par exemple : table, table = 1 type, et

table, tables = 2 types. Nous comptons les types à l’aide du logiciel Word List Expert :

Figure 12 – Exemple de comptage des types

La formule qui calcule la diversité lexicale est : CTTR9 = T / ( 2 x M)

où T = nombre des types et M = nombre des mots

Ensuite, afin de déterminer la complexité lexicale, le calcul d’un indice supplémentaire à la diversité s’impose. Il s’agit de l’indice de sophistication lexicale, qui rend compte de la

88

complexité des formes des mots, c’est-à-dire qui indique la longueur moyenne des mots. On obtient cet indice en divisant le nombre des lettres d’un texte par le nombre des mots :

MWL10 = L / M

où L est le nombre des lettres et M est le nombre des mots

Le troisième indice, celui de la diversité syntaxique, envisage la fréquence des bigrammes qui représentent une suite de deux mots : [mot1 mot2] [mot2 mot3] [mot3 mot4] comme dans l’exemple suivant :

Figure 13 – Exemples de bigrammes

Semblable à l’indice de diversité lexicale, l’indice de diversité syntaxique est toujours déterminé par l’intermédiaire du calcul d’un ratio, celui des bigrammes uniques. On obtient cet indice en divisant le nombre des bigrammes uniques par la racine carrée de deux fois le nombre total des bigrammes d’un texte. Schulze et alii mentionnent que ce ratio montre le degré de prédictibilité des mots dans un texte. Moins ils sont prédictibles, plus la complexité du texte est grande. Notons aussi que plusieurs occurrences identiques d’un bigramme sont comptées comme un bigramme unique. Après avoir doublé manuellement chaque mot afin d’obtenir des bigrammes, nous comptons leur fréquence en utilisant le logiciel Word List Expert :

89

Figure 14 – Exemple de comptage des bigrammes

De même, il faut préciser que le nombre total des bigrammes d’un texte est toujours égal au nombre des mots du texte moins un. La formule qui calcule la diversité syntaxique est :

UBR11 = U / ( 2 x ( M−1) )

où U est le nombre des bigrammes uniques et M est le nombre des mots

Enfin, l’indice de sophistication syntaxique s’ajoute à la diversité et représente une seconde dimension de la complexité syntaxique. Il rend compte de la longueur moyenne des unités syntaxiques qui finissent par un point et on peut l’obtenir en divisant le nombre des mots d’un texte donné par le nombre des unités syntaxiques qui finissent par un point :

MPL12 = M / P

où M est le nombre des mots et P est le nombre des unités syntaxiques qui finissent par un point

Il est pertinent de mentionner que ces indices ne représentent pas des valeurs en soi. Ils n’ont d’utilité qu’en comparaison avec d’autres indices. Notons d’ailleurs que tel indice ne peut être comparé qu’avec tel autre indice de même nature. Par exemple, on compare l’indice de diversité lexicale avec un autre indice de diversité lexicale et non pas avec un indice de diversité syntaxique. Toutefois, afin de neutraliser ces différences et de pouvoir combiner les indices dans une seule formule censée calculer la complexité équilibrée d’un texte donné, Schulze propose des opérations basées sur des éléments de statistique.

11 De l’anglais unique bigram ratio.

90

La statistique descriptive fournit des procédures basiques fréquemment utilisées dans l’analyse des corpus (voir Mackey et Gass : 2005), car en linguistique, les données obtenues, ne sont pas immédiattement exploitables, dans leur forme initiale et, dans ce contexte, le chercheur peut faire appel à des procédures statistiques d’organisation et de description des données afin qu’elles deviennent informatives. Schulze et alii proposent l’utilisation du score z afin de standardiser les quatre indices basés sur des unités différentes (lettres, mots, bigrammes, phrases). Cela permettra, comme nous l’avons déjà mentionné, l’addition des indices de différents types.

Donnons, dans un premier temps, la définition de cet outil. Le score z désigne la position qu’une certaine valeur a par rapport à la moyenne, mesurée en écarts types (Johnson et Kuby, 2008 : 99). La formule de calcul du score z est :

x –

μ

z =

σ

où x est la valeur observée, μ est la moyenne des valeurs de la distribution et σ est l’écart type des valeurs de la distribution. Par conséquent, le score z de la valeur x (x faisant partie d’une certaine population/distribution) représente la position relative de cette valeur dans la distribution, en mesurant le nombre des écarts types qui le situent au-dessus ou au-dessous la moyenne (Gosling, 2004 : 36).

Par exemple (ibid. : 37), supposons qu’on doit calculer le score z pour la valeur 164 cm faisant partie d’une distribution de valeurs représentant la taille des femmes, dont la moyenne μ est 166.5 et l’écart type σ, 8. Alors, z = (164 – 166.5) / 8 = - 0,31. Cela veut dire que la taille 164 cm se trouve à 0.31 écart type au-dessous de la moyenne de la distribution des tailles de femme.

L’écart type est défini comme la mesure de la dispersion autour de la moyenne et il correspond à la racine carrée de la variance. La variance est la somme des carrés des écarts par rapport à la moyenne, divisée par le nombre d’observations(Carricano et alii, 2010 : 34). Afin de mieux comprendre nous donnons l’exemple suivant, fourni par le site « Statistique Canada » :

Pour les nombres 1, 2 et 3, par exemple, la moyenne est 2 et la variance, 0,667. [(1 - 2)2 + (2 - 2)2 + (3 - 2)2] ÷ 3 = 0,667

91 L’écart type est σ = √0,667.

Il faut noter que la formule de calcul de la variance change selon le type des données. Si les données (les valeurs) dont nous disposons représentent une population, nous utilisons la formule ci-dessus. L’écart type relatif à une population est dénoté par σ. Si, par contre, les données représentent un échantillon, pour calculer la variance nous divisons la somme de l’écart au carré par le nombre d’observations moins un. L’écart type d’un échantillon est dénoté par S. (Dodge, 2004 : 157) Précisons que, dans notre étude, nous calculerons le score z en utilisant l’écart type de la population (σ), car nos sujets sont les seuls que nous prenons en compte.

Après avoir calculé les indices de complexité lexicale et syntaxique et de sophistication lexicale et syntaxique, nous allons les standardiser. Une distribution sera formée des indices du même type correspondant aux six textes d’un même sujet. Donc, afin de standardiser l’indice de diversité lexicale du texte 1, la distribution comprendra les indices de diversité lexicale des textes 1, 2, 3, 4, 5 et 6.

Figure 15 – Standardisation : étape 1

Par exemple, dans le tableau ci-dessus, pour calculer le score z du CTTR(texte 1) = 4.784, nous prenons la distribution mise en évidence en rouge : 4.784, 5, 4.136, 5.580, 4.183 et 4.773. Chacune valeur de cette distribution sera standardisée. Les scores z obtenus se trouvent dans les cases roses au-dessous de la valeur correspondante. De même pour les autres types d’indice.

Ensuite, afin d’obtenir l’indice de complexité équilibrée, nous faisons l’adition entre les quatre indices standardisés de chaque texte : CTTR1 + MWL1 + UBR1 + MPL1

92

Figure 16 – Standardisation : étape 2

Le dernier pas à faire est de standardiser les sommes des indices, afin de les rendre comparables entre elles. Schulze et alii expliquent : « Since the sum of z‐scores is not a z-score anymore, it too has to be standardized, before carrying out the final step of the calculation ». (article inédit, communication personnelle des auteurs)

Figure 17 – Standardisation : étape 3

Nous allons donc calculer le score z de chacune des sommes de la distribution mise en évidence en rouge, dans le tableau ci-dessus, afin d’obtenir des indices de complexité équilibrée comparables (voir les cases vertes du tableau). À ce niveau d’analyse, nous avons standardisé les indices automatiquement, à l’aide de deux outils informatiques en ligne qui calculent l’écart type et le score z.

93