Les test d’accord inter-annotateurs - (Chapitre IV) Le cadre méthodologique

(Chapitre IV) Le cadre méthodologique

4.3 Les test d’accord inter-annotateurs

Cette troisième sous-section fait écho à la section 4.1.2.3 dans laquelle la question de la validité des annotations a été abordée. Cela étant, nous détaillons dans les lignes qui suivent la procédure et les résultats des différents tests de validité – à savoir ceux permettant de vérifier la solidité et par conséquent la reproductibilité de nos annotations.

4.3. 1 L e d egré d e fi abilité d es annotati ons : tes ts d’accord inter -annotateurs

Une fois que l'étape de l'enquête-questionnaire⁸¹ a été achevée et que le corpus a été recueilli, nous avons procédé à une annotation manuelle de l'ensemble de nos données. Cela dit, nous sommes conscient que toute annotation manuelle comporte une part de subjectivité et, de ce fait, une marge d'erreur humaine. C’est donc pour ces raisons que plusieurs tests de validité ont été mis en place pour déterminer le degré de fiabilité de nos annotations et conséquemment nous indiquer dans quelle mesure les résultats obtenus sont généralisables. De surcroit, étant donné que nous avons affaire à de multiples schémas et volets d’annotations, nous avons procédé à des tests de validité pour chaque schéma et surtout chaque volet d’annotation : et ce, à hauteur de 10% du corpus total.

Les tests ont été effectués par étape, avec cinq annotateurs (codeurs) différents. Ces derniers sont signalés R1, R2, R3, R4 et R5 et ne sont pas tous intervenus sur l’ensemble des tests de validité. En effet, ils ne sont intervenus que dans des tests où leur domaine de compétence constituait des paramètres que l'on voulait tester et comparer entre codeurs. A titre d’information, les profils succincts des annotateurs sont précisés ci-après :

81 Cette étape est précisée davantage dans le chapitre suivant.

138

 R1 : nous-même

 R2 : enseignant anglophone, sans formation linguistique, avec plus de 15 ans d'expérience en anglais de spécialité

 R3 : linguiste anglophone, sans expérience d'enseignement, qui évolue dans le milieu de l'édition

 R4: enseignant-chercheur, linguiste et anglophone, avec expérience tant en recherche qu'en pratique de terrain en anglais de spécialité

 R5 : linguiste, expert en linguistique systémique fonctionnelle S’ensuit ci-dessous la séquence utilisée pour les tests.

i. Test n°1 (R1, R2, R3) : sans consultation au préalable de la taxonomie des erreurs

ii. Test n°2 (R1, R2, R3) : après signalement explicite d’items erronés (sans les étiquetages) iii. Test n°3 (R1, R2, R3, R4) : après signalement explicite avec les différents étiquetages iv. Test n°4 (R1, R2, R3, R4) : identique au test n°2, mais avec les erreurs d’acceptabilité⁸² v. Test n°5 (R1, R2, R3, R4) : identique au test n°3, mais avec les erreurs d’acceptabilité vi. Test n°6 (R1, R5) : après signalement explicite des tags de la linguistique systémique

Tout d'abord, pour le test n°1, il s'agit d'une étape de reconnaissance dans laquelle il a été demandé aux annotateurs (codeurs) R2 et R3 d'identifier les items jugés erronés, dans 24 des 244 textes qui constituent notre corpus. Cela signifie principalement qu’il fallait indiquer si un élément devait être considéré comme une erreur ou non, mais sans en préciser la typologie d’erreur que l’on aurait attribuée au préalable (mais séparément) à l’item concerné. La deuxième étape, ou le test n°2, était celle portant sur l'accord des items signalés par R1 en tant qu'erreurs. Il était question ici pour les annotateurs d'accepter (ou non) les items signalés. Les deux étapes ont été effectuées pour le volet portant sur les erreurs du système linguistique⁸³ - avec le schéma d'UAM. Dans l'étape initiale (test n°1) il s'agissait tout simplement donc d'un signalement alors que dans la deuxième partie (test n°2), les annotateurs devaient se prononcer sur le signalement du R1.

La troisième étape ou le test n°3 portait sur l'accord des items pré-étiquetés et signalés en tant qu'erreurs. Il était question ici pour les annotateurs d'accepter (ou non) les items signalés et les annotations correspondantes. La différence notable entre les tests n°2 et n°3 réside dans le fait que les annotateurs pouvaient désormais librement modifier les choix du R1 et ses étiquetages : ce choix permet d’explorer le niveau de concordance entre le fait d’accepter qu’un item soit étiqueté

82 Les erreurs d’acceptabilité textuelle renvoient aux erreurs non-grammaticales et donc l’identification en tant que telle est intrinsèquement liée à l’environnement textuel immédiat. Voir chapitre VI pour plus de précisions.

83 Ce qui est signalé ici est à l’opposé des erreurs d’acceptabilité textuelle. Mais soulignons que ces différentes catégorisations reposent principalement sur les étiquetages de l’UAM CorpusTool. Cf. chapitre V pour plus de précisions.

139 en tant qu’erreur jusqu’à lui attribuer une typologie similaire. Les tests n°4 et n°5 portent uniquement sur le deuxième volet des annotations – à savoir, uniquement sur les erreurs d’acceptabilité textuelle par opposition aux erreurs propres au système linguistique. De plus, les tests n°4 et n°5 reproduisent les procédés du test n°2 et du test n°3 respectivement, tandis que le test n°6 amène l’annotateur (R5) à évaluer les étiquetages issus de la linguistique systémique fonctionnelle et qui ont été préalablement faits par nos soins en tant qu’annotateur (R1).

Toutefois, avant de passer aux détails des différents tests, précisons simplement que le calcul du degré d’accord entre annotateurs a été effectué à l’aide d’une mesure statistique appelée le Kappa de Cohen⁸⁴. L’avantage de cette méthode de calcul est de fournir une estimation d’accord facilement compréhensible par la communauté scientifique plus large et qui, de plus, est jugée incontestable – ce qui n’est pas tout à fait le cas avec les accords inter-annotateurs fournis en pourcentage. En effet, Le Kappa de Cohen permet de mesurer l’accord entre deux annotateurs en calculant aussi bien (i) la proportion de l’accord observé dit aussi l’accord relatif (AO/Pa) et la probabilité que l’accord soit aléatoire (AA/Pe).

Le tableau ci-dessous de Landis & Koch (1977) illustre à titre d’information une interprétation possible des scores ou coefficients obtenus par les deux mesures statistiques. Notons cependant qu’il n’y a pas de consensus absolu sur la gamme de valeurs proposées et que l’interprétation peut varier dans la littérature de quelques points suivant les auteurs.

Score de Kappa Degré de concordance

< 0.00 médiocre 0.00 — 0.20 minime 0.21 — 0.40 juste 0.41 — 0.60 Modéré

0.61 — 0.80 Considérable, solide 0.81 — 1.00 Presque parfait

Tableau 12 : l'échelle des coefficients de Kappa

4.3. 2 Es t-ce bi en un e erreu r ? Quelle concordan ce en tre an notateurs ?

Cette section passe en revue les résultats des tests n°1 et n°2 et implique de ce fait R1, R2 et R3. A titre d’illustration, deux éléments sont fournis dans le but de mieux expliquer comment nous sommes parvenus aux résultats finaux : (i) tout d’abord une table de contingence appelée aussi

84 Le choix de la mesure s’est imposé pour une raison purement pratique : le kappa de Cohen est la mesure la plus communément employée dans la littérature portant sur l’accord inter-annotateur. De ce fait, les autres mesures telles que le « Scott’s Pi » et le kappa de Fleiss qui permettent aussi de calculer l’accord inter-annotateurs ont été écartées. Et ce, étant donné qu’elles sont employées dans une moindre mesure dans la littérature actuelle.

140 matrice de confusion illustre ci-dessous le nombre d’accord et désaccord enregistré entre R1 et R2 tandis que (ii) le calcul du premier kappa de Cohen a été effectué à partir du premier échantillon numéroté txt_010_sm1 sur lequel R2 a dû identifier ce qu’il considère comme erreur.

txt_010_sm1

Tableau 13 : Exemple d'une matrice à confusion utilisée pour calculer le Kappa de Cohen

Pour rappel, R1 renvoie aux annotations effectuées par nos soins. De ce tableau, il faut donc comprendre que l’échantillon comporte 332 items lexicaux parmi lesquels 293 n’ont pas été signalés comme étant une erreur : ni par R1, ni par R3. Le nombre d’éléments annotés conjointement comme erreur par R1 et R2 s’élève à 22, tandis que R1 considère 6 éléments de plus comme étant erronés contrairement à R2, et ainsi de suite. En utilisant l’équation 1 ci-dessous avec les données du tableau ci-dessus on obtient notre premier score de Kappa (k).

  

Équation 1 : Formule de calcul du Kappa de Cohen

En calculant donc le kappa de Cohen, il s’avère que le taux d’accord observé (AO ou Pa) est de 0,948 et le taux d’accord aléatoire (AA ou Pe) s’élève à 0,833, ce qui fait que le coefficient final de kappa est de 0,693. Si l’on se réfère donc à la grille fournissant l’échelle des coefficients de Kappa de Landis & Koch (1977), l’accord entre R1 et R3 sur l’échantillon txt_010_sm1 constitue un accord tout à fait ‘considérable’ ou ‘solide’. Cela dit, nous pouvons passer maintenant assez succinctement sur l’ensemble des accords constatés à ce niveau du test. En effet, sur l’ensemble des échantillons qui ont été soumis aux deux premiers annotateurs invités pour les tests n°1 et n°2, le premier annotateur invité (R2) a enregistré un coefficient total de 0,74 sur une échelle, rappelons-le, de 0 à 1. Le coefficient du deuxième annotateur (R3) était de 0,77. Ces scores qui affichent tous les deux des taux d’accords observés de plus de 0,9⁸⁵ sur un total de plus de 2000 items (ré)évalués signifient, à notre sens, que le premier volet de notre annotation est tout à fait « correct » et pourrait même être reconduit avec des résultats similaires par un annotateur indépendant.

85 Si l’on devait traduire l’accord observé (AO) en pourcentage simple, on pourrait dire qu’il y a plus de 90% d’accord entre les trois annotateurs.

141 4.3. 3 L ’étiqu etage d es erreu rs : qu ell e f iabilité en tre annotateurs ?

De même, plusieurs tests ont été menés en parallèle pour examiner le niveau d’accord entre les étiquetages choisis pour les erreurs dites du système linguistique (cf. chapitre V) et les erreurs dites d’acceptabilité textuelle (cf. chapitre VI). Ces tests concernent R1, R2, R3 et R4. Les taux d’accords observés sont les suivants : entre R1 et R2 = 0,96 ; R1 et R3 = 0,93 ; R1 et R4 = 0,98. De plus si l’on compare les 5 tests, l’accord général indique une tendance similaire entre les coefficients de Kappa : à savoir R1 et R2 = 0,823 ; R1 et R3 = 0,825 et entre R1 et R4 =0,89. Il en ressort deux tendances non-négligeables de l’ensemble de ces résultats : (i) les étiquetages utilisés ont été à la fois compris et se sont révélés tout à fait appropriés par l’ensemble des annotateurs, ce qui explique le taux d’accord élevé à ce niveau et (ii) nous soutenons par conséquent que les mêmes schémas d’annotations pourront être réappliqués tels quels dans un corpus similaire pour arriver à des résultats comparables.

4.3. 4 L ’étiqu etage i ssu de la linguistiqu e s ys témiqu e fon cti onnell e es t -il fiabl e ?

Le test n°6 est le dernier des vérifications effectuées et il porte sur les annotations issues de la linguistique systémique fonctionnelle. Pour mener à bien ce test, une série de 10 textes ont été soumis à un expert en linguistique systémique fonctionnelle (signalé comme R5) : de ces 10 textes, 5 ont été préalablement annotés par nos soins selon le schéma expérientiel et les 5 restants selon le schéma textuel. Par conséquent, l’expert devait se prononcer uniquement sur les étiquetages signalés, soit en les acceptant individuellement soit en les rejetant et/ou en les modifiant. Le résultat des vérifications effectuées a été confondu dans une table de contingence, comme celle ci-dessous, à partir de laquelle on a calculé le Kappa de Cohen.

R5 single

top

multiple

top interpersonal textual rheme total

single_top 6 0 0 0 0 6

multiple_top 0 0 0 0 2 2

interpersonal 0 0 0 0 0 0

textual 0 0 0 3 0 3

rheme 1 0 0 0 65 66

total 7 0 0 3 67 77

AO (Po) 0,961039 AA(Pe) 0,7544274 k 0,8413462

Tableau 14 : Illustration d'un score du kappa pour le test n°6 (textuel)

142 Sont signalés donc dans ce tableau, à titre d’illustration, les résultats des vérifications portant sur le schéma textuel de trois textes. Les quatre premiers étiquetages ou valeurs – de ‘single_top’ à

‘textual’ – renvoient aux différentes sous-catégories de la position de thème et le dernier au rhème.

Cela dit, si l’on souhaite identifier par exemple les chiffres significatifs dans la colonne verticale

‘single_top’, on soulignera que le 6 renvoie au nombre d’items sur lesquels les deux annotateurs ont été d’accord, tandis que le 1 renvoie à un étiquetage en tant que ‘thème topical individuel’ par l’annotateur R1 et en tant que ‘rhème’ par l’annotateur R5.

Notons que de manière à éviter d’avoir une table de contingence à rallonge, il a été décidé de ne retenir pour le calcul que les couches allant d’une profondeur de 1 à 3 : c’est-à-dire les grandes catégories et non pas l’ensemble des sous-catégories individuelles qui les composent. En effet, aller au-delà de cette profondeur aurait permis d’améliorer l’exactitude du score de Kappa mais celui-ci n’aurait pas été très différent du score obtenu avec une « granularité plus fine ». Autrement dit, avoir une profondeur de 4 ou de 5 aurait permis de voir directement dans la table de contingence ou la matrice de confusion (cf. tableau 14) le type d’étiquetage exact qui avait été attribué par R1 et R5, pour les 3 items signalés comme ‘thèmes textuels’. Cela étant, nous avons retenu le même procédé pour le calcul et la visualisation de l’ensemble des tests effectués par R5, aussi bien pour le schéma textuel que le schéma expérientiel. Un exemple est également fourni pour illustrer le calcul sur ce dernier schéma.

R5 Process Participant Circumstance total

Process 20 0 0 20

Participant 0 34 0 34

Circumstance 0 3 18 21

total 20 37 18 75

AO (Po) 0,96

AA(Pe) 0,361956 k 0,937308

Tableau 15 : Illustration d'un score du kappa pour le test n°6 (expérientiel)

En ne prenant donc que les grandes catégories, on obtient un score de kappa qui s’élève à 0,937 que l’on pourrait arrondir à 0,94. Cela signifie un accord très élevé, puisque non seulement l’accord observé est haut mais l’accord par chance ou l’accord dit aléatoire est très faible. Toutefois, il convient de signaler que hormis les désaccords signalés par le chiffre 3 dans la colonne verticale

‘participant’, d’autres désaccords sont également à signaler au niveau du chiffre 34 – correspondant à des accords généraux pour des items signalés en tant que participants. La table de contingence

ci-143 après avec une granularité plus fine fait office de zoom sur les désaccords précis observés sur l’annotation des participants.

R5 material behavioural mental verbal relational existential other total

material 11 0 0 0 1 0 0 12

behavioural 0 0 0 0 0 0 0 0

mental 0 0 3 0 0 0 0 3

verbal 0 0 0 4 0 0 0 4

relational 0 0 0 0 12 0 0 12

existential 0 0 0 0 0 0 0 0

other 2 0 0 0 1 0 0 3

total 13 0 3 4 14 0 0 34

AO 0,88235294 AA 0,30190311 k 0,8314746

Tableau 16 : Précisions sur le score de Kappa (expérientiel : participant)

Même si l’on remarque un écart dans le score de kappa dans les deux précédentes tables de contingence, l’accord global de l’ensemble des vérifications est supérieur à 0.8 ce qui en fait un accord très élevé selon la grille d’interprétation de Landis & Koch (1977). On pourrait donc conclure que l’étiquetage proprement systémique demeure compréhensible voire très accessible aux annotateurs familiers des cadres de la linguistique systémique fonctionnelle, malgré les quelques écarts signalés dans les vérifications de R5. Soulignons toutefois notre réserve quant à l’applicabilité voire la compréhension des étiquetages systémiques par un public non initié à ce courant linguistique.

4.3. 5 L e bil an d e l ’ensemble des tests d’accord in ter -ann otateu rs

Ces six tests de validité, qui ont fait intervenir quatre annotateurs supplémentaires, avaient des objectifs multiples : (i) voir si les mêmes items sont signalés en tant qu’erreur par des anglophones indépendamment de leurs profils et bagages linguistiques respectifs (ii) voir à quel point la typologie d’erreurs attribuée à ces items erronés peut varier d’un annotateur à un autre (iii) et surtout voir si l’idée qu’on se fait d’un étiquetage, c’est-à-dire sa valeur profonde, est suffisamment claire pour être réemployée par une tierce personne face aux mêmes items. Intuitivement on aurait eu tendance à croire que plus les étiquetages sont nombreux, voire plus ils sont pointilleux ou spécialisés, moins il y aurait d’accord. Nos tests d’accord inter-annotateurs ont démontré que cela n’est pas le cas. Pour rappel l’accord général entre R1 et R2 et R1 et R3, avec plus de 2000 items

144 (re)vérifiés, s’élève à 0,823 et 0,825 respectivement. L’accord entre R1 et R4 est de 0,896 tandis qu’entre R1 et R5 il est de 0,841. Tout cela traduit une très solide validité entre les annotations effectuées par nos soins en tant que R1. De plus, ces résultats signifient par extrapolation qu’un autre chercheur pourrait reproduire notre étude et obtenir des étiquetages quasi-identiques en nombre et en genre à ceux que l’on va décrire dans les chapitres V et VI.

145

Dans le document Cartographie des erreurs en anglais L2 : vers une typologie intégrant système et texte (Page 151-159)