• Aucun résultat trouvé

VI. Concordance entre observateurs

4. Indices de concordance locale

Le meilleur indice de concordance locale entre observateurs est le coefficient kappa de Cohen (1960). Kappa indique le degré de concordance locale entre deux observateurs par rapport à un ensemble d’unités de conduite exhaustives et mutuellement exclusives. Dans le calcul du coefficient kappa, on prend en compte la possibilité que les observateurs puissent concorder au hasard, et la valeur estimée de cette concordance aléatoire est décomptée.

Le coefficient kappa se calcule ainsi (Bakeman et Gottman, 1997 ; Hollenbeck, 1978) :

avec O la proportion de concordance obtenue et E la proportion de concordance attendue si les observateurs enregistraient les conduites au hasard (concordance aléatoire). Le coefficient kappa peut valoir au maximum 1 (concordance point par point parfaite) ou au minimum -1 (manque total de concordance) ; des valeurs proches de 0 signalent que les observateurs peuvent avoir enregistré au hasard.

Pour calculer ce coefficient, il est nécessaire de connaître en combien d’unités ou intervalles de temps les deux observateurs ont coïncidé dans l’enregistrement de chacune des unités de conduite, et en combien d’unité ou intervalles de temps chaque observateur a enregistré chacune des unités de conduite. Ces données peuvent être disponibles dans un tableau de concordance, comme le montre le tableau XII.

Tableau XII. Exemple d’un tableau de concordance point par point par rapport à toutes les conduites.

Observateur 2 Observateur

1 Grooming Proximité Agression Sexe Jeu Total

Grooming 1120 198 121 66 41 1546 Proximité 62 867 10 4 11 954 Agression 0 3 101 1 5 110 Sexe 17 5 3 523 2 550 Jeu 68 15 7 26 754 870 Total 1267 1088 242 620 813 4030

Dans un tableau de concordance point par point, les lignes correspondent à un des observateurs, et les colonnes à un autre. A chaque ligne est attribuée une unité de conduite que l’observateur 1 a enregistrée, et à chaque colonne est attribuée une unité de conduite enregistrée par l’observateur 2. L’ordre d’attribution des unités de conduites dans les lignes et les colonnes est sans importance, mais il doit être le même dans les lignes et les colonnes. La case (ij) du tableau représente le nombre d’unité ou intervalles de temps où la conduite de la ligne i a été enregistrée par l’observateur 1, alors que l’observateur 2 a enregistré celle de la colonne j. De cette façon, dans la diagonale principale du tableau apparaissent les

79

concordances entre observateurs, et dans les autres cases, les discordances. Les totaux des lignes et des colonnes indiquent les durées totales de chaque conduite, selon si elle a été enregistrée par les observateurs 1 ou 2 respectivement.

Ainsi, dans le tableau 13, on peut voir que les observateurs concordent dans les résultats de la conduite « grooming » : elle s’est produite dans 1120 unités de temps, que l’observateur 1 a enregistré parmi 1546 unités de temps au total, et l’observateur 2 parmi 1267 au total.

Cependant, il y a également des discordances ; par exemple, sur 198 unités de temps, l’observateur 1 note qu’il s’agit de « grooming » alors que l’observateur 2 note des conduites de « proximité ». Un des prérequis indispensable est que les unités de conduite des lignes et des colonnes du tableau soient temporellement exhaustives et mutuellement exclusives, pour que l’addition totale du tableau coïncide avec le temps total d’observation, et que chacune des unités de temps soit comptabilisée une et une seule fois dans le tableau.

Les proportions de concordance se calculent de la façon suivante :

avec fi et ci représentant respectivement l’addition de la ligne i et celle de la colonne i du tableau. Par exemple, à partir du tableau 13, on obtient O = 3365/4030 = 0.835 et E = 1010.337/4030 = 0.251 ; Ainsi, le coefficient kappa vaut k = (0.835 - 0.251) / (1 - 0.251) = 0.78. Cette valeur est donc proche du minimum conseillé, 0.80. La concordance n’est pas élevée dans ce cas, dû évidemment à la grande quantité de discordances.

L’utilité de la table de concordance va plus loin que le simple calcul de kappa (pour cela, il suffit de connaître les valeurs de la diagonale et des totaux) : elle permet en effet d’indiquer entre quelles catégories de conduites il existe une discordance majeure. Bien sûr, le travail du chercheur consistera donc à déterminer si la confusion est due à une mauvaise définition des unités de conduites ou à un mauvais entraînement des observateurs, et auquel cas, à remédier au problème.

Par ailleurs, le coefficient kappa n’est pas seulement une proportion de concordance, mais prend aussi en compte dans son calcul la concordance aléatoire possible ; ainsi, dans l’exemple précédent, les résultats des observateurs concordaient dans 83.5% des unités de temps, mais cette quantité n’est pas un bon indicateur de concordance puisqu’elle contient la concordance aléatoire, laquelle s’estime à 25.1%.

Le coefficient kappa calculé à partir du tableau de concordance dans lequel toutes les catégories de conduites sont représentées, indique le degré de concordance par rapport à toutes les catégories à la fois. Dans certains cas, il peut être plus utile de déterminer quelle est la concordance point par point vis-à-vis d’une seule catégorie, ou bien d’obtenir un coefficient par catégorie avec des objectifs comparables. Pour cela, le tableau de concordance peut se condenser en un tableau 2x2 dans lequel est représentée uniquement la catégorie en question.

80

Par exemple, le tableau XIII représente un tableau de ce type pour la conduite « agression » ; dans ce cas, k = 0.56, une valeur trop basse dû au fait que l’observateur 1 n’enregistre pas comme « agression » une grande quantité d’unités de temps, qui elles sont enregistrées comme tel par l’observateur 2.

Tableau XIII. Exemple de tableau de concordance point par point vis-à-vis de la conduite « agression ».

Observateur 2

Observateur 1 Agression Reste des conduites Total

Agression 101 9 110

Reste des

conduites 141 3779 3920

Total 242 3788 4030

Plusieurs facteurs influent sur la qualité des données, dues autant par l’observateur lui-même (erreurs, interprétation idiosyncratique des définitions des unités de conduite, etc...) qu’à des défauts dans les définitions et dans les instruments d’enregistrement. L’entraînement de l’observateur dans l’utilisation des définitions des unités est fondamental ; ainsi, il est souhaitable de tester la qualité des données qu’ils obtiennent, dans le but de les ré-entraîner si nécessaire (Quera, 1993).

L’évaluation de la fiabilité, ou préférentiellement de la précision, le fait de donner le résultat aux observateurs sur la valeur atteinte, et le contrôle répété de l’application correcte des définitions sont les moyens pour maintenir une qualité de donnée adéquate.