Accord inter-annotateurs - Évaluation des performances

Évaluation des performances

5.4 Accord inter-annotateurs

Tel que nous l’évoquions au chapitre 4, une vidéo est automatiquement associée à un article lorsque la paire qu’ils forment se trouve dans une zone particulière de l’espace bidimensionnel représentant leurs scores d’association. Or cette zone est délimitée sur la base de la répartition des données annotées disponibles lors de la phase d’apprentissage. Comme dans tout modèle appris, si les exemples fournis en entrée sont trop spécifiques, le modèle de classification est peu généralisable et donc peu performant sur de nouvelles données.

Les cas d’appariements automatiques représentant la majeure partie des résultats de Semiabong, nous avons souhaité nous assurer de leur pertinence. Une session d’évaluation explicite a donc été mise en place au cours du mois de novembre 2016, après sa mise en production, sur ces données particulières. Sur la même échelle de notation ternaire que celle utilisée pour l’annotation des données destinées à l’apprentissage du modèle3, cette évaluation a mobilisé deux juges.

Le système ayant vocation à intégrer une unique vidéo pour un article, indépendam-ment de l’utilisateur, l’annotation des données destinées à l’apprentissage du modèle de classification ne distinguait pas les juges entre eux. Il est toutefois apparu par la suite que les différents utilisateurs mobilisés pour l’évaluation ne s’entendaient pas toujours sur l’appréciation d’un résultat. Aussi, afin de mesurer la proportion de l’accord entre les différents juges, nous avons mené cette session d’évaluation explicite en double aveugle, i.e. en soumettant aux deux juges le même ensemble de données.

Le fait que l’appariement d’une vidéo à un article ait à satisfaire un besoin d’intégration vidéo en plus d’un besoin d’information peut biaiser le jugement par une sur-appréciation des résultats proposés par rapport à leur pertinence réelle. Par ailleurs, le fait qu’il s’agisse d’une tâche d’appariement, pour laquelle une seule vidéo est finalement associée à un article, tend au contraire à une sous-appréciation des résultats par des juges toujours en quête de la meilleure vidéo disponible possible. Ces deux comportements ont été observés respectivement chez les deux juges sollicités pour l’évaluation en double aveugle, chacun appréciant librement les appariements proposés selon ses propres critères. Ainsi, en leur soumettant un ensemble de 189 paires article-vidéo calculées et automatiquement validées par Semiabong, nous obtenons la répartition de jugements présentée en Table5.6.

L’utilisateur 1 apparaît nettement moins satisfait que son pair, avec seulement 29.6% de bons jugements de pertinence (3*) contre 61.9% pour l’utilisateur 2. Sur les 117 cas que ce dernier a jugé pertinents, l’utilisateur 1 a majoritairement préféré nuancer sa note en n’attribuant qu’un jugement moyen (2*), révélant deux stratégies d’appréciation bien 3. C’est-à-dire l’attribution d’une étoile pour un appariement jugé mauvais ; de deux étoiles pour un appariement jugé moyen ; de 3 étoiles pour un appariement jugé bon.

Chapitre 5 – Évaluation des performances XX XX XX XX XX_X X USER2 USER1 3* 2* 1* TOTAL 3* 47 61 9 117 2* 9 36 16 61 1* 0 3 8 11 TOTAL 56 100 33 189

Table 5.6 – Comparaison des jugements de pertinence de deux juges

distinctes chez les deux juges.

Les exemples (9) et (10) correspondent tous deux à des paires automatiques que l’utilisateur 1 a jugées mauvaises, et que l’utilisateur 2 a jugées bonnes. S’agissant du (9), le contenu de la vidéo proposée ne développe pas exactement le sujet de l’article, mais aborde bien le sujet global des primaires Républicaines et ne date que de quatorze jours avant la publication de l’article. Il est difficile de déduire d’un simple jugement binaire ce qui a plu à l’utilisateur 2 dans cette paire et ce qui a parallèlement déplu à l’utilisateur 1, pour que leurs notes respectives soient si opposées. Quant à l’exemple (10), la vidéo relate le fait introduit dans l’article comme la cause du sujet abordé, i.e. des semaines de chantier dans le métro. Cette vidéo ne date par ailleurs que de deux jours avant la publication de l’article, ce qui en fait selon nous un bon résultat. Il est encore plus difficile dans ce cas-ci de saisir les raisons de la dépréciation de cet appariement par l’utilisateur 1.

Notons par ailleurs que bien que les utilisateurs aient accès aux contenus exhaustifs des documents lors des évaluations (titre et description), ils se contentent régulièrement de n’observer que leurs titres pour juger de leur similarité. Ce fait pourrait selon nous expliquer certains cas d’écart d’appréciation d’une même vidéo entre le système et un uti-lisateur. En effet, bien qu’il surpondère les termes du titre, le système exploite l’ensemble du texte d’un document pour sa représentation. Si la description contient des informa-tions essentielles à la compréhension de l’ensemble du document, le système la prendra en compte mais l’utilisateur n’y aura pas accès en se contentant de lire le titre.

(9)

Article (2016-11-21) – Primaire : NKM, admet qu’elle ne gagnera pas et raille ses rivaux

Vidéo auto (2016-11-07) – Primaire de la droite : quand Sarkozy tacle NKM

(10)

Article (2016-11-21) – Rennes : Trois semaines d’arrêt pour le chantier du métro suite à un effondrement dans un magasin

Vidéo auto (2016-11-19) – VIDÉO - Le plancher d’un magasin s’effondre à Rennes

Pour quantifier le désaccord entre ces deux juges, nous calculons le coefficient de Kappa 144

de Cohen (Cohen, 1960). Il mesure la qualité de l’accord réel entre des jugements qua-litatifs, par comparaison du taux d’accord observé à la probabilité d’un accord aléatoire. Sur ces données, nous obtenons k=0.18, soit un taux d’accord très faible au regard du classement proposé par (Landis et al., 1977).

Ce faible accord met en lumière le biais d’une évaluation manuelle, que nous évoquions plus haut, en l’absence de grille d’appréciation commune à tous les juges. Ce constat nous fait relativiser la difficulté de la tâche pour laquelle il faut s’affranchir des critères indivi-duels pour construire un modèle universel, avec le risque de ne pas satisfaire les attentes spécifiques de chacun des utilisateurs. Le fait qu’il s’agisse d’une tâche d’appariement pose dès le début une forte contrainte de défaut d’information en sortie. Par ailleurs, les requêtes soumises au système étant des articles complets, riches d’informations, minimise les chances de proposer un résultat répondant à tous ses aspects parmi un ensemble non exhaustif de vidéos. Mis à part les cas parfaits pour lesquels il existe en base une vidéo illustrant exactement l’article, le système doit opérer des choix pour déterminer sur quels aspects de la requête mettre l’accent, puis rechercher une vidéo illustrant ces aspects. Mais si l’utilisateur, à la lecture de l’article, retient des aspects sous-représentés par le système, son besoin risque de n’être que partiellement satisfait, voire pas satisfait du tout.

5.5 Conclusion

Nous sommes revenus dans ce chapitre sur le protocole d’évaluation mis en place chez Mediabong pour évaluer les performances du système développé en réponse à leurs be-soins particuliers. Au travers d’exemples issus du corpus, nous avons exposé les contraintes que pose le contexte industriel, relatives à la complexité des exigences et à l’instabilité des jugements de pertinence.

Après avoir démontré la difficulté de mettre en place une évaluation dans un cadre expérimental de RI, nous avons proposé un protocole adapté à un système industriel en conditions réelles d’application. Notre problématique dépassant le cadre de celui d’un SRI classique, c’est sur un modèle d’évaluation de classification binaire que s’appuie ce protocole. Il considère la dépendance des résultats à la disponibilité de vidéos en collection, en distinguant les articles susceptibles d’y trouver une vidéo pertinente de ceux pour lesquels trouver une vidéo illustrant leur contenu trop spécialisé est illusoire.

Dans l’intention de comparer les performances de différents systèmes et en l’absence d’ensemble de test, nous avons conçu le protocole en s’inspirant de méthodes d’A/B testing. En tenant compte de la dépendance des performances aux données traitées, nous avons ainsi pu observer et opposer différents systèmes entre eux sur la base de résultats obtenus sur des données comparables.

Chapitre 5 – Évaluation des performances

Malgré les imperfections que ce protocole présente, notamment dû au dynamisme des données qu’il est nécessaire de considérer, il nous a permis de confronter les performances de différents systèmes pour finalement en sélectionner un qui satisfait aujourd’hui pleine-ment Mediabong.

Ensemble de test et

Dans le document Appariement de contenus textuels dans le domaine de la presse en ligne : Développement et adaptation d'un système de recherche d'information (Page 162-166)