• Aucun résultat trouvé

Corrélation à des jugements humains

Dans le document Détection de dérivation de texte (Page 114-121)

3.2 Détection probabiliste des composants citationnels

4.1.3 Corrélation à des jugements humains

4.2.1 METER . . . 101 4.2.2 PAN-PC-09 et PAN-PC-10 . . . 102 4.2.3 Corpus secondaires . . . 107 4.3 Notre méthode d'évaluation inspirée de la RI . . . 108 4.3.1 Objectifs de l'évaluation . . . 108 4.3.2 Méthodologie et mesures . . . 109

4.3.2.1 Qualité de l'identication des liens de dérivation 109

4.3.2.2 Capacité de discrimination . . . 110

4.3.2.3 Performances en temps et en espace . . . 111

4.3.3 Corpus PIITHIE, Wikinews et PANini . . . 112

4.3.3.1 Caractéristiques communes . . . 112

4.3.3.2 Corpus Piithie . . . 113

4.3.3.3 Corpus de révisions Wikinews . . . 113

4.3.3.4 Corpus réduit PAN (PANini) . . . 117

4.3.3.5 Discussion . . . 119

4.4 Recherche de résultats de référence . . . 121 93

4.4.1 Paramètrage de la signature complète . . . 121

4.4.1.1 Taille des n-grammes . . . 121

4.4.1.2 Mesures de similarité . . . 122

4.4.1.3 Modèles de données . . . 122

4.4.1.4 Normalisation des éléments de la signature . . . 123

4.4.2 Résultats de l'approche de référence . . . 124

4.4.2.1 Corpus Piithie . . . 124

4.4.2.2 Corpus Wikinews . . . 125

4.4.2.3 Corpus PANini . . . 126

4.4.2.4 Synthèse des résultats . . . 126

4.1. PRINCIPALES APPROCHES D'ÉVALUATION 95 La détection de dérivation est une tâche complexe à facettes multiples pour laquelle il n'existe ni protocole d'évaluation standard, ni corpus de référence. En eet, l'éva- luation des sytèmes peut porter sur diérentes capacités : distinguer les textes dérivés et les textes non-dérivés, identier les types de dérivation (plagiat, version. . . ), isoler dans ces textes les passages dérivés, obtenir des mesures de similarités concordantes avec les jugements humains. . . Nous proposons un protocole d'évaluation adapté à nos objectifs : identier les liens de dérivation entre des textes à l'échelle du document. Nous avons notamment déplacé la prise de décision (catégorisation) hors du processus d'évaluation puisque nous considérons que celle-ci est spécique à la mise en ÷uvre applicative des méthodes.

L'évaluation d'un système de détection de dérivation repose selon nous sur trois éléments : un protocole d'évaluation associé à un certain nombre de mesures, un (ou plusieurs) corpus et des résultats de référence fournis par une méthode état de l'art. Dans ce chapitre, nous rappelons tout d'abord les diérentes méthodes d'évaluation qui ont été mises en ÷uvre pour les tâches associées à la détection de dérivation (cf. Section 4.1) ainsi que les corpus qui ont été utilisés pour ces évaluations qui re- prennent le format proposé par les récentes campagnes d'évaluation PAN (Potthast et collab., 2009, 2010b) (cf. Section 4.2). Nous présentons alors notre méthode d'éva- luation, inspirée de la RI et tirant parti de deux mesures : la MAP et la S´ep. Q, et nos corpus français et anglais (cf. Section 4.3). Finalement, nous mettons en ÷uvre cette méthode sur nos corpus pour l'approche par signature complète, qui est considérée comme l'approche de référence, an d'obtenir des résultats de référence auxquels nous nous comparerons (cf. Section 4.4).

4.1 Principales approches d'évaluation

La création récente du challenge PAN (Uncovering Plagiarism, Authorship, and Social Software Misuse, (Potthast et collab., 2009, 2010b)) a permis de faire avancer l'idée d'un protocole d'évaluation et d'un corpus de référence. Le protocole proposé évalue le problème comme une tâche de classication entre textes (ou passages) dérivés et non-dérivés. Dans cette section, nous présentons ce type de protocole (cf. Sec- tion 4.1.1), le plus communément utilisé, ainsi que ceux issus de la RI (cf. Sec- tion 4.1.2) et enn une approche qui évalue la concordance entre les scores de simila- rités des méthodes automatiques et celles de jugements humains (cf. Section 4.1.3). Cette présentation des diérentes approches d'évaluation a pour objectif de nous aider dans le choix de notre propre méthode d'évaluation.

4.1.1 Évaluation comme une tâche de classication

L'approche pour l'évaluation des systèmes de détection de dérivation la plus cour- rament mise en ÷uvre consiste à considérer la détection de dérivation comme une tâche de classication  dérivé vs. non-dérivé . Cette classication s'eectue soit pour le texte complet, soit en tenant compte de la segmentation en passages. 4.1.1.1 À l'échelle des textes complets

Les approches par classication considèrent des couples de textes dont l'un des deux est potentiellement identié comme la source. Un couple de textes est classé sur la base du score de similarité obtenu : soit au travers d'un modèle probabiliste (Clough, 2003a), soit en partionnant l'espace des valeurs des scores de similarité. Nous détaillons ce dernier procédé illustré par la gure 4.1.

Src Cand. Src Cand. Src Cand.

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Espace image des scores de similarité Similarités entre les documents en sortie des méthodes

Seuil de classification

Non-dérivé Dérivé

Figure 4.1  Les évaluations par classication dénissent des zones dans l'espace image des similarités correspondant aux classes.

L'espace image des mesures de similarité est divisé en zones continues à chacune desquelles est associée une classe. Cette classe caractérise la relation de dérivation entre les textes comparés. Le plus souvent l'espace image est déni entre 0 et 1 et se répartie entre une zone, autour de 1, correspondant à la classe  dérivé  et une autre  non-dérivé  autour de 0 (Si et collab., 1997; Lyon et collab., 2001; Bernstein et collab., 2006). Les deux zones ont une frontière commune dénie par un score seuil. Parfois, l'espace est divisé en un plus grand nombre de classes qui reétent plus nement le lien de dérivation. Leur pertinence dépend de l'application visée. Ainsi Shivakumar et Garcia-Molina (1995) dénissent les espaces [0 % ; 33 %], [34 % ; 66 %], [67 % ; 90 %] et [91 % ; 100 %] pour les classes respectives : aucun, peu, beaucoup et total.

Le choix d'un score seuil, s'il a pu être arbitraire dans les travaux pionniers (Si et collab., 1997), s'appuie désormais sur une phase d'apprentissage. Bao et collab. (2007) par exemple, sélectionnent le seuil qui sépare les dérivés des non-dérivés de façon optimale sur un corpus d'apprentissage. Cette phase d'apprentissage doit tenir compte de la distribution non homogène entre les classes : soit les disparités sont conservées (on parle alors de stratication) et doivent être considérées lors de l'analyse des résultats, soit le nombre d'instances est équilibré entre toutes les classes (on parle d'égalisation).

Les métriques utilisées pour mesurer la performance des méthodes sont les clas- siques précision (cf. Équation D.1), rappel (cf. Équation D.2) et f-score (cf. Équa- tion D.5) (Manning et Schütze, 1999, p.268-269). Elles sont présentées en détail dans l'annexe D.

4.1.1.2 À l'échelle des passages

Il est nécessaire d'adapter le protocole précédent lorsque l'identication des re- lations de dérivation ne porte plus sur les textes complets mais s'applique à une granularité plus ne. De tels systèmes identient et catégorisent les relations entre des passages de texte. Les mesures classiques de précision et de rappel ne sont plus appropriées car elles ne rendent pas compte de la uctuation des frontières des pas- sages incriminés. Potthast et collab. (2010b) considèrent en conséquence l'évaluation au niveau des passages (psg) plutôt que des textes complets. Ils introduisent les me-

sures de pr´ecisionpsg et de rappelpsg dérivées des mesures classique de pr´ecision et

de rappel an de tenir compte de ce changement, ainsi que la mesure de granularit´e. Dans le cadre de cette thèse, nous nous limitons à la détection de dérivation à l'échelle du document. Nous présentons ce protocole dans un but informatif.

4.1. PRINCIPALES APPROCHES D'ÉVALUATION 97

Source

s

1

s

2

s

3

passages originaux

passages identifiés

automatiquement

passages dérivés

s

2

Dérivé

r

1

s

1

r

2

r

3

r

4

s

3

r

5

Figure 4.2  Congurations de détection lors d'une évaluation prenant en compte la délimitation des passages. Schéma dérivé de Potthast et collab. (2010b)

Les sytèmes de détection à l'échelle du passage identient des passages de texte

dans le texte candidat (r1, . . . , rj) et les rapprochent de passages du texte source

(s1, . . . , si). L'ensemble des passages identiés dans le candidat est noté R et celui

du texte source S. L'évaluation doit mesurer la concordance des passages identiés avec les passages réellements liés par une relation de dérivation. La gure 4.2 illustre diérentes congurations de détection de ces passages : recouvrements partiels plus

large ou plus court (r1, r2, r3, r5), faux positifs (r4) et silences (s2).

Le rappelpsgest déni comme la moyenne du recouvrement des passages identiés

(r ∈ R) par rapport au passage dérivé correspondant (s ∈ S), le tout ramené au nombre de passages à identier (|S|) :

rappelpsg(S, R) = 1 S X s∈S |s uS r∈Rr| |s| (4.1)

avec s u r les caractères de r recouvrant correctement s

La précision classique imposerait qu'un seul passage détecté soit rattaché à un

passage dérivé. Ce n'est pas forcément le cas comme le montrent les passages r1, r2

et r3de la gure 4.2. L'idée est de dénombrer la proportion des passages détectés qui

sont des dérivés, ce qui revient à calculer le rappelpsg de R par rapport à S :

pr´ecisionpsg(S, R) = 1 R X r∈R |r uS s∈Ss| |r| (4.2)

La formule du f-mesure est la même que pour les dénitions classiques de précision et de rappel (cf. Équation D.5).

Ces métriques ne rendent pas compte du nombre de passages détectés qui corres- pondent à un unique passage dérivé, ce que les auteurs nomment la granularité de la détection. Cette métrique est dénie comme la moyenne du nombre de passages détectés (r) couvrant un passage dérivé (s) pour chaque passage dérivé détecté :

granularit´e(S, R) = 1 |SR| X s∈SR |Cs| (4.3) avec SR = {s|s ∈ S ∧ ∃r ∈ R : s u r 6= ∅}

soit le nombre de s recouverts par au moins un r

avec Cs = {r|r ∈ R ∧

[

s∈S

s u r 6= ∅}

soit le nombre de r qui recouvrent au moins un s Dans le meilleur des cas, il n'y a qu'un seul passage détecté (r) par passage dérivé (s) auquel cas la granularit´e(S, R) = 1, et dans le pire des cas tous les passages détectés couvrent le même passage dérivé : granularit´e(S, R) = |R|.

Finalement, les auteurs proposent une combinaison de l'ensemble de ces métriques permettant de rendre compte globalement de la qualité de la détection :

f-mesurepsg(S, R)

log2(1 + granularit´e(S, R)) (4.4)

Ces métriques permettent une évaluation élégante des systèmes de détection de dérivation à l'échelle des passages. Elles rendent compte à la fois du classement correct des passages dérivés et non-dérivés, et de la justesse de leurs frontières textuelles.

En conclusion, nous ne retenons aucune de ces méthodes. La phase de création du classieur dans une approche par classication manque de normalisation et de déterminisme. Cette étape nécessaire relève selon nous de la mise en ÷uvre applicative et est un frein à la comparabilité des résultats. Par extension nous ne retenons pas non plus l'évaluation par classication à l'échelle des passages, d'autant plus que nous ne nous intéressons pas à la détection de dérivation à cette échelle.

4.1.2 Évaluation comme une tâche de recherche d'information

La recherche d'information prote, de par son ancienneté, de méthodes d'évalua- tion rigoureuses et largement éprouvées. Le protocole d'évaluation tel qu'opéré en RI se compose de deux étapes : la soumission de requêtes au système évalué et l'appli- cation de mesures d'évaluation sur un sous-ensemble ordonné des résultats.

La requête soumise à un système de RI est comparée à un index et donne lieu à un résultat, habituellement une liste de réponses ordonnée. Dans le cadre de la détection de dérivation, les requêtes sont des textes ou des passages de texte, l'index est construit à partir d'une collection de textes candidats et le résultat est un sous-ensemble des textes candidats ordonnés selon un score de similarité avec la requête, comme l'illustre la gure 4.3. Hose (2003) soumet comme requêtes des phrases des parchemins de la mer morte. Metzler et collab. (2005) construisent leurs requêtes à partir du matériel d'évaluation de la campagne TREC. Hoad et Zobel (2002) soumettent le texte source dans son intégralité, ce qui semble le plus cohérent avec la tâche à évaluer.

Les mesures employées évaluent la distribution des réponses du système en les comparant à une distribution idéale. Dans le cas de la dérivation, nous souhaitons que les textes dérivés apparaissent en haut du classement (scores de similarité les plus élevés). Il est possible dans ce but d'utiliser les mesures classiques de précision et de rappel (cf. Annexe D) en les appliquant à un sous-ensemble du classement résultat (du rang 1 à 20 (Hoad et Zobel, 2002), 25 (Metzler et collab., 2005) voir même 100 (Hose, 2003)). Ces approches sont également nommées top 10, top 20. . . La R-précision est un cas particulier qui consiste à calculer la précision sur tous les rangs jusqu'à celui

4.1. PRINCIPALES APPROCHES D'ÉVALUATION 99

Src

Ma inf rame requête résultats 1 2 3 4 5 rang

dérivé non-dérivé dérivé dérivé non-dérivé

score 0,94 0,72 0,62 0,48 0,21

HFM LRM

précision 1/1 1/2 2/3 3/4 3/5

R-précision

MAP 1/1 + 1/2 + 2/3 + 3/4 + 3/55 = 0,70...

Figure 4.3  Classement des résultats du système et aectation d'un rang tel qu'opéré pour les évaluations en RI.

du dernier dérivé (Hoad et Zobel, 2002). Elle ne peut bien entendu être mise en ÷uvre que si tous les documents sont connus. Dans l'exemple de la gure 4.3 elle correspond à la précision du rang 1 à 4. Toutefois, la MAP (Mean Average Precision) (cf. Équation 4.5) est mieux adaptée en ce qu'elle rend directement compte de cette variation du rang (Hoad et Zobel, 2002; Metzler et collab., 2005). La gure 4.3 montre un exemple du calcul de la MAP à partir d'un classement par scores de similarité.

MAP =

PN

r=1(P (r) · rel(r))

N (4.5)

avec r le rang

N le nombre de rangs retenus pour l'évaluation

rel(r) une fonction binaire de la pertinence d'un rang, le plus souvent

on pose rel : r 7→ 1

P (r) la précision calculée sur les résultats de rang 1 à r

Une approche complémentaire mise en ÷uvre par Hoad et Zobel (2002) utilise le highest false match (HFM) et le lowest correct result (LCR) qui correspondent res- pectivement au plus haut score de similarité obtenu par un document non-dérivé et au plus bas score de similarité obtenu par un document dérivé (voir la gure 4.3). L'écart entre ces deux valeurs se nomme la séparation (cf. Équation 4.6) et sa combi- naison conjointe au HFM (cf. Équation 4.7) permet d'évaluer la capacité du système à distinguer les dérivés des non-dérivés (Hoad et Zobel, 2002).

s´eparation = LCR − HFM (4.6)

discrimination = s´eparation

HFM (4.7)

Les méthodes d'évaluation tirées de la RI ont été très peu utilisées pour la détection de dérivation. Par conséquent, les possibilités de comparaison avec des évaluations antérieures sont limitées.

4.1.3 Corrélation à des jugements humains

La majorité des méthodes de détection de dérivation repose sur la mesure de similarité entre des textes, qui est un problème également étudié d'un point de vue psychologique. Lee et collab. (2005) ont mis en place un protocole d'évaluation qui repose sur la comparaison entre les scores de similarité des méthodes classiques (mots, n-grammes et analyse sémantique latente (LSA)) et des jugements de similarité. Une jugement de similarité est une évaluation sur une intervalle discrète donnée de la similarité entre deux textes telle que perçue par un humain. Uzuner et collab. (2004) ont également mené une évaluation similaire basée sur des évaluations humaines de la similarité des textes an de les comparer aux résultats de leur méthode.

Les objectifs de l'évaluation sont de vérier la concordance entre les scores de simi- larités produits par les méthodes et les jugements humains émis sur les mêmes textes. Cette évaluation repose sur l'hypothèse que ces méthodes reproduisent le processus psycho-cognitif humain.

Dans ce but, les auteurs ont constitué un corpus de courts textes en anglais (ar- ticles de journaux) représentant 1 225 liens suspects, de dérivation ou non. Les 83 annotateurs humains, étudiants d'université, devaient noter la similarité (1 pour très peu, et 5 pour très similaires) des paires présentées aléatoirement. La qualité des scores des méthodes est évaluée par rapport à leur corrélation avec les notes des annotateurs. La démarche est intéressante de par son approche de la problématique de l'éva- luation au travers du prisme de la psychologie-cognitive. L'évaluation ne porte pas sur la visée applicative mais sur l'alignement avec la perception humaine. De plus, elle permet de conserver les diérents scores de similarité et ne nécessite pas une clas- sication. Elle soure toutefois d'imprécisions. Tout d'abord, elle réduit l'intégralité de la détection de dérivation à une mesure de similarité entre documents. S'il s'agit eectivement de l'approche de la majorité des méthodes, il semble épistémologique- ment discutable de mesurer la performance d'une méthode à une tâche en se basant sur l'approche de cette méthode plutôt que sur l'objectif de la tâche. Enn, la corré- lation est calculée entre les résultats des méthodes dénies sur l'espace image continu

[0; 1], tandis que les jugements humains sont dénis sur un espace discontinu (valeurs

discrètes).

En résumé, le protocole bien qu'intéressant nous paraît dicile à mettre en ÷uvre sur des textes plus longs tels qu'on les trouve dans nos corpus.

Nous discutons dans la section suivante des diérentes ressources utilisées pour l'évaluation. Nous revenons dans la section 4.3 sur nos choix d'évaluation au regard des méthodes proposées dans cette section.

Dans le document Détection de dérivation de texte (Page 114-121)

Documents relatifs