• Aucun résultat trouvé

Efficacité par rapport aux modèles de référence

7 Résultats d’évaluation

7.1.1 Efficacité par rapport aux modèles de référence

Nous présentons les résultats des tâches de RI (réordonnancement et expansion de requête) dans le Tableau4.3(la colonne %Chg indique le taux d’accroissement de chaque configuration par rapport au modèle BM25). Dans ce tableau, nous pouvons observer que nos deux modèles (hors ligne et en ligne) sont capables de saisir des signaux de pertinence qui permettent d’améliorer l’ordonnancement des documents, par rapport aux modèles de référence. Il y des améliorations im- portantes et significatives selon les scénarios. Nous faisons les deux principaux constats suivants :

• En comparant avec le modèle BM25, nos deux modèles obtiennent des amé- liorations plus importantes sur le domaine médical (OHSUMED, TREC Med) que sur le domaine générique (Robust). Le modèle de référence de le BM25 est difficile à surpasser pour le jeu de données Robust, même pour les autres modèles de réfé- rence qui sont également basées sur l’apprentissage de la représentation. En effet, les scénarios basés sur la représentation distribuées (modèles de référence et nos deux modèles) permettent d’obtenir des améliorations généralement de 11% à 40% sur les jeux de données médicales. Tandis que cette amélioration reste négligeable sur Robust (%Chg varie entre−0, 40% et 0, 16%)

Cela suggère que les domaines spécifiques tels que le domaine médical nécessitent un scénario permettant de capturer davantage d’inférences textuelles qu’un simple modèle statistique basé sur l’indépendance des termes (à savoir le BM25). En effet, les statistiques des jeux de données (cf. Tableau4.1) indiquent que les documents des jeux de données médicales sont caractérisés par un plus grand nombre de concepts (60 concepts en moyenne) que le jeu de données génériques Robust (31 concepts en moyenne).

Réordonnancement Expansion de requête

Robust OHSUMED TREC Med Robust OHSUMED TREC Med

Modèles MAP %Chg MAP %Chg MAP %Chg MAP %Chg MAP %Chg MAP %Chg

BM25 0,2510 0,2147 0,3120 0,2510 0,2147 0,3120 AWE 0,2500 -0,40% 0,2010 -2,24% 0,349 11,83% 0,250 -0,36% 0,2520 17,51% 0,2890 -7,08% AWER 0,2510 0,04% 0,3010 40,20% 0,3500 12,24% 0,2510 0,00% 0,2540 18,30% 0,2901 -7,02% D2V 0,2505 -0,20% 0,3000 39,78% 0,3560 14,07% 0,2511 0,04% 0,2550 19,19% 0,2910 -6,67% Non pré-entraîné SD2Vo f f 0,2510 0,00% 0,3018 40,57% 0,3591 15,10% 0,2464 -1,83% 0,2580 20,17% 0,3205 2,72% SD2Von 0,2507 -0,12% 0,3020 40,66% 0,3554 13,91% 0,2443 -2,67% 0,2599 21,05% 0,2889 -7,40% Pré-entraîné w2v SD2Vo f f 0,2510 0,16% 0,3020 40,66% 0,3581 14,78% 0,2458 -2,07% 0,2579 20,12% 0,3227 3,43% SD2Von 0,2510 -0,08% 0,3019 40,61% 0,3582 14,81% 0,2440 -2,79% 0,2592 20,73% 0,2890 -7,37%

Tableau 4.3 – Comparaison des approches d’apprentissage hors ligne/en ligne sur les tâches de RI.

Cette tendance est similaire avec les requêtes qui sont plus verbeuses et qui in- cluent plus de concepts. Cela confirme que la recherche médicale exige des tech- niques efficaces (comme des modèles d’apprentissage de la représentation) pour capturer la sémantique du texte et de la requête afin de déduire les signaux de pertinence.

Nous notons aussi que nos deux modèles obtiennent généralement des scores plus élevés que d’autres modèles de référence de l’apprentissage de représentation, à savoir AWE, AWER, D2V, quand ces derniers sont injectés dans une tâche de ré- ordonnancement ou une tâche d’expansion de requête. Par exemple, pour la tâche de réordonnancement sur TREC Med, notre scénario SD2Vo f f (non pré-entraîné) obtient la valeur de MAP à 0, 3591 qui est plus élevée que celles des modèles AWE, AWER et D2V (0, 349, 0, 350 et 0, 356 respectivement). Cela suggère l’avantage de combiner la sémantique distributionnelle capturée par l’apprentissage de repré- sentations et la sémantique relationnelle exprimée dans les ressources externes pour effectuer des tâches orientées domaine.

Cette affirmation est contrastée par l’observation des résultats de notre modèle sur les tâches de TALN (cf. Tableau4.4). En effet, en ce qui concerne les différents mo- dèles de référence, nos modèles obtiennent généralement de meilleurs résultats pour le jeu de données génériques Robust tandis qu’ils obtiennent des résultats inférieurs ou équivalents pour les jeux de données médicales.

Par exemple, pour la tâche MRPC sur Robust, nos scénarios obtiennent des pré- cisions de 71, 90% à 74, 26%, tandis que les précisions des modèles de référence varient de 68, 05% à 70, 81%. Pourtant, pour la même tâche sur OHSUMED, notre meilleur scénario (SD2Von) obtient seulement 29, 96% de précision, par rapport

Modèles Robust OHSUMED TREC Med

SUBJ MPQA TREC MRPC STS2014 SUBJ MPQA TREC MRPC STS2014 SUBJ MPQA TREC MRPC STS2014 TF−IDF 72,13 68,45 79,98 69,12 42,84 33,13 25,35 31,48 30,32 37,84 22,55 21,99 21,48 19,75 26,92 AWE 73,10 68,04 79,52 68,05 44,77 32,50 25,74 32,12 29,35 34,77 21,92 21,87 20,51 19,25 25,11 AWER 75,71 69,08 81,91 68,75 45,17 35,61 26,63 34,18 31,20 36,66 22,63 22,45 21,24 20,60 26,03 D2V 73,52 69,35 79,30 70,81 42,56 31,56 25,01 32,07 28,23 33,76 21,55 21,58 20,68 18,56 25,60 Non pre. SD2Vo f f 76,15 72,11 79,50 71,90 44,76 32,65 25,40 32,15 27,88 33,32 22,00 21,18 20,92 18,21 26,06 SD2Von 75,44 70,89 79,56 72,04 44,69 32,99 25,53 32,57 28,80 33,70 21,81 21,38 21,00 18,15 25,83 Pre. w2v SD2Vo f f 76,36 71,81 79,89 72,44 45,36 33,03 25,59 32,00 28,66 34,06 22,04 21,23 20,28 18,45 26,28 SD2Von 76,66 70,68 81,60 74,26 45,30 34,17 26,67 33,64 29,96 34,64 23,11 22,20 21,14 19,32 25,64

Tableau 4.4 – Comparaison des approches d’apprentissage hors ligne/en ligne sur les tâches de similarité et de classification (SentEval)

aux valeurs qui varient de 28, 23% à 31, 32% des modèles de référence. Ces énon- cés soulignent que :

1. Les jeux de données génériques sont mieux adaptés aux tâches qui rai- sonnent à un niveau global comme les tâches d’appariement sémantique de TALN. D’ailleurs, la thématique des jeux de test dans les tâches de TALN sont souvent dans le domaine générique. Cela est cohérent avec les meilleures performances des représentations distribuées entraînées sur Ro- bust.

2. Le détail technique du domaine médical exige des modèles de représenta- tions qui sont capables de capturer la sémantique à plusieurs niveaux de granularité (comme suggéré dans notre modèle en ligne), qui sont plus effi- caces pour les tâches de RI.

Il convient de mentionner que nous explorons également l’impact de l’utilisation des représentations de mots pré-entraînées pour l’initialisation de notre modèle. Bien qu’il n’y ait pas de différences significatives pour les tâches de RI, la représen- tation de mots pré-entraînée semble aider notre modèle à apprendre de meilleures représentations de documents concernant les tâches de TALN. En effet, dans les tâche de RI (cf. Tableau 4.3), pour un même modèle (hors ligne ou en ligne), le scénario pré-entraîné n’apporte pas en général des améliorations par rapport au scénario non pré-entraîné, la plus grande amélioration est de 0, 9% pour le mo- dèle SD2Von dans la tâche de réordonnancement sur TREC Med. Tandis que sur les tâches de TALN, on peut observer dans la plupart des cas, les scénarios pré- entraînés de nos modèles obtiennent de meilleurs résultats par rapport à ceux non pré-entraîné et la plus grande amélioration est à 6% pour le modèle SD2Von dans la tâche SUBJ sur TREC Med. En comparant l’appariement de similarité (TALN) et l’appariement de pertinence (RI), on voit ainsi que l’injection de représentation de

mots pré-entraînée, principalement conçue pour capturer les similarités de mots, dans nos modèles permet d’améliorer les signaux de similarité qui sont traités dans les tâches TALN.

•En observant les taux d’accroissement sur les jeux de données médicales, les résultats indiquent que les taux d’accroissement des approches basées sur la re- présentation (modèles de référence et nos modèles) sont plus élevés pour la tâche de réordonnancement que pour l’expansion de la requête (cf. Tableau 4.3). Par exemple, sur le jeu de donnée Ohsumed, ce taux est autour de 40% pour la tâche de réordonnancement, alors qu’il est inférieur à 21, 05% sur la tâche d’expansion de requête. Comme nous avons déjà mentionné, la tâche d’expansion de requête consiste à étendre la requête en fonction de la similarité requête-mots et requête- concepts qui ne sont pas directement corrélées avec des signaux de pertinence. En revanche, la tâche de réordonnancement est davantage orientée vers les signaux de pertinence. Pour illustrer cette affirmation, nous proposons dans la Figure 4.9 de visualiser les représentations de documents et de requêtes à travers une ana- lyse t-SNE. Étant donné un sujet TREC particulier du jeu de données OHSUMED, nous distinguons : (1) les documents pertinents (points violets) par rapport aux documents non pertinents (croix rouges) ; et (2) la requête originale (diamant noir) utilisée dans la tâche de réordonnancement par rapport à la requête étendue (carré vert) utilisée dans la tâche d’expansion de requête.

La requête étendue est obtenue par notre modèle en ligne à l’aide de la représen- tation de mots pré-entraînée.

Les figures illustrent que 1) notre modèle est capable de construire des repré- sentations de documents discriminant les documents pertinents et non pertinents ; et 2) que la requête originale est plus proche dans la projection des documents pertinents que la requête étendue.

(a) QID 7 (b) QID 35

Figure 4.9 – Représentations TSNE de documents pertinents et non pertinents pour une requête originale et sa version étendue.