• Aucun résultat trouvé

Évaluations et expérimentations

7.1 Caractérisation du corpus de requêtes d’assistance

7.1.1 Comparaison à un corpus généraliste

Bien qu’il apparaisse évident qu’un corpus généraliste n’aurait pu se substituer au cor-pus Daft pour l’utilisation que nous souhaitons en faire, nous avons toutefois voulu évaluer comment se situait le corpus Daft par rapport à un tel corpus selon quelques facteurs quantita-tifs. Nous avons également fait appel, pour certaines mesures quantitatives au moteur GRASP, introduit dans le chapitre 4, afin de procéder à l’analyse grammaticale de celles-ci.

7.1.1.1 Méthodologie 1 : comparaison quantitative

Choix des corpus. En ce qui concerne le choix du corpus généraliste, nous avons essen-tiellement été limités par la disponibilité restreinte de ceux-ci en langue française. Nous nous sommes finalement tournés vers le corpus MULTITAG, introduit dans la section 3.1.2.1, qui correspond tout à fait à la définition et qui était facilement accessible, étant issu d’un projet financé par le CNRS [Paroubek,2000].

Du côté du corpus Daft, cette étude ayant été faite avant l’ajout des FAQ de Word et LATEX, le corpus considéré correspond plus précisément à Daftapp ∪ Daftth´e, c’est-à-dire au corpus collecté dans les expériences Coco, Hanoï et AMI, enrichi par l’usage de thésaurus.

Prétraitement du corpus MULTITAG. Pour que les comparaisons quantitatives soient significatives, il est indispensable de considérer un corpus qui soit de taille équivalente, ce qui n’est clairement pas le cas de MULTITAG pris dans son ensemble qui est constitué de 1 000 000 de mots, contre seulement 42 716 dans Daftapp∪ Daftth´e. Nous avons donc eu recours à deux critères différents afin de sélectionner aléatoirement un sous-ensemble de phrases de MULTITAG : le nombre de phrases et le nombre de flexions. Nous obtenons ainsi deux corpus : − Multitagphra : qui correspond à un sous-ensemble de MULTITAG similaire à Daftapp

Daftth´e en nombre de phrases ;

− Multitagf lex : qui correspond à un sous-ensemble de MULTITAG similaire à DaftappDaftth´e en nombre de flexions.

Le tableau 7.1 permet de comparer quantitativement le corpus Daftapp∪ Daftth´e à ces deux sous-ensembles du corpus MULTITAG. Ce choix de distinguer deux sous-corpus s’explique par

la nature que l’on suppose très différente des phrases présentes dans MULTITAG par rapport à celles de Daftapp∪ Daftth´e.

Corpus Daftapp∪ Daftth´e Daftweb Multitagphra Multitagf lex

Phrases 5 159 321 5 005 1 460 Caractères 198 555 7 063 781 572 232 706 Mots 42 716 1 645 155 667 46 363 Mots inconnus 554 94 24 190 6 890 Flexions 47 839 1 963 160 672 47 823 Flexions uniques 3 130 394 14 129 7 148 Flexions inconnues 352 63 8 272 3 620

Lemmes uniques (connus) 1 788 288 2 309 1 841

Lemmes inconnus - 39 N/A N/A

Caractères / mots 4,65 4,29 5,02 5,02

Mots / phrase 8,28 5,12 31,1 31,8

Mots inconnus / connus 1,3 % 5,7 % 15,5 % 14,8 %

Flexions inconnues / uniques 11,2 % 16,0 % 58,5 % 50,6 %

Tableau 7.1 Comparaison quantitative du corpus Daft au corpus MULTITAG,

en fonction de l’analyse des requêtes faite par GRASP

7.1.1.2 Résultats : des phrases plus courtes et moins riches

Des phrases plus courtes. La différence entre les phrases issues de Daft et de MULTITAG apparait clairement ne serait-ce qu’en considérant un facteur tel que le nombre de mots moyen par phrases : seulement 8,3 pour Daftapp∪ Daftth´e contre plus de 31 pour MULTITAG. Cela entraîne qu’à nombre de phrases égal, Multitagphracontient plus de trois fois plus de mots que Daftapp∪ Daftth´e. Ainsi, il suffit de 1 460 phrases issues de MULTITAG pour obtenir autant de mots que dans les plus de 5 000 de Daftapp∪ Daftth´e.

On peut également voir l’illustration de ce phénomène sur la figure7.1 : si les courbes repré-sentant le nombre de mots par phrase des corpus Daftapp∪ Daftth´e et MULTITAG (dans son ensemble) ont une allure assez similaire (de type loi de Poisson), outre le facteur d’échelle lié à la taille supérieure de MULTITAG, la longueur de phrase la plus commune dans Daftapp∪Daftth´e n’est que de 6, quand elle est de 42 dans MULTITAG. En se concentrant sur le sous-ensemble Multitagphra, on peut d’ailleurs montrer que si l’on trie les phrases en fonction de leur longueur (obtenant alors une courbe en forme de loi de Zipf), en appliquant un facteur de l’ordre de 3,7 au nombre de lemmes par phrase aux phrases du corpus Daftapp∪ Daftth´e, la courbe obtenue est très proche de celle montrant le nombre de lemmes par phrases pour les quelques 5 000 phrases de Multitagphra.

Des phrases moins riches. La propension à utiliser des phrases plus longues se double d’une richesse de vocabulaire clairement plus importante dans MULTITAG : même en se ramenant à un nombre de flexions équivalent dans les deux corpus, le nombre de lemmes

Figure 7.1 Répartition du nombre de mots par phrase dans les corpus Daft et

MULTITAG

Figure 7.2 Nombre de lemmes par phrases dans les corpus Daft et Multitagphra

différents est en effet environ deux fois plus important dans MULTITAG (4 082 vs 2 006, soit +103%). L’estimation du nombre de lemmes inconnus est faite en considérant que le rapport était à peu près identique au rapport nombre de lemmes connus / nombre de lemmes inconnus mesuré avec le corpus Daftweb. Cette différence se confirme et est même encore plus importante quand on effectue la comparaison au niveau du nombre de flexions uniques (i.e. sans répétition) plutôt qu’au niveau des lemmes (7 148 vs 3 130, soit +128%) ce qui signifie que pour un lemme donné, il y a plus de flexions dans MULTITAG que dans Daft. Cela peut notamment s’expliquer au niveau des verbes par le fait que certains temps complexes sont beaucoup moins couramment employés dans les requêtes d’assistance que dans l’usage commun (souvent au présent de l’indicatif pour les questions ou à l’impératif pour les ordres).

De manière purement quantitative également, les mots dans MULTITAG sont en moyenne sensiblement plus longs (5,02 caractères contre 4,65 caractères) que ceux employés dans Daftapp∪ Daftth´e.

7.1.1.3 Méthodologie 2 : utilisation de GRASP

Une autre manière de traiter les données consiste à considérer la question suivante : en supposant que l’on souhaite que l’outil GRASP développé à partir du corpus Daftapp soit en mesure de traiter également des requêtes issues d’un nouveau corpus constitué à partir d’une ou plusieurs nouvelles applications assistées, quelle serait la proportion du nombre de lemmes nouveaux ou de flexions nouvelles à introduire ?

C’est dans cette optique que nous avons considéré les conséquences pour GRASP de l’ajout, lors de sa constitution, du sous-corpus Daftweb (constitué à partir d’une application), dont les statistiques similaires à celles considérées jusqu’à maintenant pour Daftapp∪ Daftth´e et MULTITAG figurent également dans le tableau7.1.

7.1.1.4 Résultats : un registre de langue limité ?

La proportion de mots inconnus à ajouter est modeste (5,7%). En termes d’extension du lexique déjà utilisé par GRASP, la conséquence est encore moins sensible puisqu’il suffit d’ajouter seulement 39 nouveaux lemmes (soit 2,1% par rapport au nombre de lemmes qui y figurent déjà). Au contraire, si l’on essaye de faire la même opération pour augmenter le lexique permettant de traiter les phrases issues de MULTITAG, il faudrait ajouter en proportion trois fois plus de mots (14,8%) ou lemmes (15,5%).

Cette observation est un premier indice indiquant que le corpus Daft, tel qu’il est constitué, par ajouts successifs de sous-corpus, tend déjà à saturer le domaine de langue que constituent les requêtes d’assistance, puisque la proportion de nouveaux mots est significativement plus faible en considérant de nouvelles requêtes d’assistance qu’en considérant des phrases quelconques.