• Aucun résultat trouvé

le corpus Daft

3.3 Enrichissement du corpus

3.3.2 FAQ de Word et L A TEX

Bien qu’un site Web puisse avoir une structure complexe, les exemples d’applications trai-tées dans la section 3.2 demeurent relativement simples en comparaison de systèmes plus complexes tels qu’un logiciel de traitement de texte comme Word, où dans les dernières ver-sions (avant l’adoption de l’interface à ruban) Beaudoin-Lafon [1997] a pu dénombrer pas moins de 150 actions basiques accessibles dans les menus, 60 boîtes de dialogues et 80 outils accessibles au travers d’icônes (cf. figure3.4pour un exemple caractéristique). De plus, même si l’on souhaite se cantonner à des agents déployés sur le Web uniquement, depuis 2005 et l’introduction du concept d’Asynchronous JavaScript and XML (AJAX)[Garrett, 2005], ont émergé des “web applications” suffisamment rapides et performantes pour être en mesure de remplacer des logiciels dédiés. Ainsi, des applications comme Zoho6 ou Google Apps7 sont devenues des alternatives crédibles à OpenOffice.org ou Microsoft Office [Beer,2007].

Figure 3.4 Barres de menus de Word 2003

Nous avons donc sélectionné environ 5 000 phrases issues deFoire Aux Questions (FAQ)(cf. exemples dans le tableau3.8) trouvées sur Internet concernant deux systèmes de composition de documents largement répandus (LATEX et Word) pour former le corpus Daftf aq. En les réunissant aux requêtes construites précédemment, on obtient le corpus enrichi Dafte.

No Requête d’utilisateur

1 Pour supprimer les polices que je n’utilise pas je peux utiliser le menu Polices ? 2 Comment ajouter et/ou supprimer des pointes de flèches

3 Avec Word, est-il possible de saisir du texte avec un micro ? 4 Peut-on savoir comment on peut définir les hauts et bas de page ? 5 Que puis-je lire sur TeX ?

6 Les caractères spéciaux ne m’affichent que de gros carrés.

7 Ce problème sera t-il a priori corrigé par la mise à jour d’Acrobat ? 8 Toutes les 2 minutes, je suis obligé d’arrêter Word et de le relancer ! 9 Où puis-je trouver un vérificateur de syntaxe LaTeX ?

10 Suite à la mise à jour de Word, impossible de récupérer les mots ajoutés dans le dictionnaire 11 Avant la version actuelle, il n’existe plus d’option qui permette de conserver les lignes vides 12 Lorsque j’imprime tout est ok sauf qu’il me manque les accents.

13 Un exemple ".tex" déjà tout fait ne m’intéresse pas trop

14 Je ne sais pas quoi faire pour afficher des notes de bas de page dans un document Word 15 Y a t-il d’autres possibilités que d’appuyer sur "F8" pour imprimer ?

Tableau 3.8 Exemples de requêtes issues de Daftf aq

6http://www.zoho.com

3.3.3 Discussion

3.3.3.1 Composition du corpus Daft

Le corpus Daft final est donc né de l’union de quatre sous-corpus constitués dans des circonstances différentes :

Daft = (Daftapp∪ Daftweb) ∪ (Daftth´e∪ Daftf aq) = Daftr∪ Dafte

Néanmoins, l’apport de Dafte, tel qu’il a été réalisé, et malgré les précautions prises, déna-ture fatalement l’homogénéité relative du corpus Daftr. Ceci n’est toutefois réellement problé-matique que lorsque l’on souhaite disposer d’informations précises quant à la fréquence d’un phénomène linguistique, les moins fréquents se trouvant surreprésentés par leur ajout manuel au corpus. Par conséquent, dans la suite nous allons travailler sur des sous-corpus différents en fonction des besoins à satisfaire : lorsque nous aurons besoin d’étudier des fréquences, nous nous baserons donc sur le corpus entièrement constitué des 4 500 requêtes recueillies Daftr, tandis que lorsque nous souhaiterons étudier de manière exhaustive l’ensemble des phénomènes linguistiques potentiellement présents, nous nous référerons aux 11 626 requêtes du corpus Daft dans son ensemble.

La répartition des requêtes au sein des différents sous-corpus de Daft est rappelée par la figure 3.5. Pour un aperçu plus conséquent des requêtes du corpus Daft dans son intégralité, on pourra se reporter à l’annexeA.

27% 14% 14% 45% Daftags Daftweb Daftthé Daftfaq

3.3.3.2 Définition du sous-corpus d’étude Daftsub

À plusieurs reprises dans la suite de cette thèse, nous aurons besoin de mener une étude particulière basée sur le corpus Daft, sans pour autant vouloir (ou pouvoir – le processus d’annotation pouvant être long selon les phénomènes que l’on cherche à identifier) traiter l’ensemble de celui-ci. Nous aurons alors souvent recours à deux sous-ensembles distincts du corpus Daftr représentant chacun environ un dixième du corpus Daftr total, composés de requêtes sélectionnées aléatoirement, en veillant simplement à ce qu’aucune phrase ne soit commune aux deux sous-ensembles.

Nous nommerons ces deux sous-ensembles Daftsub1 et Daftsub2, et travaillerons parfois sur l’union des deux, Daftsub.

En résumé, nous avons donc :

|Daftsub1| = 522 ≈ 101 |Daftr| |Daftsub2| = 552 ≈ 101 |Daftr| Daftsub1∩ Daftsub2 = ∅

Daftsub = Daftsub1 ∪ Daftsub2

|Daftsub| = 1 074 ≈ 1

10|Daft|

3.4 Conclusion

Nous avons montré dans ce chapitre l’intérêt fondamental de l’approche corpus dans la réalisation de systèmes d’interactions homme-machine à base de langue naturelle, et les raisons pour lesquelles le recueil d’un corpus spécifique à notre projet était indispensable. L’approche mixte utilisée pour la constitution de celui-ci (d’une part le recueil expérimental, d’autre part l’utilisation de thésaurus) nous garantit une couverture relativement correcte du domaine de l’assistance, tandis que l’utilisation d’applications de différentes natures assure que les structures linguistiques utilisées sont relativement génériques et indépendantes de l’élément assisté, ce qui nous permet d’espérer une certaine robustesse.

Analyseur syntaxico-sémantique :