• Aucun résultat trouvé

Chapitre IX Vers une plate-forme de construction, déploiement et évaluation de systèmes de TA:

IX.1 C AHIER DES CHARGES , ARCHITECTURE , ET SPECIFICATIONS EXTERNES

IX.1.2 Spécifications externes

IX.1.2.1 Introduction

Cette partie a pour but de spécifier l'aspect externe de la plate-forme JIANDAN-EVAL, ce qui est utilisable par les différents types d'utilisateur au travers de l'utilisation des fonctionnalités auxquelles ils ont accès. Elle contient quatre sections :

les rôles d'utilisateur,

les scénarios d'utilisation associés,

les fichiers d’entrée et les fichiers de sortie, les interfaces du logiciel et les modèles de tâches. IX.1.2.2 Acteurs du système

Utilisateur. L’acteur « utilisateur » représente tout utilisateur physique souhaitant se servir de JIANDAN-EVAL. Il devra s’identifier dans le système, afin d’avoir par la suite les droits et privilèges correspondant à son profil. Un utilisateur normal a le droit de fabriquer un système de TA avec ses données, mais la taille des données d’entraînement est limitée à 50Mo. Si l’utilisateur veut utiliser de nouvelles données monolingues (différentes des données d’entraînement cible) pour fabriquer le modèle de langue, la taille est limitée à 50Mo. Lors de chaque session, un utilisateur peut fabriquer de 1 à 3 systèmes de TA. Il peut toujours choisir les données pour évaluer son système par BLEU/NIST, TER, etc.

Organisateur du projet. L’acteur « organisateur du projet » est un utilisateur qui peut proposer un projet d’évaluation de systèmes de TA. Il peut distribuer les rôles d’évaluateur et développer les mesures d’évaluation.

Évaluateur. L’acteur « évaluateur » peut participer au projet et évaluer la qualité de TA.

Administrateur. L’acteur « administrateur » gère les utilisateurs, et leurs privilèges.

Technicien. Un technicien surveille le processus de la création des systèmes de TA, et résout les problèmes, en particulier ceux liés au service Web. Il peut aussi utiliser un sous-système de communication avec les utilisateurs.

IX.1.2.3 Scénarios

IX.1.2.3.1 Création de systèmes de TA

La première tâche principale est le support de la création de systèmes de TA en ligne. JIANDAN-EVAL intègre les outils de MOSES, et permet d’entraîner les modèles de traduction en utilisant les données fournies par l’utilisateur ou des données publiques (EUROPARL, MULTIUN, EUBOOKSHOP, etc.).

Scénario 1 : Soumission des données d’entraînement

a.

1. Un utilisateur crée un système de TA du français vers l’anglais en utilisant une MT qui est sauvegardée au format TMX. Il entre un nom pour ce système.

2. JIANDAN-EVAL demande que le fichier de données soit compressé au format .zip ou .tar.gz, et que la taille du fichier compressé soit inférieure ou égale à 50Mo (pour plus, il faudra acquérir des droits supplémentaires).

3. Cet utilisateur soumet ses données d’entraînement à JIANDAN-EVAL. Il choisit la paire de langues français-anglais et soumet le fichier zip dans l’interface de JIANDAN-EVAL. 4. Il clique sur le bouton « Upload », et une fenêtre de sélection apparaît dans la page

Web. Il choisit le fichier sur son ordinateur local. Il fait un double-clic sur le fichier cible (ou bien il clique sur le fichier cible, puis sur le bouton « Confirm ») pour soumettre son fichier zip.

5. La progression du téléversement est représentée par une barre de progression.

6. Après le téléversement, le bouton « Next » redevient valide pour cet utilisateur. Quand il clique sur « Next », il entre dans l’interface d’entraînement.

Scénario 2 : Configuration d’un système de TA

b.

1. D’abord, l’utilisateur choisit son système préféré, par exemple MOSES, sur l’interface de configuration des systèmes de TA. Les paramètres modifiables de MOSES

apparaissent. L’utilisateur choisit MGIZA++ pour l’alignement des mots, et il coche la case « Parallel » pour créer les modèles dans les deux sens (français↔anglais).

2. Ensuite, il choisit IRSTLM pour l’apprentissage des modèles de langue, et PHRASE-BASED MODEL pour le modèle de MOSES. Il garde les valeurs par défaut des autres paramètres. 3. Enfin, pour faire le « Tuning », JIANDAN-EVAL demande à l’utilisateur de téléverser ses

données. Ce dernier choisit les données de Tuning déjà préparées avec l’aide de JIANDAN-EVAL, ou ignore cette étape, et les données de Tuning sont extraites à partir des données d’entraînement (premières lignes des données d’entraînement). Pour évaluer la qualité du système de TA obtenu, l’utilisateur téléverse les données de test sur le serveur, et coche les cases BLEU, NIST, et TER.

4. JIANDAN-EVAL envoie un mail de confirmation de l’entraînement de MOSES à l’utilisateur. Scénario 3 : Configuration simple d’un système de TA

c.

1. Après le téléchargement des données (au format .txt), l’utilisateur choisit la configuration simple de Moses. JIANDAN-EVAL demande de soumettre les données de test.

2. L’utilisateur soumet les données de test, et clique sur le bouton « Confirm ».

3. Le serveur SMTP envoie un mail de confirmation de l’entraînement de MOSES à l’utilisateur.

Scénario 4 : Surveillance de la procédure d’entraînement de système de TA

d.

1. L’utilisateur clique sur le bouton « Monitor » pour entrer dans l’interface de surveillance de l’état de TA.

2. L’utilisateur consulte l’étape actuelle de l’entraînement de système de TA. Il voit que la tâche d’entraînement est dans la deuxième étape « Clean data ». Il clique sur le bouton vert pour exporter un fichier LOG, qui contient l’information plus détaillée sur le déroulement de l’entraînement de TA. Il trouve que les données ne sont pas correctes, et il veut arrêter cette tâche.

3. Il clique alors sur le bouton « Cancel job », puis sur « Yes » dans une fenêtre de confirmation.

4. Sa tâche s’arrête, et un mail d’annulation de tâche lui est envoyé par le serveur SMTP. 5. La page Web retourne à la page d’accueil.

Scénario 5 : réussite de la création d’un système de TA

e.

1. Après la configuration de la création de son système de TA sur JIANDAN-EVAL, l’utilisateur se déconnecte du site JIANDAN-EVAL.

2. Il reçoit un mail d’annonce de fin d’entraînement de TA 10 heures plus tard.

3. Il se connecte alors sur le site JianDan-eval, et voit que son système de TA a été mis en place dans sa page de TA personnelle. Il commence à l’utiliser.

IX.1.2.3.2 Utilisation d’un système de TA

L’utilisateur peut utiliser un ou plusieurs systèmes de TA pour la traduction ou pour l’évaluation de la qualité de traduction. Les systèmes sont de 2 sortes : les systèmes créés par l’utilisateur, et les systèmes publics. Il s’agit donc de systèmes de TA déjà créés et disponibles dans JIANDAN-EVAL, ou bien de systèmes de TA comme GOOGLE TRANSLATE, BING, SYSTRAN, etc.

JianDan-eval fournit 2 façons d’utiliser les systèmes de TA personnels : (1) JianDan-eval contient une interface pour faire la traduction en ligne, comme GOOGLE TRANSLATE, et (2) l’API de JIANDAN-EVAL peut être intégrée dans le système de l’utilisateur.

Scénario 1 : Traduction en ligne

a.

1. L’utilisateur clique sur le lien « My MT » pour entrer dans l’interface de traduction de JIANDAN-EVAL.

2. Il choisit son système de TA « Moses-fr-en » (c’est le nom qu’il a donné à son système) pour la traduction. À gauche, il y a un champ de saisie, qui permet d’entrer les phrases source. L’utilisateur colle un texte, qui contient 5 phrases, dans le champ de saisie. Il clique sur le bouton « Translate », et la traduction apparaît dans la partie droite de l’interface.

3. L’utilisateur clique sur la case à cocher « PDF », puis sur le bouton « export ». Un fichier PDF, qui contient les résultats de traduction du système de TA, est téléchargé sur la machine locale de l’utilisateur.

Scénario 2 : Traduction de document

b.

1. L’utilisateur clique sur le lien « My MT » pour entrer dans l’interface de traduction de JIANDAN-EVAL.

2. Il clique sur le bouton « Translate a document », et choisit un document .txt (2000 phrases) sur la machine locale. Son fichier est soumis à JIANDAN-EVAL, et un mail est envoyé dans sa boîte aux lettres.

3. Après 5 minutes, il reçoit un mail de confirmation, disant que son document a été traduit. Ce mail contient un lien de téléchargement de fichier.

4. Il retourne à l’interface de traduction de JIANDAN-EVAL, et clique sur l’icône du fichier .txt de traduction. Le fichier de traduction est téléchargé dans la machine locale. Scénario 3 : Intégration d’API dans le système de l’utilisateur

c.

1. L’utilisateur a un projet de service Web développé sous ECLIPSE. Il importe le fichier JIANDAN-EVAL.JAR dans son projet.

2. Il ajoute un bandeau dans le code html de sa page d’accueil ; ce bandeau contient les systèmes de TA valables pour cet utilisateur dans JIANDAN-EVAL. Il choisit la langue source/cible pour son projet.

3. Il déploie son projet dans Tomcat, et un bandeau caché est intégré dans sa page d’accueil. Si on place la souris en haut de cette page, le bandeau de JIANDAN-EVAL apparaît.

4. L’utilisateur choisit la langue « English », et sa page d’accueil est traduite de français en anglais.

5. JIANDAN-EVAL est aussi un système d’évaluation, qui permet à l’utilisateur d’évaluer en ligne la qualité de son système.

IX.1.2.3.3 Évaluation des systèmes de TA

Apres l’entraînement d’un système de TA, l’utilisateur peut évaluer son système avec les données de test, et il peut calculer des scores comme BLEU, NIST, TER, etc.

Scénario 1 : Calcul de BLEU

a.

1. L’utilisateur clique sur le lien « Evaluation », et entre dans l’interface d’évaluation. 2. Les systèmes de TA qu’il a créés sont présentés dans un champ de sélection. Par

exemple, on y trouve les 3 systèmes de TA français-anglais que l’utilisateur a créés. 3. L’utilisateur choisit « All » TA, puis la langue source « fr » et la langue cible « en ».

Chacun des 3 systèmes de TA est alors évalué par la mesure BLEU.

4. L’utilisateur clique sur le bouton « Upload » pour télécharger de nouvelles données de test (par exemple, 50 bi-phrases, les phrases source et leurs traductions de référence), et coche les cases « BLEU » et « NIST ». Il clique sur le bouton « Start ». Le calcule des scores des 3 systèmes de TA commence.

5. Après quelques minutes, les scores ont été calculés sur les données de test, chaque phrase source a 3 résultats, et chaque résultat a 2 scores.

Scénario 2 : évaluation humaine dans un cadre de « Project »

b.

1. L’utilisateur a créé un projet dans JIANDAN-EVAL. Le projet contient 2 systèmes de TA du français vers le chinois, et 3 évaluateurs.

2. L’utilisateur propose un article en français pour évaluer la qualité de la TA. D’abord, l’article est segmenté en phrases. Ensuite, les phrases sont traduites de français en chinois par les 2 systèmes de TA.

3. Les 3 évaluateurs évaluent chaque traduction sur l’interface d’évaluation. Ils donnent un score à chaque traduction, et proposent une meilleure traduction pour chaque traduction. En même temps, ils ajoutent des commentaires aux traductions.

IX.1.2.4 Données d’entrée et données de sortie

Les données d’entrée de JIANDAN-EVAL sont de deux types :

1. des fichiers en format txt ou tmx, qui contiennent les données d’entraînement, les données de test, les données d’évaluation, etc. Ils sont utilisés pour entraîner les systèmes de TA, et les évaluer.

2. un système de TA (fabriqué avec Moses), destiné à être déployé sur JIANDAN-EVAL. Les données de sortie de JIANDAN-EVAL contiennent les traductions obtenues par TA, les résultats d’évaluation, l’information attachée, ou le système entraîné par l’utilisateur.

Documents relatifs