Paramétrisation - A MELIORATIONS DES I MAG DANS LE CADRE DU PROJET T RAOUIERO

I.3 A MELIORATIONS DES I MAG DANS LE CADRE DU PROJET T RAOUIERO

I.3.1 Paramétrisation

I.3.1.1 Réalisation d'un configurateur d'iMAG par C. P. HUYNH

Dans le cadre de la thèse de C.P. HUYNH, on a construit SECTRA_W pour permettre de mettre en œuvre des paramétrages « externes » au niveau du paramétrage et de la configuration par les non-informaticiens :

• Optimisation de l’interface d’évaluation subjective selon les critères d’évaluation d’une campagne, et le réglage de l’interface (nombre de segments, de colonnes, de langues, etc.).

• Filtrage de données post-éditées selon la date, l’auteur, la qualité (niveau traductionnel, note de qualité), etc.

• Recherche et remplacement interactif dans une sélection arbitraire (ensemble de segments, ensemble de documents).

• Récupération de données à partir de MT en fonction de divers paramètres.

• Lancement automatique des appels de systèmes extérieurs (TRADOH++, PIVAX, etc.). Au niveau du paramétrage et la programmation par des contributeurs informaticiens, SECTRA_W permet d’écrire facilement des scripts pour le traitement de données, tels que des scripts pour l’import et l’export de corpus. Par exemple, A. FALAISE a écrit un script permettant l’appel depuis l’extérieur de la fonction d’import de SECTRA_W pour importer un corpus du projet SURVITRA et un autre du projet OMNIA. Cependant, nous n’avons pas encore développé les langages (langage de conditions booléennes, langage de flots de travail, langage narratif) dans la version actuelle de SECTRA_W. Nous prévoyons de les intégrer dans la prochaine version.

I.3.1.2 Améliorations prévues mais pas encore réalisées

Il faudrait améliorer le logiciel IMAG pour que, en fonction des informations sur le site S et des paramètres de l'accès multilingue à S, il appelle l'IMAG-S avec les paramètres adéquats. Ces paramètres concernent surtout les langues (lesquelles sont éditables, modérables, post-éditées, modérées, ou exclues...) et les systèmes de TA (lesquels sont souhaités, avec quels paramètres, avec quelles préférences entre systèmes pour chaque couple de langues, avec quels chemins traductionnels pour chaque couple, etc.).

Sur l’interface, le paramétrage d’une iMAG doit pouvoir permettre à l’administrateur d’un site Web « élu » de personnaliser la présentation (message de bienvenue, feuille de style), et de choisir les interacteurs qu’il veut proposer à ses visiteurs, selon leur rôle. Par exemple, la feuille de style pourrait permettre de générer une présentation « à la NEON », avec le texte source écrit au-dessus du texte cible, ligne par ligne, et la palette pourrait contenir les noms des contributeurs à chaque segment, et/ou son origine (niveau de à ), et/ou sa note (de 0 à 20), etc.

I.3.2 Travail de spécification

I.3.2.1 iMAG-Relais

Pour mieux gérer les rôles des utilisateurs entre composants différents, Valérie Bellynck a proposé un nouveau composant dit « RELAIS », qui aura pour rôle d’assurer l’identification vis-à-vis des différents services, en octroyant aux utilisateurs, de façon transparente, les droits suffisants pour assumer les tâches associées à leur rôle dans chacun d’eux, en fonction des paramétrages choisis par l’administrateur référent d’une passerelle IMAG, ou par ses administrateurs délégués. Nous reprenons ici une partie de son texte.

Lorsque le problème du transfert des droits a été identifié, le rôle du relais devait être de relayer les droits entre les différents services utilisés dans une architecture multiservices dans lesquels les utilisateurs peuvent avoir des rôles et des droits différents selon le service exploité. Il s’agit de transmettre ces droits sans introduire de faille de sécurité dans les services exploités.

Non seulement les types des rôles peuvent être différents (quelqu’un peut être client dans un site commercial de souscription d’offres de services, et modérateur dans un site contributif visant à construire collaborativement de la connaissance), mais les termes utilisés pour identifier les rôles peuvent être identiques tout en ne correspondant pas à des accès identiques aux mêmes fonctions.

I.3.2.2 Tableau blanc

Dans l'implémentation actuelle des IMAG, la plupart des composants sont des services Web, utilisés comme des serveurs. On constate deux inconvénients : (1) ces services ne sont pas autonomes (il faut les relancer à la main ou indirectement par des scripts), et (2) on n'a pas de vision sur ce qui se passe dans le système global, et qui peut être compliqué. En effet,

• il y a des appels mutuels. Par exemple, SECTRA_W appelle PIVAX en lui envoyant des segments, pour en recevoir des minidictionnaires en HTML, et PIVAX peut appeler SECTRA_W pour en obtenir la prétraduction et la post-édition des exemples d'usage contenus dans des articles de dictionnaires.

• il y a des exécutions de tâches en boucle infinie, qui sont pour l'instant limitées à des files d'attente de tâches considérées comme élémentaires29. Par exemple, un corpus peut être en train d'être traduit de français en allemand, un document EOLSS peut être en train d'être déconverti depuis UNL30 vers le français ou le russe (par appel à des serveurs de TA, via TRADOH++), et plusieurs documents et mémoires de traductions peuvent être en cours de post-édition ou d'évaluation humaine.

Donc le but de cette tâche est de :

D’après C. BOITET, « Il s'agit de précalculer des traductions automatiques et des minidictionnaires de façon incrémentale, et une infinité équitable de fois si on avait l'éternité devant soi, de façon à mettre à jour ces résultats, sachant que les systèmes de TA et les ressources lexicales évoluent constamment. »

Les documents EOLSS exploités sous SECTRA_W ont des fichiers compagnons UNL qui associent un graphe UNL à chaque segment, et ces graphes sont stockés comme des annotations d'un type particulier dans SECTRA_W.

• construire, comme cela a déjà été envisagé dans le projet (ANR) OMNIA, un dispositif de contrôle du système complet par tableau blanc et chef d'orchestre31 ;

• organiser les modules principaux comme des agents à gros grain, capables d'initiative, et en particulier capables de se relancer seuls, et de déterminer eux-mêmes ce qu'ils ont à faire en faisant appel au tableau blanc.

I.3.2.3 Architecture en agents à gros grains

Lorsque le système à modéliser est trop complexe, une analyse globale révèle rapidement ses limites. Il est souvent plus simple et rapide de chercher des solutions à des problèmes plus locaux, selon le principe classique en informatique du « diviser pour régner ». Par exemple, pour réguler le trafic aérien, de trop nombreux paramètres et contraintes influent sur le résultat de l’ensemble pour qu’une approche globale permette une résolution fiable.

En revanche, des solutions locales aident à résoudre élégamment et efficacement de telles difficultés. Les résultats obtenus sont souvent acceptables, bien qu’il soit au mieux difficile et au pire impossible de prouver cela théoriquement. L’approche multi-agents permet d’obtenir plus simplement des résultats sur des problèmes complexes, en contournant les difficultés qu’auraient des algorithmes globaux pour les gérer.

I.3.2.4 Files d’attente

Dans les cas où plusieurs clients (SECTRA_W/IMAG, TRADOH, PIVAX, etc.) veulent demander un traitement particulier, la communication par messages est souvent intéressante. En effet, elle permet de découpler les demandes des clients (comme l’appel à des systèmes de TA), et les traitements par les serveurs. Dans certains cas, les traitements à effectuer sont plus importants que le simple calcul d’une page. Il est alors beaucoup plus intéressant de passer par une liste de tâches partagées par les clients et les serveurs.

L’idée d’utiliser un système général de gestion de files d’attente sur le Web n’a finalement pas pu être réalisée lois du projet TRAOUIRO, faite de temps. Nous l’avons reprise, dans le cadre de cette thèse et de celle de Y. ZHANG. Nous en parlons plus en détaille vers la fin de ce mémoire (Voir IX.1.3.4).Disons seulement ici que nous utilisons ACTIVEMQ32 de la fondation APACHE.

Cette idée a été proposée et expérimentée il y a déjà longtemps par Ch. Boitet et M. Seligman (Boitet, Blanchon et al., 1994) Boitet, C., Blanchon, H., Seligman, M. and Bellynck, V. (1994). Evolution of MT with the Web. Proc. Conference "Machine Translation 25 Years On". pp. 1-13., pour la TA de parole hétérogène, et

est devenue récemment un axe de recherche reconnu, avec par exemple un atelier à LREC-2010 sur les flux de

traitements linguistiques. 32

Chapitre II Travail sur des aspects plus conceptuels et définition

Dans le document Outils et environnements pour l'amélioration incrémentale, la post-édition contributive et l'évaluation continue de systèmes de TA. Application à la TA français-chinois. (Page 46-49)