Méthodes et recommandations .1 Les fondements

III – Méthodes existantes de comparaison et d’évaluation des outils d’aide à la traduction

3.2 Méthodes et recommandations .1 Les fondements

En 1993, dans son article intitulé « Sur l’évaluation des systèmes de traduction assistée par ordinateur²³ », Margaret King²⁴ pose les bases d’une méthodologie d’évaluation centrée sur la notion d’utilisateur. Elle explique que celle-ci peut être menée par différents types de personnes : les utilisateurs, les développeurs, les investisseurs ou les acheteurs. Tous n’auront pas les mêmes attentes de l’évaluation ; par exemple, les utilisateurs souhaiteront que celle-ci les aide à choisir le produit qui leur convient, alors que les développeurs l’utiliseront pour améliorer leurs produits. La variété de ces attentes a peut-être aussi sa part de responsabilité quant au manque d’évaluations disponibles, qui ne correspondraient pas à tous les profils existants.

Du point de vue du futur utilisateur, qui nous intéresse ici, une évaluation permet de déterminer si un système correspond à ses besoins, ou plutôt quel système correspond le mieux à ses besoins, car un système répond rarement à toutes les attentes d’un utilisateur. Les besoins d’un utilisateur sont exprimés en critères et il convient qu’ils soient le plus détaillés possibles, afin de prendre en compte tous les aspects du système. Margaret King cite les critères suivants, adaptables à l’utilisation de chacun : la terminologie intégrée au système, les modifications (la maintenance), les performances, l’aide fournie après achat, le prix, l’intégration dans un système informatique déjà installé et la formation des utilisateurs.

23 King (1993)

24 Margaret King est linguiste informatique, elle a été directrice de l’ISSCO et du département de TIM à l’ETI, où elle a enseigné plusieurs cours sur les nouvelles technologies. Ses recherches portent sur la traduction automatique, la sémantique des langages naturels et l’évaluation des produits et systèmes linguistiques. Dans ce dernier domaine, qui nous intéresse particulièrement pour ce travail, elle a notamment présidé le groupe de travail sur l’évaluation EAGLES (Expert Advisory Group on Language Engeneering Standards).

Malgré les différences de critères, Margaret King distingue quatre étapes à respecter pour effectuer une bonne évaluation :

- Identifier les besoins qu’on espère satisfaire et ce qu’on attend du système pour établir une liste de critères ordonnée en fonction de l’importance. Les critères sont définis par le contexte, donc par la personne qui effectue l’évaluation, en fonction de ses intérêts.

- Rechercher une technique pour réunir les données concernant les critères

- Rassembler les données et leur analyse

- Donner un jugement de base sur les informations obtenues.

La personne qui mène l’évaluation est ensuite libre d’imaginer les critères qui lui seront utiles, selon ce qu’elle cherche à tirer du processus.

Il existe ainsi la méthode dite exclusive, qui consiste à poser une question et à y répondre simplement par oui ou par non. On peut imaginer poser une question telle que « Le système peut-il fonctionner sur un ordinateur de type Z ? ». Si la réponse est non, le système est exclu. Cette méthode est plutôt indiquée pour la comparaison d’un grand nombre de systèmes, et il est recommandé de l’appliquer avec des critères indispensables, sans quoi le risque est grand d’exclure tous les systèmes très rapidement.

Il est également possible de mener une évaluation en utilisant le chronométrage. Il faut alors effectuer différentes tâches avec le système, tout en chronométrant, puis décider si le temps obtenu est acceptable, ou alors choisir le système le plus rapide.

Enfin, il existe la technique du contrôle du comportement, qui consiste à faire subir au système diverses expériences, puis à inscrire les résultats de chaque expérience sur une échelle de notation prédéfinie. Les notes des systèmes sont ensuite comparées et révèlent ainsi quel système est le plus performant.

Ces trois méthodes sont parfaitement adaptées aux objectifs de notre travail. En effet, nous allons pouvoir inclure à notre évaluation un grand nombre de critères,

que nous aurons choisis en fonction des besoins déterminés. De cette manière, nous pourrons juger de la qualité de toutes les compétences qui nous intéressent dans les deux outils. Ces indications données par Margaret King ont été développées à l’occasion du projet EAGLES, que nous allons détailler maintenant.

3.2.2 L’initiative EAGLES et la norme ISO 9126

L’initiative européenne EAGLES a été menée sur 3 ans par un groupe de travail composé de différents chercheurs, sous la direction de Margaret King. Le groupe de travail avait pour objectif d’identifier et de définir les composants indispensables à la conception d’un recueil de critères d’évaluation, ainsi que des conseils pour les utiliser. Le projet nous intéresse particulièrement pour ce travail car il est centré sur l’utilisateur humain.

Le rapport EAGLES²⁵, publié à la fin du travail, en 1994, ne prétend pas être exhaustif, ni contenir une méthodologie de l’évaluation complète ; il doit plutôt être considéré comme un guide pour l’évaluation.

Le groupe de travail insiste sur le fait qu’il est indispensable que l’évaluateur puisse choisir des critères qui sont pertinents pour son travail. Les chercheurs se sont concentrés sur la question de l’évaluation des systèmes et des produits de linguistique informatique, en différenciant trois types d’outils : les aides à l’écriture, les aides à la traduction et les systèmes de gestion des connaissances.

La méthode d’évaluation proposée par EAGLES reste dans le même esprit que les recommandations de Margaret King dont nous avons parlé dans le point précédent : il s’agit d’une méthode centrée sur l’utilisateur, qui laisse à l’évaluateur une grande liberté dans le choix de ses critères. Pour ces raisons, nous allons suivre la méthode EAGLES et adapter les critères à toutes les caractéristiques que nous souhaitons évaluer dans nos deux programmes. Nous appliquerons bien entendu le même barème de notation aux deux programmes, ce qui nous permettra de trouver lequel est le plus performant.

25 EAGLES Evaluation Working Group (1994)

Le groupe de travail EAGLES a pris comme point de départ la norme ISO 9126²⁶, qui définit un langage commun pour modéliser les qualités d’un logiciel. La norme dénombre six caractéristiques pour les logiciels : la capacité fonctionnelle, la fiabilité, la facilité d’utilisation, le rendement, la maintenabilité et la portabilité ; ainsi que cinq étapes dans le déroulement de l’évaluation : la définition des exigences de qualité, la spécification de l’évaluation, la préparation de l’évaluation, la réalisation de l’évaluation et la production du rapport d’évaluation.

Ci-dessous, nous allons présenter les attributs de chaque caractéristique de la norme sous forme d’un tableau. Afin de comprendre l’objectif d’évaluation de ces attributs, nous avons imaginé une question type pour chacun d’entre eux, en nous inspirant du tableau illustrant un article²⁷ publié sur le site brésilien Scientific Electronic Library Online (www.scielo.br). Bien sûr, la portée d’un attribut ne se limite pas à la question proposée, qui fait seulement office d’exemple. En outre, il faut noter que les attributs revêtent différents degrés d’importance selon le type d’outil évalué.

Caractéristiques Attributs Exemple de question Capacité

Fiabilité :

 Stabilité

Tableau 6 : Questions clefs pour les caractéristiques et les attributs de la norme ISO 9126

La volonté du projet EAGLES est d’établir une liste de vérification (checklist) correctement normée, afin qu’elle soit applicable à n’importe quel outil et que les résultats ne dépendent pas des variables situationnelles. Chaque élément d’une liste de vérification doit pouvoir être évalué selon :

- une échelle (très bien, bien, moyen, mauvais, très mauvais) - la présence ou l’absence d’un élément (oui ou non)

- la valeur numérique de l’élément (temps, nombre de clics…) Selon le résultat, les points attribués seront plus ou moins importants.

Le rapport EAGLES distingue trois types de tests :

- La liste de caractéristiques (Checklisting of features), une structure hiérarchique comportant les composants, les fonctions, les attributs et les valeurs d’un outil. Il n’y a pas encore de test à ce stade, il s’agit juste d’attester de la présence ou de l’absence des caractéristiques recherchées. Par exemple, nous pourrions voir si les deux outils supportent les documents .pdf ou non. Si tel n’est pas le cas, l’outil ne sera pas exclu, mais il n’obtiendra pas de points pour cette caractéristique.

- Le test scénario (Scenario test), durant lequel l’évaluateur travaille sur l’outil, puis fait part de ses observations concernant la qualité et l’efficacité de l’outil en tant qu’utilisateur. Les résultats peuvent être donnés sous forme de questionnaires, d’évaluations à base de mots clefs, de rapport libres. Par exemple, il pourra être demandé à l’évaluateur de répondre à la question « Pensez-vous que la modification des alignements dans la base est 1) Très facile, 2) Moyennement facile, 3) Difficile ».

- Le test de performance (Benchmark testing), qui a pour but de déterminer la performance de l’outil pour une tâche donnée.

Contrairement au test de scénario, le test de performance est totalement objectif, puisqu’il mesure des données métriques. Par exemple, un test peut porter sur le temps mis par l’outil pour aligner un texte. Selon le résultat, les points attribués sont plus ou moins importants.

Nous remarquons que, selon le type de mesure utilisé, l’objectivité est plus ou moins respectée ; c’est pourtant elle qui garantit la validité des résultats. Nous éviterons, dans la mesure du possible, d’inclure trop de jugements humains dans nos évaluations, afin d’obtenir des résultats fiables.

Pour la suite de notre travail, nous allons nous intéresser principalement à la partie des aides à la traduction, qui correspond à l’annexe E²⁸ du rapport final EAGLES. En effet, les outils d’alignement que nous allons évaluer font partie de la catégorie des aides à la traduction, et nous trouverons dans cette annexe des éléments utiles à notre travail. Cette annexe est divisée en quatre parties : la première concerne les profils d’utilisateurs et attire notre attention sur l’importance de définir précisément le contexte de notre évaluation. Les deuxième et troisième parties décrivent les différents types d’aides à la traduction ainsi que leurs fonctionnalités. Ces parties ne contiennent pas beaucoup de détails sur les outils d’alignement en particulier, elles insistent encore une fois sur l’importance de fixer des normes d’évaluation, pour assurer la validité de la méthode et des résultats :

« Any feature checklist in the context of evaluation needs to be standardized in the sense that it should be applicable for any such tool and the results should be independent of situational variables. »

(EAGLES Evaluation Working Group, Evaluation of Natural Language Processing Systems Final Report, 1994. P. 140)

28 EAGLES Evaluation Working Group (1994) pp. 136-155

La quatrième partie de cette annexe s’intéresse à la procédure d’évaluation. Elle propose une liste des étapes à suivre pour mettre en œuvre une évaluation méthodologique, en s’appuyant sur les recommandations de la norme ISO 9126 dont nous avons fait la liste dans la section précédente : la définition des exigences de qualité, la spécification de l’évaluation, la préparation de l’évaluation, la réalisation de l’évaluation et la production du rapport d’évaluation. Ces informations ont été résumées par les auteurs dans le document que nous allons étudier dans la prochaine section.

3.2.3 L’évaluation en 7 étapes

Quelques années après la fin des recherches, le groupe de travail EAGLES a établi le document « Les clefs de l’évaluation en 7 étapes »²⁹, qui nous sera très utile pour continuer nos recherches de manière structurée. Il s’agit d’un résumé en 7 étapes des points importants que le rapport complet EAGLES conseille de suivre pour mener à bien l’évaluation centrée sur l’utilisateur d’un système de technologie linguistique. Ce document, que vous trouverez ci-dessous, a été publié par l’Observatoire suisse des industries de la langue³⁰. Dans le chapitre suivant, qui sera consacré à l’évaluation des systèmes, nous reprendrons les 7 étapes et nous les détaillerons.

L'évaluation en 7 étapes:

Dans le document Comparaison de deux outils d'alignement dans le contexte de CICR : AlignFactory et WinAlign (Page 25-33)