Spécification des critères détaillés et des mesures à appliquer

III – Méthodes existantes de comparaison et d’évaluation des outils d’aide à la traduction

7. Exécuter l'évaluation:

4.5 Spécification des critères détaillés et des mesures à appliquer

Maintenant, pour chacune des caractéristiques que nous avons définies, nous allons établir des critères détaillés, qui nous permettront de mesurer de manière valable et cohérente les performances du système. Les critères ont été choisis en collaboration avec Bruna Novellas Vall, qui s’occupe entre autres de la maintenance de la mémoire de traduction au Comité international de la Croix-Rouge.

Nous allons énoncer avec précision les tests que nous allons faire passer aux systèmes, ainsi que le barème des points que nous allons attribuer en fonction des résultats. Pour la plupart des tests, nous allons nous conformer à une marche à suivre prédéfinie rigoureusement. Pour quelques autres, nous irons chercher les informations dans les caractéristiques des outils.

Selon les critères, nous emploierons des barèmes différents. Pour certains tests, seul le système le plus performant obtiendra des points, alors que pour d’autres, les deux systèmes obtiendront des points en fonction des résultats. Si les deux outils sont à égalité, ils obtiendront le même nombre de points.

Lorsque tous les tests auront été effectués, nous comparerons les résultats et nous serons en mesure de voir lequel des deux systèmes est le plus performant selon nos exigences.

4.5.1 Le rendement

Comportement temporel 4.5.1.1 Test 1

Nous allons d’abord compter le nombre de clics effectués du début de la création d’un nouvel alignement jusqu’au moment où le système est prêt à aligner les deux textes parallèles « Study on customary international humanitarian law » et

« Étude sur le droit international humanitaire coutumier». Le texte original est en anglais, et sa traduction est en français. Le texte anglais fait 14 099 mots et le texte français 18 429 mots, ce qui représente une trentaine de pages pour chaque texte.

Nous avons choisi ces textes pour leur longueur, particulièrement pour le deuxième test, afin que le temps obtenu soit représentatif des performances des deux outils. Les deux premières pages de chacun des textes figurent en annexe de ce mémoire (annexes 1 et 2).

Le système qui nécessite le moins de clics obtiendra 2 points, l’autre 0.

4.5.1.2 Test 2

Nous allons ensuite chronométrer le temps effectif mis par les systèmes pour effectuer l’alignement des deux mêmes textes, entre le moment où nous cliquons sur « aligner » et celui où l’alignement est terminé et s’affiche dans l’éditeur d’alignements.

Le système le plus rapide obtiendra 1 point, l’autre 0.

4.5.2 La fiabilité

Maturité

4.5.2.1 Test 3

Nous allons compter le nombre de segments mal alignés sur le nombre total de segments, pour les deux textes parallèles « How is the term "Armed conflict"

defined in International Humanitarian Law ? » et « Cuál es la definición de

"conflicto armado" según el derecho internacional humanitario? ». Le texte original est en anglais, et sa traduction est en espagnol. Le texte anglais fait 2 192 mots et le texte espagnol 2 412 mots, ce qui représente entre cinq et six pages pour

chaque texte. Nous avons choisi ces textes car ils contiennent des notes de bas de page, des puces, des abréviations, c’est-à-dire de nombreux éléments qui peuvent poser des problèmes lors de l’alignement, et qui permettront d’obtenir une idée précise des performances des deux outils dans ce domaine. Les deux premières pages de chacun des textes figurent en annexe de ce mémoire (annexes 3 et 4).

Le système qui fera le moins d’erreurs obtiendra 2 point, l’autre 0.

4.5.3 La maintenabilité

Facilité de modification 4.5.3.1 Test 4

Nous allons compter le nombre de clics nécessaires pour effectuer une modification sur un alignement erroné dans les deux textes parallèles du communiqué de presse n°08/16 : «Kenya: Spiralling attacks and reprisals » et

« Kenya : Spirale des attaques et des représailles ». Le texte original est en anglais, et sa traduction est en français. Le texte anglais fait 375 mots et le texte français 444 mots, ce qui représente une page pour chaque texte. Nous avons choisi ces textes car ils contenaient une erreur d’alignement fréquente que nous souhaitions corriger pour le test. Pour effectuer ce test, nous avons choisi un alignement 1 : 2 – qui illustre un type d’erreur fréquent – et nous fusionnerons les deux segments cibles pour obtenir un alignement 1 : 1. Les deux textes figurent en annexe de ce mémoire (annexes 5 et 6).

Le système qui nécessitera le moins de clics obtiendra 1 point, l’autre 0.

4.5.3.2 Test 5

En utilisant les deux mêmes textes, nous allons également compter le nombre de clics nécessaire pour corriger une faute de frappe dans un segment.

Le système qui nécessitera le moins de clics obtiendra 1 point, l’autre 0.

Précisons que pour ces deux tests, comme il s’agit d’une procédure toujours identique à effectuer ponctuellement, il n’est pas utile de prendre plusieurs textes.

4.5.4 La portabilité

Compatibilité 4.5.4.1 Test 6

D’abord, nous allons voir dans les caractéristiques des outils le nombre de types de fichiers reconnus pour l’alignement.

Le système qui reconnait le plus de types de fichiers obtiendra 1 point, l’autre 0.

4.5.4.2 Test 7

Nous allons ensuite voir dans les caractéristiques des outils s’il est possible d’aligner des fichiers PDF.

Si un système propose l’alignement des fichiers PDF, il obtiendra un point, si non, 0.

4.5.4.3 Test 8

Enfin, nous allons nous intéresser au format des fichiers obtenus après l’exportation.

Si un système génère des fichiers au format TMX, compatible avec la plupart des systèmes existants, il obtiendra 1 point, si non, 0.

Langues

4.5.4.4 Test 9

Tout d’abord, nous allons voir lequel des deux outils propose le plus grand nombre de langues pour son interface.

Le système qui propose le plus grand nombre de langues pour son interface obtiendra 1 point, l’autre 0.

4.5.4.5 Test 10

Ensuite, nous allons vérifier que les systèmes proposent les langues traduites par le CICR (français, anglais, espagnol, allemand et arabe).

Si un système propose toutes les langues, il obtiendra 2 points, si non, 0.

4.5.5 La capacité fonctionnelle

Préparation des textes 4.5.5.1 Test 11

Pour ce test, nous allons reprendre les textes du test 3 (« How is the term "Armed conflict" defined in International Humanitarian Law ? » et « Cuál es la definición de "conflicto armado" según el derecho internacional humanitario? »), qui figurent en annexes 3 et 4 à la fin de ce mémoire. Nous avons décidé de reprendre ces textes pour deux raisons. Tout d’abord, parce que comme pour le test 3, ces textes contiennent des notes de bas de page, des puces, des abréviations, c’est-à-dire de nombreux éléments qui peuvent poser des problèmes lors de l’alignement ; ensuite, de manière à pouvoir exploiter les résultats obtenus au test 3. En effet, nous allons, dans un premier temps, rappeler le nombre d’erreurs commises pour chaque outil sur les textes bruts (non préparés). Puis, dans un second temps, nous allons aligner les mêmes textes en les ayant préparés au préalable, c’est-à-dire qu’ils auront été épurés de tous les retours à la ligne, notes de bas de page, tableaux, symboles ou smart-tags susceptibles d’entraîner des erreurs d’alignement. Nous verrons ainsi si la préparation du texte a une influence sur la qualité de l’alignement. Nous comparerons ensuite les résultats et nous verrons lequel des deux outils demande le plus de préparation en amont. Le système le plus performant sera celui qui fera le moins d’erreurs sans préparation, car il fera gagner un temps précieux à la personne chargée de l’alignement.

Le système dont le nombre d’erreurs avec et sans préparation seront le plus proche obtiendra 2 points, l’autre 0.

Règles de segmentation 4.5.5.2 Test 12

Nous allons compter le nombre de clics nécessaires pour ajouter « chap. » à la liste des termes après lesquels le système ne doit pas segmenter.

Le système qui nécessitera le moins de clics obtiendra 1 point, l’autre 0.

4.5.6 Le prix

4.5.6.1 Test 13

À titre informatif, nous allons indiquer le prix de vente public des deux outils d’alignement que nous avons évalués. Il s’agit des prix figurant sur le site internet des deux entreprises.

Aucun point n’est attribué pour ce critère.

4.6 Conclusion

Dans ce chapitre, nous avons défini les caractéristiques et les critères que nous souhaitons évaluer, en nous appuyant sur les informations que nous avions sur le contexte d’utilisation des outils et du profil utilisateur.

À présent, nous allons pouvoir lancer l’évaluation des deux outils.

Dans le document Comparaison de deux outils d'alignement dans le contexte de CICR : AlignFactory et WinAlign (Page 44-50)