• Aucun résultat trouvé

De par la multitude de composants impliqués dans le fonctionnement d'un système de reconnaissance automatique de la parole et la variété des types de sorties, il existe un grand nombre de méthodes pour évaluer la qualité de l'intégralité ou d'une partie d'un système de transcription. Dans cette section, nous ne présentons que les mesures qui nous intéressent

pour notre travail d'adaptation thématique et que nous serons amené à évoquer dans la suite de ce manuscrit.

1.4.1 Taux d’erreur d’une transcription

Étant donné que les systèmes de reconnaissance ont pour vocation de générer des trans-criptions textuelles, les performances générales de ces systèmes se mesurent très générale-ment par des taux d'erreur relatifs au nombre de mots mal transcrits dans les séquences de mots retournées par rapport à une transcription de référence, le plus souvent d'origine manuelle. Plus ces taux sont bas, plus le système est considéré comme performant. Ces taux sont calculés en alignant les transcriptions automatiques du système avec leurs trans-criptions de référence de manière à minimiser une distance d'édition entre ces séquences respectives (Levenshtein, 1966). Cette distance d'édition est fonction du nombre d'opéra-tions élémentaires substitution d'un mot par un autre, insertion d'un mot et suppression d'un mot à eectuer pour passer de la séquence de référence à la séquence retournée par le système. Ce principe générique conduit à diverses mesures.

Taux d’erreur sur les mots. Le taux d'erreur sur les mots d'une transcription se calcule comme la distance minimale d'édition entre cette transcription et la transcription de ré-férence, rapportée au nombre de mots de la référence. Cette mesure se note WER, pour l'anglais word error rate, et s'exprime comme le pourcentage suivant :

WER= Nsub+Nins+Nsup

Ntotal , (1.11)

où Nsub, Nins et Nsup sont respectivement le nombre d'opérations de substitution, d'in-sertion et de suppression impliquées dans le calcul de la distance minimale d'édition, et Ntotal est le nombre de mots dans la transcription de référence. Il s'agit de la mesure la plus communément utilisée car elle donne une idée générale des performances du système.

En alternative au WER, il n'est cependant pas rare de voir les performances d'un système exprimées via un taux dit de reconnaissance s'exprimant comme1−W ER. D'autres taux d'erreur existent, souvent dédiés à l'évaluation d'un système pour des tâches spéciques.

Variantes du taux d’erreur sur les mots. Il est possible de restreindre le WER à un sous-ensemble de mots porteurs d'intérêt pour une tâche donnée plutôt que de s'intéresser à l'ensemble des mots. Un tel taux d'erreur peut se calculer soit à partir des transcriptions automatiques et de référence desquels ont préalablement été supprimés tous les mots jugés sans importance, soit en pondérant les mots de la référence en fonction de leur importance pour la tâche considérée de manière à ne pas pénaliser de la même façon toutes les erreurs de transcription (Nanjo et al., 2005). D'autres traitements peuvent être eectués préalable-ment au calcul du taux d'erreur. Il est notampréalable-ment possible de lemmatiser les transcriptions, c'est-à-dire de ramener chacun de leurs mots vers une forme canonique, appelée lemme4, an de faire abstraction des erreurs de exion pouvant être faites par le système de recon-naissance, notamment entre exions homophones. Dans notre travaux, nous seront amenés

4Par exemple, le lemme d'un verbe conjuguée peut être sa forme innitive, celui d'un adjectif féminin pluriel sa forme masculin singulier. . .

Méthodes d’évaluation

à combiner ces deux variantes au sein du calcul d'un taux d'erreur sur les lemmes des mots lexicaux5 que nous notons LER pour lemma error rate.

Taux d’erreur sur les phrases. Les performances globales d'un système de reconnais-sance peuvent se rapporter à un grain plus gros que celui du mot par le calcul du tage de groupes de soue mal transcrits par rapport à la référence, c'est-à-dire le pourcen-tage de groupes de soue de la transcription automatique qui contiennent au moins une erreur par rapport au nombre total de groupes de soue dans la référence. Ce taux d'er-reur est noté SER, pour sentence error rate, littéralement taux d'erd'er-reur sur les phrases bien que, comme nous l'avons déjà évoqué, la notion de phrase n'existe pas vraiment pour le langage transcrit. Ce taux d'erreur s'avère intéressant pour des applications où tous les mots d'une transcription sont importants. Par exemple, dans le cadre d'un dialogue homme-machine (système de questions/réponses, système de réservation. . .), il est important que le système de reconnaissance transcrive bien les marques de négation là où il y en a et n'en ajoute pas là où il n'y en a pas.

1.4.2 Taux d’erreur des graphes de mots : un taux oracle

Un taux d'erreur oracle, ou simplement taux oracle, désigne le plus petit taux d'erreur sur les mots que l'on peut atteindre en théorie à un moment donné du processus de trans-cription. De manière relativement répandue, un tel taux est calculé à partir des graphes de mots construits par le système pour un document à transcrire on parle alors graph error rate, ou GER en alignant chaque graphe avec la transcription de référence du groupe de soue qui lui correspond. Cet alignement s'eectue en cherchant le chemin du graphe de mots qui minimise la même distance d'édition que décrite précédemment. Alors que les taux d'erreur sur les transcriptions n'évaluent que les performances nales d'un système de reconnaissance automatique de la parole, le taux oracle sur les graphes de mots a l'intérêt de donner une idée du potentiel de reconnaissance à un instant donné du processus de transcription. Il est toutefois à interpréter avec prudence puisque plus un graphe de mots est gros, plus il a de chances de recenser la bonne hypothèse de transcription6. Ainsi, pour être comparables, des taux oracle doivent être calculés sur des graphes de mots de même taille.

1.4.3 Qualité des mesures de confiance

Comme évoqué en1.3.3, les mesures de conance renvoyées par un système ne sont pas parfaitement ables. Diérentes mesures existent pour évaluer ce manque de abilité. Dans l'ensemble, le calcul de ces indices de abilité se fonde sur celui du pouvoir prédictif des me-sures de conance pour distinguer les mots mal transcrits de ceux correctement transcrits au sein d'une transcription automatique. Ce pouvoir prédictif varie d'un indice de abilité à l'autre ; il peut se présenter sous la forme d'une erreur de classication (condence error rate ou CER) ou se fonder sur des mesures issues de la théorie de l'information (normalized

5Les mots lexicaux, ou mots pleins, représentent l'ensemble des mots de la langue à l'exception de ceux à l'usage le plus courant (préposition, articles, auxilaires. . .). Ces derniers, appelés mots vides, sont déconsidérés car ils sont jugés non signicatifs pour la description du contenu d'un texte.

6La présence de la bonne hypothèse dans le graphe de mots ne garantit néanmoins en rien que celle-ci soit jugée par le système comme la plus probable. Ainsi, augmenter la taille des graphes de mots ne présente pas d'intérêt en soi pour améliorer la qualité des transcriptions nales du système, d'autant plus que cette augmentation se traduit par des temps de calcul accrus.

cross entropy ou NCE).

Après avoir donné une vue d'ensemble du fonctionnement d'un système reconnaissance automatique de la parole à grand vocabulaire, nous terminons cette section par la des-cription plus particulière du système de transdes-cription Irene, système utilisé dans tous nos travaux.