• Aucun résultat trouvé

II. Aperçu sur quelques SRAP pour des langues peu dotées

4.7 Translittération des données en dialecte tunisien

4.7.3 Evaluation de l’outil de translittération

4.7.3.2 L’évaluation en contexte

À ce propos, nous avons demandé à 4 juges de translitérer 200 phrases contenant 832 mots. Notons que nous avons répété quelques mots dans le corpus de test, mais dans des contextes différents. Au début, nous avons testé les pourcentages d’accord entre les translittérations des juges. Le tableau ‘4.4 illustre les résultats de l’accord inter-juge. La variation de pourcentage est due au fait que, pour certains mots, les juges ne sont pas d’accord entre eux.

2 juges 3 juges 4 juges

Accord 94% 93% 90%

Table 4.4 – Résultats de l’accord inter-juge.

Dans une analyse de l’accord inter-annotateurs, l’accord global entre les quatre juges était de 90%. Nous avons analysé tous ces désaccords et nous les classé en trois catégories de haut niveau :

• CODA : Certains cas de désaccord ont été liés à des décisions de CODA à cause de manque de connaissances des directives de cette convention

• Les mots étrangers : Certains cas de désaccord étaient liés à des mots étran-gers. En fait, dans certains cas, les juges ne sont pas d’accord sur la trans-littération de mots étrangers. Par exemple, le mot français «demain» été translittéré en caractères arabes par deux juges comme

àA ÓðX

/dwmAn/ [de-main] et il a été translittéré en caractères arabes par deux autres juges comme

àA ÓX

/dmAn/.

• Ambiguïté : le désaccord des juges reflète une lecture différente de mot écrit en caractère latin qui a abouti à une caractéristique d’inflexion.

Après cela, nous avons effectué une deuxième évaluation qui a consisté à com-parer ce que notre système a proposé comme translittération avec les propositions

des juges. Le pourcentage d’accord entre les translittérations des juges et les trans-littérations proposées par notre système a été calculé. Le calcul du pourcentage d’accord et de désaccord a été fait comme suit : s’il y a un accord entre la pro-position de notre système et une seule propro-position de l’un des quatre juges, nous avons attribué une valeur 1, dans le cas contraire, ca valeur devrait être 0. Le tableau 4.5 montre le pourcentage d’accord entre les translittérations des juges et les translittérations proposées par notre système dans le cas de l’évaluation en contexte.

Type Accord

Les mots d’origine arabe

92% Des mots étrangers 89%

Table 4.5 – Le pourcentage d’accord entre les translittérations des juges et les translit-térations proposées par notre système dans le cas de l’évaluation en contexte.

Les erreurs sont principalement dues aux raisons suivantes :

• erreurs dues à l’ambiguïté de l’écriture du mot en caractère latin. Par exemple, le mot d’entré est montagne qui est dans le contexte "barcha jbAl" [beaucoup de montagnes], le système génère

ÉJ.k.

/jbl/, tandis que la bonne réponse est

ÈA J.k.

[montagnes].

• Des erreurs se produisent lorsque le système génère des translittérations de mots qui ne sont pas compatibles avec la forme CODA.

• Des erreurs dues à la translittération incorrecte de certains mots étrangers.

4.8 Conclusion

Dans ce chapitre nous avons présenté un recueil des corpus pour de dialecte tunisien qui représente une tâche indispensable pour le développement d’un SRAP. Les données recueillies comportent d’une part des signaux de parole, et d’autre part des données textuelles. Ainsi, nous avons présenté les étapes de création de notre corpus nommé TARIC : Corpus de l’interaction des chemins de fer de dialecte tunisien dans le domaine de la SNCFT. En fait, la tâche essentielle de ce corpus d’audio consiste à demander des informations sur les services de chemin de fer dans une gare ferroviaire en dialecte tunisien. Le logiciel que nous avons utilisé pour la transcription est « Transcriber ». Tout au long de ce travail, nous avons adopté notre convention de normalisation CODA lors de la transcription de notre corpus.

Néanmoins, notre corpus TARIC que nous avons recueilli a atteint les 20 heures qui présentent une quantité limitée pour la conversion G2P. Dans le but de pallier le problème de la carence des données, nous avons essentiellement considéré des ressources issues à partir de deux méthodes de collection de données de grande quantité. Premièrement, une attention particulière a été apportée à une approche intéressante qui vise à «aspirer» les sites Web en dialecte tunisien. Deuxièmement, nous avons fait recours à l’utilisation d’un outil de translittération pour retrans-crire les données recueillies en caractères arabe. Ainsi, il faut s’assurer que cette conversion est effectuée suivant la convention de l’orthographe CODA de l’arabe dialectal.

Dans le chapitre 5, nous présentons une approche pour la conversion G2P en vue d’obtenir un dictionnaire phonétique. Ce dernier est constitué comme un élément central de l’apprentissage des modèles acoustiques de SRAP.

Conversion G2P pour le dialecte

tunisien

Sommaire

5.1 Introduction . . . 113 5.2 Les problèmes de conversion G2P du dialecte tunisien . . . . 113

5.2.1 Le système d’écriture du dialecte tunisien . . . 113 5.2.2 Les problèmes morpho-phonémiques . . . 115 5.2.3 Les problèmes d’élision . . . 117 5.2.4 Les variations phonétiques et phonologiques . . . 118

5.3 La conversion G2P : approche à base de règles . . . 120

5.3.1 Le lexique des exceptions . . . 121 5.3.2 Les règles phonétiques du dialecte tunisien . . . 122 5.3.2.1 Format des règles . . . 122 5.3.2.2 L’application des règles . . . 123

5.4 Evaluation . . . 139

5.4.1 Présentation de l’outil d’évaluation . . . 139 5.4.2 Résultats obtenus . . . 140 5.4.3 Discussion . . . 140

5.5 La conversion G2P : approche probabiliste . . . 141

5.5.1 Etape d’alignement . . . 142 5.5.1.1 Alignement basé sur GIZA++ . . . 143 5.5.1.2 Alignement basé sur JMM . . . 144 5.5.2 Etape expérimentale . . . 144 5.5.2.1 Les mesures de performance . . . 144 5.5.3 Les résultats expérimentaux . . . 145 5.5.3.1 Seule génération de prononciation par mot . . . 145 5.5.3.2 Génération multiple de prononciation par mot . . . . 147

5.1 Introduction

Dans le cadre de la RAP, le système de conversion G2P permet de générer un dictionnaire de prononciation. Ce dernier est un élément central de l’apprentissage des modèles acoustiques. En fait, il s’agit d’associer chaque entrée du dictionnaire, qui est présentée sous la forme d’une séquence de graphèmes (i.e. chaque mot), à une suite de phonèmes qui lui est propre.

Dans ce chapitre, nous abordons la conversion G2P du dialecte tunisien en vue de la transcription automatique de la parole. Cette conversion ou phonétisation peut être définie comme la tâche de transformer un mot donné (séquences de gra-phèmes) à ses symboles phonétiques correspondants (séquences de phonèmes). Sa complexité varie selon la langue traitée. Par exemple, la conversion G2P de l’espa-gnol semble une tâche traitable en se basant sur des règles phonétiques simples et dépendantes de cette langue en raison de la correspondance plus ou moins directe entre l’écriture alphabétique et les systèmes phonétiques utilisés. Par ailleurs, il existe d’autres langues qui ont seulement des régularités partielles entre leur or-thographe et les systèmes phonétiques comme le français ce qui engendre une am-biguïté dans la correspondance entre les systèmes orthographiques et phonétiques. Pour la langue arabe, la correspondance entre les systèmes orthographiques et phonétiques se situe entre le simple (espagnol) et le complexe (français).

Nous avons initié par un survol sur les problèmes de la conversion G2P du dia-lecte tunisien, nous visons dans ce chapitre de s’intéresser plus aux solutions propo-sées pour résoudre ces problèmes et les règles utilipropo-sées pour la tâche de conversion G2P de cette langue.

Documents relatifs