• Aucun résultat trouvé

Un dictionnaire enrichi pour une détection exacte

Dans le document En vue de l'obtention du (Page 99-103)

DETECTION DE MOTS-CLES SUR FLUX PHONETIQUE

3.5. Un dictionnaire enrichi pour une détection exacte

Comme mentionné précédemment, les systèmes de reconnaissance vocale à grand vocabulaire gèrent classiquement les phénomènes de coarticulation grâce aux triphones comme modèles acoustiques et à l'application du critère de maximum de vraisemblance. Avec une approche phonétique, il est nécessaire de transcrire phonétiquement dans le dictionnaire tout ce qui est dit, et surtout ce qui peut être dit. En définitive, le but du dictionnaire est de pallier à toutes les éventualités que ce soit en termes de prononciations, de coarticulation, de liaisons ou autres. Malgré les règles de prononciation globalement précises du français, les prononciations de mots subissent de nombreuses variations que devra gérer notre dictionnaire.

Pour la génération de ce dictionnaire de prononciations multiples, nous utilisons le phonétiseur intégré dans BARATINOO version 6.3, le système de synthèse vocale d'Orange Labs. Cet outil permet, lors de la phonétisation des mots-clés, de générer les prononciations multiples concernant quatre types de variantes de prononciation :

- les différentes prononciations d'un même mot en fonction de son contexte grammatical ou sémantique; par exemple, la prononciation du mot "est" varie en fonction de son sens et est résolue par son contexte grammatical; la prononciation du mot "fils" est quant à elle résolue par son contexte sémantique;

- les variantes inhérentes au locuteur, c'est-à-dire l'accent régional ou les choix de prononciation; ex : "lait" prononcé "L AI" ou "L EI";

- les liaisons, c'est-à-dire la prononciation occasionnelle d'une consonne entre deux mots;

- la coarticulation, c'est-à-dire le phénomène physique entraînant une prononciation différente d'un phonème en fonction de ceux qui l'entourent;

Dans la suite, nous nous intéresserons plus particulièrement à l'impact de la coarticulation dans la génération des prononciations multiples.

Tout d'abord, revenons à l'origine de ces différences de prononciation. Une langue est une suite de sons enchaînés contenant relativement peu d'interruptions. Lors de la production de ces sons, le locuteur tend naturellement à anticiper la prochaine articulation plutôt qu'à isoler les sons. Cette anticipation modifie légèrement la qualité des sons, tout en permettant de conserver un message intelligible. Martinet [MAR 05] appelle ce phénomène "l'économie des changements linguistiques", économie qui oppose l'inertie des organes phonateurs à la discrimination des sons et la compréhension d'un message. La phonétique combinatoire, c'est-à-dire l'étude de l'interaction des sons, permet de décrire les variations de prononciations issues de cette opposition. La coarticulation y est décrite comme un phénomène intervenant quand les caractéristiques articulatoires (mouvements des lèvres, les rapprochements et éloignement périodiques des cordes vocales, etc) de réalisations phoniques sont observables sur des segments d'autres éléments contigus dans la chaîne parlée. Le degré de coarticulation dépend par exemple de l'accent, du débit, ou de l'environnement phonique. Il existe plusieurs phénomènes de coarticulation :

- l'assimilation : propension d'un phonème à prendre les caractéristiques d'un phonème voisin (voisement, dévoisement, nasalisation, …)

- la dilation : modification des caractéristiques d'un phonème due à l'anticipation d'un autre phonème non contigu;

- la différenciation : accentuation d'une différence entre deux phonèmes contigus;

- la dissimilation : accentuation d'une différence entre deux phonèmes voisins mais non contigus;

- l'interversion : interversion de phonèmes contigus;

- la métathèse : interversion de phonèmes voisins mais non contigus;

- l'épenthèse : insertion de phonème;

- l'élision, ou syncope : suppression de phonème.

Ces phénomènes peuvent être décrits comme étant de deux types : par anticipation, dite régressive, et par persistance, dite progressive. Un panorama de ces différents phénomènes de coarticulation est présenté dans le Tableau 12.

PHENOMENE EXEMPLES

Assimilation par voisement (régressive)

- "Cap-Vert" : K A P V AI R K A B V AI R - "paquebot" : P A K B O P A G B O

- "tête-bêche" : T AI T B AI CH T AI D B AI CH - "chef de" : CH AI F D EU CH AI V D EU

- "Israël" : I S R A AI L I Z R A AI L Assimilation par

dévoisement (régressive)

- "absent" : A B S AN A P S AN

- "Kingston" : K I N G S T O N K I N K S T O N - "robe verte" : R O B V AI R T R O P V AI R T - "médecin" : M EI D S IN M EI T S IN

- "je crois" : J K R W A CH K R W A Assimilation par

nasalisation

- "pendant" : P AN D AN P AN N AN (double) - "Pentecôte" : P AN T K O T P AN N K O T - "vingt-deux" : V IN T D EU V IN N D EU Phénomènes

d'assimilation

Dilation (sons éloignés)

- "définition" : D EI F I N I S Y ON D EI F EI N I S Y ON (progressive)

- "surtout" : S U R T OU S OU R T OU (régressive)

- "disséminer" : D I S EI M I N EI D I S I M I N EI (double)

Différenciation

(sons en contact) - "dehors" : D EU O R D EI O R Phénomènes de

différenciation

Dissimilation - "venimeux" : V EU N I M EU V L I M EU Interversion (sons

en contact) - "aéroport" : A EI R O P O R A R EI O P O R Changement de

l'ordre des sons Métathèse (sons

éloignés) - "séchoir" : S EI CH W A R CH EI S W A R Insertion d'un

son Epenthèse

- "arc-boutant" : A R K B OU T AN A R K EU B OU T AN

- "ours polaire" : OU R S P O L AI R OU R S EU P O L AI R

Effacement d'un

son Elision / Syncope

- "deux secondes" : D EU S EU G ON D D EU Z G ON D

- "question" : K AI S T Y ON K AI S Y ON Divers, erreurs

fréquemment rencontrées

- "Dominique" : D O M I N I K D EU M I N I K - "dommage" : D O M A J D EU M A J

- "national" : N A S Y O N A L N A S Y EU N A L

Tableau 12 : Phénomènes de coarticulation29

29 Tableau inspiré de l'introduction à la linguistique proposée sur le site de la Simon Fraser University (http://www.sfu.ca/fren270/Phonetique/)

Outre ces variantes, d'autres choix ont été effectués à l'étude des substitutions phonétiques les plus fréquentes, comme la fusion des voyelles ouvertes/fermées (EI/AI, AU/O, EU/OE). Ces fusions de phonèmes sont également appliquées aux transcriptions phonétiques. Dans un même ordre d'idée, d'autres erreurs récurrentes du moteur de DAP ont été ajoutées, à l'instar de la fusion de voyelles adjacentes (A EI R O P O REI R O P O R).

En plus de ces phénomènes de coarticulation, il existe d'autres variantes de prononciation propres à la méconnaissance du langage. Dans son Recueil des couacs ordinaires, Jacques Rozenblum [ROZ 04] passe en revue de nombreux travers de la langue et montre l'étendue des erreurs commises par nos concitoyens qu'il faudra également intégrer à notre dictionnaire. En voici quelques exemples :

- les malentendus de prononciations; ex: abasourdir qui se prononce abazourdir et non abassourdir;

- les prononciations locales de noms propres; ex : chamonix avec ou sans x;

- les noms propres étrangers; ex : 6 manières de prononcer Gorbatchev : gorbatchève ; gorbatchove ; gorbatcheff ; gorbatchoff ; guerbatchève ; guerbatchoff;

- les erreurs de liaisons; ex : dos-à-dos / les z'haricots;

Ces variantes prises en compte, un nouveau dictionnaire de prononciations multiples relatif à notre liste de 151 mots-clés est construit. Au total, le nombre de prononciations total s'élève désormais à 353. Un extrait en est donné dans le Tableau 13, la totalité étant donnée en annexe C.

Cameroun K A M R OU N EU Cameroun K A M EU R OU N EU Cameroun K A M EU R OU N Cameroun K A M R OU N Canada K A N A D A Cap-Vert K A B V AI R EU Cap-Vert K A B V AI R Cap-Vert K A P V AI R Cap-Vert K A P V AI R EU

Tableau 13 : Extrait de la liste de 151 mots-clés avec variantes de prononciations

Evaluation

Une évaluation réutilisant l'organisation des mots-clés en arbre a été effectuée par la détection de ces 353 prononciations dans les transcriptions phonétiques bruitées du corpus de test ESTER. Le résultat final est la détection correcte de 428 mots pour 605 fausses alarmes, c'est-à-dire un taux de rappel de 56.6% pour 41.4% de précision. Avec ce nouveau dictionnaire enrichi, on détecte donc "seulement" 11 mots corrects supplémentaires par rapport au dictionnaire basique, ainsi que 15 nouvelles fausses alarmes. Ce résultat correspond grossièrement à effectuer une détection approximative avec un seuil de tolérance fixé à 0.1. On peut en conclure que les quelques 328 non-détections sont dues non pas à des variations de prononciations, mais uniquement à des erreurs de décodage. Sachant que nous

souhaitons nous affranchir du calcul de la distance phonétique, nous prendrons ce taux de rappel comme limite haute de référence.

Après avoir étudié des méthodes dédiées à l'augmentation du taux de rappel, nous nous intéressons maintenant à l'autre problème inhérent à la détection de mot-clés, à savoir la réduction du nombre de fausses alarmes.

Dans le document En vue de l'obtention du (Page 99-103)