• Aucun résultat trouvé

Nous avons proposé précédemment (cf. section 8.1) d’utiliser les probabilités d’émis-sion des états du modèle SCHMM comme une verd’émis-sion spécialisée du modèle du locu-teur indépendant du texte du deuxième niveau de notre architecture.

L’apprentissage des modèles de Markov cachés est un problème complexe qui nécessite des ressources importantes, comme nous l’avons vu dans la partie 8.1.1. Nous propo-sons dans cette partie un processus d’apprentissage itératif des modèles de mots de passe et nous mettons en exergue les choix auxquels nous avons été confrontés.

8.2. Apprentissage itératif des modèles de mot de passe

Parmi les questions auxquelles nous devons répondre pour optimiser les perfor-mances de notre approche de reconnaissance du locuteur structurale, il nous faut dé-terminer le degré de spécialisation des modèles SCHMMs. La modélisation doit être la plus précise possible (nombre d’états, dimension, paramètres des probabilités d’émis-sion, etc.), tout en tenant compte de la quantité limitée des données d’apprentissage et de test.

La place des tramesnon-parole(introduites dans la section 3.1.4) au sein de l’organisa-tion temporelle de la séquence acoustique constitue une autre problématique qui doit être abordée dans le cadre de nos travaux. En effet, nous avons expliqué dans la section 3.1.4 qu’utiliser les trames étiquetéesnon-parole, par les système de détection d’acti-vité vocale, dégrade généralement les performances des systèmes de reconnaissance du locuteur. Ces trames participent pourtant à l’organisation temporelle de la séquence acoustique. La section 8.3.1 traite de l’utilisation des tramesparole/non-parole lors des phases d’enrôlement et de test.

8.2.1 Initialisation

Les processus d’apprentissage du modèle du monde et des modèles de locuteur indépendants du texte, qui composent les premier et deuxième niveau de notre archi-tecture, ont été décrit dans le chapitre 7. L’apprentissage du modèle du monde ou des modèles de locuteurs indépendants du texte ne fait pas directement partie des problé-matiques de cette thèse. Nous avons donc utilisé les méthodes présentées précédem-ment (cf. chapitre 7), à savoir : apprentissage du modèle UBM par maximisation de la vraisemblance et adaptation des modèles de locuteur par une adaptation MAP.

Extraction +

Segmentation 1

FIG.8.6:Première étape du processus itératif d’apprentissage des mots de passe. Les cellules acoustiques composant la séquence d’apprentissage sont isolés.

Lors de l’apprentissage d’un modèle de mot de passe, la première étape consiste à séparer les éléments fondamentaux du signal de parole, qui constituent la structure du mot de passe considéré (cf. figure 8.6). Cette décomposition nécessite la connaissance du nombre et de la durée de ces cellules acoustiques.

Une première segmentation de la séquence acoustique d’apprentissage en cellules acous-tiques doit être déterminée. Le choix de cette segmentation peut reposer sur une

connais-sance a priori de la structure du mot de passe ou être calculée selon d’autres critères qu’il nous faut déterminer. Cette question est traitée par la suite.

Chaque cellule acoustique est utilisée pour apprendre un état du modèle SCHMM (cf. figure 8.7),i.e.un modèle GMM, par adaptation des paramètres de poids du modèle de locuteur indépendant du texte. L’apprentissage de ces modèles introduit plusieurs problématiques :

– une fois déterminées les limites temporelles des cellules acoustiques, chaque état peut être adapté en utilisant l’ensemble des paramètres extraits sur le segment qui lui est alloué. Il est également possible de n’utiliser, pour l’adaptation, que certaines trames sélectionnées au préalable ;

– les critères d’adaptation des densités de probabilités d’émissions doivent être fixés en fonction de la faible quantité de données d’apprentissage disponible.

State 1 State 2 State 3 State 4 State 5

Adaptation du modèle de locuteur

Extraction +

Segmentation 1

2

FIG.8.7:Deuxième étape du processus itératif d’apprentissage des mots de passe, un état du modèle SCHMM est appris à partir de chaque cellule acoustique.

Une fois les états du SCHMM appris, nous devons déterminer l’organisation de ces états au sein du modèle de Markov semi-continu. Le choix de la structure des modèles mais également le calcul des probabilités de transitions entre les états doivent prendre en compte la nature et les contraintes de la tâche que nous nous sommes fixée.

À ce stade de l’apprentissage, nous disposons d’une première modélisation du mot de passe. Cependant il est peu probable que le nombre et la répartition des cellules acoustiques composant le mot de passe soient connus exactement. Aussi, considérant que le modèle SCHMM disponible peut être amélioré, nous choisissons d’utiliser un processus itératif au cours duquel nous espérons converger vers la segmentation opti-male en cellules acoustiques.

8.2. Apprentissage itératif des modèles de mot de passe

8.2.2 Itérations

Chaque itération débute par un décodage Viterbi de la séquence d’apprentissage avec le modèle obtenu à l’itération précédente (cf. figure 8.8). Ce processus fournit une nouvelle segmentation. Selon la segmentation obtenue, des états peuvent être ajoutés ou supprimés du modèle SCHMM, de manière automatique.

State 1 State 2 State 3 State 4 State 5

Décodage Viterbi Adaptation du modèle

de locuteur Extraction

+ Segmentation

Nouvelle Segmentation

1

3 2

FIG.8.8:Troisième étape du processus itératif d’apprentissage des mots de passe, après avoir déterminé l’architecture du modèle SCHMM, un décodage Viterbi est effectué afin d’obtenir un nouveau découpage en cellules acoustiques.

Chacun des segments qui compose la nouvelle segmentation est utilisé pour adapter un état du modèle SCHMM. Il est possible d’adapter le nouveau modèle d’état à partir du modèle de l’étape précédente ou, comme lors de l’initialisation, à partir du modèle de locuteur indépendant du texte (cf. figure 8.9).

Une étude expérimentale, visant à déterminer le nombre optimal d’itération à ef-fectuer en fonction des résultats et des contraintes ergonomiques, est présentée dans la section 8.3.3.

State 1 State 2 State 3 State 4 State 5

Décodage Viterbi Adaptation du modèle

de locuteur Extraction

+ Segmentation

Nouvelle Segmentation

1

3 2

4

FIG.8.9:Quatrième étape du processus itératif d’apprentissage des mots de passe, les états du modèles SCHMM sont ré-estimés à partir de la nouvelle segmentation.