• Aucun résultat trouvé

C HAPITRE 4 : D ÉVELOPPEMENT AVEC LES PERCEPTRONS MULTICOUCHES

4.2/ Description du système

4.3.4/ Résultats segmentaux 4.3.4.1/ Nature des résultats

Les résultats obtenus en sortie du réseau connexionniste peuvent être traités de manière à obtenir des unités de plus haut niveau que sont, par exemple, les segments vocaliques. Un segment vocalique, ou noyau vocalique, correspond à une période de voisement continue du signal observable à la sortie du réseau. Cette liste de segments, une fois obtenue, peut être mise en correspondance avec la liste des étiquettes manuelles de même nature.

Cette mise en correspondance nécessite de définir trois types d’événements qui produisent un total de cinq classes différentes, ces classes étant présentées de la figure 4.5 à la figure 4.9. Le premier type d’événements, idéal, est la mise en correspondance d’un noyau de l’étiquetage manuel avec un noyau de la segmentation automatique. Dans ce cas, le résultat obtenu en sortie du réseau de neurones est jugé correct (figure 4.5). La détection des segments corrects se fait par l’intermédiaire d’une procédure de comparaison des bornes de début et de fin des noyaux qui est assez libre puisque l’égalité parfaite entre débuts ou entre fins n’est pas imposée. Ainsi, tout chevauchement entre une étiquette manuelle et un segment connexionniste permettra de juger le segment comme étant correct, à quelques nuances près dont nous reparlerons.

Figure 4.5 :Noyaux de segmentation automatique classés corrects.

Un deuxième type d’évènements pouvant apparaître est la présence, dans l’étiquetage manuel ou dans la segmentation automatique, de noyaux ne pouvant être mis en correspondance avec aucun noyau de la liste en vis-à-vis. Ces noyaux ne peuvent être mis en correspondance du fait de l’exclusion de leurs bornes par rapport à tout noyau de la liste en vis-à-vis.

Pour ce deuxième type d’événements, deux cas peuvent se produire. Il est ainsi possible que l’un des noyaux issus de la segmentation automatique ne puisse être mis en correspondance avec un segment de l’étiquetage manuel. Dans ce cas, il faut considérer ce noyau détecté automatiquement comme invalide. Il est alors question d’insertion (figure 4.6).

Figure 4.6 :Noyaux de segmentation automatique classés en insertion.

Le cas dual est le cas où un noyau de l’étiquetage manuel n’a pas été confirmé par la procédure de segmentation automatique. Ce noyau n’apparaît donc pas dans la liste des segments détectés par la procédure automatique alors que l’expert chargé de la segmentation manuelle du corpus l’avait

Étiquetage manuel Segmentation automatique noyau correct noyau correct Étiquetage manuel Segmentation automatique noyau inséré

4.3/ Segmentation du signal

indiqué. Le noyau manuel est alors considéré en élision, c’est à dire supprimé (figure 4.7).

Figure 4.7 :Noyaux de l’étiquetage manuel classés en élision.

Un dernier type d’événements qui peut se produire lors de la phase de segmentation concerne la limite de la fonction approximée qui est implantée dans le réseau connexionniste. Il se peut en effet que certaines parties du signal appartiennent à un espace de paramètres considéré par le réseau de neurones comme étant le seuil de passage d’une catégorie à une autre. Dans ce cas, le réseau peut rapidement modifier sa réponse et juger qu’il est, alternativement, en présence d’une catégorie puis d’une autre. Une explication complémentaire possible de ce comportement est que le réseau n’a aucune mémoire de sa réponse lors des pas de temps précédents. Le réseau est en effet statique et donne une réponse en fonction des seuls paramètres d’entrée. Il lui est alors impossible de déterminer par apprentissage les durées des événements qu’il a à classer tout autant qu’il lui est impossible de moduler son jugement en fonction de ces durées. Ce comportement nous a d’ailleurs poussé à mettre en place une procédure de lissage qui apporte un peu de cohérence au comportement du réseau à un niveau local. Mais la procédure de lissage est parfois insuffisante au sens d’une cohérence plus globale et des pics répétés d’assez longue durée peuvent apparaître. Ces pics auront une durée supérieure à 24ms, durée que nous avons utilisée comme étant la durée minimale d’un pic et qui nous a précédemment permis d’éliminer tous les pics de durée inférieure.

Là encore, comme dans les cas d’insertion et d’élision, deux cas peuvent se produire. Le réseau peut ainsi avoir du mal à décider à quelle catégorie appartient un extrait du signal qui peut alors être considéré, a posteriori, comme appartenant à l’espace délimitant la frontière entre les deux catégories. Le résultat observable dans ce cas est une sur-segmentation, un noyau de l’étiquetage manuel étant détecté sous la forme de plusieurs noyaux d’assez petites tailles par la procédure de segmentation automatique. Dans ce cas, le premier segment issu de la procédure automatique est considéré comme correct alors que les noyaux suivant sont considérés comme résultant d’une division du segment manuel (figure 4.8).

Figure 4.8 :Noyaux de segmentation automatique classés en division.

Le cas dual de la sur-segmentation est la sous-segmentation. Dans ce cas, alors que l’expert a isolé dans un passage deux noyaux successifs distincts, la procédure de segmentation automatique ne réussit à isoler qu’un seul noyau. Deux explications sont envisageables vis-à-vis de la sous-segmentation. La répartition des phonèmes, avant apprentissage, en différentes classes plus ou moins larges peut conduire à l’observation de tels résultats dans le cas où des signaux relativement similaires ont été répartis dans des classes opposées. Ainsi, les voyelles et les semi-consonnes, bien que n’appartenant pas à la même classe phonétique, sont assez similaires dans leurs formes

Étiquetage manuel Segmentation automatique noyau élidé noyau correct Étiquetage manuel Segmentation automatique noyaux divisés

Chapitre 4 : Développement avec les perceptrons multicouches

spectrales. Une répartition de ces deux classes phonétiques dans des classes d’apprentissage différentes et opposées peut, dans une certaine mesure, invalider l’apprentissage du réseau connexionniste et rendre ce dernier très sensible à des nuances dues à la coarticulation. Une autre explication de ce phénomène peut être trouvé, comme précédemment, dans le fait que le réseau utilisé ici pour la segmentation est statique et qu’il n’a donc aucune mémoire de ses décisions antérieures.

Comme nous le verrons plus loin, la sous-segmentation est un phénomène apparaissant de plus en plus à mesure que le rapport signal sur bruit diminue. Le bruit est en effet porteur de sa propre énergie et celle-ci semble accentuer le problème de la sous-segmentation, et donc de la fusion des étiquettes manuelles, à mesure que le bruit s’intensifie.

Figure 4.9 :Noyaux de l’étiquetage manuel classés en fusion.

Nous voulons attirer l’attention du lecteur sur les types de pourcentages générés par les cinq classes différentes de résultats que nous venons de voir. Nous traitons à travers ces classes tant les erreurs relatives à la segmentation automatique que celles en rapport avec l’étiquetage manuel. Les pourcentages sont donc relatifs tant aux erreurs de la segmentation automatique vis-à-vis de la segmentation manuelle que de la segmentation manuelle vis-à-vis de la segmentation automatique. En conséquence, la somme des pourcentages dans chaque ligne peut dépasser 100%, la comptabilisation se faisant par rapport au nombre de noyaux détectés automatiquement ou par rapport au nombre de segments manuels.

Les différents types de classes de résultats étant donnés et leurs caractéristiques étant présentées, nous allons maintenant exposer les résultats que nous avons obtenus avec cette architecture.

4.3.4.2/ Résultats segmentaux

Les premiers résultats, que nous présentons à la table 4.4, sont issus de [buniet93]. Cette table présente les résultats obtenus sur le corpus NOISEX [varga92]. Le corpus NOISEX permet de disposer de différents types de bruit (cf. annexe 3) mais également de séquences de un ou trois chiffres enchaînés, les séquences étant bruitées avec plusieurs bruits à différents rapports signal sur bruit. Les phrases bruitées avec le bruit de l’avion F16 (bruit 20, cf. annexe 3, figure A3.3) ont été utilisées pour constituer la table 4.4 qui présente les résultats de segmentation du signal en noyaux vocaliques à un niveau segmental. Cette table permet de voir que la méthode est très efficace jusqu’à des rapports signal sur bruit de 6 décibels. Les résultats de segmentation au rapport signal sur bruit de 0 décibel sont de moins bonne qualité puisque le taux d’insertion augmente énormément. Les résultats au rapport signal sur bruit (RSSB) de -6 décibels sont, enfin, catastrophiques puisque les taux d’insertion et de division augmentent tandis que le taux d’élision, très faible jusqu’alors, dépasse dix pour cent. Ce dernier taux d’erreur est le plus grave puisqu’il correspond à la perte définitive des segments vocaliques, les erreurs d’insertion et de division pouvant être gérées, dans une certaine mesure, par un étape lexicographique. Le faible taux de fusion à tous les RSSB s’explique par le fait que les corpus des chiffres épelés de NOISEX sont prononcés de manière enchaînée. Cette prononciation est certes plus complexe que ne le sont les mots isolés mais ne pose pas autant de problèmes que la parole continue.

Dans la table 4.4, comme dans toutes les tables présentées dans cette thèse, nous avons associé la parole propre, et donc non bruitée, au rapport signal sur bruit de +∞. Cette symbolique pourra être

Étiquetage manuel Segmentation automatique noyau fusionné

4.3/ Segmentation du signal

facilement critiquée pour ce qu’elle implique du point de vue de l’ingénieur et donc du point de vue technique mais peut être facilement justifiée par l’équation 3.1 du chapitre 3 qui formule le calcul du rapport signal sur bruit. En effet, dans cette équation, le calcul du RSSB sur un signal non bruité implique ques(n) =s’(n) et donc ques(n) - s’(n) = 0. Le diviseur de l’équation devient donc égal à 0 et le RSSB est infini.

La table 4.5 montre la qualité temporelle des bornes des segments de la phase de segmentation présentée à la table 4.4. Les résultats obtenus sont de bonne qualité et, fait qui était prévisible, cette qualité est fonction du rapport signal sur bruit. Dans cette table ne sont présentés que les écarts entre les segments de l’étiquetage manuel et les noyaux obtenus par le réseau et jugés corrects par la procédure de classement. La prise en compte de tous les noyaux détectés automatiquement aurait, en effet, posée des problèmes insolubles.

Des tests similaires à ceux qui viennent d’être présentés, également publiés dans [buniet93], nous ont permis de juger de la qualité de la méthode de segmentation dans le sous-corpus de parole continue du corpus en langue française BDSON, le corpus NOISEX étant, lui, constitué de chiffres enchaînés en langue anglaise. La nature du corpus permet donc d’étudier la tâche dans un environnement qui pose plus de difficultés. Ces difficultés ne nous ont pas permis d’atteindre des taux de reconnaissance similaires à ceux de la table 4.4. Les résultats font en effet apparaître des taux de fusion et d’insertion beaucoup plus importants que dans le cas du corpus NOISEX, les taux de division et d’élision étant, par contre, plus faibles.

Le fort taux de fusion s’explique principalement par le fait que les mots commencent ou terminent le plus souvent par une voyelle. Il est, de ce fait, difficile de trouver une frontière entre deux voyelles consécutives et le taux de fusion n’en est que plus important.

Les résultats obtenus sur ce corpus de parole continue française laissent présager de l’obtention de résultats similaires sur tout autre corpus de parole continue, langue anglaise comprise. Ce type de résultats nous pose un problème évident de méthode. Les résultats obtenus lors de l’étape de segmentation nécessitent dans ce cas des traitements supplémentaires pour être exploitables par l’étape ultérieure de reconnaissance des voyelles. Il s’agira donc de quantifier la durée des phonèmes

Rapport signal sur bruit utilisé en apprentissage et en test correct (%) insertion (%) fusion (%) division (%) élision (%)

Table 4.4 : Détection des noyaux vocaliques obtenus avec le corpus NOISEX (bruit utilisé pour l’apprentissage et le test : F16).

+98 0 1 2 0 18 dB 96 0 2 1 0 12 dB 97 0 2 2 2 6 dB 97 2 2 1 0 0 dB 96 11 2 2 2 -6 dB 88 16 1 4 12 début (ms) fin (ms) début (ms) fin (ms) +147 24 32 23 47

Table 4.5 : Différences entre segmentation manuelle et segmentation automatique.

18 dB 145 23 30 21 43 12 dB 146 22 31 21 45 6 dB 146 23 31 23 42 0 dB 145 26 39 28 46 -6 dB 133 39 65 42 73 Écart-type Moyenne

Rapport signal sur bruit utilisé en apprentissage et en test

Nombre de noyaux vocaliques

Chapitre 4 : Développement avec les perceptrons multicouches

étudiés pour être à même d’effectuer un découpage des noyaux trop longs.

Une autre consiste à abandonner le choix d’une segmentation en grandes classes pour commencer à segmenter le signal en unités phonétiques beaucoup plus précises, par exemple en fonction des voyelles à reconnaître. La première étape de notre système perd alors sa généralité mais gagne en qualité de segmentation dans la mesure où les éléments phonétiques à segmenter ont une définition beaucoup plus précise.

Les segments ayant été obtenus, il faut désormais mettre en place une méthode capable de reconnaître la voyelle prononcée. Comme nous l’avons fait remarquer précédemment, nous ferons appel tant à des réseaux du type du perceptron multicouche dans une sorte d’extension de notre phase de segmentation qu’à des Selectively Trained Neural Network, réseaux connexionnistes spécialement dédiés à la tâche d’identification des voyelles.

4.4/ Reconnaissance des voyelles