• Aucun résultat trouvé

C HAPITRE 5 : B RUIT , PAROLE , TEMPS ET MÉMOIRE

5.1/ Caractéristiques des phénomènes temporels

5.1.1/ Problème posé

Le problème qui nous est désormais posé est un problème de temps. La méthode de classification des parties vocaliques et non vocaliques du signal développée précédemment devient inopérante lorsque le rapport signal sur bruit est trop faible. Le bruit est bien souvent de nature formantique, tout particulièrement pour les bruits que nous avons étudiés, et ces formants deviennent de plus en plus énergétiques à mesure que le rapport signal sur bruit diminue. Ils finissent donc par être assimilés à de la parole par le perceptron multicouche en charge de la segmentation qui, par conséquent, produit des réponses totalement aberrantes dans le domaine temporel, la tenue du voisement ainsi obtenue devenant incohérente avec la durée moyenne des voyelles. Un phénomène aux résultats similaires se produira, dans le cas d’un signal de parole continue, lorsque la segmentation se fera en grandes classes et donc lorsque le nombre de classes sera trop faible pour qu’il soit possible de distinguer le passage d’un événement phonétique à un autre, ces événements étant fusionnés en une même classe à la sortie du réseau, à l’apprentissage et à l’utilisation.

Une solution possible pour résoudre ce problème est l’abandon de la méthode de prétraitement par

Mel Filter Cepstral Coefficient, MFCC, au profit d’une autre plus robuste au bruit. Le choix des

MFCC a déjà été justifié au chapitre précédent (cf. chapitre 4, paragraphe 4.2.4) puisqu’elle nous a

Chapitre 5 : Bruit, parole, temps et mémoire

utilisant les mêmes corpus et la même méthode de prétraitement. D’autres méthodes de prétraitement sont connues pour avoir une meilleure résistance au bruit que celle présentée par les MFCC telles que, par exemple, les méthodes PLP [morgan91] ou RASTA-PLP [morgan92], [hermansky94]. Mais ces deux dernières techniques ne sont pas encore les plus efficaces dans le domaine de la robustesse au bruit (cf. chapitre 1, paragraphe 1.7.4).

Tout un axe de recherches en reconnaissance automatique de la parole essaie de définir une méthode efficace d’amélioration du signal de parole (speech enhancement) qui supprime le bruit tout en conservant un signal de parole le plus proche possible d’un signal original non bruité de manière à ce que les systèmes définis en environnement calme puissent être employés sans modification. Ces méthodes d’amélioration du signal sont cependant restreintes à des signaux de bruit stationnaires, ou quasi stationnaires, ce qui limite leur application à des environnements bien ciblés. De plus, le choix d’une telle technique de traitement de signal, offrant une meilleure résistance au bruit, va à l’encontre des contraintes qui nous étaient posées (cf. chapitre 3, paragraphe 3.1). Nous avons donc orienté nos recherches vers une méthode qui soit la plus proche possible de l’architecture présentée au chapitre 4. Nous avons ainsi opté pour le développement d’un système nous permettant de modéliser correctement les informations qui n’étaient pas du tout représentées au sein de notre niveau de segmentation de l’architecture initiale : les durées moyennes des phonèmes.

La durée moyenne peut être déterminée statistiquement sur l’ensemble du corpus d’une tâche. Des mesures ont par exemple été faites sur un corpus d’images radioscopiques [junqua94a]. De telles mesures peuvent tout à fait servir de base à des heuristiques permettant, après obtention des résultats de segmentation par le perceptron, d’isoler différents noyaux vocaliques par simple découpage des noyaux trop longs en noyaux de taille moyenne. Ce découpage est cependant très aléatoire au niveau des segments ainsi constitués et rien ne garantit que cette procédure, algorithmique et aveugle, ne créera pas des entités en complète contradiction avec les règles de la phonétique. Le mécanisme de découpage statistique est, a priori, totalement ignorant de ces règles.

Un autre problème qui se posera lors d’un découpage concerne la prise en compte de l’écart-type en plus de la moyenne. La moyenne permettra de connaître la vitesse moyenne d’élocution des locuteurs du corpus mais ne permettra pas de prendre en compte les variations de cette vitesse. Il faudrait donc, avant découpage d’un noyau a priori trop long, définir la liste de toutes les possibilités de découpage en tenant compte de la moyenne et de l’écart-type. Cette liste de solutions possibles devrait ensuite être analysée par les trois étapes de notre système avant de fournir la liste des différentes réponses possibles. Mais l’analyse de ces réponses et le choix d’une réponse plus probable que les autres doit obligatoirement faire appel à une grammaire des phrases possibles du vocabulaire, mécanisme dont la mise en œuvre n’était pas un de nos objectifs initiaux.

La détermination d’une durée moyenne sur un corpus de taille trop faible peut également être critiquée mais les résultats obtenus dans [junqua94a] sont similaires à d’autres résultats obtenus en phonétique [lonchamp90] et ils n’ont donc pas été influencés, dans le cas de la parole propre, par une élocution particulière telle qu’il serait possible d’en trouver dans des corpus “régionaux”. Des mesures faites par ailleurs sur le corpus de phrases anglo-américaines TIMIT, qui est composé de sous-corpus régionaux, ont d’ailleurs permis de montrer la faiblesse d’éventuelles différences dans ce cas particulier [mirghafori95]. Cette analyse d’un corpus de taille imposante a permis d’obtenir des mesures de nature gaussienne, le nombre moyen de phonèmes prononcés par seconde étant de 13,71 avec un écart-type de 1,95 phonèmes (les phonèmes sont ici définis selon leCMU symbol set [timitdic91] et la vitesse d’élocution est calculée par division du nombre de phonèmes transcrits observés par la durée qui a été nécessaire à leur articulation ; ceci explique la valeur élevée de la moyenne et de l’écart-type). L’ensemble des mesures montre qu’il n’y a pas de véritable différence entre hommes (m = 13,83 et σ = 1,99) et femmes (m = 13,43 et σ = 1,81). Cet article montre cependant que les locuteurs rapides sont une source d’erreur possible pour les systèmes de RAP, les indices acoustiques étant modifiés en fonction de la vitesse d’élocution [siegler95]. Cette variabilité

5.1/ Caractéristiques des phénomènes temporels

de la vitesse d’élocution est par ailleurs très importante dans les cas où la parole est prononcée de manière artificielle (parole articulée) ou lorsque le bruit ambiant est important ([junqua92] et [junqua94a]).

Il semble donc intéressant de se diriger vers un système intégrant des notions aussi bien temporelles que phonétiques. Cette dualité des connaissances semble plus profitable que la mise en place de deux systèmes successifs ignorant chacun les règles de fonctionnement et de décision de l’autre.

Avant de commencer à étudier les systèmes et les modèles nous permettant d’assurer la mise en œuvre conjointe des règles phonétiques et temporelles, nous allons tout d’abord étudier des modèles assez généraux de traitement des connaissances ou de reconnaissance de la parole permettant de modéliser de telles capacités et qui sont inspirés d’études psychologiques ou physiologiques faites sur l’être humain. Mais évoquons tout d’abord quelques lieux communs sur le temps.

5.1.2/ Importance de la notion de temps

Le temps est un phénomène, un fait, voire un milieu, dont l’étude a commencé il y a bien longtemps avec l’avènement de la conscience humaine dont il semble indissociable. Il est également un important sujet de discussion depuis que l’homme maîtrise la langue orale et écrite. Il en existe deux grandes catégories. La première catégorie est le temps concret, ou temps relatif, qui est le temps humain et le seul qui nous intéressera dans cette thèse puisqu’il est en rapport avec la perception. Ce type de temps est composé de trois différents éléments qui appartiennent tous à un présent cognitif : le présent du passé, mémoire d’événements antérieurs, le présent du présent, observation de l’environnement courant, et le présent du futur, attente de réalisations. À un niveau plus philosophique existe le temps abstrait ou temps absolu, le Temps, qui est ici hors de propos. Il semble important de rappeler l’inexactitude partielle des échelles de temps humaines puisqu’Einstein a démontré, dans sa théorie de la relativité, que l’écoulement du temps physique était fonction de la vitesse de l’observateur.

Le temps est une variable incontournable des phénomènes changeant dans l’espace et ... le temps. Ces phénomènes possèdent trois grandes caractéristiques qui permettent de tous les distinguer les uns des autres dans une tâche ou un milieu restreint.

5.1.3/ Trois grandes caractéristiques des phénomènes temporels

La première caractéristique d’un phénomène temporel est sa durée. C’est elle qui nous intéresse le plus en fonction du problème qui nous est posé dans notre tâche de segmentation.

Les autres grandes caractéristiques peuvent être déduites d’études sur les logiques temporelles développées par Allen ([allen83] et [allen84]) et McDermott [mcdermott82]. La deuxième caractéristique est relative aux instants de déclenchement des événements. Cette notion de déclenchement est à prendre au sens large puisque la logique de McDermott, logique temporelle d’instants, représente le début et la fin des événements de manière identique. La logique temporelle d’Allen, logique temporelle d’intervalles, distingue elle les débuts et les fins des événements comme étant les bornes des phénomènes observés et quantifiés.

Une troisième caractéristique concerne la relation des événements comparés les uns aux autres : l’ordonnancement. Tout phénomène peut être classé relativement à un autre. La logique d’Allen développe ainsi treize opérateurs différents pour analyser finement les relations de deux événements. Cette quantité importante d’opérateurs est une des conséquences du traitement et de la modélisation des événements sous forme d’intervalles. Une des treize relations de comparaison entre événements est, par exemple, la synchronisation qui permet de repérer les coïncidences d’apparition des événements. Le grand nombre d’opérateurs provoque également une difficulté de mise en œuvre de la logique d’Allen dans les systèmes automatiques, le problème étant NP-complet.

Chapitre 5 : Bruit, parole, temps et mémoire

s’agit en fait que de généralisations des concepts que nous venons de voir. Il est ainsi possible de considérer un ensembles d’événements comme constituant une période marquée par un début et une

fin ([kowalski86] ou [sadri87]).

Les logiques temporelles sont principalement utilisées dans le cadre de l’intelligence artificielle symbolique et des bases de données. Le lecteur trouvera une bonne étude de ces logiques temporelles et des outils qui leurs sont associés dans [bestougeff89].

Les logiques temporelles présentées ci-dessus sont cependant mal adaptées au traitement de la langue naturelle. Les logiques précédentes reposent en effet sur une définition très précise des instants, comme éléments de représentation atomique pour McDermott ou comme éléments de définition des intervalles pour Allen. Si la définition d’instants précis est déjà critiquable d’un point de vue physique, les relations entre deux instants étant les mêmes que les relations entre deux nombres pris dans l’ensemble des réels, elle l’est encore plus pour la définition de la notion d’instant dans la langue naturelle. Les instants de la langue sont en effet très rarement précis et, dans ce cadre, les logiques temporelles d’Allen et de McDermott deviennent caduques. Pour répondre à ces problèmes, [romary89] propose l’emploi d’une logique temporelle d’intervalles, utilisant deux opérateurs (“prédécesseur” et “inclus”) et indépendante de la notion d’instant. Cette logique a montré de bonnes qualités pour les tâches de représentation de la langue.

5.1.4/ Variabilité de la perception du temps dans le bruit

Avant d’exposer les relations existant entre la parole et le temps, nous allons ici brièvement parler de la variabilité de la perception du temps par l’homme dans le bruit. S’il est clair, d’après les études qui ont été faites lors d’autres recherches, que la production de la parole varie en fonction du bruit perçu de l’environnement par le locuteur (cf. paragraphe 5.1.1) et qu’il est clair également que le bruit influe négativement sur l’auditeur, qu’il soit humain ou qu’il s’agisse d’un système de reconnaissance automatique, l’influence du bruit sur la perception du temps chez l’être humain est en revanche moins bien perçue.

Le bruit influence pourtant la perception du temps même si ce fait a été très peu étudié. Les seules études entreprises ne l’ont en effet pas été dans le cadre de la reconnaissance de la parole mais dans le cadre de l’étude de l’influence du bruit dans le monde du travail. Ainsi, les travaux de [jerison55] ont permis de vérifier la grande subjectivité de la mesure du temps par une personne exposée au bruit. La figure 5.1 présente ainsi la perception d’une période de 10 minutes tout au long d’une session de travail de deux heures. La courbe de contrôle a été enregistrée dans un environnement où le bruit ambiant était de 77,5 décibels (ronds blancs) et permet de vérifier la perception de la période considérée dans un environnement calme. La courbe d’étude correspond aux ronds noirs, le bruit dans cette session étant de 111,5 décibels sauf pendant la première demi-heure où il était de 77,5 décibels. Cette deuxième courbe montre clairement que la perception subjective d’une période de 10 minutes est fortement influencée par le bruit. Le temps jugé équivalent à une période de 10 minutes en milieu calme oscille entre 8,5 minutes et 9,5 minutes alors que ce temps jugé équivalent varie, en environnement bruité, entre 7 minutes et 7 minutes et demie. Cette perception est sans doute influencée par la réaction du sujet vis-à-vis de l’agressivité de son environnement sonore qui provoque chez lui une fatigue plus grande, cette fatigue étant l’étalon de mesure du temps subjectif qui permet d’obtenir les mesures en temps objectif de la figure 5.1.