• Aucun résultat trouvé

Un des premiers travaux mettant en évidence le groupement séquentiel [Miller and Heise, 1950]

utilise le protocole présenté dans la gure 2.2. Ce protocole est un des paradigmes les plus répandus dans l'étude du groupement séquentiel. Il s'agit de faire entendre à un auditeur une séquence de motifs sonores alternés A-B-A-B dont on fait varier une caractéristique acoustique pour étudier son impact sur le streaming. La première expérience (gure 2.2 haut) est une séquence alternée A-B-A-B de sinusoïdes pures de mêmes amplitudes mais de fréquences fondamentales diérentes. L'expérience montre que lorsque l'écart relatif entre les deux fréquences est inférieur à 15% environ (soit un peu plus d'un ton12%) la séquence est perçue comme une mélodie unique ce qui met en évidence un groupement séquentiel. Au-dessus de ce seuil, la séquence a tendance à être séparée en deux mélodies distinctes. Dowling [Dowling, 1968] et Van Noorden [van Noorden, 1975] donnent un nom aux deux

Figure 2.2: Protocoles expérimentaux de Van Noorden.

14

Estimation de F0 et séparation de parole comportements diérents pour un auditeur qui entend ces stimuli. Plus les diérences entre fréquence ou bien entre amplitude sont importantes, plus le système auditif a tendance à procéder à une ssion (colonne de droite). Ceci correspond à la séparation de la scène auditive en deux ux auditifs. Les auditeurs déclarent ne percevoir qu'un seul des ux auditif à la fois (soit A-A soit B-B). Dans le cas contraire, il y a cohérence temporelle (colonne de gauche) et la scène auditive est perçue comme un seul ux auditif. Les auditeurs perçoivent l'ensemble de la séquence soit A-B-A-B. La notion de ux auditif apparait dans [Bregman and Campbell, 1971] et correspond à la ssion. Ces travaux illustrent bien le rôle de la F0 dans le groupement séquentiel de sons purs. Van Noorden [van Noorden, 1977] montre également que la ségrégation en ux auditifs peut s'opérer par la diérence en amplitude (cf. gure 2.2 bas). Cette seconde expérience est une séquence alternée de sinusoïdes pures de mêmes fréquences mais d'amplitudes diérentes. Ce travail montre d'ores et déjà que la F0 n'est pas le seul indice acoustique à pouvoir produire de la cohérence temporelle ou de la ssion. Le phénomène de ssion est-il encore présent lorsque des sons de parole sont utilisés ? Dans le signal de parole, les segments temporels qui comportent une F0 sont les segments dits voisés (cf. chapitre 3 gure 3.4). Les segments voisés correspondent majoritairement à des voyelles. Il est donc intéressant d'étudier si les voyelles produisent du streaming. Le groupement séquentiel est remis en évidence dans une des expériences décrites dans l'article de Gaudrain et al. [Gaudrain et al., 2007] et dans sa thèse [Gaudrain, 2008]. Il y présente une séquence de six voyelles synthétiques à un sujet qui doit reconnaître ces six voyelles et établir l'ordre d'apparition. Trois de ces voyelles ont leurF0 réglée à F0(1) et trois autres ont un F0(2) valant FB. La séquence est une alternance d'une voyelle dont la F0 vaut F0(1) et d'une autre voyelle où la F0vaut F0(2) (cf. gure 2.3). Les auteurs proposent deux cadences de séquence à 5.7 et 7.4 voyelles par seconde. Ces correspondent à des diérences de durée des voyelles 5.7 voyelles par seconde correspond à des voyelles de 175ms et 7.4 voyelles par seconde correspond à des voyelles de 135ms. La F0(1) est toujours xée à 100Hz et les auteurs font varier F0(2) sur 10 valeurs possibles. Les résultats obtenus

Figure 2.3: Séquences de voyelles synthétiques de Gaudrain et al.

sont présentés dans la gure 2.4. La partie de gauche ACROSS présente le score de reconnaissance de la séquence entière de six voyelles en fonction de la cadence des voyelles et de la diérence entre F0(1) et F0(2). Pour une même diérence de F0, les scores de reconnaissance diminuent si la cadence des voyelles augmente. En eet, si la cadence des voyelles augmente, l'auditeur dispose de moins de temps pour mémoriser les voyelles et est donc moins performant. Pour une même cadence de voyelles, les scores de reconnaissance diminuent si l'écart entre les F0 augmente. Cela s'explique par le fait qu'un écart important des F0 défavorise le groupement séquentiel. Le streaming est donc favorisé et

Estimation de F0 et séparation de parole

Figure 2.4: Groupement séquentiel sur des séquences de voyelles. Taux de reconnaissance obtenus par Gaudrain et al. Source : [Gaudrain et al., 2007].

l'auditeur ne peut plus suivre correctement la séquence de six voyelles. La tâche de reconnaissance d'une séquence de six voyelles semble être dicile car le taux maximal de reconnaissance d'une séquence de 6 voyelles se trouve autour de 50% pour de faibles écarts de F0 et tombe rapidement autour des 20%.

La partie de droite WITHIN présente le score de reconnaissance d'une séquence de trois voyelles ayant la même F0 en fonction de la cadence des voyelles et de la diérence entre F0(1) et F0(2). Pour une même cadence de voyelles et lorsque l'écart desF0augmente, les scores augmentent car le streaming est favorisé. L'auditeur se focalise plus facilement sur un des deux groupes de trois voyelles qui ont le même F0 et parvient à en donner la séquence. Pour une même diérence deF0, les scores de reconnaissance de trois voyelles ont deux comportements qui dépendent de la diérence entre F0(2) et F0(1). Si F0(2) est supérieur à 121Hz (soit 21% de plus que F0(1) ce qui est l'équivalent de 3 demi-tons), les scores augmentent avec l'augmentation de la cadence ce qui paraît logique dans la mesure où l'écart des F0étant important et le débit étant important, la ségrégation en ux est largement favorisée impliquant que trois voyelles de même F0 vont être bien reconnues. En revanche, si la diérence de F0 est trop faible entre les deux groupes de trois voyelles, la cadence ne semble pas jouer de rôle. Les valeurs des taux de reconnaissances sont autour de 70% pour des écarts deF0 de plus de 50%. La tâche dans ce cas est certainement plus simple puisqu'il s'agit de reconnaître l'ordre de 3 voyelles parmi 6 et non la séquence complète des 6. Pour de faibles écarts de F0 (inférieur à 20%), le taux de reconnaissance est d'environ 20% ce qui révèle que la séquence de 6 voyelles parvient dicilement à être séparée en deux ux auditifs.

Ce paragraphe met en évidence le rôle de laF0 dans le groupement séquentiel qui est un des méca-nismes à notre disposition pour résoudre le problème de Cocktail Party. Ce groupement est utile dans des séquences temporelles successives et distinctes. Le groupement séquentiel révèle le rôle ségrégateur de la F0 dans sa continuité temporelle. Néanmoins, dans une situation de CP, les sources ne sont plus nécessairement en séquences temporelles mais simultanées. L'objectif du paragraphe 2.2.2 ci-dessous est de décrire les expériences clés décrivant les conditions de streaming par groupement simultané.

16

Estimation de F0 et séparation de parole