• Aucun résultat trouvé

Aspects temporels : choix de la fréquence de rafraichissement de la caméra et de la

Chapitre 3 : Configuration du dispositif TheVIBE

3.4 Codage sonore

3.4.8 Aspects temporels : choix de la fréquence de rafraichissement de la caméra et de la

Nous allons pour conclure nous pencher sur trois paramètres définis dans le fichier d'option du logiciel :

construire une "image sonore", et la fréquence d'échantillonnage sonore. Ces deux paramètres conditionnent directement la durée d'une "image sonore". La question qui se pose est alors de savoir s'il y a une durée minimale de stimulation pour évoquer une sensation auditive.

2- Le taux de rafraichissement des images de la caméra. La question qui se pose est de savoir jusqu'à quelle échelle le système auditif est encore capable de détecter des changements temporels.

Durée du buffer sonore :

Fish (1976) et Meijer (1992) posent tous deux la question de la durée optimale pour une stimulation élémentaire. Dans le cas du dispositif de Fish, il s'agit de faire en sorte que le signal soit composé d'un nombre suffisant de cycles pour pouvoir être perçu. En rapport avec la vitesse du spot lumineux qui balaye l'image de haut en bas et de droite à gauche, et qui conditionne donc la durée du signal associé à chaque position du spot, il en déduit une fréquence minimale pour le codage sonore.

Dans le cas du dispositif de Meijer, la durée du buffer sonore correspond au temps mis pour balayer l'image de gauche à droite divisé par le nombre de colonnes dans l'image (codées par des sons séparés). Meijer s'interroge alors sur les composantes fréquentielles induites par le fait que le son est présenté dans une fenêtre temporelle de courte durée. En effet, ce fenêtrage introduit des artefacts fréquentiels qui dépendent de la taille de la fenêtre. Il en déduit l'écart minimal Δf entre deux niveaux d'une même colonne pour que deux fréquences associées à deux rangées voisines ne puissent pas être confondues avec les fréquences liées au fenêtrage temporel.

Dans le cas des dispositifs où l'image est codée en simultané (sans balayage temporel), comme TheVIBE ou le PSVA, s'interroger sur la durée minimale de stimulation en rapport avec la perception auditive, c'est en fait omettre la composante motrice du dispositif vu comme système de couplage sensori-moteur. En effet, tout comme dans le cas du système visuel, ce sont les mouvements de la caméra qui vont déterminer la durée de fonctionnement des différentes sources sonores. Le sujet peut donc adapter les mouvements de sa tête de manière à pouvoir sentir distinctement les sons en provenance du dispositif.

Pour cela il s'agit néanmoins de s'assurer de la continuité du signal d'une image à une autre, en particulier de faire en sorte que la phase de tous les signaux élémentaires à la fin du buffer "n" correspondent à la phase de tous les signaux élémentaires au début du buffer "n+1". Pour cela, le calcul du son dans TheVIBE utilise un marqueur temporel absolu : le calcul du signal pour l'image "n" commence au temps t = tn avec

tn=n.t

avec t=Ns fe

où Ns et fe sont respectivement la taille du buffer mémoire (en nombre d'échantillons) et la fréquence d'échantillonnage du signal sonore. Δt correspond alors à la durée du buffer sonore.

En pratique, nous avons déterminé la taille du buffer en fonction du taux de rafraichissement de l'image, de sorte que la durée de présentation d'une image sonore corresponde à la durée d'affichage d'une image, c'est à dire à la période de rafraichissement de la caméra.

Taux de rafraichissement de la caméra :

S'il n'y a pas de limite a priori à la durée de présentation d'un image pour qu'elle soit interprétée, il n'y a a priori aucune limite sur la fréquence de rafraichissement de la caméra vidéo. En revanche,

il est vraisemblable qu'à partir d'une certain fréquence, le rafraichissement de la caméra soit inutile au sens où il ne puisse pas être utilisé par le système auditif. Dans le cas du système visuel, on considère généralement qu'une cadence de 25 images par secondes suffit à donner à un film un fluidité acceptable pour l'oeil, et que des cadences plus élevées n'améliorent pas significativement la qualité de la stimulation. On remarquera toutefois que cette valeur concerne une stimulation destinée à "être vue" et non une stimulation destinée à voir, comme c'est le cas d'une prothèse visuelle. Néanmoins, cette valeur nous donne un ordre de grandeur de la résolution temporelle du système visuel.

De la même manière, on peut donc s'interroger sur les ordres de grandeur de la résolution temporelle de l'oreille. Tout comme il existe un fréquence de fusion au delà de laquelle le scintillement d'un stimulus visuel n'est plus perçue, il existe une limite, appelée Auditory Fusion Threshold (AFT), au delà de laquelle deux stimulus auditifs présentés successivement semblent confondus (Miller, 1948). Un tableau des valeurs standard d'AFT pour différents ages est fourni figure 3.44.

L'AFT moyen pour un adulte est d'environ 8 msec, soit une fréquence de fusion équivalente de 125 Hz. Le système auditif semble donc posséder une bien meilleur résolution temporelle que le système visuel, dont la fréquence de fusion est de l'ordre de la dizaine de Hz (Hecht et Verrijp, 1933).

Une information plus fine au sujet de la résolution temporelle du système auditif est disponible via la mesure de "fonctions de transfert" psychophysiques. Le principe de la mesure consiste à présenter au sujet un signal (en général un bruit blanc), modulé en amplitude par une sinusoïde. On mesure alors la capacité du sujet à déterminer si le signal est modulé ou non, en fonction de la fréquence et du coefficient de modulation (le rapport entre l'amplitude de la modulation et l'amplitude du signal). Les résultats sont présentés sous la forme d'une courbe donnant, en fonction de la fréquence, le coefficient de modulation à partir duquel le sujet distingue un son modulé d'un son non-modulé.

La figure 3.45 présente les mesures effectuées par Viemeister (Viemeister, 1979) en utilisant des bruits blancs dans trois bandes de fréquences : 200, 2000 et 10000 Hz. On constate que les courbes sont relativement similaires quelque soit la fréquence. La résolution temporelle du système auditif est constante jusqu'à environ 8 Hz puis décroit progressivement jusqu'à environ 1000 Hz.

Pour le cas de TheVIBE, la courbe la plus représentative est celle calculée à partir d'un bruit

Figure 3.44 : Tableau des normes standards de seuil de détection temporel auditif en fonction de l'age (Keith, 2001, d'après Mac Croskey et Keith, 1996)

blanc dans une bande autour de 1000 Hz. Dans ce cas, la fréquence de coupure est d'environ 50 Hz. En conclusion, on peut donc dire que la fréquence de 25 images par secondes est acceptable, au moins en lien avec les ordres de grandeur concernant le système visuel. Augmenter cette fréquence pourrait toutefois augmenter l'efficacité du dispositif, vraisemblablement jusqu'à des valeurs de l'ordre de 50 Hz. Au delà, le transfert d'information sera limité par la résolution temporel du système auditif.

Figure 3.45 : fonction de transfert temporelle du système auditif pour des bruits blancs de différentes fréquences modulés en amplitude (Viemeister, 1979).

En pratique :

La fréquence d'échantillonnage du signal sonore est déterminée par la bande de fréquence que l'on souhaite utiliser. Toujours d'après le théorème de Shannon (voir §2.1), un signal sonore échantillonné à une fréquence fe pourra transmettre la bande de fréquence [0, fe /2].

Dans la mesure où l'on travaille dans la bande 300-3000 Hz, un taux d'échantillonnage de 22100 Hz est largement suffisant. On a donc :

fe = 22100 Hz

Par ailleurs, on souhaite que la durée du buffer sonore soit de l'ordre de la période de rafraichissement de la caméra. Cette période est égale à

Te = 1/25 = 40 ms

Le nombre d'échantillons pour obtenir un son de 40 ms avec une fréquence d'échantillonnage de 22100 Hz est de

Ne = fe * Te = 884 échantillons

En pratique, nous avons utilisé un buffer de 1024 échantillons, ce qui assure une continuité entre les différents signaux sonores (pas d'attente du signal de la caméra) et évite d'éventuels silences.