• Aucun résultat trouvé

Approches pour une classification faible latence

3.2 État de l’art de la classification audio temps réel

3.2.1 Approches pour une classification faible latence

Comme nous l’avons vu précédemment, une des qualités d’un système faible latence est de pouvoir prendre une décision avec un délai suffisamment court entre le moment où un événement survient et l’instant où la décision est prise (en l’occurrence, la classification). C’est principalement sur ce point qu’on retrouve la plus grande variété des approches utilisées. En effet, dans la littérature on observe deux grands modes de classification pour les systèmes temps réel : la classification à la trame, la

classification par segment. Classification à la trame

La classification à la trame représente le mode de classification le plus simple. Le signal étant découpé en trames élémentaires (généralement de quelques dizaines de millisecondes), une nouvelle trame est classifiée à partir des descripteurs calculés uniquement sur cette trame. On exploite donc l’information instantanée uniquement. Cette approche est exploitée pour la classification parole/musique dans (El- Maleh et al. 2000) et (Casagrande et al. 2005) où les décisions sont prises sur des trames de 20

ms, ou encore dans (Wang et al. 2008) où cette fois-ci, les décisions sont opérées sur des trames de 10

ms. Dans le monde du codage audio, les auteurs de (Jelinek et al. 2004) proposent une méthode de

classification des sons voisés, non-voisés, des transitoires et du bruit de fond, afin de choisir le bon mode de codage pour le codeur VMR-WB (Malenovsky et al. 2015).

L’avantage de cette approche est que la prise de décision se fait avec une latence minimale. La figure 3.2, représente ce mode de fonctionnement.

Classification par segment

Dans le cadre d’une classification par segment, la décision de classification est prise sur un horizon temporel plus grand que celui de la trame. Cette approche peut s’expliquer en prenant en compte les points suivants :

• de par la nature des phénomènes qu’ils mettent en évidence, les descripteurs doivent être calcu- lés sur des modalités temporelles plus grandes que la trame. On peut penser à des descripteurs comme la modulation d’énergie à 4 Hz (Scheirer & Slaney 1997) qui met en évidence un débit

syllabique à 4 Hz, propre à la parole. Du fait du caractère basse fréquence du phénomène à obser- ver, ce descripteur doit être calculé à partir d’une portion de signal de l’ordre de la centaine de milliseconde.

• en lieu et place de l’information instantanée fourni par un descripteur, on peut préférer utiliser des statistiques pour caractériser son évolution. On retrouve généralement l’utilisation de statistiques simples comme la moyenne ou la variance : variance de la mesure d’entropie (Pinquier et al. 2002), valeur moyenne du ZCR (Lu et al. 2001), moyenne Pitch density (Fu et al. 2009), ou

encore une version modifiée des MFCCs (Zhou et al. 2008).

L’hypothèse de cette approche de classification est de considérer qu’il existe une dépendance entre les trames consécutives et que ne pas faire d’intégration temporelle revient à supposer que chaque trame est indépendante les unes par rapport aux autres. L’évolution d’un descripteur est ici jugée plus pertinente que l’utilisation de sa valeur instantanée seule. Aussi, le regroupement de plusieurs trames permet également

3.2 État de l’art de la classification audio temps réel −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 trame Signal Décision

T

T+1

T+2

Figure 3.2 – Illustration d’une classification à la trame. Seules les informations instantanées sont exploi- tées. −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10

trame

Signal

Décision

T

T+1

T+2

Figure 3.3 – Illustration d’une classification sur segments. Une décision est prise en exploitant l’infor- mation contenue dans plusieurs trames consécutives.

d’effectuer un lissage des données : un descripteur présentant des changements brutaux d’une trame à une autre peut ne pas être évident à interpréter, alors qu’en considérant des trames successives, il serait possible de dégager une tendance qui serait plus pertinente. La classification sur segments est schématisée figure 3.3.

Il est à noter qu’au sein de cette approche on trouve plusieurs manières de procéder. La configuration d’une classification par segment fait intervenir les paramètres de segment, au sein duquel plusieurs trames sont regroupées, de pas d’avancement, qui désigne l’intervalle entre deux instants de prise de décision, et la présence ou non de futur (ou lookahead) qui représente le décalage entre l’instant de prise de décision et la trame observée la plus récente. Ces paramètres sont à prendre en compte puisque dans certaines études on peut trouver des méthodes parlant de classification à la trame (frame-by-frame basis) mais faisant plutôt référence à une précision de classification à la trame (pas d’avancement à la trame), et non à la latence. C’est le cas par exemple dans les propositions de (Panagiotakis & Tziritas 2005) où la

classification se fait sur des trames de 20 ms mais à partir de données extraites sur un segment d’une seconde, ou de la même manière dans (Scheirer & Slaney 1997).

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10

futur

trame

pas d’avancement

futur

segment

trame

D

t

D

t+1

D

t

D

t+1

D

t

D

t+1

trame

A

B

C

Figure 3.4 – Illustration de plusieurs modes de classification par segment. A : La décision est prise en utilisant un segment de 7 trames, avec un pas d’avancement de 3 trames. Le futur de 3 trames indique qu’il y a un décalage de 3 trames entre l’instant de prise de décision et l’observation la plus récente.

B : Prise de décision sur le même segment mais cette fois-ci avec un pas d’avancement à la trame. Le

lookahead est conservé. C : Prise de décision sur le même segment de 7 trames avec un pas d’avancement à la trame et sans lookahead.

Les paramètres de configuration de la classification à la trame sont représentées sur la figure 3.4. La classification par segment permet donc de s’adapter à des contraintes temporelles plus ou moins variables, en ajustant les paramètres de taille de segment, de pas d’avancement et la quantité de futur autorisée.

C’est également dans ce cas de figure qu’on observe les contraintes temporelles les plus relâchées avec des tailles de segment de plusieurs secondes et un pas d’avancement tout aussi élevé. C’est le cas par exemple dans les méthodes présentées dans (Zhang & Kuo 2001) et (Liao et al. 2011), où la phase de

classification est précédée d’une étape de segmentation qui a pour but de définir les limites des segments audio à étudier. Il en résulte que la taille du segment n’est pas toujours constante et la pas d’avancement est équivalent à la taille du bloc audio considéré, comme le montre la figure 3.5. Cette approche convient pour des applications dites en ligne, qui demandent une réponse dans des délais de l’ordre de plusieurs secondes et ne requièrent pas une précision fine comme une précision à la trame.

Cependant, on peut pressentir que cette approche va engendrer une latence, proportionnelle à la taille du segment, puisque intégrer des descripteurs sur plusieurs trames nécessite “d’attendre” l’arrivée de ces trames. De plus, même dans un cas où aucun futur ne serait exploité (cas C de la figure 3.4 par exemple), la prise de décision se fait en utilisant des informations antérieurs à l’instant de prise de décision. En d’autres termes, on utilise le passé pour prendre une décision sur le présent. De ce décalage peut résulter

3.2 État de l’art de la classification audio temps réel −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10 −1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 x 10

Signal

Décision

T

T+1

T+2

Figure 3.5 – Illustration d’un autre cas de classification sur segments. Les segments ainsi que le pas d’avancement ne sont pas à taille constante.

une latence entre le moment d’apparition d’un événement sonore et le moment de sa détection. Malheu- reusement, dans les publications on ne trouve pas de métrique permettant de rendre compte de cette latence. Or, on pourrait être en droit de se demander dans quelle mesure un tel système se comporte vis-à-vis des transitions entre classes par exemple.

Enfin, il est à noter que dans plusieurs études, des auteurs proposant une méthode de classification à la trame évaluent également les performances du système dans le cas d’une intégration sur un segment

(El-Maleh et al. 2000), (Scheirer & Slaney 1997), ce qui améliore de manière significative les résul-

tats mais augmente la latence. Faire de l’intégration des données semble donc intéressant pour améliorer les performances mais engendre nécessairement une latence plus importante.