2.5 L'arrière-plan urbain comme texture sonore
2.5.2 Synthèse de textures
De même qu'il n'existe pas une dénition fermée de la notion de
tex-ture sonore, il n'existe pas une méthodologie unique pour leur synthèse.
Thomas Grill [Gri10] regroupe les méthodes de synthèse de textures
sonores en trois grandes catégories :
Les méthodes basées sur la décomposition multi-résolution du
signal, utilisant principalement les transformées en ondelettes.
Les méthodes basées sur la décomposition temporelle du signal,
recouvrant notamment la synthèse granulaire.
Les méthodes reposant sur des représentations source-ltres d'un
signal modèle.
Ces méthodes sont principalement employées avec pour but la
pro-duction d'une texture convaincante sur la base d'échantillons pré-existants.
Les méthodes d'analyse/re-synthèse mises en ÷uvre pour
repro-duire les textures partent donc le plus souvent d'un échantillon
pré-enregistré et cherchent à répondre aux trois question suivantes :
Quelle stratégie de segmentation adopter sur l'échantillon ?
Quels paramètres extraire des segments sélectionnés ?
Quelle est la meilleure méthode de synthèse à adopter avec pour
objectif de créer un nouvel échantillon qui soit à la fois d'une
durée plus longue que l'original mais d'une qualité équivalente ?
Il n'existe à l'heure actuelle que peu de moteurs de synthèse dédiés
aux textures sonores [Sch11] et la plupart d'entre eux sont spéciques
à certaines textures. Cependant, le principe proposé par Saint-Arnaud
et Popat dans [SAP97] reste le plus utilisé. Il consiste à distinguer
deux niveaux de resynthèse : la partie bas-niveau a pour objectif de
créer des atomes sonores à partir d'un chier source pré-enregistré et
la partie haut-niveau est relative à la distribution et à l'organisation
de ces atomes.
Diemo Schwarz distingue la synthèse de textures expressives et la
synthèse de textures naturelles [SS10]. Le premier type vise
l'interacti-vité et la génération de sons pour des compositions ou des performances
État de l'art : Espaces sonores urbains 2.5 L'arrière-plan urbain comme texture sonore
musicales, le plus souvent sous la forme d'un instrument digital. Le
se-cond type vise à reproduire des paysages sonores plus larges dont le
principal critère est le réalisme, la crédibilité des textures obtenues
re-pose en grande partie sur les ambiances et les informations restituées.
Hoskinson et Pai, dans [HP01], proposent en 2001 une des premières
applications de synthèse avancée de textures sonores. Il s'agit de
seg-menter un enregistrement vocal pour recréer une version aléatoire du
signal, dans un ux continu, tout en préservant un maximum des
ca-ractéristiques d'origine de l'enregistrement. L'échelle bas-niveau (soit
la taille des grains) choisie pour la re-synthèse est celle de la syllabe,
principalement an de rendre l'analyse et la transition entre les grains
plus aisées. L'enchainement entre les grains, soit la partie haut-niveau
de la synthèse, repose sur une analyse de similarité an de trouver des
points de transition les plus naturels possible.
En 2007, Strobl [Str07] propose un générateur de textures sonores,
avec analyse et re-synthèse, réalisé dans Pure Data. Strobl reprend
la dénition du ux audio proposée par Bregman [Bre94] : une unité
perceptive d'un évènement, ce qui amène un regroupement des
com-posantes individuelles du ux (comme une série de bruits de pas par
exemple). Strobl décrit de façon plus générale les propriétés d'un
ux de texture sonore naturelle . La texture continue obtenue par
réorganisation des grains contient les même ux audio que le son
d'ori-gine, ce dernier est simplement arrangé dans un ordre diérent. Dans
la continuité de Saint-Arnaud et Popat [SAP97], l'adjectif naturel
employé ici par Strobl suggère que le ux audio de re-synthèse n'est
pas une simple juxtaposition des fragments sonore mais une séquence
lisse de sons perceptivement signiants les uns par rapport aux autres.
Dans une analyse récente et particulièrement complète, Diemo Schwarz
fait état de deux modèles de synthèse [Sch11] dédiés aux textures
so-nores fonctionnant particulièrement bien. La première méthode
propo-sée par Diemo Schwarz et Norbert Schnell dans [SS10] est bapropo-sée sur
la synthèse concaténative par corpus. Elle consiste à analyser un
frag-ment d'un enregistrefrag-ment à l'aide des descripteurs dans CataRT. Les
descripteurs fournissent une dénition statistique de référence pour le
positionnement dans un espace virtuel à deux dimensions des segments
à resynthétiser. Le corpus ainsi constitué est ensuite étendu, avec des
versions transposées et ltrées du matériau de départ, an de couvrir
au maximum les variations des descripteurs. La seconde méthode,
pro-État de l'art : Espaces sonores urbains 2.5 L'arrière-plan urbain comme texture sonore
posée par O'Regan et Koharam dans [OK07] est une adaptation à une
dimension de l'algorithme de Efros et Lung [EL99] dédié à la synthèse
de textures d'images non-paramétriques en deux dimensions.
Comme nous l'avons vu dans les paragraphes précédents, les
mé-thodes de (re-)synthèse de textures sonores sont dépendantes du
ma-tériau de départ et de son contexte d'utilisation. Qu'en est-il alors des
textures sonores propres au milieu urbain ?
Finney [FJ10] propose un générateur de textures dédiées aux
am-biances urbaines et conçu pour Google Street View
16. Finney, reprenant
la segmentation de Murray Schafer, distingue la texture d'arrière-plan
et les objets de premiers plans. Les sons de base servant pour le modèle
sont extraits de la banque de données Freesound
17. Les textures et les
objets sonores sont extraits et répartis entre les deux catégories sur la
base de leurs identiants sémantiques. Ces derniers proviennent soit
des tags descriptifs fournis par Freesound soit d'un modèle d'analyse
de type MFCC-BIC. Un premier tri a cependant été eectué dans la
banque de Freesound en sélectionnant autant que possible des
enre-gistrements de Barcelone, la ville qui a servi de support visuel pour
les évaluations. Malgré la procédure d'analyse et de tri, les objets
so-nores sont ensuite récupérés manuellement. Au nal, l'ensemble du
paysage sonore urbain est synthétisé à l'aide de trois types de sources :
des échantillons lus, de la re-synthèse par ondelettes et de la synthèse
concaténative. Finney justie ce choix en argumentant que combiner
plusieurs méthodes permet une séparation optimale des sources et une
plus grande ecacité dans le traitement de chaque type de sons.
Le procédé d'évaluation, qui a consisté à faire des écoutes
compa-ratives entre trois paysages sonores générés et trois enregistrements,
en quadriphonie, montrent une préférence pour le synthétiseur.
Consi-dérant que les questions d'évaluations portaient principalement sur
l'identication, la localisation et le dynamisme des objets sonores,
Fin-ney pose l'hypothèse que cette préférence se justie par la spatialisation
et le mixage des deux strates sonores qui permettent plus facilement
de distinguer et de localiser les objets dans la scène sonore qui est
elle-16. Au moment où nous rédigeons ce document, le lien Internet permettant
d'ac-céder au démonstrateur de l'outil développé pat Nathaniel Finney ne semble plus
disponible.
17. http ://www.freesound.org/ Freesound est un projet de bases de données
sonores, collaboratives et gratuites sous le régime des licences Creative Commons.
État de l'art : Espaces sonores urbains 2.5 L'arrière-plan urbain comme texture sonore
même, de fait, plus dynamique. En comparant la description faite par
Finney et les principes qualitatifs édictés par l'écologie sonore
(présen-tés dans le Chapitre 2), le paysage généré semble plus proche d'une
dénition hi- que lo-, cette dernière appellation étant généralement
attribuée aux environnements urbains réels.
Le recours à la séparation des strates sonores, notamment pour
la spatialisation et la gestion des niveaux sonores, semble donc être
une technique ecace pour créer des environnements urbains virtuels
immersifs. La ressemblance parfaite avec la réalité semble moins
pri-sée par l'auditeur que la clarté du mixage et la qualité perceptive de
l'écoute.
2.5.3 Arrière-plans sonores : textures complexes
Dans le document
Synthèse sonore d'ambiances urbaines pour les applications vidéoludiques
(Page 92-95)