Synthèse de textures - L'arrière-plan urbain comme texture sonore

2.5 L'arrière-plan urbain comme texture sonore

2.5.2 Synthèse de textures

De même qu'il n'existe pas une dénition fermée de la notion de

tex-ture sonore, il n'existe pas une méthodologie unique pour leur synthèse.

Thomas Grill [Gri10] regroupe les méthodes de synthèse de textures

sonores en trois grandes catégories :

Les méthodes basées sur la décomposition multi-résolution du

signal, utilisant principalement les transformées en ondelettes.

Les méthodes basées sur la décomposition temporelle du signal,

recouvrant notamment la synthèse granulaire.

Les méthodes reposant sur des représentations source-ltres d'un

signal modèle.

Ces méthodes sont principalement employées avec pour but la

pro-duction d'une texture convaincante sur la base d'échantillons pré-existants.

Les méthodes d'analyse/re-synthèse mises en ÷uvre pour

repro-duire les textures partent donc le plus souvent d'un échantillon

pré-enregistré et cherchent à répondre aux trois question suivantes :

Quelle stratégie de segmentation adopter sur l'échantillon ?

Quels paramètres extraire des segments sélectionnés ?

Quelle est la meilleure méthode de synthèse à adopter avec pour

objectif de créer un nouvel échantillon qui soit à la fois d'une

durée plus longue que l'original mais d'une qualité équivalente ?

Il n'existe à l'heure actuelle que peu de moteurs de synthèse dédiés

aux textures sonores [Sch11] et la plupart d'entre eux sont spéciques

à certaines textures. Cependant, le principe proposé par Saint-Arnaud

et Popat dans [SAP97] reste le plus utilisé. Il consiste à distinguer

deux niveaux de resynthèse : la partie bas-niveau a pour objectif de

créer des atomes sonores à partir d'un chier source pré-enregistré et

la partie haut-niveau est relative à la distribution et à l'organisation

de ces atomes.

Diemo Schwarz distingue la synthèse de textures expressives et la

synthèse de textures naturelles [SS10]. Le premier type vise

l'interacti-vité et la génération de sons pour des compositions ou des performances

État de l'art : Espaces sonores urbains 2.5 L'arrière-plan urbain comme texture sonore

musicales, le plus souvent sous la forme d'un instrument digital. Le

se-cond type vise à reproduire des paysages sonores plus larges dont le

principal critère est le réalisme, la crédibilité des textures obtenues

re-pose en grande partie sur les ambiances et les informations restituées.

Hoskinson et Pai, dans [HP01], proposent en 2001 une des premières

applications de synthèse avancée de textures sonores. Il s'agit de

seg-menter un enregistrement vocal pour recréer une version aléatoire du

signal, dans un ux continu, tout en préservant un maximum des

ca-ractéristiques d'origine de l'enregistrement. L'échelle bas-niveau (soit

la taille des grains) choisie pour la re-synthèse est celle de la syllabe,

principalement an de rendre l'analyse et la transition entre les grains

plus aisées. L'enchainement entre les grains, soit la partie haut-niveau

de la synthèse, repose sur une analyse de similarité an de trouver des

points de transition les plus naturels possible.

En 2007, Strobl [Str07] propose un générateur de textures sonores,

avec analyse et re-synthèse, réalisé dans Pure Data. Strobl reprend

la dénition du ux audio proposée par Bregman [Bre94] : une unité

perceptive d'un évènement, ce qui amène un regroupement des

com-posantes individuelles du ux (comme une série de bruits de pas par

exemple). Strobl décrit de façon plus générale les propriétés d'un

ux de texture sonore naturelle . La texture continue obtenue par

réorganisation des grains contient les même ux audio que le son

d'ori-gine, ce dernier est simplement arrangé dans un ordre diérent. Dans

la continuité de Saint-Arnaud et Popat [SAP97], l'adjectif naturel

employé ici par Strobl suggère que le ux audio de re-synthèse n'est

pas une simple juxtaposition des fragments sonore mais une séquence

lisse de sons perceptivement signiants les uns par rapport aux autres.

Dans une analyse récente et particulièrement complète, Diemo Schwarz

fait état de deux modèles de synthèse [Sch11] dédiés aux textures

so-nores fonctionnant particulièrement bien. La première méthode

propo-sée par Diemo Schwarz et Norbert Schnell dans [SS10] est bapropo-sée sur

la synthèse concaténative par corpus. Elle consiste à analyser un

frag-ment d'un enregistrefrag-ment à l'aide des descripteurs dans CataRT. Les

descripteurs fournissent une dénition statistique de référence pour le

positionnement dans un espace virtuel à deux dimensions des segments

à resynthétiser. Le corpus ainsi constitué est ensuite étendu, avec des

versions transposées et ltrées du matériau de départ, an de couvrir

au maximum les variations des descripteurs. La seconde méthode,

pro-État de l'art : Espaces sonores urbains 2.5 L'arrière-plan urbain comme texture sonore

posée par O'Regan et Koharam dans [OK07] est une adaptation à une

dimension de l'algorithme de Efros et Lung [EL99] dédié à la synthèse

de textures d'images non-paramétriques en deux dimensions.

Comme nous l'avons vu dans les paragraphes précédents, les

mé-thodes de (re-)synthèse de textures sonores sont dépendantes du

ma-tériau de départ et de son contexte d'utilisation. Qu'en est-il alors des

textures sonores propres au milieu urbain ?

Finney [FJ10] propose un générateur de textures dédiées aux

am-biances urbaines et conçu pour Google Street View

. Finney, reprenant

la segmentation de Murray Schafer, distingue la texture d'arrière-plan

et les objets de premiers plans. Les sons de base servant pour le modèle

sont extraits de la banque de données Freesound

. Les textures et les

objets sonores sont extraits et répartis entre les deux catégories sur la

base de leurs identiants sémantiques. Ces derniers proviennent soit

des tags descriptifs fournis par Freesound soit d'un modèle d'analyse

de type MFCC-BIC. Un premier tri a cependant été eectué dans la

banque de Freesound en sélectionnant autant que possible des

enre-gistrements de Barcelone, la ville qui a servi de support visuel pour

les évaluations. Malgré la procédure d'analyse et de tri, les objets

so-nores sont ensuite récupérés manuellement. Au nal, l'ensemble du

paysage sonore urbain est synthétisé à l'aide de trois types de sources :

des échantillons lus, de la re-synthèse par ondelettes et de la synthèse

concaténative. Finney justie ce choix en argumentant que combiner

plusieurs méthodes permet une séparation optimale des sources et une

plus grande ecacité dans le traitement de chaque type de sons.

Le procédé d'évaluation, qui a consisté à faire des écoutes

compa-ratives entre trois paysages sonores générés et trois enregistrements,

en quadriphonie, montrent une préférence pour le synthétiseur.

Consi-dérant que les questions d'évaluations portaient principalement sur

l'identication, la localisation et le dynamisme des objets sonores,

Fin-ney pose l'hypothèse que cette préférence se justie par la spatialisation

et le mixage des deux strates sonores qui permettent plus facilement

de distinguer et de localiser les objets dans la scène sonore qui est

elle-16. Au moment où nous rédigeons ce document, le lien Internet permettant

d'ac-céder au démonstrateur de l'outil développé pat Nathaniel Finney ne semble plus

disponible.

17. http ://www.freesound.org/ Freesound est un projet de bases de données

sonores, collaboratives et gratuites sous le régime des licences Creative Commons.

État de l'art : Espaces sonores urbains 2.5 L'arrière-plan urbain comme texture sonore

même, de fait, plus dynamique. En comparant la description faite par

Finney et les principes qualitatifs édictés par l'écologie sonore

(présen-tés dans le Chapitre 2), le paysage généré semble plus proche d'une

dénition hi- que lo-, cette dernière appellation étant généralement

attribuée aux environnements urbains réels.

Le recours à la séparation des strates sonores, notamment pour

la spatialisation et la gestion des niveaux sonores, semble donc être

une technique ecace pour créer des environnements urbains virtuels

immersifs. La ressemblance parfaite avec la réalité semble moins

pri-sée par l'auditeur que la clarté du mixage et la qualité perceptive de

l'écoute.

2.5.3 Arrière-plans sonores : textures complexes

Dans le document Synthèse sonore d'ambiances urbaines pour les applications vidéoludiques (Page 92-95)