• Aucun résultat trouvé

TRANSFORMATIONS ÉXOTIQUES DE SONS NATURELS SUR ORDINATEUR

N/A
N/A
Protected

Academic year: 2021

Partager "TRANSFORMATIONS ÉXOTIQUES DE SONS NATURELS SUR ORDINATEUR"

Copied!
5
0
0

Texte intégral

(1)

HAL Id: jpa-00230514

https://hal.archives-ouvertes.fr/jpa-00230514

Submitted on 1 Jan 1990

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

TRANSFORMATIONS ÉXOTIQUES DE SONS NATURELS SUR ORDINATEUR

D. Arfib

To cite this version:

D. Arfib. TRANSFORMATIONS ÉXOTIQUES DE SONS NATURELS SUR ORDINATEUR. Jour-

nal de Physique Colloques, 1990, 51 (C2), pp.C2-853-C2-856. �10.1051/jphyscol:19902198�. �jpa-

00230514�

(2)

COLLOQUE DE PHYSIQUE

Colloque C2, supplément au n°2, Tome 51, Février 1990

1er Congrès Français d'Acoustique 1990

C2-853

TRANSFORMATIONS EXOTIQUES DE SONS NATURELS SUR ORDINATEUR

D. ARFIB

CNRS-LMA, 31 Chemin Joseph Riguier, F-13402 Marseille Cedex 9, France

Résumé: les transformations exotiques de sons sont des modifications non naturelles de sons. En tout premier lieu, l'étude porte sur les ralentis et accélérés sans transposition. L'usage d'un intermédiaire, appelé sonagramme numérique permet de comprendre par analogie les traitements effectués. Des ralentis surprenants (jusqu'à un facteur d'une centaine) ont été réalisés avec un procédé de multiplication de phases instantanées. L'expérience suggère des moyens de séparer l'aspect "évolution temporelle" de l'aspect "contenu fréquentiel".

Abstract: Exotic transformations is the name for artificial modifications of sounds. First of ail the study is about the slowing down process without transposition. The use of a digital sonagram as an intermediary state permits to better understand the technic used here. Slowing the sound without transposition (until 100 times) has been realised by multiplying the instantaneous phases. This experience also suggests facts concerning the separation between time and frequency components.

1. sonaaramme numérique.

Un bon moyen d'introduire les transformations exotiques de sons naturels est de les situer par rapport à ce qu'est un sonagramme numérique. Une transformation exotique se reflète dans le sonagramme, et en fait utilise celui-ci comme support de la transformation.

Dans l'équipe "Informatique musicale" du CNRS-LMA à Marseille, nous utilisons des micro-ordinateurs compatibles PC, notamment des Compaq 386 équipés de coprocesseur 80387, ainsi que de cartes de conversion analogique-numérique et numérique-analogique de qualité haute fidélité (une Data Translation 2723 et une Ariel Dsp 16) . Nous programmons essentiellement en langage Turbo Pascal, et utilisons un

"package" de FFT Microway. Nous échantillonnons les sons à une fréquence de 25600 Hz (qui correspond à des blocs de 256 points par centième de seconde).Le signal est enregistré, donc stocké sur disque dur comme étant une suite d'échantillons. Le sonagramme numérique utilise la transformée de Fourier à fenêtre glissante. Pour un temps donné, une transformée de Fourier indique pour chaque raie une valeur complexe, qui peut être décomposée en module et phase. Pour fixer les idées, une Transformée de Fourier effectuée sur 1024 points sur un signal échantillonné à 25600 échantillons secondes donne des raies écartées de 25 Hz. La largeur de bande est bien sûre dépendante de la forme de la fenêtre utilisée.mais est de l'ordre de ces 25 Hz.Pour ce qui est de la visualisation sur écran, nous utilisons une carte et un écran EGA, ce qui permet un écran de 640 par 350 points, et cela avec 16 couleurs sélectionnables parmi 64. Il serait aussi possible d'utiliser des niveaux de gris ou des définitions d'écran meilleur, mais Ega est un standard des compatibles PC. Les paliers de couleurs correspondent au logarithme des modules de la transformée de Fourier, c'est à dire à des décibels.ll est possible d'obtenir un sonagramme très fin en temps, puisque si l'on donne un écart temporel de 1 échantillon pour chaque colonne, l'écran entier représente 25 millisecondes. Il est bien sûr aussi possible d'avoir un diagramme grossier d'un son entier. Par exemple la visualisation de 6,4 secondes sur 640 points horizontaux donne une transformée de Fourier tous les centièmes de secondes, et ceci semble une mesure judicieuse pour une vue générale du son. Un autre aspect n'est pas négligeable: de la même manière qu'avec la transformée en ondelettes, il est possible d'obtenir un diagramme des phases, lisible seulement en zoom complet.

Article published online by EDP Sciences and available at http://dx.doi.org/10.1051/jphyscol:19902198

(3)

COLLOQUE DE PHYSIQUE

2. An a I vse SV n h t Bse d ' n u son. arille fine. minimale et rectanaulaire*

Est il possible de retrouver un son depuis son sonagramme? Autrement dit existe-il une méthode d'analyse synthèse qui soit identique à l'unité? La réponse est oui. il est possible de resynthétiser un son depuis son sonagramme numérique, si deux conditions soient vérifiées: I'on dispose à la fois du module et de la phase de la transformée de Fourier directe, et I'on a le résultat de l'analyse à intervalles de temps satisfaisant à un recouvrement des fenêtres d'analyse.

Si l'on dispose du module et de la phase sur le sonagramme. il suffit d'effectuer en un temps donné une transformée de Fourier inverse pour récupérer le signal initial multiplié par une fenêtre. II suffit donc d'additionner ces signaux en des temps differents pour synthétiser le signal original,

A

condition que la grille d'analyse soit

k

suffisamment serrée. La grille minimale

correspond à des intervalles de temps qui permettent la sommation des fenêtres selon un constante. Pour une fenêtre de Hanning, c'est la

trti, r~ moitié de la fen&tre. Nous appelons analyse en

c;c pal

JAr?

- A

- ,,,,

. grille fine une analyse pratiquée à intervalles d'un échantillon. Les grilles d'analyse-synthèse sont ' k rectangulaires, puisque l'intervalle en fréquence

est defini par la Transformée de Fourier.

A. techniaue

. .

Chaque transformée de Fourier directe peut être aussi vu comme une série de convolutions avec des grains qui sont constitués de la multiplication de la fenêtre avec une exponentielle complexe. Donc en

Le ralentissement d'un son sur une bande magnetique aboutit à sa transposition en fréquence, ce qui donne un effet désastreux à la voix: changement de tonalité et incompréhension des paroles. La méthode débattue ici conviendra à des ralentissements avec des facteurs grands, pouvant atteindre une dizaine ou pourquoi pas une centaine, en gardant la hauteur, le 'contenu fréquentiel' et en modifiant l'allure temporelle. Ce n'est pas un sujet trivial et les approches, y compris celles de Gabor, ont été nombreuses. Dans ce paragraphe, nous cherchons à ralentir un son dans un rapport entier (1.2.3 etc ...)

chaque point de la grille, nous avons la convolution du signal avec ce que nous conviendrons d'appeler par extension un grain de Gabor, bien que lui même n'ait envisagé que des enveloppes gaussiennes infinies. Lors de la reconstruction, la transformée de Fourier inverse revient à pratiquer à nouveau une série de convolutions

,

autrement dit à chaque

La méthode simple qui consiste à pratiquer une analyse du type grains de Gabor (sonagramme numérique) puis une resynthèse' avec ces mêmes grains, mais installés à des points différents sur l'échelle horizontale, mène à un échec total. L'audition et la visualisation du résultat est spectaculairement démonstratif: on obtient un effet de filtrage en peigne, autrement dit une absence totale de certaines fréquences.

est le problème?

Dans le fait certain que les grains qui se raccordaient bien avant, maintenant peuvent apparaître en phase ou hors de phase après leur déplacement temporel.

+ *

point du sonagrarnme est assigné, avec ses modules et phases, un grain de Gabor. Pour être rigoureux, il faut alors pratiquer une transformée

1

inverse suivie d'un nouveau fenêtrage. La condition de grille minimale

=b-

devient donc que la somme des carrés des fenêtres soit constante. Ainsi

I

pour une transformée de Fourier sur 1024 points, c'est un intervalle une grille minimale, ou un sous multiple temporel de cette grille (ce

I V +

de 256 échantillons qui est la grille minimale. Si l'analyse se fait selon

!

que nous appelons un facteur de sécurité) la resynthèse après analyse

; A

est parfaitement exacte. p , . - h ' ~

-

-,A** ,'*c

3. ralentissement sans transvosition Dar u n facteur entier

(4)

Aussi la solution préconisée est elle de manoeuvrer aussi bien dans le déplacement temporel que dans la phase des grains. Un signal sinusoïdal analysé puis resynthétisé doit rester identique à lui-même; ceci est un critère nécessaire (mais non suffisant) d'un bon ralentissement. Or la phase dans le plan temps-fréquence, c'est à dire le sonagramme vu du côté phase, retrace une évolution correspondant à la fréquence de la sinusoïde de départ. Si, lorsque l'on déplace les grains, on multiplie leur phase par le facteur de ralentissement, le déroulement correct des phases est préservé. Cela est plus simple à faire pour des facteurs de ralentissements entiers; en effet les phases sont calculées par les transformées de Fourier modulo 2x, et la multiplication entiére reste modulo 2x. Mais même avec cette simplification, ce qui est vrai pour une sinusoïde risque cependant de ne pas être suffisant pour un son complexe.

P.

expérkrw,

Passons donc à l'expérimentation. Prenons un son vocal ('gira', prononcé par Alex Grossman) et ralentissons le en multipliant les phases des grains successifs

.

Au premier coup d'oreille on est convaincu que certaines valeurs seront optimales et d'autres moins:

-

il y a nécessité d'appliquer des grains de Gabor aussi à la resynthese, autrement dit d'appliquer une fenêtre après la resynthèse par transformée de Fourier inverse.

-

en grille quasi minimale (facteur de sécurité de 2, c'est à dire espacement temporel de 128 échantillons pour des transformées de Fourier de 1024 points avec fenêtre de Hanning) les résultats sont identiques à la grille fine, avec gain de temps de calcul de rapport 128

...

-

Suivant la largeur de la fenêtre utilisée, les résultats sonores sont différents, et ce d'une manière intrigante, puisque l'information totale est la même (si I'on est moins précis en fréquence, on l'est plus en temps), et que sur une sinusoïde pure, le traitement est identique:

.Une fenêtre courte (soit 256 points) donne un aspect rocailleux à ce traitement, comme si il existait des 'résidus de fréquence' qui ont été transposés par le ralentissement temporel.

.Une fenêtre de 1024 points semble être la largeur optimale, du moins avec une fenêtre de Hanning. Bien entendu des ralentis avec un facteur de huit donne un aspect peu conventionnel à la voix, mais l'intelligibilité est totale, le contenu fréquentiel semble préservé, et il n'y a pas de fréquences imprévisibles qui viennent gâcher la transformation.

.Une fenêtre plus grande (4096) donne un effet curieux de réverbération additionnelle, comme si des délais étaient introduits. Ceci peut s'expliquer par le fait que l'opération de modification des phases est une convolution circulaire, autrement dit, le grain se replie sur lui-même (la partie gauche peut venir à droite et réciproquement suivant la valeur des phase individuelles). Etant donné la largeur macroscopique des grains (un sixième de seconde), l'effet est audible.

m n t a t i v e d'exolication ~ s v c h o acoustigug,

Deux expériences peuvent venir alimenter la réflexion sur la séparation temps fréquence.

Si nous considérons deux sinusoïdes simultanées, c'est à dire un battement, que désirons nous? Si le battement est lent, un ralentissement temporel de ce battement. S'il est plus rapide, donc tel que les deux fréquences apparaissent distinctes, une préservation de ces deux fréquences. On constatera bien que cela n'est pas identique, il faut donc que le traitement fasse apparaître une différence entre les battements lents et rapides. Une autre expérience est celle de la modulation en fréquence qui, lente est assimilée à un vibrato, et rapide est perçue comme une modification spectrale.

Le traitement effectué comme précédemment réalise une séparation temps fréquence, puisque le module correspond à une évolution lente, et la phase instantanée à l'évolution rapide. La transformée de Fourier peut en effet être aussi vue comme un banc de filtres; on comprend alors pourquoi la largeur de la transformée de Fourier intervient: c'est elle qui conditionne la "largeur de bande" de chaque voie.

(5)

COLLOQUE DE PHYSIQUE

9.

ralentissement sans t r a n s ~ o s i t i o n d'un facteur non entier.

Nous venons de voir que pour appliquer l'algorithme précédent, il fallait assigner aux phases le multiple de la phase initiale. Un facteur non entier pose un nouveau probléme, car il faut maintenant dérouler la phase avant sa pultiplication. En grille fine, cela est un traitement sinon standard du moins connu: il faut estimer cette phase non plus en relatif mais en absolu. Cela est possible au vu de la phase de la même composante lors de l'instant d'analyse précédent: \a nouvelle phase est alors estimée dans un intemalle de plus ou moins IC

autour de la valeur cible. Cette même méthode d'estimation, appliquée une grille large, peut conduire à des erreurs de multiples de 2x avant modification. Si de telles erreurs s'avérent audibles, il suffit de pratiquer en grille fine (ce qui représente toutefois un rapport de temps de calcuCde 128)

Rappelons donc la méthode générale de ralentissement-accélération dans un rapport quelconque:

-

pratiquer une analyse en grille rectangulaire du son (transformée de Fourier

a

fenêtre)

-

dérouler les phase sur les lignes horizontales

-

multiplier les phase déroulées

-

recomposer les éléments du son h leurs nouveaux emplacements (transformée inverse puis fenêtrage et sommation)

D'autres interventions sont possibles sur le diagramme temps fréquence d'un sonagramme numérique avant resynthése par exemple

-

la transposition en fréquence sans altération du déroulement temporel (conséquence directe des traitements précédents)

-

tous types de filtrage entre l'analyse et la resynthése.

-

un effet choral en introduisant des changements lents dans les modules et phases résultant de l'analyse

-

des dispersions des composantes en bouleversant les implantations des grains de resynthése.

-

des séparations source résonance, qui nécessitent cependant des traitements additionnels hors du cadre de cet article. Toutefois indiquons que des octaviations sans changements de formants ont été facilement réalisées.

6Ahncwh

-

Plus généralement toute operation sur le diagramme temps-fréquence peut être tentée. Cependant et en guise de conclusion, il faut savoir qu'entre I'analyse et la resynthése existe forcément une opération dite du noyau reproduisant, qui fait que toute transformation effectuée sera dénaturée en réalité au moment de la resynthése. Bien entendu cette altération est gênante mais cette obsemation est source de recherches actuelles.

Toute cette expérimentation rentre aussi dans le cadre d'une comparaison de cette methode avec la méthode des ondelettes, et un parallèle flagrant existe entre elles (existence de grille de reconstruction, formules d'analyses et de reconstruction, noyau reproduisant). Toutefois j'ai préféré ici situer cette recherche du côté de l'acoustique musicale plutôt que du traitement du signal.

références:

Gabor D. (1946) Theory of communication, Journal of I.E.E. London, vol 93, 429-441.

Grossmann A., Kronland-Martinet R. (1988), Time and scale representations obtained through continuous wavelet transforms, Signai Processing IV, Theories 'and Applications, Elsevier Publisher B.V. (North Holland), EURASIP 88

Moorer, J.A. (1978) The use of the phase vocoder in computer music applications, J.A.E.S. 26, pages42-45 Portnoff M.R. (1981) Time scale modification of speech based on Short time Fourier analysis, IEEE transactions on acoustics, speech, and signal processing, assp 29, n03, June 81.

Références

Documents relatifs

Exercice n°4: Dans chaque cas, indique si la droite (d) est la médiatrice du segment [AB].. b) Pour RSTU et IJK, reporte leur périmètre sur une demi-droite. c) Compare au compas

C’est dans ce cadre général que se pose la question du calcul effectif du spectre d’un signal sur une machine (ordinateur, analyseur de spectre), et qu’intervient la transformée

(a) En supposant que u et toutes ses dérivées admettent, à tout instant, des transformées de Fourier par rapport à la variable d'espace, déterminer le problème de Cauchy vérié

Greenleaf, dans l'article précité, ont étudié le cas où le gradient de la partie homogène de plus haut degré de p ne s'annule qu'en 0.. Ici, nous envisageons le cas où ce

Je suis un entier égal au produit de six nombres premiers distincts. La somme de mon inverse et des inverses de mes six facteurs premiers est égale

On pensait que les transformations avec des nombres réels pouvaient être plus efficacement calculées via une transformation discrète de Hartley mais il a été prouvé par la

Que ce soit au moyen d'un outil de calcul (ordinateur) ou d'un appareil de mesure (analyseur de spectre), on ne peut observer un signal que sur une durée finie. Cela entraîne

C’est dans ce cadre général que se pose la question du calcul effectif du spectre d’un signal sur une machine (ordinateur, analyseur de spectre), et qu’intervient la transformée