Application du modèle additif « shape invariant » pour la transformation de la voix

(1)

! "

! #

$ % & '( ! ) * + , - .,& +

, / 0 # , /

1 +

(2)

/

INTRODUCTION 5

NATURE DU SIGNAL DE PAROLE 6

1 LA PRODUCTION DE LA PAROLE [4][5] 6

1.1 DESCRIPTION DE L’APPAREIL PHONATOIRE 6

1.2 SONS PRODUITS PAR L’ORGANE VOCAL 7

2 CARACTÉRISTIQUES DU SIGNAL DE PAROLE 8

LE MODÈLE ADDITIF 14

1 P^RINCIPES 14

1.1 L'^ANALYSE 14

1.2 LE SUIVI DES TRAJETS DES PARTIELS 18

1.3 LA SYNTHESE 18

2 TRANSFORMATIONS 21

3 AVANTAGES ET LIMITATIONS 22

LA SYNTHÈSE « SHAPE INVARIANT » 23

1 L’ALGORITHME “SHAPE INVARIANT” ^DEM^CA^{ULAY ET}Q^UATIERI[2] 23 2 L’ALGORITHME “SHAPE INVARIANT” ^DEF^EDERICO[3] 25

2.1 P^RINCIPES 25

2.2 TIME-STRECH ET PITCH-SHIFT 26

2.3 RESULTATS OBTENUS 27

2.4 MODIFICATIONS DE L’^ALGORITHME 29

SYNTHÈSE ADDITIVE DU BRUIT 34

1 PRISE EN COMPTE DU BRUIT PAR LE RÉSIDUEL [8][10] 34 2 LE MODÈLE ADDITIF AMÉLIORÉ DE K^ELLYF^ITZ[12][13][14] 35

2.1 PRINCIPES 35

2.2 ALGORITHME PROPOSE 35

2.3 MISE EN OEUVRE PRATIQUE 37

2.4 R^ESULTATS 38

RÉSULTATS 40

1 R^{ÔLE DE L}’ESTIMATION DE VOISEMENT 40

2 RÉSULTATS OBTENUS 41

CONCLUSION 44

(3)

BIBLIOGRAPHIE 45

(4)

Je tiens à remercier Xavier Rodet et toute l’équipe Analyse-synthèse de l’IRCAM pour leur accueil, Axel Roebel pour sa disponibilité et son aide tout au long du stage, Toute l’équipe du DEA ATIAM de nous offrir encore et toujours la possibilité unique d’une formation scientifique et musicale, Cyrille Defaye pour sa sympathique présence et tous les services qu’elle est toujours prête à rendre, La promo du dernier DEA ATIAM pour cette année passée…

(5)

! " ! "

# $!

"

% & !

" # $

'

(

)

# $

% %

.

(6)

2

! " ""

#$" "

# % ""

& " " # " $ #

' ( $ " )*

+ & " " "

[Fig. 1] Schéma de l’appareil phonatoire, d’après [4]

+ , ""

" " ! - $" #

. " "

/

+ '

' & $ 0 "" & # 1

" , + # "

" " '

(7)

( * + # $ "

# ! $ " " $ " #

" " + "

# &

+

+ # " $ " " "

' " " #

" 3 "

" +

4

[Fig. 2] Section du larynx, vu de haut, d’après [4]

5

" % " 6

" &

+ $

7 "" "

+ - '

" " 7 ","

" " " ' 6

+ ' $ +

" & ( 8 9 . # " * ' "

! ""

: " ; "

< ( 8 9 8 = 9* : '

+ 8 9 " ' " '

(8)

" + 8 = 9 ( # " 6 8 9* ' "

+ "

%

" "

< ( # "

8 9* " $

? # .

$ , ""

@ ","

" "

% " "

! "" $

, # 6

" "

< . " ' # 6

( * ( *

+

, ( # " " 8 4 9* ( # "

8 9* $ ( # " 8 9* + &

" '

" " # 6

" " " " 4" " $

+ ' ' " " A

" "

( , ( # " 8 / 9* ( # "

8 9* $ ( # " 8 9** ; " +

( # "

8 9* "

3 ( # " 8 9*

< ( # " " 8 " 9*

"

% ' 6

(9)

+ ' " #

7 ( *

C " " "

-

7 " ( "

" #* , ""

+ #

"

+ " $ "

" ( *

[Fig. 3] Extrait d’un signal de parole pour un son voisé (échantillonné à 44100Hz)

(10)

[Fig. 4] Extrait d’un signal de parole pour un son non voisé (échantillonné à 44100Hz)

A

! , '

" ""

% " #" "

7 " "

# " "

"

$ + " &

"," # # # &

" & " < "

" "

(11)

[Fig. 5] Spectre d’une partie voisée

[Fig. 6] Spectre d’une partie non voisée

(12)

[Fig. 7] Sonogramme (en haut) et forme d’onde (en bas) de la phrase parlée par un homme : « the rain in

Spain »

(13)

+ " ( * " " '

: < #" " 2E' EF: : "" D E' EE

F: : "" EE' EEF: :

G " " $ &

$ " ' +

<

" " "

0 " $ " $ "

" $ " '

"

(14)

3

! " $ H 0 I DB> JDK +L "

4 M # A 4 "

" ( * L " M

! " $ # " "

" L ' #6 " "

" " ' #

! "

+L " N ' " ( ON!O

* +L 4 L # 4 "$ ( "

* " M

= L ON!O ! " ft).

+ ON!O ' " N f(t) , ,

g(t) " JDDK

7 '

ON!O ,

, 5 ' DEEF:

, , F EEE " D EE

(15)

[Fig. 8] Illustration du fenêtrage pour la TFCT

0 L t₀ ON!OS(t,w) f(t) !L

" N f(t)g(t-t0) 1g(t) , ( " ' " *

t0 < . g " "

" f(f g *

(D D*

7 " ( 1fs

L " " N * " 6

(D *

P " # "$ ON!O 6

N , N " ' " " #" (

- ' * + , ""

, F Q /"

= " " ( * N/4 ( "

N/4*

(16)

A ON!O ' # 4 %

' # ON!O "," " " #" M(

4 , * % # "" "

G # ' 6

+ " 6 " " f0

# M " f0

" k ( * , '

f₀ k f₀

+ " 6 " ' M

M # "

+ " " <

" " ON!O 1 " ( " * "

# , "

& $ 7 '

M " (

M , * "

" #

[Fig. 9] Schéma de principe d’une analyse additive harmonique et non harmonique

A # 4

"$ Q " "$ "

' NNO 0 EB

DEEF: "

(17)

DEEC EB RDE 22F: &'& $

+ " "" "

" ?

A " " " #

" 6

(D *

1f " n " fs fk

L NNO N , A

" ' #

< " " 6

1g , ON!O (D *

Q # " "

"$ # " 6

+ " M &

+ " 4

)

+ & ON!O

#

0 500 1000 1500 2000 2500 3000 3500 4000

-90 -80 -70 -60 -50 -40 -30 -20

(fréquences en Hz en abscisses, et amplitude en dB en ordonnée)

(18)

[Fig. 10] Illustration sur la TFCT de l’extraction des pics pour l’analyse additive

#

0 $ ( * # "$

' "," M "," 4 7 M 8 " 9

,

A " $ 4

% " 6

? M #6

M : " ","

M ON!O M

7 4 " M

' 4

+ " " < S

"," ( 4

"," " * J>K

G " $ "

( $ " #"

" * JDK

$ " %

A # 4 '

" " 6

(D * 1 Ai(n) fi(n) ,p " "

i^ème ' n=pT 1T " " ON!O

( 1N , O "

" # ON!O * p "

fi(n) ,p.

% "

"

" '

(19)

ON!O

% 6

5 # 4 i ' i '

7

% " " 6

(D *

A_i,p " i # ' " p

5 " 4 '

$ 0 "

H 0 I " "

" " "

" $

%

(D 2*

6

(D >*

fi,p # i # ' " p

+ ( k ' $*

6

(D B*

1T=n’-n

% k " $ ' " " H 0

(20)

I # "" $ " " 6

(D DE*

+ " "

(D DD*

$ k k*.

+ 4 (' * 4

(' * # "

k( DE " *

0 50 100 150 200 250 300 350 400 450

0 10 20 30 40 50 60 70 80 90

100 Phases pour différentes valeurs de k k=5

k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15

0 50 100 150 200 250 300 350 400 450

200 400 600 800 1000 1200 1400 1600

1800 Fréquences pour différentes valeurs de k

k=5 k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15

[Fig. 11] Trajets de phase et fréquence synthétisés pour différentes valeur de k

+ 4 " ' ( #

" *

G 6

(D D *

+ " " 4 E

+ 4 ' ( #

*

G 6

(21)

(D D *

+ " " E

& ' (

G ( " # * "$

" "

% ' "

"$ - $

7 "

6 : "

( * " C " " "

( " *

O

5 " " $

B

< " " "

5 # m’=D^-1m 1D

G $ (D 2* 6

(D D *

< " " "

"" "

(22)

$ ) (

+ " $ : " 6

! " $ "

! " " "

"$ $

% " "

! " , ( "," "

" $ *

! 6

< S ( "" *

$" "

+ 4

6 "

< " " 5 ,

4 ( T * ('

" " 4 *

< # # " "" ""

< " " " (

4 4 $ *

(23)

3 4 ! "

+ "

#

" +

" #

" (

" " " * ! "

" #","

+ " " & &

$ " H 0

I "" " <

$ ' , '

" "

" " "

" '

# 8 9

"

+ " & $ " "

G "," ' "

( * + , ) "

-

< DBB H 0 I " 8

9 " #

?

$ " " N & $ "

JK

+ s(t) , " "" $" &

1e(t) # v(t) "

+ # "

8 9 #

(24)

+

" $ M e(t) "" M

( D*

+ 6

( *

% 4

# 6

!

( *

1 f_i i^ème m "

'

% 6

! ! ( *

" " " #

" ' # (

' *

% # ( 8 9

*

+ " # , #

" ( " *

" " " + '

m # " " ' t06

( * '

+ D # t0’ ( &

D t0* "

+ "

# t0’.

( *

+ _! $

# " 6

! ! ( 2*

(25)

1T

+ " "

" "

( * + . $

+ " (

" * " #" " " 0

" 4 "$ Ai(n) fi(n) 4

"$ 6Ai(n) fi(n) ! 1! i &'&

" ( " *

% 5 6

( >*

! "

" #" " " "" &

[Fig. 12] Illustration du retard de phase relatif, d’après [3]

+ ( " * " " 6

(26)

! ( B*

= ' " " $ ' " (

* 6

! ! ( DE*

+ $ " 4 ' $

8 9 % " $ " 4 ' n

+ " 6

"

" ! ( DD*

% " " ( DD*

" D ' $

+ " 6

% "

6 " "

I " "

" ( DD* ' "

& ( / / '

+ " D $ (

$ * " D 4 $ " (

T C D*

+ " 6

"

" ! ( D *

$ " " '

$ # "

JE3G ( & *K

O 8 " " 9

" " 4 "$ #

(27)

$ 0 1

+ & " 8 " 9 +

( * '

DEEF: + # + "

: " :

+ " $ " &

" N < $

"," " " 8 9 %

$ " " " )

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

0.275 0.28 0.285 0.29 0.295 0.3

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4

0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 0.86 0.865 -0.4

-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

(28)

0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 0.86 0.865 -0.5

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

[Fig. 13] Illustration temporelle du « shape invariant » sur un signal de parole

" "

% "

"

! &

4 C " 4 $

" " ( " # " * G #

6 "$ " 8

9 N 3 "

" "

! " "

" $ N ""

" ! " " & $ ' "

N " #

! " " $ "

4 " "

" $

N " " 8 9

"

" , " " $

< " $

" $ 8 9 '

( " *

(29)

, ' (

Problématique

+ "

" "

5 "

/^$"

! ( D *

1! " /^$" "

+ " D " ,

"," < " "

" "

% $ S

'

! ! ! ! ( D *

F "," ! ' $ $ "

6

! ! ! ( D *

5 ' $ " (

" * " " N

G "," "

"," " $ 6

" " "

"

! ! ! ( D *

Algorithme proposé

+ " $ ' "

" 5 "

(30)

" % "

" , "

" "$

" f0 " -

"

0 " " " 6

#

( D2*

$ 6

i = round(Fi / f0) 1f0 " " " $ ' &

$ ( " U5? 0 ! F

V W JD K*

G "," i^ème L S "

+ #$" ' " ( " "

4 " * L " $

( "," $ i* "

6

#" # ( D>*

0 4 "$ + " 4

" 8 9

( " *

" ( " *

F " 4 "

" ""

" ? ' $

0 "

"$

" " ! & 1

" 4 $

"$ 4 " DF:

+ " "

(31)

0 50 100 150 200 250 300 350 400 450 125.4

125.6 125.8 126 126.2 126.4 126.6 126.8 127

Trajet correct Trajet pour une fréquence finale modifiée de 1 Hz

[Fig. 14] Problématique des modulations de fréquence pour un changement d’inharmonicité

0 " (","

" * "

4 D " "

% " 6

# # # #

( DB*

+ ' "," 4

( "," " * " 4

& " ( *

0 50 100 150 200 250 300 350 400 450

125.4 125.6 125.8 126 126.2 126.4 126.6 126.8 127

Trajet correct Trajet pour une fréquence finale modifiée de 1 Hz Trajet modifié nouvelles fréquence et phase finales

[Fig. 15] Correction proposée pour supprimer les modulations de fréquence dues au changement

d’inharmonicité du 1^er trajet

(32)

0 S " 4 '

" "

" " '

D 4 " N $

" "

< " J K

' 4 ( (D 2* ' (D DD** 4 ""

$

Schéma synoptique de l’algorithme proposé

+ " " ( D* "

" & $

(33)

TFCT puis analyse additive

Calcul des retards de phase relatifs :

; ! ;

! !

Calcul de la fondamentale « moyenne » et des nouvelles fréquences (inharmonicité réduite) :

#

et #" #

Modification des phases du 1^er trajet :

# # # #

puis synthèse du 1^er trajet pour obtenir ses nouvelles phases déroulées (cf.

partie sur synthèse additive, équations 2.7 à 2.11)

Calcul des phases (modulo 2.pi) des autres partiels :

"

" !

puis calcul des nouvelles phases déroulées (cf. partie sur synthèse additive, équations 2.7 à 2.11)

[Fig. 16] Synoptique résumant l’algorithme de « shape invariant » utilisé

(34)

54 ! /

+ $

" " " "

" 7 " $

$" " "

" V N : " $ " "

" " ""

#

( 1 2 3

+ ( " *

" 5 (u

*6

$ % % ( D*

04 ( $ " * S

0 "

h(n) ( " " " *

b(n) $

& $

# ( *

7 " " C "

"

4 ! # " $"

' " "

! " N :

& $

(35)

( % ' ( 4 " . 5

$

5 ' # + '

M " $

0 " 6

' ( ) ) #& ( *

1i " k n " bi,k

( * hi,k k^ème Gi,k

" < Ki,k " E D "

4 (Ki,kR E Ki,kR

D *

+ " $ M Gi,k Ki,k

6

( ) ( *

1Ai,k " M

% " ' #

"$ '

+ "$ ,

" " ' y G

V N : $ , "

# "

+ " N : "$

) (

0 " " $ " $ "

" , &

" $ " < , ","

' " G

#" ,

(36)

% , "

" "" ,

D + # E' EB E' E EF:

0 100 200 300 400 500 600 700

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 0

0.2 0.4 0.6 0.8 1 1.2 1.4

[Fig. 17] Fenêtres de mesure et de génération du bruit

A , , '

ON!O

% < ( ' * 6

!

* + + ( *

G M 6

+ $* ( *

1g , " N NNO %

0 " ' ON!OS " , W

L ( , *

$% %

* * *

* , ( 2*

G

%

* , ( >*

1Wk’ " , M # Ai,k

% 6

$%

, ,

* ( B*

(37)

5 " "$ Gi,k Ki,k

Ebruit + &

$ 6

$%

' ( ) ) &

* * ( ) &

* ( ) & ( ) &

#

$ #

$

( DE*

N " ( $ $ ( ** ,

$" 6

$%

( )

, ,

* ( ) & ( DD*

" "" 6

$%

( *

) ( &

(

* ( & )

(

& ( D *

$ ,

% " :

" " " 8 " 9

" ( , EEEF: # "

" " " *

% " EEF: " '

, G "

4 8 9 # _$_% "

M 6

$% !

# '

( )

*

(38)

0

G &'& " '

"" # " ! " "

# " M

( " * ! $

" 4 $ " " #

$"

! " # " $ "

" " & ( *

+ " "" ( 8 9*

" $ "

"

Time

Frequency

Signal d'entree

1.35 1.4 1.45 1.5

2000 4000 6000 8000 10000 12000 14000 16000

-80 -60 -40 -20 0 20 40

(39)

Time

Frequency

Signal synthetise : bruit

1.35 1.4 1.45 1.5

2000 4000 6000 8000 10000 12000 14000 16000

-80 -60 -40 -20 0 20 40

[Fig. 18] Spectrogrammes d’une sifflante sur le signal original en haut et sur le signal synthétisé par le modèle

de bruit en bas

(40)

,

A 8 9 " $ "

' " $ $

# + &4 " " "

M '

$

06 ( (

? 4'

"," " <

4 ' " fv &

'

" " " " C fv JK

$ M ( * " "

$ " ' :

! " 4 $

" fv " ( E D 3E

" D " *

0 ' " : 6

< fv 6 G

" 8 9 (

" *

0 & fv 6 G "

" "

6 " " ' %

"

Q 5 &

' f_v " "

"

(41)

0 1

"

" " &'& 4

" 4 S ' "

" "

+ " "$

( 1Ai,p Ki,p " " M #

*

"

!

+

! + !

#

# ( ( D*

+ !

# !

+ RE vR D

"

#"

" "

!

! + !

) ) )

) # ( ( *

+ !

# ! f

" " E D + ( & *

: RD # ₊

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

[Fig. 19] Fonction f donnant le gain à appliquer au facteur de bruit en fonction du degré de voisement

(42)

6

! " #

$ " %

& ' " $

G "

' " 6

H " " "

8 9

+ $ " $ " $

' + " $ " '

" M % ""

' " " " "$

$ " "

+ " ""

"

(43)

Time

Frequency

Signal d'entree

0 0.5 1 1.5

0 0.5 1 1.5 2

x 10⁴

-80 -60 -40 -20 0 20 40

Time

Frequency

Signal synthetise : sinusoïdal

0 0.5 1 1.5

0 0.5 1 1.5 2

x 10⁴

-80 -60 -40 -20 0 20 40

[Fig. 20] Spectrogrammes du signal de parole « the rain in S… » : original en haut à gauche, synthétisé en haut à

droite, partie sinusoïdale seulement en bas à gauche, partie bruit seulement en bas à droite (sans

transformation)

Time

Frequency

Signal d'entree

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

0 0.5 1 1.5 2

x 10⁴

-80 -60 -40 -20 0 20 40

[Fig. 21] Spectrogrammes du signal de parole « the rain in S… » : original à gauche, synthétisé à droite avec une

dilatation temporelle d’un facteur 5

(44)

&

* +

,

& %

-

# $ *

.

# $ & .

& %

* !

# $ * "

* *%

/ /

*

&

(45)

6/

JDK = X H 0 O " N I Y7 C

Z 5<<< 0 7

7 077 & ? 0 DB>

JK = X H 0 O " N I Y7 " &

" Z 5<<< 7

E ? H DBB

JK = G N Y [ " "

" Z ! 7

! " : A 7

JK O G 8 O " 0 " ? C

G<! 9 N H " $ EEE

JK H ! " % 8 < " $ \ M

" # < "

9 $ D CDDCB>

JK P ]H $ " '

] $ 4 EED

J2K G O F Y <# / "

7ONO " W W Z5=!0H

J>K ^ 7 Y H " W Z !

= 7 0 P G DBB2 Y H 7

Z 7 _ `

JBK < Q P Y 7 C "

& & C & " Z 5<<<

a ? 7 " DBB2

JDEK^ = YH C 6 b

" W " " Z ONO7B2 5<<< O " &

" & [ / B2 ! AV 0 S DBB2

JDDK7 W 6 6CCWWW " Cc2< " C C C

C "

JD KV N : + F / ! Y 0 W "

W & " Z !<=+

A 5 A &! "

JD KV N : + F / YQ W "

(46)

+ " Z 5!H! DBB D &D 2

JD KV N : Y O W & "

Z O DBBB

JD K0 ! F V W YU5? " "

" Z X 0 7 0" EE