• Aucun résultat trouvé

Application du modèle additif « shape invariant » pour la transformation de la voix

N/A
N/A
Protected

Academic year: 2022

Partager "Application du modèle additif « shape invariant » pour la transformation de la voix"

Copied!
46
0
0

Texte intégral

(1)

! "

! #

$ % & '( ! ) * + , - .,& +

, / 0 # , /

1 +

(2)

/

INTRODUCTION 5

NATURE DU SIGNAL DE PAROLE 6

1 LA PRODUCTION DE LA PAROLE [4][5] 6

1.1 DESCRIPTION DE LAPPAREIL PHONATOIRE 6

1.2 SONS PRODUITS PAR LORGANE VOCAL 7

2 CARACTÉRISTIQUES DU SIGNAL DE PAROLE 8

LE MODÈLE ADDITIF 14

1 PRINCIPES 14

1.1 L'ANALYSE 14

1.2 LE SUIVI DES TRAJETS DES PARTIELS 18

1.3 LA SYNTHESE 18

2 TRANSFORMATIONS 21

3 AVANTAGES ET LIMITATIONS 22

LA SYNTHÈSE « SHAPE INVARIANT » 23

1 L’ALGORITHME SHAPE INVARIANTDE MCAULAY ET QUATIERI [2] 23 2 L’ALGORITHME SHAPE INVARIANTDE FEDERICO [3] 25

2.1 PRINCIPES 25

2.2 TIME-STRECH ET PITCH-SHIFT 26

2.3 RESULTATS OBTENUS 27

2.4 MODIFICATIONS DE LALGORITHME 29

SYNTHÈSE ADDITIVE DU BRUIT 34

1 PRISE EN COMPTE DU BRUIT PAR LE RÉSIDUEL [8][10] 34 2 LE MODÈLE ADDITIF AMÉLIORÉ DE KELLY FITZ [12][13][14] 35

2.1 PRINCIPES 35

2.2 ALGORITHME PROPOSE 35

2.3 MISE EN OEUVRE PRATIQUE 37

2.4 RESULTATS 38

RÉSULTATS 40

1 RÔLE DE LESTIMATION DE VOISEMENT 40

2 RÉSULTATS OBTENUS 41

CONCLUSION 44

(3)

BIBLIOGRAPHIE 45

(4)

Je tiens à remercier Xavier Rodet et toute l’équipe Analyse-synthèse de l’IRCAM pour leur accueil, Axel Roebel pour sa disponibilité et son aide tout au long du stage, Toute l’équipe du DEA ATIAM de nous offrir encore et toujours la possibilité unique d’une formation scientifique et musicale, Cyrille Defaye pour sa sympathique présence et tous les services qu’elle est toujours prête à rendre, La promo du dernier DEA ATIAM pour cette année passée…

(5)

! " ! "

# $!

"

% & !

" # $

'

(

)

# $

% %

.

(6)

2

! " ""

#$" "

# % ""

& " " # " $ #

' ( $ " )*

+ & " " "

[Fig. 1] Schéma de l’appareil phonatoire, d’après [4]

+ , ""

" " ! - $" #

. " "

/

+ '

' & $ 0 "" & # 1

" , + # "

" " '

(7)

( * + # $ "

# ! $ " " $ " #

" " + "

# &

+

+ # " $ " " "

' " " #

" 3 "

" +

4

[Fig. 2] Section du larynx, vu de haut, d’après [4]

5

" % " 6

" &

+ $

7 "" "

+ - '

" " 7 ","

" " " ' 6

+ ' $ +

" & ( 8 9 . # " * ' "

! ""

: " ; "

< ( 8 9 8 = 9* : '

+ 8 9 " ' " '

(8)

" + 8 = 9 ( # " 6 8 9* ' "

+ "

%

" "

" "

< ( # "

8 9* " $

? # .

$ , ""

@ ","

" "

% " "

! "" $

, # 6

" "

< . " ' # 6

( * ( *

+

, ( # " " 8 4 9* ( # "

8 9* $ ( # " 8 9* + &

" '

" " # 6

" " " " 4" " $

+ ' ' " " A

" "

( , ( # " 8 / 9* ( # "

8 9* $ ( # " 8 9** ; " +

( # "

8 9* "

3 ( # " 8 9*

< ( # " " 8 " 9*

"

% ' 6

(9)

+ ' " #

7 ( *

C " " "

-

7 " ( "

" #* , ""

+ #

"

+ " $ "

" ( *

[Fig. 3] Extrait d’un signal de parole pour un son voisé (échantillonné à 44100Hz)

(10)

[Fig. 4] Extrait d’un signal de parole pour un son non voisé (échantillonné à 44100Hz)

A

! , '

" ""

% " #" "

7 " "

# " "

"

$ + " &

"," # # # &

" & " < "

" "

(11)

[Fig. 5] Spectre d’une partie voisée

[Fig. 6] Spectre d’une partie non voisée

(12)

[Fig. 7] Sonogramme (en haut) et forme d’onde (en bas) de la phrase parlée par un homme : « the rain in

Spain »

(13)

+ " ( * " " '

: < #" " 2E' EF: : "" D E' EE

F: : "" EE' EEF: :

G " " $ &

$ " ' +

<

" " "

0 " $ " $ "

" $ " '

"

(14)

3

! " $ H 0 I DB> JDK +L "

4 M # A 4 "

" ( * L " M

! " $ # " "

" L ' #6 " "

" " ' #

! "

+L " N ' " ( ON!O

* +L 4 L # 4 "$ ( "

* " M

= L ON!O ! " ft).

+ ON!O ' " N f(t) , ,

g(t) " JDDK

7 '

ON!O ,

, 5 ' DEEF:

, , F EEE " D EE

(15)

[Fig. 8] Illustration du fenêtrage pour la TFCT

0 L t0 ON!OS(t,w) f(t) !L

" N f(t)g(t-t0) 1g(t) , ( " ' " *

t0 < . g " "

" f(f g *

(D D*

7 " ( 1fs

L " " N * " 6

(D *

P " # "$ ON!O 6

N , N " ' " " #" (

- ' * + , ""

, F Q /"

= " " ( * N/4 ( "

N/4*

(16)

A ON!O ' # 4 %

' # ON!O "," " " #" M(

4 , * % # "" "

G # ' 6

+ " 6 " " f0

# M " f0

" k ( * , '

f0 k f0

+ " 6 " ' M

M # "

+ " " <

" " ON!O 1 " ( " * "

# , "

& $ 7 '

M " (

M , * "

" #

[Fig. 9] Schéma de principe d’une analyse additive harmonique et non harmonique

A # 4

"$ Q " "$ "

' NNO 0 EB

DEEF: "

(17)

DEEC EB RDE 22F: &'& $

+ " "" "

" ?

A " " " #

" 6

(D *

1f " n " fs fk

L NNO N , A

" ' #

< " " 6

1g , ON!O (D *

Q # " "

"$ # " 6

+ " M &

+ " 4

)

+ & ON!O

#

0 500 1000 1500 2000 2500 3000 3500 4000

-90 -80 -70 -60 -50 -40 -30 -20

(fréquences en Hz en abscisses, et amplitude en dB en ordonnée)

(18)

[Fig. 10] Illustration sur la TFCT de l’extraction des pics pour l’analyse additive

#

0 $ ( * # "$

' "," M "," 4 7 M 8 " 9

,

A " $ 4

% " 6

? M #6

M : " ","

M ON!O M

7 4 " M

' 4

+ " " < S

"," ( 4

"," " * J>K

G " $ "

( $ " #"

" * JDK

$ " %

A # 4 '

" " 6

(D * 1 Ai(n) fi(n) ,p " "

ième ' n=pT 1T " " ON!O

( 1N , O "

" # ON!O * p "

fi(n) ,p.

% "

"

" '

(19)

ON!O

% 6

5 # 4 i ' i '

7

% " " 6

(D *

Ai,p " i # ' " p

5 " 4 '

$ 0 "

H 0 I " "

" " "

" $

%

(D 2*

6

(D >*

fi,p # i # ' " p

+ ( k ' $*

6

(D B*

1T=n’-n

% k " $ ' " " H 0

(20)

I # "" $ " " 6

(D DE*

+ " "

(D DD*

$ k k*.

+ 4 (' * 4

(' * # "

k( DE " *

0 50 100 150 200 250 300 350 400 450

0 10 20 30 40 50 60 70 80 90

100 Phases pour différentes valeurs de k k=5

k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15

0 50 100 150 200 250 300 350 400 450

200 400 600 800 1000 1200 1400 1600

1800 Fréquences pour différentes valeurs de k

k=5 k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15

[Fig. 11] Trajets de phase et fréquence synthétisés pour différentes valeur de k

+ 4 " ' ( #

" *

G 6

(D D *

+ " " 4 E

+ 4 ' ( #

*

G 6

(21)

(D D *

+ " " E

& ' (

G ( " # * "$

" "

% ' "

"$ - $

7 "

6 : "

( * " C " " "

( " *

O

5 " " $

B

< " " "

5 # m’=D-1m 1D

G $ (D 2* 6

(D D *

< " " "

"" "

(22)

$ ) (

+ " $ : " 6

! " $ "

! " " "

"$ $

% " "

! " , ( "," "

" $ *

! 6

< S ( "" *

$" "

+ 4

6 "

< " " 5 ,

4 ( T * ('

" " 4 *

< # # " "" ""

< " " " (

4 4 $ *

(23)

3 4 ! "

+ "

#

" +

" #

" (

" " " * ! "

" #","

+ " " & &

$ " H 0

I "" " <

$ ' , '

" "

" " "

" '

# 8 9

"

+ " & $ " "

G "," ' "

( * + , ) "

-

< DBB H 0 I " 8

9 " #

?

$ " " N & $ "

JK

+ s(t) , " "" $" &

1e(t) # v(t) "

+ # "

8 9 #

(24)

+

" $ M e(t) "" M

( D*

+ 6

( *

% 4

# 6

!

!

( *

1 fi ième m "

'

% 6

! ! ( *

" " " #

" ' # (

' *

% # ( 8 9

*

+ " # , #

" ( " *

" " " + '

m # " " ' t06

( * '

+ D # t0 ( &

D t0* "

+ "

# t0’.

( *

+ ! $

# " 6

! ! ( 2*

(25)

1T

+ " "

" "

( * + . $

+ " (

" * " #" " " 0

" 4 "$ Ai(n) fi(n) 4

"$ 6Ai(n) fi(n) ! 1! i &'&

" ( " *

% 5 6

( >*

! "

" #" " " "" &

[Fig. 12] Illustration du retard de phase relatif, d’après [3]

+ ( " * " " 6

(26)

! ( B*

= ' " " $ ' " (

* 6

! ! ( DE*

+ $ " 4 ' $

8 9 % " $ " 4 ' n

+ " 6

"

" ! ( DD*

% " " ( DD*

" D ' $

+ " 6

% "

6 " "

I " "

" ( DD* ' "

& ( / / '

+ " D $ (

$ * " D 4 $ " (

T C D*

+ " 6

"

" ! ( D *

$ " " '

$ # "

JE3G ( & *K

O 8 " " 9

" " 4 "$ #

(27)

$ 0 1

+ & " 8 " 9 +

( * '

DEEF: + # + "

: " :

+ " $ " &

" N < $

"," " " 8 9 %

$ " " " )

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

0.275 0.28 0.285 0.29 0.295 0.3

-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4

0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 0.86 0.865 -0.4

-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

(28)

0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 0.86 0.865 -0.5

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

[Fig. 13] Illustration temporelle du « shape invariant » sur un signal de parole

" "

% "

"

! &

4 C " 4 $

" " ( " # " * G #

6 "$ " 8

9 N 3 "

" "

! " "

" $ N ""

" ! " " & $ ' "

N " #

! " " $ "

4 " "

" $

N " " 8 9

"

" , " " $

< " $

" $ 8 9 '

( " *

(29)

, ' (

Problématique

+ "

" "

5 "

/$"

! ( D *

1! " /$" "

+ " D " ,

"," < " "

" "

% $ S

'

! ! ! ! ( D *

F "," ! ' $ $ "

6

! ! ! ( D *

5 ' $ " (

" * " " N

G "," "

"," " $ 6

" " "

"

! ! ! ( D *

Algorithme proposé

+ " $ ' "

" 5 "

(30)

" % "

" , "

" "$

" f0 " -

"

0 " " " 6

#

( D2*

$ 6

i = round(Fi / f0) 1f0 " " " $ ' &

$ ( " U5? 0 ! F

V W JD K*

G "," ième L S "

+ #$" ' " ( " "

4 " * L " $

( "," $ i* "

6

#" # ( D>*

0 4 "$ + " 4

" 8 9

( " *

" ( " *

F " 4 "

" ""

" ? ' $

0 "

"$

" " ! & 1

" 4 $

"$ 4 " DF:

+ " "

(31)

0 50 100 150 200 250 300 350 400 450 125.4

125.6 125.8 126 126.2 126.4 126.6 126.8 127

Trajet correct Trajet pour une fréquence finale modifiée de 1 Hz

[Fig. 14] Problématique des modulations de fréquence pour un changement d’inharmonicité

0 " (","

" * "

4 D " "

% " 6

# # # #

( DB*

+ ' "," 4

( "," " * " 4

& " ( *

0 50 100 150 200 250 300 350 400 450

125.4 125.6 125.8 126 126.2 126.4 126.6 126.8 127

Trajet correct Trajet pour une fréquence finale modifiée de 1 Hz Trajet modifié nouvelles fréquence et phase finales

[Fig. 15] Correction proposée pour supprimer les modulations de fréquence dues au changement

d’inharmonicité du 1er trajet

(32)

0 S " 4 '

" "

" " '

D 4 " N $

" "

< " J K

' 4 ( (D 2* ' (D DD** 4 ""

$

Schéma synoptique de l’algorithme proposé

+ " " ( D* "

" & $

(33)

TFCT puis analyse additive

Calcul des retards de phase relatifs :

; ! ;

! !

Calcul de la fondamentale « moyenne » et des nouvelles fréquences (inharmonicité réduite) :

#

et #" #

Modification des phases du 1er trajet :

# # # #

puis synthèse du 1er trajet pour obtenir ses nouvelles phases déroulées (cf.

partie sur synthèse additive, équations 2.7 à 2.11)

Calcul des phases (modulo 2.pi) des autres partiels :

"

" !

puis calcul des nouvelles phases déroulées (cf. partie sur synthèse additive, équations 2.7 à 2.11)

[Fig. 16] Synoptique résumant l’algorithme de « shape invariant » utilisé

(34)

54 ! /

+ $

" " " "

" 7 " $

$" " "

" V N : " $ " "

" " ""

#

( 1 2 3

+ ( " *

" 5 (u

*6

$ % % ( D*

04 ( $ " * S

0 "

h(n) ( " " " *

b(n) $

& $

# ( *

7 " " C "

"

4 ! # " $"

' " "

! " N :

& $

(35)

( % ' ( 4 " . 5

$

5 ' # + '

M " $

0 " 6

' ( ) ) #& ( *

1i " k n " bi,k

( * hi,k kème Gi,k

" < Ki,k " E D "

4 (Ki,kR E Ki,kR

D *

+ " $ M Gi,k Ki,k

6

( ) ( *

1Ai,k " M

% " ' #

"$ '

+ "$ ,

" " ' y G

V N : $ , "

# "

+ " N : "$

) (

0 " " $ " $ "

" , &

" $ " < , ","

' " G

#" ,

(36)

% , "

" "" ,

D + # E' EB E' E EF:

0 100 200 300 400 500 600 700

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 500 1000 1500 2000 2500 3000 3500 4000 4500 0

0.2 0.4 0.6 0.8 1 1.2 1.4

[Fig. 17] Fenêtres de mesure et de génération du bruit

A , , '

ON!O

% < ( ' * 6

!

* + + ( *

G M 6

+ $* ( *

1g , " N NNO %

0 " ' ON!OS " , W

L ( , *

$% %

* * *

* , ( 2*

G

%

* , ( >*

1Wk’ " , M # Ai,k

% 6

$%

, ,

* ( B*

(37)

5 " "$ Gi,k Ki,k

Ebruit + &

$ 6

$%

$%

' ( ) ) &

* * ( ) &

* ( ) & ( ) &

#

$ #

$

( DE*

N " ( $ $ ( ** ,

$" 6

$%

( )

, ,

* ( ) & ( DD*

" "" 6

$%

$%

( *

) ( &

(

* ( & )

(

& ( D *

$ ,

% " :

" " " 8 " 9

" ( , EEEF: # "

" " " *

% " EEF: " '

, G "

4 8 9 # $% "

M 6

$% !

# '

( )

*

(38)

0

G &'& " '

"" # " ! " "

# " M

( " * ! $

" 4 $ " " #

$"

! " # " $ "

" " & ( *

+ " "" ( 8 9*

" $ "

"

Time

Frequency

Signal d'entree

1.35 1.4 1.45 1.5

2000 4000 6000 8000 10000 12000 14000 16000

-80 -60 -40 -20 0 20 40

(39)

Time

Frequency

Signal synthetise : bruit

1.35 1.4 1.45 1.5

2000 4000 6000 8000 10000 12000 14000 16000

-80 -60 -40 -20 0 20 40

[Fig. 18] Spectrogrammes d’une sifflante sur le signal original en haut et sur le signal synthétisé par le modèle

de bruit en bas

(40)

,

A 8 9 " $ "

' " $ $

# + &4 " " "

M '

$

06 ( (

? 4'

"," " <

4 ' " fv &

'

" " " " C fv JK

$ M ( * " "

$ " ' :

! " 4 $

" fv " ( E D 3E

" D " *

0 ' " : 6

< fv 6 G

" 8 9 (

" *

0 & fv 6 G "

" "

6 " " ' %

"

Q 5 &

' fv " "

"

(41)

0 1

"

" " &'& 4

" 4 S ' "

" "

+ " "$

( 1Ai,p Ki,p " " M #

*

"

"

!

+

! + !

#

# ( ( D*

+ !

# !

+ RE vR D

"

#"

" "

!

!

! + !

) ) )

) # ( ( *

+ !

# ! f

" " E D + ( & *

: RD # +

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

[Fig. 19] Fonction f donnant le gain à appliquer au facteur de bruit en fonction du degré de voisement

(42)

6

! " #

$ " %

& ' " $

G "

' " 6

H " " "

8 9

+ $ " $ " $

' + " $ " '

" M % ""

' " " " "$

$ " "

+ " ""

"

(43)

Time

Frequency

Signal d'entree

0 0.5 1 1.5

0 0.5 1 1.5 2

x 104

-80 -60 -40 -20 0 20 40

Time

Frequency

Signal synthetise : sinusoïdal

0 0.5 1 1.5

0 0.5 1 1.5 2

x 104

-80 -60 -40 -20 0 20 40

[Fig. 20] Spectrogrammes du signal de parole « the rain in S… » : original en haut à gauche, synthétisé en haut à

droite, partie sinusoïdale seulement en bas à gauche, partie bruit seulement en bas à droite (sans

transformation)

Time

Frequency

Signal d'entree

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6

0 0.5 1 1.5 2

x 104

-80 -60 -40 -20 0 20 40

[Fig. 21] Spectrogrammes du signal de parole « the rain in S… » : original à gauche, synthétisé à droite avec une

dilatation temporelle d’un facteur 5

(44)

&

* +

,

& %

-

# $ *

.

# $ & .

& %

* !

# $ * "

* *%

/ /

*

&

(45)

6/

JDK = X H 0 O " N I Y7 C

Z 5<<< 0 7

7 077 & ? 0 DB>

JK = X H 0 O " N I Y7 " &

" Z 5<<< 7

E ? H DBB

JK = G N Y [ " "

" Z ! 7

! " : A 7

JK O G 8 O " 0 " ? C

G<! 9 N H " $ EEE

JK H ! " % 8 < " $ \ M

" # < "

9 $ D CDDCB>

JK P ]H $ " '

] $ 4 EED

J2K G O F Y <# / "

7ONO " W W Z5=!0H

J>K ^ 7 Y H " W Z !

= 7 0 P G DBB2 Y H 7

Z 7 _ `

JBK < Q P Y 7 C "

& & C & " Z 5<<<

a ? 7 " DBB2

JDEK^ = YH C 6 b

" W " " Z ONO7B2 5<<< O " &

" & [ / B2 ! AV 0 S DBB2

JDDK7 W 6 6CCWWW " Cc2< " C C C

C "

JD KV N : + F / ! Y 0 W "

W & " Z !<=+

A 5 A &! "

JD KV N : + F / YQ W "

(46)

+ " Z 5!H! DBB D &D 2

JD KV N : Y O W & "

Z O DBBB

JD K0 ! F V W YU5? " "

" Z X 0 7 0" EE

Références

Documents relatifs

 Les sciences de la vie et de la santé constituent un champ scientifique en permanente évolution, tant sur le plan des concepts, des approches multidisciplinaires,

Le Conseil Scientifique de l’Inserm s’est prononcé sur la parité début 2012 à l’issue d’un processus de réflexion interne et a fait des propositions pour

L’ANR finance de la recherche clinique (25 M€/an), non pas tant des essais thérapeutiques (seulement la preuve du concept clinique dans le cadre de projets

Je remercie vivement ces initiatives en cette période difficile et je souhaite que cette année nous puissions nous retrouver lors de ce premier week-end de décembre 2021 avec

Le Mali a su également tirer profit du Cadre intégré renforcé (CIR) grâce à l'opérationnalisation de son Unité de mise en oeuvre, à travers laquelle

Dans le cadre de notre étude, le capital social comme ressource primordiale du réseau social est notre facteur principal pour contribuer à l’insertion professionnelle des

19,50 € Appareil traditionnel avec assiette de charcuterie, pomme de terre chaude (plate de Florenville) &amp; salade. Boîte chaude - Vacherin du Mont

Je persiste aussi à croire que l’incorporation d’élément préférentielle dans le débat et la réforme favoriserait d’avantage les tiers partis, et éviterait comme le suggère