! "
! #
$ % & '( ! ) * + , - .,& +
, / 0 # , /
1 +
/
INTRODUCTION 5
NATURE DU SIGNAL DE PAROLE 6
1 LA PRODUCTION DE LA PAROLE [4][5] 6
1.1 DESCRIPTION DE L’APPAREIL PHONATOIRE 6
1.2 SONS PRODUITS PAR L’ORGANE VOCAL 7
2 CARACTÉRISTIQUES DU SIGNAL DE PAROLE 8
LE MODÈLE ADDITIF 14
1 PRINCIPES 14
1.1 L'ANALYSE 14
1.2 LE SUIVI DES TRAJETS DES PARTIELS 18
1.3 LA SYNTHESE 18
2 TRANSFORMATIONS 21
3 AVANTAGES ET LIMITATIONS 22
LA SYNTHÈSE « SHAPE INVARIANT » 23
1 L’ALGORITHME “SHAPE INVARIANT” DE MCAULAY ET QUATIERI [2] 23 2 L’ALGORITHME “SHAPE INVARIANT” DE FEDERICO [3] 25
2.1 PRINCIPES 25
2.2 TIME-STRECH ET PITCH-SHIFT 26
2.3 RESULTATS OBTENUS 27
2.4 MODIFICATIONS DE L’ALGORITHME 29
SYNTHÈSE ADDITIVE DU BRUIT 34
1 PRISE EN COMPTE DU BRUIT PAR LE RÉSIDUEL [8][10] 34 2 LE MODÈLE ADDITIF AMÉLIORÉ DE KELLY FITZ [12][13][14] 35
2.1 PRINCIPES 35
2.2 ALGORITHME PROPOSE 35
2.3 MISE EN OEUVRE PRATIQUE 37
2.4 RESULTATS 38
RÉSULTATS 40
1 RÔLE DE L’ESTIMATION DE VOISEMENT 40
2 RÉSULTATS OBTENUS 41
CONCLUSION 44
BIBLIOGRAPHIE 45
Je tiens à remercier Xavier Rodet et toute l’équipe Analyse-synthèse de l’IRCAM pour leur accueil, Axel Roebel pour sa disponibilité et son aide tout au long du stage, Toute l’équipe du DEA ATIAM de nous offrir encore et toujours la possibilité unique d’une formation scientifique et musicale, Cyrille Defaye pour sa sympathique présence et tous les services qu’elle est toujours prête à rendre, La promo du dernier DEA ATIAM pour cette année passée…
! " ! "
# $!
"
% & !
" # $
'
(
)
# $
% %
.
2
! " ""
#$" "
# % ""
& " " # " $ #
' ( $ " )*
+ & " " "
[Fig. 1] Schéma de l’appareil phonatoire, d’après [4]
+ , ""
" " ! - $" #
. " "
/
+ '
' & $ 0 "" & # 1
" , + # "
" " '
( * + # $ "
# ! $ " " $ " #
" " + "
# &
+
+ # " $ " " "
' " " #
" 3 "
" +
4
[Fig. 2] Section du larynx, vu de haut, d’après [4]
5
" % " 6
" &
+ $
7 "" "
+ - '
" " 7 ","
" " " ' 6
+ ' $ +
" & ( 8 9 . # " * ' "
! ""
: " ; "
< ( 8 9 8 = 9* : '
+ 8 9 " ' " '
" + 8 = 9 ( # " 6 8 9* ' "
+ "
%
" "
" "
< ( # "
8 9* " $
? # .
$ , ""
@ ","
" "
% " "
! "" $
, # 6
" "
< . " ' # 6
( * ( *
+
, ( # " " 8 4 9* ( # "
8 9* $ ( # " 8 9* + &
" '
" " # 6
" " " " 4" " $
+ ' ' " " A
" "
( , ( # " 8 / 9* ( # "
8 9* $ ( # " 8 9** ; " +
( # "
8 9* "
3 ( # " 8 9*
< ( # " " 8 " 9*
"
% ' 6
+ ' " #
7 ( *
C " " "
-
7 " ( "
" #* , ""
+ #
"
+ " $ "
" ( *
[Fig. 3] Extrait d’un signal de parole pour un son voisé (échantillonné à 44100Hz)
[Fig. 4] Extrait d’un signal de parole pour un son non voisé (échantillonné à 44100Hz)
A
! , '
" ""
% " #" "
7 " "
# " "
"
$ + " &
"," # # # &
" & " < "
" "
[Fig. 5] Spectre d’une partie voisée
[Fig. 6] Spectre d’une partie non voisée
[Fig. 7] Sonogramme (en haut) et forme d’onde (en bas) de la phrase parlée par un homme : « the rain in
Spain »
+ " ( * " " '
: < #" " 2E' EF: : "" D E' EE
F: : "" EE' EEF: :
G " " $ &
$ " ' +
<
" " "
0 " $ " $ "
" $ " '
"
3
! " $ H 0 I DB> JDK +L "
4 M # A 4 "
" ( * L " M
! " $ # " "
" L ' #6 " "
" " ' #
! "
+L " N ' " ( ON!O
* +L 4 L # 4 "$ ( "
* " M
= L ON!O ! " ft).
+ ON!O ' " N f(t) , ,
g(t) " JDDK
7 '
ON!O ,
, 5 ' DEEF:
, , F EEE " D EE
[Fig. 8] Illustration du fenêtrage pour la TFCT
0 L t0 ON!OS(t,w) f(t) !L
" N f(t)g(t-t0) 1g(t) , ( " ' " *
t0 < . g " "
" f(f g *
(D D*
7 " ( 1fs
L " " N * " 6
(D *
P " # "$ ON!O 6
N , N " ' " " #" (
- ' * + , ""
, F Q /"
= " " ( * N/4 ( "
N/4*
A ON!O ' # 4 %
' # ON!O "," " " #" M(
4 , * % # "" "
G # ' 6
+ " 6 " " f0
# M " f0
" k ( * , '
f0 k f0
+ " 6 " ' M
M # "
+ " " <
" " ON!O 1 " ( " * "
# , "
& $ 7 '
M " (
M , * "
" #
[Fig. 9] Schéma de principe d’une analyse additive harmonique et non harmonique
A # 4
"$ Q " "$ "
' NNO 0 EB
DEEF: "
DEEC EB RDE 22F: &'& $
+ " "" "
" ?
A " " " #
" 6
(D *
1f " n " fs fk
L NNO N , A
" ' #
< " " 6
1g , ON!O (D *
Q # " "
"$ # " 6
+ " M &
+ " 4
)
+ & ON!O
#
0 500 1000 1500 2000 2500 3000 3500 4000
-90 -80 -70 -60 -50 -40 -30 -20
(fréquences en Hz en abscisses, et amplitude en dB en ordonnée)
[Fig. 10] Illustration sur la TFCT de l’extraction des pics pour l’analyse additive
#
0 $ ( * # "$
' "," M "," 4 7 M 8 " 9
,
A " $ 4
% " 6
? M #6
M : " ","
M ON!O M
7 4 " M
' 4
+ " " < S
"," ( 4
"," " * J>K
G " $ "
( $ " #"
" * JDK
$ " %
A # 4 '
" " 6
(D * 1 Ai(n) fi(n) ,p " "
ième ' n=pT 1T " " ON!O
( 1N , O "
" # ON!O * p "
fi(n) ,p.
% "
"
" '
ON!O
% 6
5 # 4 i ' i '
7
% " " 6
(D *
Ai,p " i # ' " p
5 " 4 '
$ 0 "
H 0 I " "
" " "
" $
%
(D 2*
6
(D >*
fi,p # i # ' " p
+ ( k ' $*
6
(D B*
1T=n’-n
% k " $ ' " " H 0
I # "" $ " " 6
(D DE*
+ " "
(D DD*
$ k k*.
+ 4 (' * 4
(' * # "
k( DE " *
0 50 100 150 200 250 300 350 400 450
0 10 20 30 40 50 60 70 80 90
100 Phases pour différentes valeurs de k k=5
k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15
0 50 100 150 200 250 300 350 400 450
200 400 600 800 1000 1200 1400 1600
1800 Fréquences pour différentes valeurs de k
k=5 k=6 k=7 k=8 k=9 k=10 k=11 k=12 k=13 k=14 k=15
[Fig. 11] Trajets de phase et fréquence synthétisés pour différentes valeur de k
+ 4 " ' ( #
" *
G 6
(D D *
+ " " 4 E
+ 4 ' ( #
*
G 6
(D D *
+ " " E
& ' (
G ( " # * "$
" "
% ' "
"$ - $
7 "
6 : "
( * " C " " "
( " *
O
5 " " $
B
< " " "
5 # m’=D-1m 1D
G $ (D 2* 6
(D D *
< " " "
"" "
$ ) (
+ " $ : " 6
! " $ "
! " " "
"$ $
% " "
! " , ( "," "
" $ *
! 6
< S ( "" *
$" "
+ 4
6 "
< " " 5 ,
4 ( T * ('
" " 4 *
< # # " "" ""
< " " " (
4 4 $ *
3 4 ! "
+ "
#
" +
" #
" (
" " " * ! "
" #","
+ " " & &
$ " H 0
I "" " <
$ ' , '
" "
" " "
" '
# 8 9
"
+ " & $ " "
G "," ' "
( * + , ) "
-
< DBB H 0 I " 8
9 " #
?
$ " " N & $ "
JK
+ s(t) , " "" $" &
1e(t) # v(t) "
+ # "
8 9 #
+
" $ M e(t) "" M
( D*
+ 6
( *
% 4
# 6
!
!
( *
1 fi ième m "
'
% 6
! ! ( *
" " " #
" ' # (
' *
% # ( 8 9
*
+ " # , #
" ( " *
" " " + '
m # " " ' t06
( * '
+ D # t0’ ( &
D t0* "
+ "
# t0’.
( *
+ ! $
# " 6
! ! ( 2*
1T
+ " "
" "
( * + . $
+ " (
" * " #" " " 0
" 4 "$ Ai(n) fi(n) 4
"$ 6Ai(n) fi(n) ! 1! i &'&
" ( " *
% 5 6
( >*
! "
" #" " " "" &
[Fig. 12] Illustration du retard de phase relatif, d’après [3]
+ ( " * " " 6
! ( B*
= ' " " $ ' " (
* 6
! ! ( DE*
+ $ " 4 ' $
8 9 % " $ " 4 ' n
+ " 6
"
" ! ( DD*
% " " ( DD*
" D ' $
+ " 6
% "
6 " "
I " "
" ( DD* ' "
& ( / / '
+ " D $ (
$ * " D 4 $ " (
T C D*
+ " 6
"
" ! ( D *
$ " " '
$ # "
JE3G ( & *K
O 8 " " 9
" " 4 "$ #
$ 0 1
+ & " 8 " 9 +
( * '
DEEF: + # + "
: " :
+ " $ " &
" N < $
"," " " 8 9 %
$ " " " )
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
0.275 0.28 0.285 0.29 0.295 0.3
-0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 0.86 0.865 -0.4
-0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
0.82 0.825 0.83 0.835 0.84 0.845 0.85 0.855 0.86 0.865 -0.5
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5
[Fig. 13] Illustration temporelle du « shape invariant » sur un signal de parole
" "
% "
"
! &
4 C " 4 $
" " ( " # " * G #
6 "$ " 8
9 N 3 "
" "
! " "
" $ N ""
" ! " " & $ ' "
N " #
! " " $ "
4 " "
" $
N " " 8 9
"
" , " " $
< " $
" $ 8 9 '
( " *
, ' (
Problématique
+ "
" "
5 "
/$"
! ( D *
1! " /$" "
+ " D " ,
"," < " "
" "
% $ S
'
! ! ! ! ( D *
F "," ! ' $ $ "
6
! ! ! ( D *
5 ' $ " (
" * " " N
G "," "
"," " $ 6
" " "
"
! ! ! ( D *
Algorithme proposé
+ " $ ' "
" 5 "
" % "
" , "
" "$
" f0 " -
"
0 " " " 6
#
( D2*
$ 6
i = round(Fi / f0) 1f0 " " " $ ' &
$ ( " U5? 0 ! F
V W JD K*
G "," ième L S "
+ #$" ' " ( " "
4 " * L " $
( "," $ i* "
6
#" # ( D>*
0 4 "$ + " 4
" 8 9
( " *
" ( " *
F " 4 "
" ""
" ? ' $
0 "
"$
" " ! & 1
" 4 $
"$ 4 " DF:
+ " "
0 50 100 150 200 250 300 350 400 450 125.4
125.6 125.8 126 126.2 126.4 126.6 126.8 127
Trajet correct Trajet pour une fréquence finale modifiée de 1 Hz
[Fig. 14] Problématique des modulations de fréquence pour un changement d’inharmonicité
0 " (","
" * "
4 D " "
% " 6
# # # #
( DB*
+ ' "," 4
( "," " * " 4
& " ( *
0 50 100 150 200 250 300 350 400 450
125.4 125.6 125.8 126 126.2 126.4 126.6 126.8 127
Trajet correct Trajet pour une fréquence finale modifiée de 1 Hz Trajet modifié nouvelles fréquence et phase finales
[Fig. 15] Correction proposée pour supprimer les modulations de fréquence dues au changement
d’inharmonicité du 1er trajet
0 S " 4 '
" "
" " '
D 4 " N $
" "
< " J K
' 4 ( (D 2* ' (D DD** 4 ""
$
Schéma synoptique de l’algorithme proposé
+ " " ( D* "
" & $
TFCT puis analyse additive
Calcul des retards de phase relatifs :
; ! ;
! !
Calcul de la fondamentale « moyenne » et des nouvelles fréquences (inharmonicité réduite) :
#
et #" #
Modification des phases du 1er trajet :
# # # #
puis synthèse du 1er trajet pour obtenir ses nouvelles phases déroulées (cf.
partie sur synthèse additive, équations 2.7 à 2.11)
Calcul des phases (modulo 2.pi) des autres partiels :
"
" !
puis calcul des nouvelles phases déroulées (cf. partie sur synthèse additive, équations 2.7 à 2.11)
[Fig. 16] Synoptique résumant l’algorithme de « shape invariant » utilisé
54 ! /
+ $
" " " "
" 7 " $
$" " "
" V N : " $ " "
" " ""
#
( 1 2 3
+ ( " *
" 5 (u
*6
$ % % ( D*
04 ( $ " * S
0 "
h(n) ( " " " *
b(n) $
& $
# ( *
7 " " C "
"
4 ! # " $"
' " "
! " N :
& $
( % ' ( 4 " . 5
$
5 ' # + '
M " $
0 " 6
' ( ) ) #& ( *
1i " k n " bi,k
( * hi,k kème Gi,k
" < Ki,k " E D "
4 (Ki,kR E Ki,kR
D *
+ " $ M Gi,k Ki,k
6
( ) ( *
1Ai,k " M
% " ' #
"$ '
+ "$ ,
" " ' y G
V N : $ , "
# "
+ " N : "$
) (
0 " " $ " $ "
" , &
" $ " < , ","
' " G
#" ,
% , "
" "" ,
D + # E' EB E' E EF:
0 100 200 300 400 500 600 700
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 500 1000 1500 2000 2500 3000 3500 4000 4500 0
0.2 0.4 0.6 0.8 1 1.2 1.4
[Fig. 17] Fenêtres de mesure et de génération du bruit
A , , '
ON!O
% < ( ' * 6
!
* + + ( *
G M 6
+ $* ( *
1g , " N NNO %
0 " ' ON!OS " , W
L ( , *
$% %
* * *
* , ( 2*
G
%
* , ( >*
1Wk’ " , M # Ai,k
% 6
$%
, ,
* ( B*
5 " "$ Gi,k Ki,k
Ebruit + &
$ 6
$%
$%
' ( ) ) &
* * ( ) &
* ( ) & ( ) &
#
$ #
$
( DE*
N " ( $ $ ( ** ,
$" 6
$%
( )
, ,
* ( ) & ( DD*
" "" 6
$%
$%
( *
) ( &
(
* ( & )
(
& ( D *
$ ,
% " :
" " " 8 " 9
" ( , EEEF: # "
" " " *
% " EEF: " '
, G "
4 8 9 # $% "
M 6
$% !
# '
( )
*
0
G &'& " '
"" # " ! " "
# " M
( " * ! $
" 4 $ " " #
$"
! " # " $ "
" " & ( *
+ " "" ( 8 9*
" $ "
"
Time
Frequency
Signal d'entree
1.35 1.4 1.45 1.5
2000 4000 6000 8000 10000 12000 14000 16000
-80 -60 -40 -20 0 20 40
Time
Frequency
Signal synthetise : bruit
1.35 1.4 1.45 1.5
2000 4000 6000 8000 10000 12000 14000 16000
-80 -60 -40 -20 0 20 40
[Fig. 18] Spectrogrammes d’une sifflante sur le signal original en haut et sur le signal synthétisé par le modèle
de bruit en bas
,
A 8 9 " $ "
' " $ $
# + &4 " " "
M '
$
06 ( (
? 4'
"," " <
4 ' " fv &
'
" " " " C fv JK
$ M ( * " "
$ " ' :
! " 4 $
" fv " ( E D 3E
" D " *
0 ' " : 6
< fv 6 G
" 8 9 (
" *
0 & fv 6 G "
" "
6 " " ' %
"
Q 5 &
' fv " "
"
0 1
"
" " &'& 4
" 4 S ' "
" "
+ " "$
( 1Ai,p Ki,p " " M #
*
"
"
!
+
! + !
#
# ( ( D*
+ !
# !
+ RE vR D
"
#"
" "
!
!
! + !
) ) )
) # ( ( *
+ !
# ! f
" " E D + ( & *
: RD # +
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
[Fig. 19] Fonction f donnant le gain à appliquer au facteur de bruit en fonction du degré de voisement
6
! " #
$ " %
& ' " $
G "
' " 6
H " " "
8 9
+ $ " $ " $
' + " $ " '
" M % ""
' " " " "$
$ " "
+ " ""
"
Time
Frequency
Signal d'entree
0 0.5 1 1.5
0 0.5 1 1.5 2
x 104
-80 -60 -40 -20 0 20 40
Time
Frequency
Signal synthetise : sinusoïdal
0 0.5 1 1.5
0 0.5 1 1.5 2
x 104
-80 -60 -40 -20 0 20 40
[Fig. 20] Spectrogrammes du signal de parole « the rain in S… » : original en haut à gauche, synthétisé en haut à
droite, partie sinusoïdale seulement en bas à gauche, partie bruit seulement en bas à droite (sans
transformation)
Time
Frequency
Signal d'entree
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6
0 0.5 1 1.5 2
x 104
-80 -60 -40 -20 0 20 40
[Fig. 21] Spectrogrammes du signal de parole « the rain in S… » : original à gauche, synthétisé à droite avec une
dilatation temporelle d’un facteur 5
&
* +
,
& %
-
# $ *
.
# $ & .
& %
* !
# $ * "
* *%
/ /
*
&
6/
JDK = X H 0 O " N I Y7 C
Z 5<<< 0 7
7 077 & ? 0 DB>
JK = X H 0 O " N I Y7 " &
" Z 5<<< 7
E ? H DBB
JK = G N Y [ " "
" Z ! 7
! " : A 7
JK O G 8 O " 0 " ? C
G<! 9 N H " $ EEE
JK H ! " % 8 < " $ \ M
" # < "
9 $ D CDDCB>
JK P ]H $ " '
] $ 4 EED
J2K G O F Y <# / "
7ONO " W W Z5=!0H
J>K ^ 7 Y H " W Z !
= 7 0 P G DBB2 Y H 7
Z 7 _ `
JBK < Q P Y 7 C "
& & C & " Z 5<<<
a ? 7 " DBB2
JDEK^ = YH C 6 b
" W " " Z ONO7B2 5<<< O " &
" & [ / B2 ! AV 0 S DBB2
JDDK7 W 6 6CCWWW " Cc2< " C C C
C "
JD KV N : + F / ! Y 0 W "
W & " Z !<=+
A 5 A &! "
JD KV N : + F / YQ W "
+ " Z 5!H! DBB D &D 2
JD KV N : Y O W & "
Z O DBBB
JD K0 ! F V W YU5? " "
" Z X 0 7 0" EE