• Aucun résultat trouvé

Numérisation et codage de l’information Codage de la parole

N/A
N/A
Protected

Academic year: 2022

Partager "Numérisation et codage de l’information Codage de la parole"

Copied!
61
0
0

Texte intégral

(1)

Hervé BOEGLEN Licence ISVD

Numérisation et codage de l’information

Codage de la parole

(2)

Plan

 1. Notions de base

 2. Théorie de l’information

 3. Quantification

 4. Codage de la parole

Qu’est-ce que la parole ?

Modélisation LPC

Codeurs en forme d’onde et par analyse et synthèse (ABS)

Standards

(3)

1. Notions de base

 Le traitement numérique du signal (TNS) :

(4)

1. Notions de base

 Description d’un système numérique :

Dans le domaine temporel par une équation aux différences, par exemple :

y[n] = b

0

x[n]+b

1

x[n-1]+a

1

y[n-1]

Dans le domaine de la transformée en z, par une fonction de transfert, par exemple :

2 2 1

1

2 2 1

1 0

) 1

(

+ +

+

= +

z a z

a

z b z

b z b

H

(5)

1. Notions de base

La transformée en z est la transformée de Fourier d’un signal échantillonné :

C’est un outil incontournable pour l’étude des signaux numérisés. En pratique, on utilise une table de

transformées.

( ) ∑

+∞

=

=

0

] [

n

z

n

n x z

X

(6)

1. Notions de base

 Les opérations de base du TNS :

Le filtrage : il existe deux types de filtres numériques :

Les filtres FIR (Finite Impulse Response) qui sont obtenus en échantillonnant la réponse impulsionnelle du filtre que l’on souhaite obtenir. On a la forme suivante :

Ils sont simples à mettre en œuvre et possèdent une phase linéaire

=

=

1

0

) (

M

k

k k

z b

z

H

(7)

1. Notions de base

Les filtres IIR (Infinite Impulse Response) qui sont obtenus à partir des fonctions analogiques (passage de s à z). La fonction de transfert possède la forme suivante :

Les filtres adaptatifs dont les coefficients sont mis à jour régulièrement en minimisant un critère (moindres carrés).

Ils peuvent être de type FIR ou IIR.

=

=

+

= 1

1 1 1

0 0

1 )

( N

k

k M

n

n

z a

z b z

H

(8)

1. Notions de base

(9)

1. Notions de base

La transformée de Fourier discrète :

• En pratique cette somme est calculée en utilisant des algorithmes rapides et on parle de FFT (Fast Fourier Transform) (cf. fonction fft dans Matlab).

1 0

] [ )

(

1

0

/

2

≤ ≤ −

= ∑

=

k N

e n x k

X

N

n

N kn j π

La corrélation : exprime la notion de similitude

entre deux signaux. On distingue :

(10)

1. Notions de base

L’intercorrélation :

L’autocorrélation :

Remarque : rxx[0] = Ex

+∞

−∞

=

=

n

xy

l y n x n l

r [ ] [ ] [ ]

+∞

−∞

=

=

n

xx

l x n x n l

r [ ] [ ] [ ]

(11)

1. Notions de base

 Notions de signaux aléatoires :

Les signaux seront considérés comme stationnaires et ergodiques :

• Stationnarité  les moments statistiques (moyenne, variance) ne dépendent pas du temps.

• Ergodicité  on peut confondre les moments statistiques et les moments temporels (moyenne temporelle, puissance).

(12)

1. Notions de base

Lois usuelles :

• Loi uniforme sur (a,b) :





 ∈

= −

sinon 0

) , ( 1 pour

)

( x a b

a x b

pX

(13)

1. Notions de base

Loi Gaussienne :

( )





= 2

2

exp 2 2

) 1

( σ π σ

m x x

pX

(14)

1. Notions de base

Loi de Rayleigh :

2 0 exp

)

( 2

2

2 



= x x x

x pX

σ σ

(15)

1. Notions de base

 Rapport signal sur bruit (SNR) :

 

 

⋅ 

=

bruit signal

dB

P

SNR 10 log

10

P

(16)

2. Théorie de l’information

 Le système de transmission numérique tel

que défini par Shannon en 1948 :

(17)

2. Théorie de l’information

 Définition de l’information :

Soit une variable aléatoire discrète S qui peut prendre les valeurs S ={s

0

, s

1

,…, s

K-1

} avec les probabilités P(S = s

k

) = p

k

avec k = 0,1,…, K-1, on définit la quantité d’information d’un

symbole par :

I(s

k

) = -log

2

(p

k

) (bit)

Il est intéressant de connaître l’information

moyenne produite pas une source = entropie.

(18)

2. Théorie de l’information

=

=

=

=

=

1

0

1

0

2

( )

log )

( )]

( [ )

(

K

k

K

k

k k

k k

k

p I s p p

s I E X

H

Propriétés :

• 0 ≤ H(X)≤ log2(K)

• H(X) = 0 si pk = 1 et les autres probabilités sont nulles  aucune incertitude

• H(X) = log2(K) si pk = 1/K ∀ k  incertitude maximale

(19)

2. Théorie de l’information

 Le théorème du codage de source :

Si l’on associe un code à la source S de longueur moyenne :

On aura toujours :

On peut ainsi définir l’efficacité d’un code par :

=

=

1

0 K

k

k k

I p L

) ( X H

L

(20)

2. Théorie de l’information

 Exemple : l’afficheur 7 segments :

L X H ( ) η =

Les symboles sont équiprobables  pk = 0.1

Entropie H(X) = 3.32 bits

Rendement η = 52.54%

(21)

 Compression de l’information :

Les signaux physiques comprennent de

l’information redondante  utilisation inutile du canal de transmission

On utilise un codage à longueur variable dont le principe consiste à assigner des descriptions longues aux symboles peu fréquents et des

descriptions plus courtes aux symboles plus fréquents.

2. Théorie de l’information

(22)

2. Théorie de l’information

Les codes préfixes : aucun mot du code n’est le préfixe d’un autre mot du code. Ils satisfont l’inégalité de

Kraft-McMillan :

Leur longueur moyenne est bornée par : Exemple :

1 2

1

0

= K

k

lk

1 )

( )

( XL < H X + H

Symbole Probabilité Code I Code II Code III

s0 0.5 0 0 0

s1 0.25 1 10 01

s2 0.125 00 110 011

(23)

2. Théorie de l’information

Le codage d’Huffmann :

(24)

2. Théorie de l’information

Le codage LZW (WINZIP et Cie) dictionnaire

construit dynamiquement :

(25)

2. Théorie de l’information

 Canal discret sans mémoire :

C’est un modèle statistique comportant une entrée X et une sortie Y qui est une version bruitée de X. Il est décrit par ses probabilités de transition :

p(yk|xj) = P(Y = yk|X = xj) ∀ j, k

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

=

1 1

1 1

1 0

1 1 1

1 1

0

0 1 0

1 0

0

... K J

J J

K K

x y

p x

y p x

y p

x y

p x

y p x

y p

x y

p x

y p x

y p

P

(26)

2. Théorie de l’information

 Exemple : le canal binaire symétrique :

(27)

2. Théorie de l’information

 Différentes sortes d’entropies :

Si l’on utilise les différentes probabilités à

notre disposition on peut définir les entropies

suivantes :

(28)

2. Théorie de l’information

( )

( )

( ) ( ( ) )

( )

∑∑

∑∑

= =

= =

=

=

=

=

=

=

n

i

j i

m

j

j i

n

i

j i m

j

j i

m

j

j j

n

i

i i

y x p y

x p Y

X H

y x p y

x p Y

X H

y p y

p Y

H

x p x

p X

H

1

2 1

1

2 1

1

2 1

2

) ,

( log

) ,

( )

, (

log )

, (

) (

log )

( )

(

) ( log

) ( )

(

(29)

2. Théorie de l’information

H(X|Y) représente l’information perdue au cours de la transmission. On en déduit une nouvelle quantité appelée information mutuelle du canal :

Cette quantité représente l’information correctement transmise de la source vers le destinataire.

Propriétés :

Symétrie : I(X ;Y) = I(Y ;X)

I(X ; Y) ≥ 0

I(X ; Y) = H(X) + H(Y) – H(X,Y)

( ) ( )

∑∑

= = 



= 

= n

i

m

j j

i j j

i p y

x y y p

x p Y

X H X

H Y

X I

1 1

2 ( )

log )

, ( )

( )

; (

(30)

2. Théorie de l’information

 Capacité :

Exemple : capacité du canal binaire symétrique C = 1 + p.log

2

(p) +(1-p).log

2

(1-p)

{ } ( ; ) max I X Y C

xi

=

p

(31)

2. Théorie de l’information

 Théorème du codage de canal :

Remarque : ce théorème ne donne aucune indication sur comment construire de bon codes.

 Capacité du canal BBAG de puissance et BP limités :

c

s T

C T

X H( )

 

 

 + ⋅

= B

C N

E B

C

b

0 2

1

log

(32)

2. Théorie de l’information

(33)

3. Quantification

 Illustration :

(34)

3. Quantification

 Quantification uniforme :

(35)

3. Quantification

 Bruit de quantification :

Si le signal à quantifier est compris entre (-mmax, mmax), pour L niveaux on aura :

L’erreur de quantification Q est une variable aléatoire uniformément distribuée :

L mmax

= 2





 − ∆ < ≤ ∆

= ∆

autrement q q

fQ

0

2 2

1 )

(

(36)

3. Quantification

La variance de l’erreur est égale à :

Comme L = 2R, on obtient :

Finalement :

Exercice : calculer le SNR en dB si le signal à quantifier est une sinusoïde d’amplitude max = Am

12

2 2 = ∆

σ

Q

R Q2

m

max2

2

2

3

1

σ =

R

Q m

P

SNR P 2 2

max

2 3 2



 

= 

=

σ

(37)

3. Quantification

 Quantification non linéaire :

(38)

3. Quantification

 Comparaison SNR = f(P

in

) quantification

uniforme et non linéaire loi A, A = 87.6 :

(39)

3. Quantification

 Un exemple pratique : ITU-T G711 loi A :



+

+

+

=

1 1 )

) sgn(

ln(

1

) /

ln(

1

0 1 ) ) sgn(

ln(

) 1 (

max max

max

max

x x x A

A x x x A

A x

x x A

x A x

c

(40)

3. Quantification

 Companding (Compress Expand) :

COmpresser DECompresser

b = 8 bit

 SNR

Quantifier

) ( nT

e

x y = Q [ x ] y

b

( nT

e

) x

DEC

( nT

e

)

piano_c3 Α 8 bit Α-1

8 bit bit

B =16

) (nTe

x y(nTe) y8(nTe)

) ( e

rec nT x

1/8

)

8(nTe

x

bit B = 8 bit B = 8

 Amélioration du SNR :

(41)

4. Codage de la parole

 Le signal de parole : différents niveaux de description :

Le niveau phonétique : étudie la façon dont le signal est produit et perçu :

• Appareil phonatoire

(42)

4. Codage de la parole

• L’alphabet phonétique international :

(43)

4. Codage de la parole

• Phonétique articulatoire :

Voyelles : degré d’ouverture du conduit vocal Consonnes : passage forcé de l’air

Semi-voyelles (ié, oui) ou liquides (Long, Rond)

• Audition – Perception : l’appareil auditif :

(44)

4. Codage de la parole

• Champ auditif [500Hz, 10KHz] :

I(dB) = 10log(I/I0) avec I0 = 10-12W.m2 (1KHz)

(45)

4. Codage de la parole

• Courbes isosoniques et phénomène de masquage :

(46)

4. Codage de la parole

Le niveau acoustique : on étudie le signal électrique associé :

Traits acoustiques : fréquence fondamentale,

énergie et spectre. Chaque trait acoustique est

lié à une grandeur perceptuelle (pitch, intensité

et timbre)

(47)

4. Codage de la parole

Débits courants :

Le signal vocal est caractérisé par une grande redondance.

L’entropie H(X) = 4.73 bits pour les 37 phonèmes de la langue française. Si on prononce en moyenne 10 phonèmes/s  50bits/s

(48)

4. Codage de la parole

• Audiogramme : amplitude du signal vocal en fonction du temps :

(49)

4. Codage de la parole

On distingue des zones voisées et non voisées :

(50)

4. Codage de la parole

• Transformée de Fourier à court terme (fenêtres de 30ms) :

• On observe des pics de résonance que l’on appelle les formants.

(51)

4. Codage de la parole

• Fréquence fondamentale ou pitch :

De 70 à 250Hz chez les hommes De 150 à 400Hz chez les femmes De 200 à 600Hz chez les enfants

Varie très peu à l’intérieur de la zone voisée

(52)

4. Codage de la parole

• Sonogramme : évolution temporelle du spectre à court terme :

(53)

4. Codage de la parole

 Modèle simplifié de production de la parole :

NV V

Stochastic excitation Periodical

excitation

Speech Spectrum

shaping filter

f Transfer function

of the vocal tract Voicing

Gain

(54)

4. Codage de la parole

 Modélisation LPC :

On peut montrer que H(z) du filtre qui modélise l’enveloppe spectrale du signal de parole s’écrit :

Les coefficients ai s’obtiennent par prédiction linéaire :

=

+

=

= P

i

i iz z a

z A H

1

1

1 )

( ) 1

(

( )

=

=

=

n p

i i

n e n

x n

x n

e

i n x a n

x

) ( min

)

~( ) ( )

( )

~(

2 1

(55)

4. Codage de la parole

• La mise en équation donne les équations dites de Yule-Walker :

• La résolution se fait en utilisant des algorithmes récursif comme Levinson-Durbin.

(56)

4. Codage de la parole

Exemple : le codeur NATO LPC10 :

Speech

frame Linear Prediction pitch/voicing

energy

mux (ai)

E

excitation (600 bps) Spectrum shaping filter

(1800 bps) V/UV,F

CODER

V/UV,F0

(ai) E 1/A(z)

Gain

Synthetic speech

(57)

4. Codage de la parole

 Les deux grandes familles de codeurs de la parole :

Codeurs en forme d’onde qui éliminent la corrélation entre échantillons en utilisant une prédiction linéaire et des quantificateurs

adaptatifs  24 à 32 kbits/s

Codeurs ABS ou hybride (Analysis By Synthesis) combinent le meilleur des

techniques LPC et forme d’onde  6 à 16

kbit/s

(58)

4. Codage de la parole

 Standards :

(59)

4. Codage de la parole

 Standards ITU :

(60)

4. Codage de la parole

 Standards ETSI :

 Exercice : rechercher sur Internet les normes G726 (ITU-T) et GSM 06.10 (ETSI) et retrouver les

éléments fondamentaux de ces standards.

(61)

4. Codage de la parole

 Codeur en forme d’onde : ITU-T G726

Références

Documents relatifs

Cependant, la différence de couleur juste perceptible varie selon la teinte et la luminosité ; le système RVB ayant opté pour la simplicité, il faut plus de différence de valeurs

Suite de nombres pour coder l’information (Couleur) contenue dans chaque petit carré qu’on appelle pixel (PICture ELement) :. Image en noir et blanc 1 bit pour

ambiguï ït té é de passer d de passer d’ ’une repr une repré ésentation (dite sentation (dite externe) externe) d d’ ’une information une information à à une autre repr

Transmettre des données d'une machine connectée au réseau A jusqu'à une machine connectée au réseau B à travers l'internet consiste à faire des sauts successifs de routeur en

Plus la fréquence d’échantillonnage est élevée et la quantification est fine, plus la numérisation est fidèle, mais plus la taille du fichier audio est grande.. La

« õ », etc., sont bien des glyphes 28 ), il n’en est pas de même en figure 4 : à côté des caractères usuels (appartenant au sous-ensemble « latin-1 » d’Unicode), Antoine

Pour répondre à la demande du Centre alimentation et mouvement du Valais et transmettre à la commune de Loèche des propositions concrètes pour réaliser un projet destiné

In this work, we combine an exact solution at infinite interactions and numerical Matrix-Product-State (MPS) simulations at finite interactions, in order to predict the behavior of