Capacity study of the memoryless channel with additive independent Gaussian noise and its application to brain-computer interfaces

(1)

Report

Reference

Capacity study of the memoryless channel with additive independent Gaussian noise and its application to brain-computer interfaces

KRONEGG, Julien

KRONEGG, Julien. Capacity study of the memoryless channel with additive

independent Gaussian noise and its application to brain-computer interfaces. Genève : 2003

Available at:

http://archive-ouverte.unige.ch/unige:48012

Disclaimer: layout of this document may differ from the published version.

(2)

J. Kronegg

UNIVERSITE DE GENEVE

CENTRE UNIVERSITAIRE D’INFORMATIQUE COMPUTER VISION AND MULTIMEDIA LABORATORY

Date: 12 December 2003 N° 03.09

TECHNICAL REPORT

Capacity study of the memoryless channel with additive independant Gaussian noise and its application to

brain-computer interfaces

e-mail: Julien.Kronegg@cui.unige.ch Computer Vision Group

24 rue du Général Dufour, CH - 1211 Geneva 4, Switzerland

Computing Science Center, University of Geneva

(3)

Capacity study of the memoryless channel with additive independant Gaussian noise and its application

to brain-computer interfaces

Projet pour le cours Advanced Image Processing Julien Kronegg (Julien.Kronegg@cui.unige.ch)

Université de Genève, CUI/CVML 19 septembre 2003

CAPACITY STUDY OF THE MEMORYLESS CHANNEL WITH ADDITIVE INDEPENDANT

GAUSSIAN NOISE AND ITS APPLICATION TO BRAIN-COMPUTER INTERFACES ... 1

1 DESCRIPTION DU PROJET... 2

2 CAPACITÉ D'UNE SOURCE CONTINUE... 2

2.1 CALCULS PRÉLIMINAIRES... 2

2.1.1 Entropie différentielle d'une variable aléatoire continue à distribution gaussienne... 3

2.1.2 Entropie d'une somme étant donné une variable aléatoire connue... 3

2.1.3 Entropie d'une variable étant donné elle même ... 4

2.1.4 Entropie d'une variable étant donné une autre variable indépendante... 4

2.2 CAPACITÉ POUR LE CAS CONTINU AVEC UNE DISTRIBUTION P(X) OPTIMALE... 4

3 CAPACITÉ D'UNE SOURCE DISCRÈTE... 6

3.1 CAS ÉQUIPROBABLE... 6

3.1.1 Choix des valeurs de xi... 6

3.1.2 Calcul de la capacité ... 9

3.1.3 Débit pour un hard-thresholder... 11

3.2 CAS NON ÉQUIPROBABLE... 15

3.2.1 Choix des valeurs de xi... 16

4 APPLICATION AU DOMAINE DU BCI... 18

4.1 CANAL SANS MÉMOIRE... 18

4.2 INDÉPENDANCE DU BRUIT... 18

4.3 CHOIX DES VALEURS DES SYMBOLES... 18

4.4 DISTRIBUTION DU BRUIT... 18

5 CONCLUSIONS... 18

6 GLOSSAIRE ... 19

7 RÉFÉRENCES... 19

L'examen du cours Advanced Image Processing (AIP) de Slava permet de remplacer l'examen de thèse. Il est composé d'un examen oral et d'un rapport de projet.

(4)

1 Description du projet

Le projet consiste à étudier la capacité d'un canal bruité de manière théorique. On propose la configuration suivante :

Avec X le signal d'entrée, Y le signal de sortie et Z la perturbation¹ due au canal bruité. Le signal d'entrée X possède une énergie limitée :

E[X²]≤σx2

On désire :

1. Connaître la capacité C pour le cas continu, avec une distribution p(x) optimale, étant donné la contrainte d'énergie précédente, soit :

( )

2 2

( ) :

max ;

p x E X x

C _ _≤_σ I X Y

 

=

La distribution optimale devrait être une gaussienne p(x) = _N(0,σx2

), à vérifier. La capacité doit être étudiée en fonction du SNR 10⋅log(σx2/σz2

).

2. Connaître la capacité C pour le cas discret, avec une distribution p(x) équiprobable. La capacité doit être étudiée en fonction du SNR 10⋅log(σx2/σz2

). Il faut également étudier la probabilité d'erreur en fonction du nombre d'états discrets.

3. Connaître la capacité C pour le cas discret, avec une distribution p(x) non équiprobable.

La capacité doit être étudiée en fonction du SNR 10⋅log(σx2/σz2

). Il faut également étudier la probabilité d'erreur en fonction du nombre d'états discrets.

Ce modèle de canal pourrait être utiliser pour modéliser un BCI.

2 Capacité d'une source continue

Nous pouvons commencer par faire l'hypothèse que signal d'entrée X est indépendant du bruit Z, par conséquent, la connaissance de l'un n'apporte rien sur la connaissance de l'autre.

2.1 Calculs préliminaires

Pour faciliter la suite du raisonnement, il faut commencer par calculer plusieurs résultats qui seront utilisés plus tard.

1 On peut montrer que le bruit gaussien est le pire des cas. Tout autre type de bruit augmente la capacité (ca voudrait donc dire que l'on peut obtenir des débits supérieurs à la capacité si le canal n'est pas gaussien => à vérifier).

X Y

Z ~N(0,σz2

)

Figure 1 – Schéma de principe du canal de transmission (bruit additif Z gaussien et indépendant).

(5)

2.1.1 Entropie différentielle d'une variable aléatoire continue à distribution gaussienne

L'entropie différentielle d'une variable aléatoire continue X qui suit une distribution gaussienne (X~N(µ,σ²)) est donnée par¹ :

( ) ( ) ( )

⁽ ⁾ ⁽ ⁾

( ) ( )

( )

2 2

2

2 2

2 2 2

2 2

2

1 1

ln ln

2 2

1 1

ln ln

2 2

1 ln 2

2 2 ln 2 1

2

x x

S

x x

x

h X p x p x dx e e dx

e e dx

e x dx

e

µ µ

σ σ

µ µ

σ σ

µ σ

π σ π σ

π σ µ π σ σ

π σ π σ

− −

+∞ − −

⋅ ⋅

−∞

− −

+∞ − −

⋅ ⋅

−∞

+∞ − −

⋅

−∞

− −

⋅

= − ⋅ ⋅ = − ⋅ ⋅ ⋅

⋅ ⋅ ⋅ ⋅

 

 

= − ⋅ ⋅ +

 

⋅ ⋅  ⋅ ⋅ 

 − 

= − ⋅ − ⋅ ⋅ − 

⋅ ⋅  ⋅ 

= ⋅ ⋅

⋅ ⋅

∫ ∫

∫

( )

⁽ ⁾

( )

⁽ ⁾

[ ] ( ) [ ]

2

2 2

2

2 2

2 2 2 2

2 2 2

1 par déf. de la PDF = car

et

1

2 2

1 1 1 1

2ln 2 2 2 2

x

x x

Var X E X Var X

E

dx x e dx

e dx x e dx

µ σ

µ µ

σ σ

σ µ

µ

σ π σ

π σ µ

π σ σ π σ

+∞ +∞ − −

⋅

−∞ −∞

− −

+∞ − +∞ −

⋅ ⋅

−∞ −∞

= =  − =

+ − ⋅

⋅ ⋅ ⋅

= ⋅ ⋅ + − ⋅

⋅ ⋅ ⋅ ⋅ ⋅

∫ ∫

14444244443

( ) ( ) ( ) ( ) ( ) ( )

( ) ( )

( )

avec 2

2

2 2

1 1 1

ln 2 ln 2 ln

2 2 2 2

1ln 2 nats

2

=1log 2 bits

2

p xg x g x p x dx g x x

e e

e

µ

π σ σ π σ

σ π σ

π σ

=∫ = −

= ⋅ ⋅ + = ⋅ ⋅ +

⋅

= ⋅ ⋅ ⋅

⋅ ⋅ ⋅

144444424444443

On constate ici une propriété intéressante d'invariance à la translation : l'entropie d'une variable aléatoire ne dépend pas de la moyenne du signal considéré.

Note : cette valeur d'entropie constitue un maximum. Toute distribution de X autre qu'une gaussienne donnera une entropie inférieure :

( )

¹^{ln 2}

(

²

)

avec égalité si ~

(

0, ²

)

h X ≤2 ⋅ ⋅ ⋅π e σ X N σ

2.1.2 Entropie d'une somme étant donné une variable aléatoire connue

Soit Y=X+Z donc H(Y|X)=H(X+Z|X) et Z~N(0,σ²). Comme la variable aléatoire X est connue, le symbole X désigne en réalité une réalisation xi du processus aléatoire X. Par conséquent, on peut considérer qu'un s'agit en fait de calculer² l'entropie d'une variable aléatoire dont la distribution est N(X,σ²) :

1 On peut aussi faire ce calcul avec une intégration par partie de x²⋅exp(…), mais c'est plus long.

2 On peut trouver une démonstration plus formelle mais moins intuitive dans le corrigé de l'exercice 2.18 du livre de Cover.

(6)

( ) ( )

( )

' avec ' ~ , _z2

H Y X H X Z X

H Z X Z N X

H Z X

σ

= +

=

car l'entropie d'une variable aléatoire est invariante à la translation.

2.1.3 Entropie d'une variable étant donné elle même

On cherche à connaître H(X|X). Intuitivement, on peut dire qu'il n'y a pas d'information lorsque l'on connaît déjà la variable, donc H(X|X)=0. Cette intuition peut être vérifiée comme suit : on part de la définition suivante classique

( ) (

^,

) ( )

H Y X =H Y X −H X et on y effectue le remplacement Y=X :

( ) ⁽ ⁾

( )

, 0

H X

H X X H X X H X

=

= − =

14243

2.1.4 Entropie d'une variable étant donné une autre variable indépendante

On cherche à connaître H(Z|X), sachant que X et Z sont deux variables aléatoires indépendantes. Comme ces deux variables sont indépendantes, la connaissance de l'une n'indique rien sur l'état de l'autre, donc on peut dire que :

H(Z|X)=H(Z) Inversement, on a bien entendu :

H(X|Z)=H(X)

2.2 Capacité pour le cas continu avec une distribution p(X) optimale Par définition la capacité C vaut :

( )

2 2

( ) :

max ;

p x E x x

C _{ ≤}_σ I X Y

=  

L'information I(X,Y) est définie comme :

( ^, ) ( ) ( ^| )

I X Y =h Y −h Y X

h(…) étant l'entropie d'une variable aléatoire continue (aussi appelé entropie différentielle) : ( ) ( ) ^log ( )

S

h X =

∫

p x ⋅ p x ⋅dx

S étant le support (= espace de définition) de la variable aléatoire X.

Le canal considéré nous donne :

( ) ( ) ( )

( ) ( )

( )

( ) ( )

, |

|

comme et sont indépendants

I X Y h Y h Y X

h Y h X Z X

h Y h Z X

h Y h Z X Z

= −

= − +

= −

(7)

La seconde partie de cette formule est connue, puisqu'elle ne dépend que du bruit Z, comme vu précédemment (entropie différentielle d'une variable aléatoire continue Z à distribution gaussienne) :

( )

¹₂^{ln 2}

(

^Z²

)

h Z = ⋅ ⋅ ⋅π e σ nats

Faisons maintenant intervenir la condition d'énergie limitée du signal émis X. On sait que l'énergie du signal est définie comme

( )

2 2

WX E X x p x dx

∞

−∞

 

=  =

∫

et par conséquent, si l'on ajoute une constante a au signal x (ce qui revient à modifier la moyenne du signal), on voit que (x+a)2>x2. On en déduit donc que le signal qui possède une énergie minimale a forcément une moyenne nulle (notée E[X]=0). C'est ce genre de signaux qui seront utilisés pour optimiser l'énergie à disposition.

Nous ne connaissons pas encore la distribution de Y, mais, à partir de ce qui précède, nous pouvons déjà dire que :

( )

¹₂^log²

(

²

[ ] )

h Y ≤ ⋅ ⋅ ⋅π e Var Y bits

La variance de Y est définie comme Var[Y] = E[Y²] - E[Y]². Comme le signal émis X et le bruit Z ont une moyenne nulle (E[X]=E[Z]=0), le signal Y aura lui aussi une moyenne nulle.

On peut donc écrire :

[ ] [ ]

( ) [ ] [ ]

2 2 2

0

2 2

2

X Z

Var Y E Y E Y E Y

E X Z E X E X E Z E Z

σ σ

=

   

=  − =  

     

=  + =  + ⋅ ⋅ +  

= +

1442443 Et par conséquent :

( )

¹₂^log²

(

²

(

^X² ^Z²

) )

h Y ≤ ⋅ ⋅ ⋅π e σ +σ bits

où l'égalité n'est obtenue que lorsque X~N(0,σ²). Grâce aux des équations ci-dessus, on peut calculer que :

2

2 2

1log 1

2

X Z

C σ

σ

 

=  + 

 . Sachant que le rapport signal sur bruit est

2

10 2

10 log ^X

Z

SNR σ

= ⋅ σ on peut en déduire le rapport σ σ²_X _Z² :

2

10

2 10

SNR X

Z

σ σ = Par conséquent :

10 2

1log 1 10

2

SNR

C  

=  + 

  [bits]

On peut ainsi tracer la capacité en fonction du SNR (Figure 4).

(8)

3 Capacité d'une source discrète

Dans ce cas, la source est considérée comme une variable aléatoire discrète et possède N valeurs xi différentes (la source est dite à modulation d'amplitude ou en anglais Pusle Amplitude Modulation, PAM) qui sont peuvent être équiprobables (p(xi)=1/N) ou non. On désire connaître la capacité dans les deux cas.

Note : ce type de canal est un appelé un discrete memoryless gaussian channel without feedback. (DMC=discrete memoryless channel)

Note : le bruit Z est supposé indépendant du signal émis X, par conséquent, c'est le même bruit qui est ajouté à toute valeur xi.

3.1 Cas équiprobable

Si l'on considère, comme dans le cas continu, que l'énergie du signal est limitée, il est possible de calculer les valeurs x_i de sorte que le débit soit maximal (=capacité). En pratique, il est cependant rare que l'on puisse choisir ces valeurs : elles sont souvent imposées par des mesures.

3.1.1 Choix des valeurs de xi

L'unique restriction est que l'énergie totale ne dépasse pas P :

( )

2 2

1 N

i i

i

E X x p x P

=

  = ⋅ ≤

 

∑

Cette limitation de l'énergie confine le signal X dans une certaine plage de valeurs. Si N augmente, l'écart entre deux valeurs voisines xi et xi+1 va diminuer, ce qui, lorsque les valeurs sont transmises dans le canal bruité, va provoquer des erreurs et par conséquent réduire le débit.

Note : lorsqu'il n'y a pas de restriction sur l'énergie totale du signal, la littérature fixe souvent les valeurs comme xi=±(2⋅k+1) avec k=0..N/2-1.

Pour que l'énergie du signal soit minimisée, il faut que sa moyenne soit nulle :

[ ] ( )

1

0

N

i i

i

E X x p x

=

∑

⋅ =

On peut cependant dire de manière raisonnable que l'écart entre deux valeurs xi doit être maximal pour avoir la meilleure discrimination possible. Comme les valeurs de xi sont équiprobables, on en déduit que l'écart entre deux x_i successifs est constant :

xi+1 - xi = a

Cette formulation permet d'écrire tous les x_i en fonction de x₁ : x1 = x1 + 0⋅ a

x1 x2 x3 xN-1 xN

…

x₁ x₂ x₃ x_N-1 x_N

…

(9)

x2 = x1 + 1⋅ a x₃ = x₁ + 2⋅ a x₄ = x₁ + 3⋅ a

…

xi = x1 + (i-1)⋅ a

On peut ainsi exprimer toutes les valeurs de xi avec x1 et a, qui sont les solutions d'un système de deux équations (E[X²]=P et E[X]=0) à deux inconnues (x1 et a). Grâce à la contrainte de moyenne nulle du signal, on peut écrire¹ :

[ ] ( )

( ( ) )

( )

1

1 1

0

1

1 1

1 0

2 2

1

N

i i

i N

i i

N

i N

i

E X x p x N x

x i a

N

x a i

N

N N

x a N a x

N

=

−

=

= ⋅

= ⋅ + − ⋅

= + ⋅

= + − ⋅ =

⇒ = −

−

⋅

∑

On peut ainsi écrire

( )

( ( ) )

( ) ( )

2 2

1

2 1

1

2 1 1

1

2 1

1 1

1 2

1 1 0

1 1

2

1 1

1

2 1

1

1 2

1

N

i i

i N

i

E X x p x

x i a

N

x i x

N N

x i

N x N

x x i

N N

=

−

=

  = ⋅

 

= ⋅ + − ⋅

  

= ⋅  + − ⋅ − − 

⋅ −

 

= ⋅  − − 

 ⋅ 

= ⋅  − − 

⋅

∑

1 Rappel : ( )

1

1 1

2

N

i

i N N

=

= +

∑

^et ⁽ ⁾⁽ ⁾

1

2 1

1 2 1

6

N

i

i N N N

=

= + +

∑

(10)

{ ( )

({) ( )

( ) ({ ) 1 2

2 1 1

1 1

0

2 1 1 1 2

1 1 1

1

0 0 0

2 1 2 1 2 1

2

1 1 1

2

0 0 0

1 / 2 1 2 1 / 6

2 2

1 1

2 2

1 2

1 1

2 2

1 1

1 2

1 1

4 4

1 1 1

2

N

i

N N N

i i i

N N N

i i i

N N N N N N

x i x i

x x

N N N

x x i x i

N N x N N N

x x x

i i

N N N N N

x x

−

=

− − −

= = =

− − −

= = =

= = − ⋅ = − ⋅ ⋅ ⋅ −

⋅  ⋅ 

= ⋅ − ⋅ ⋅ − + − − 

⋅  ⋅ 

= ⋅ − ⋅ ⋅ − + − − 

⋅ ⋅

= − +

⋅ − ⋅ −

= − ⋅ +

⋅ ⋅

∑

∑ ∑ ∑

( )

( ) ( )

( )

2 1

2 2

1 1

1

2 2 1

3 1

2 2 1 1

3 1 1 3 1

3 1

1

x N

N

N N

x x P

N N

x N P

N

⋅ ⋅ ⋅ −

⋅ −

 ⋅ ⋅ −  +

= ⋅ ⋅ − − = ⋅ ⋅ − =

⋅ −

⇒ = +

On peut vérifier que ces deux définitions conduisent bien à un alphabet dont l'énergie est P : ( )

(

( )

)

( ) ( )

( )

2 2

1

2 1

1

2 1 1

1

2 1

1 1

1 2

1 1 0

1 2 2 1

0 1 2 2

1 2

0

1 1

2

1 1

1

2 1

1

1 2 1

1

1 2

1 1

1 4 4

1 1 1

1

N

i i

i N

i

E X x p x

x i a

N

x i x

N N

x i

N x N

x x i

N N

x i

N N

i i

N x N N

N

=

−

=

−

=

−

=

  = ⋅

 

= ⋅ + − ⋅

  

= ⋅  + − ⋅ − − 

⋅ −

 

= ⋅  − − 

 ⋅ 

= ⋅  − − 

 ⋅ 

= ⋅ ⋅  − − 

⋅ ⋅

= ⋅ ⋅ − +

− −

=

⋅

∑

( )

{ ({) ( )

( {) ( )

( )

1 1 1

2 2

0 0 0

1 / 2 1 2 1 / 6

2

2 2

3 1 4 4

1 1 1 1

3 1 2 1

2 2 1

1 1 3

3 1 4 2 1

1 1 3

3 1 3 3 4 2 1

1 1 3

1

N N N

i i i

N N N N N N

N P i i

N N N

N P N N N N

N N N

N N N

P N

N N N

N N N N N

N N P N

− − −

= = =

= = − ⋅ = − ⋅ ⋅ ⋅ −

 

 

⋅ −

⋅ + ⋅ − − ⋅ + − ⋅ 

−  

= ⋅ + ⋅ ⋅ − ⋅ + − ⋅ ⋅ ⋅ − ⋅ 

 

− ⋅ − ⋅

= ⋅ + ⋅ ⋅ − + − ⋅ 

− − ⋅ + ⋅ + ⋅ − ⋅

= ⋅ ⋅ ⋅ ⋅

+ −

=

∑ ∑ ∑

(

²

)

1

1 P N N

N N P

⋅ ⋅ ⋅ +

= +

(11)

Lorsque N augmente, la plage de définition des valeurs de X s'élargit, mais les valeurs xi sont de plus en plus rapprochées. Si l'on ajoute le bruit gaussien Z à ce signal, les distributions du signal X et du bruit seront convoluées et plus N sera grand, plus l'erreur sera grande.

Figure 3 – Distribution de Y=X+Z

3.1.2 Calcul de la capacité

On peut calculer la capacité¹ en utilisant Kerbaol2001 :

( )

⁽ ⁾

( ) ( ) ( )

( )

( ) ( ) ( )

2

2 2

| 2

|

| 2

1

| 1

2

| log |

|

y xk

Y X k

N

Y X i

N Y X i i

i y Y

N

Y Y X j j

j

p y X x e

p y X x

C p y X x p x dy

p y p y p y X x p x

σ

πσ

− −

+∞

= =−∞

=

= =

= = =

= =

∑ ∫

∑

Cette intégration doit être faite numériquement² (il n'y a pas de méthode connue pour la résoudre analytiquement).

1 CN dénote la capacité discrète pour un alphabet à N symboles.

2 Cf code source : integrale_capacite3.m

Figure 2 – Valeurs des xi pour N=2..5 avec une puissance du signal est normalisée (P=1).

1 -1

N=2

0 N=3

3 2 3

− 2

N=4

3 1 5 1 5 1

− 5 3 1

− 5

N=5

2 2

0 2 2

− 2

1 2

1 3

1 5 1

4

1 -1

N=2

0 N=3

3 2 3

− 2

N=4

3 1 5 1 5 1

− 5 3 1

− 5

N=5

2 2

0 2 2

− 2

1 2

1 3

1 5 1

4

(12)

On peut donc tracer un graphique de la capacité en fonction du rapport signal sur bruit. Si l'on reprend l'équation du SNR utilisée précédemment :

2

10 2

10 log ^X

Z

SNR σ

= ⋅ σ

On peut donc calculer la variance du bruit (l'énergie de la source est normalisée :σ_X² =1) :

2

2 2

10 2 10 10

2 2 10

10 log 10 log 10 log

10

X

X Z

Z SNR

Z X

SNR σ σ σ

σ

σ σ ⁻

= ⋅ = ⋅ − ⋅

⇒ = ⋅

Lorsque l'on trace le bit rate en fonction du SNR pour N=2,3,4,… (avec énergie fixée identique pour tout N), on se rend compte que, pour un SNR donné, le bit rate le plus élevé est celui qui correspond au N le plus grand.

0 1 2 3 4 5 6 7 8 9 10

-20 -10 0 10 20 30 40 50 60

SNR [dB]

Bit rate [bits/symbol]

N=25

N=12

N=64

N=32

N=16

N=8

N=

N=3

N=2 continuous gaussian source

asymptotical capacity for discrete equiprobable source

N=51

Figure 4 – Comparaison entre la capacité d'une source continue et d'une source discrète équiprobable pour différentes tailles d'alphabet. On constate une différence de 1.53 dB entre les deux capacités, ce qui montre qu'une source discrète équiprobable est un cas sous-optimal d'une source continue.

L'application au BCI est claire : si le bruit de canal est fixe (ou peu variant), le débit optimal est obtenu pour le N le plus grand (donc, avec un signal à énergie fixe et un canal à bruit fixe, plus N augmente, plus B augmente). Il faut maintenant voir si le bruit du canal est fixe (même erreur de classification (=même σz2

) pour chaque classe). Si le σz2

augmente un peu trop, avoir un N plus élevé fait que le bit rate est moins élevé qu'avec un N faible. L'augmentation maximale est fonction du SNR actuel.

(13)

Les résultats publiés dans Obermaier2001b, montrent que le taux de classification correct diminue lorsque le nombre de classes augmente. Cela pourrait indiquer que le SNR varie avec le nombre de classes.

3.1.3 Débit pour un hard-thresholder

Il est possible de calculer la matrice de transition si l'on utilise un algorithme dit de "hard thresholding", par exemple un classifieur de Bayes. Ce type de classifieur n'est pas optimal comme on le verra par la suite.

Prenons comme exemple le cas à deux symboles (N=2). Toutes les valeurs sont connues, à l'exception de la variable x dont on cherche la valeur et qui correspond au seuil de décision entre les deux classes. Ce seuil de décision doit être choisi de sorte à minimiser l'erreur de classification (Figure 5).

0 0.02 0.04 0.06 0.08 0.1

-3 -2 -1 0 1 2 3

Figure 5 – Illustration de l'erreur de classification pour un problème à deux classes C1 et C2 (p.ex. positif et négatif). Pour la classe C1, le taux de classification correct (vrai positif) est représenté par la surface grise claire tandis que l'erreur (faux positif) est représentée par la surface grise foncée. Symétriquement, il existe des surfaces représentant les vrai négatifs et les faux négatifs pour la classe C2. (µi={-1;1}, SNR=0 dB, σ²=1). Ces quatre plages forment la matrice de confusion.

Pour calculer le seuil de décision optimal, on résout l'équation suivante.

( )

1 ⁽ 2 1¹²⁾²

( )

2 ⁽ 2 2²²⁾²

1 2

2 2

x x

p x p x

e e

µ µ

σ σ

πσ πσ

− −

=

Dans le cas équiprobable (p(x_i)=constante) avec bruit indépendant du signal (σi2

=constante), la solution de cette équation est simplement :

2 1

x= µ 2+µ

{éventuellement à démontrer}

La matrice de transition est calculée avec le code suivant¹ (extrait de hard_thresholder.m) :

bornes = [-Inf (xi(1:N-1)+xi(2:N))/2 Inf]; % taille=N+1 sigma=sqrt(sigma2);

%bornes

% calcul de la somme d'intégrales matrice = zeros(N,N);

1 la variable ^matrice est la matrice de transition

(14)

for i=1:N % pour chaque classe i ...

mu=xi(i);

for j=1:N % ... inspecter la prob que soit la classe j a=bornes(j);

b=bornes(j+1);

matrice(i,j)=pxi(i)*0.5/(sqrt(2)*sigma)*(

erf((b-mu)/(sigma*sqrt(2))) – erf((a-mu)/(sigma*sqrt(2))));

end;%for (j) end;%for (i)

matrice=matrice./repmat(sum(matrice),N,1);% normalisation

Il est ensuite possible de modéliser le canal à partir de la matrice de transition, par exemple, pour N=3 (cf Cover) :

Le débit de ce canal peut ensuite être calculé par la définition de Shannon¹ :

( )

^cond

( )

B=H y −H y x

( ) ( )

²

( )

1

log

M

j j

j

H y p y p y

=

= −

∑

⋅ with

( ) ^{( )} ( )

1 N

j i j i

i

p y p x p y x

=

∑

⋅

( ) ( ) ( )

²

( )

1 1

log

N M

cond i j i j i

i j

H y x p x p y x p y x

= =

= −

∑∑

⋅ ⋅

On peut constater (Figure 6), que le débit d'un hard-thresholder est légèrement inférieur (en moyenne 0.6%) à la capacité discrète. Cela montre qu'un tel classifieur n'est pas optimal.

La représentation de la matrice de transition étant relativement difficile, en particulier lorsque le nombre de classes est élevé, il est également possible de ne représenter que le taux de classification correct maximal, ce qui correspond à max(diag(matrice)), voir Figure 7.

La Figure 7 montre que, si le SNR reste constant, l'augmentation du nombre de classes provoque une diminution du taux de classification correct maximal. A partir de ce taux, il est possible de calculer le débit en utilisant la définition de Wolpaw (cf Figure 8), comme une majorité de BCIs le font :

( )

2 2 2

log log 1 log 1

1

B N P P P P

N

= + ⋅ + − ⋅ −

−

1 Voir hard_thresholder_bitrate.m

(15)

0 1 2 3 4 5 6 7 8 9 10

-20 -10 0 10 20 30 40 50 60

SNR [dB]

Bit-rate [bits/symbol]

N=512

N=4 N=256

N=8 N=16 N=32 N=64 N=128

N=2

Figure 6 – Débit en fonction du SNR pour un canal AWGN à signal d'entrée discret et un hard-thresholder. Le débit est calculé avec la définition de Shannon par la fonction hard_thresholder_bitrate.m. La différence avec la capacité discrète est beaucoup moins grande.

0 0.2 0.4 0.6 0.8 1

-20 -10 0 10 20 30 40 50 60

SNR [dB]

Accuracy [-]

N=256 N=128 N=64 N=32 N=16 N=8 N=4

N=2 N=512

Figure 7 – Taux de classification correct maximal pour différentes tailles d'alphabet. Ce taux tend vers 1/N lorsque le SNR tend vers -Inf (sigma2->Inf).

(16)

0 1 2 3 4 5 6 7 8 9 10

-20 -10 0 10 20 30 40 50 60

SNR [dB]

Bitrate [bits/symbol]

N=512

N=256

N=128

N=64

N=32

N=16

N=8

N=4

N=2

Figure 8 – Débit en fonction du SNR pour un canal AWGN à signal d'entrée discret. Le débit est calculé avec la définition de Wolpaw où P est le maximum de la diagonale de la matrice de transition calculée avec le programme matrice_transition.m. On constate une grande différence entre la capacité discrète (trait plein) et le débit calculé avec la définition de Wolpaw (traitillé).

On constate alors (Figure 8) que la définition de Wolpaw conduit à une sous-estimation du débit réel (définition de Shannon), en particulier lorsque le nombre de classes N est grand et que le SNR reste moyen. La différence provient de l'hypothèse simplificatrice de Wolpaw qui considère que l'erreur est répartie équiprobablement sur toutes les classes. Le modèle de canal AWGN utilisé montre que le débit calculé selon Shannon est plus proche de la capacité, donc meilleur. La sous-estimation de débit introduite par Wolpaw est grave car pour un SNR donné, on voit que le débit diminue lorsque le nombre de classes, ce qui peut conduire à la conclusion erronée que l'augmentation du nombre de classes n'est pas efficace.

Les débits publiés dans Obermaier2001b et calculés selon la définition de Wolpaw sont par conséquent inférieurs aux débits réels, comme c'est le cas dans plusieurs autres études (p.ex.

Farwell & Donchin, 1988). Cependant, étant donné que le nombre de classes utilisé est faible (≤5), cela ne remet probablement pas en cause la conclusion de l'article selon laquelle il y aurait un nombre de classes optimal de N=3 qui conduit au débit maximal. Par ailleurs, cette conclusion permet de déterminer le rapport signal sur bruit de ce BCI.

Si l'on calcule¹ le nombre de classes optimal qui conduit au débit maximal pour différentes valeurs de rapport signal sur bruit (Figure 9), on constate que le nombre de classes optimal proposé par Obermaier2001b (N=3) correspond à un SNR d'environ -3 [dB].

1 voir fonction hard_thresholder2.m

(17)

0 100 200 300 400 500

-25 -20 -15 -10 -5 0 5 10 15 20 25

SNR [dB]

optimal N [-]

Figure 9 – Nombre de classe optimal produisant un débit maximal. Ce nombre est fortement dépendant du rapport signal sur bruit.

Par extension, il serait ainsi possible de déterminer le nombre de classes optimal si l'on connaissait le rapport signal sur bruit, et ce pour tous les BCIs.

3.2 Cas non équiprobable

Lorsque la densité de probabilité de la source X n'est pas équiprobable, le débit maximal CN|SNR→∞ (capacité discrète lorsque le SNR tends vers l'infini) sera égal à l'entropie de la source, mais dans tous les cas inférieur à la capacité maximale¹ log2N :

( ) ( )

2

2 2

2

lim log 1

2

x

SNR CN H X N p x e ^σ

πσ

−

→∞ = < =

Dans ce cas, la densité de probabilité optimale de la source correspond à une discrétisation de la distribution de probabilité optimale du cas continu, soit une gaussienne. Lorsque le nombre de symboles N de l'alphabet tends vers l'infini, la capacité discrète tends vers la capacité continue :

( )

2

2 2

lim 1

2

x N CN C p x e ^σ

πσ

−

→∞ = =

On peut le montrer par simulation numérique (voir Figure 10).

1 Par définition de la capacité.

(18)

0 1 2 3 4 5 6 7 8 9 10

-20 -10 0 10 20 30 40 50 60

SNR [dB]

Capacity [bits/symbol]

continuous gaussian source

asymptotical capacity for discrete equiprobable source

Figure 10 – Simulation pour une source discrète à distribution gaussienne (en noir discontinu, σ²= 5041.2) avec N=256 symboles et comparaison avec la capacité continue. La capacité pour une source discrète équiprobable est indiquée en trait noir plein.

3.2.1 Choix des valeurs de xi

Lorsque la distribution de probabilité de l'alphabet n'est pas une gaussienne, le débit dans la zone de SNR moyenne chute. Il faut donc s'arranger pour que les symboles soient bien choisi.

Lorsque les symboles xi de l'alphabet ne sont pas équiprobables, le choix des valeurs avec la méthode décrite dans 3.1.1 n'est pas optimal. Il faut en effet que l'on tienne compte de la probabilité de chaque symbole pour le choix des valeurs de xi. On peut s'en convaincre facilement avec un exemple.

Prenons comme exemple une source discrète à 8 symboles et deux distributions de symboles : x₁ x₂ x₃ x₄ x₅ x₆ x₇ x₈

p(xi) 0.25 0.15 0.07 0.03 0.03 0.07 0.15 0.25

Figure 11 – Première distribution des symboles (A). On remarque que les symboles les plus probables ont l'amplitude la plus élevée. Les valeurs de xi sont calculées selon 3.1.1. L'énergie de ce signal est de 1.586 (1 lorsque les symboles sont équiprobables).

0

x1 x2 x3 x4 x5 x6 x7 x8

(19)

x₁ x₂ x₃ x₄ x₅ x₆ x₇ x₈ p(xi) 0.03 0.07 0.15 0.25 0.25 0.15 0.07 0.03

Figure 12 – Seconde distribution des symboles (B). On remarque que les symboles les plus probables ont l'amplitude la plus élevée. Les valeurs de xi sont calculées selon 3.1.1. L'énergie de ce signal est de 0.459 (1 lorsque les symboles sont équiprobables).

Le débit maximal correspond à l'entropie de la source, soit dans ce cas 2.66 bits/symbole, ce qui est inférieur au cas équiprobable comme on l'avait prévu. Mais ce qui est plus intéressant, c'est la capacité en fonction du SNR.

0 1 2 3 4 5

-20 -15 -10 -5 0 5 10 15 20 25 30

SNR [dB]

Bit rate [bits/symbol] distr. A

equiprobable continuous capacity

distr. B gaussian

Figure 13 – Comparaison entre plusieurs distributions de symboles pour une source discrète avec N=8. La capacité maximale des distributions A (trait-points) et B (pointillé) sont bien identiques et égales à l'entropie de la source, mais leur comportement n'est pas identique dans les SNR moyens : la distribution B montre une capacité jusqu'à 0.5 bits/symbole supérieure à la distribution A. A titre de comparaison, la source équiprobable (trait plein) donne le meilleur débit pour les SNR élevés tandis que la source gaussienne (traitillé, σ=2) donne les meilleurs débits pour les SNR moyens.

Ce fait est expliqué très facilement car dans les deux cas, les symboles x1 et x8 ont une grande influence sur l'énergie globale du signal E[X²]. Pour minimiser l'énergie du signal, il faut donc que les symboles les plus probables soient codés avec les amplitudes les plus faibles. Cet exemple simple montre que l'on doit tenir compte de la probabilité des symboles dans le choix des valeurs de xi. Cela permet d'énoncer la proposition suivante :

"Théorème" de minimisation d'énergie : lorsque l'alphabet de la source n'est pas équiprobable, les symboles les plus probables doivent avoir l'amplitude la plus faible. Ainsi, on maximise la capacité dans les SNR moyens.

L'expérience montre qu'avec cette seule contrainte, on arrive toujours à une courbe de débit proche de celle de la distribution B. Lorsque la suite des p(xi) ressemble à une gaussienne

0

x1 x2 x3 x4 x5 x6 x7 x8

(20)

discrète comme dans le cas B, la courbe de débit tends vers la capacité de la source continue gaussienne (c'est assez logique car la source discrète gaussienne tends vers une source continue gaussienne quand N tends vers infini).

Le choix des valeurs de xi est toujours fait selon 3.1.1 (la modification des valeurs entraîne toujours une chute de la capacité en lorsque le SNR est moyen).

On constate que la distribution optimale de la source dépend du SNR. Dans la zone de bas SNR (-∞..0), la distribution n'est pas importante car n'importe laquelle permet d'obtenir un débit proche de la capacité. Dans la zone de SNR moyenne (0..coude¹), la distribution optimale est la gaussienne discrète. Dans la zone de SNR élevée (coude..+∞), la distribution optimale est l'équiprobable discrète.

4 Application au domaine du BCI

Si l'on applique les résultats obtenus ici au domaine du BCI, on constate qu'un certain nombre d'hypothèses simplificatrices ont été effectuées.

4.1 Canal sans mémoire

Nous avons traité d'un canal sans mémoire qui considère que deux symboles transmis consécutivement dans le canal sont indépendants. C'est un modèle qui ne convient pas directement pour un BCI car une certaine proportion des états mentaux successifs sont corrélées dans la pratique (p.ex. tourner deux fois à gauche) ou par le protocole (p.ex.

average-trial).

4.2 Indépendance du bruit

Dans un modèle à bruit indépendant du signal, la capacité augmente toujours lorsque l'on augmente la taille de l'alphabet et que le rapport signal sur bruit SNR est conservé (Figure 4).

Les résultats de l'expérience sur 5 états mentaux (Obermaier2001b) semblent montrer que la capacité décroît lorsque N>3, ce qui pourrait être expliqué par la non indépendance du bruit et/ou par la non-optimalité du classifieur utilisé.

4.3 Choix des valeurs des symboles

Dans un cas réel, les valeurs des caractéristiques mesurées sont imposées par les méthodes d'extraction utilisées (p.ex. énergie dans une certaine bande de fréquence). Il est peu probable que l'on puisse obtenir un espacement identique entre toutes valeurs xi. Si l'espacement n'est pas identique, les erreurs augmentent et par conséquent le débit diminue.

4.4 Distribution du bruit

Le modèle de bruit utilisé est le bruit gaussien, ce qui n'est pas forcément vrai dans un cas pratique. Par exemple, l'énergie dans une bande de fréquence possède typiquement une distribution de type Rayleigh.

5 Conclusions

Pour le calcul du débit, l'hypothèse d'erreur distribuée équiprobablement sur toutes les classes de la définition de Wolpaw conduit à une sous-estimation du débit réel. Cette sous-estimation est d'autant plus forte que le nombre de classes est élevé.

1 Le coude est défini comme l'endroit où se coupent les asymptotes de la capacité continue et de l'entropie de la source (H(X)=C). A cet endroit, le SNR est défini comme ^SNR^{= ⋅}^{10 log}¹⁰

(

²²^⋅^{H X}^{( )}⁻¹