• Aucun résultat trouvé

Cours d introduction à la théorie de la détection

N/A
N/A
Protected

Academic year: 2022

Partager "Cours d introduction à la théorie de la détection"

Copied!
34
0
0

Texte intégral

(1)

Olivier J.J. MICHEL D´epartement EEA, UNSA v1.Mars 06 [email protected] Laboratoire LUAN UMR6525-CNRS

Cours d’introduction ` a la th´ eorie de la d´ etection

L’ensemble du document s’appuie tr`es largement sur les notes de cours dispens´es d’une part `a l’Universit´e du Michigan (Ann Arbor, d´epartement EECS) par A.O.Hero et d’autre part `a l’Universit´e de Nice-Sophia Antipolis (ED.SFA, 2004) par O.Michel.

Contents

1 Contexte, d´efinitions 2

2 Formulation g´en´erale du probl`eme de test d’hypoth`ese binaire 2

3 Approches bayesiennes, hypoth`eses simples 5

3.1 R`egle de Bayes et r`egle du max. a posteriori (MAP) . . . 5

3.2 Strat´egie de Bayes, notion de coˆut . . . 6

3.3 Le d´etecteur MiniMax de Bayes . . . 8

3.4 Test `a hypoth`eses multiples . . . 9

4 L’approche de Neyman Pearson (NP) 12 5 Tests de rapport de vraisemblance 14 5.1 Observations multiples : interpr´etation du LRT . . . 14

5.2 Courbes CORe . . . 16

5.3 Evaluation de la possibilit´e de d´etection d’un signal . . . 18

6 Test d’hypoth`eses compos´ees 21 6.1 Strat´egie bayesienne pour le test d’hypoth`eses compos´ees . . . 22

6.2 UMP Test : definition et existence . . . 24

6.3 Strat´egie de d´etection dans le cas d’hypoth`eses compos´ees . . . 27

6.3.1 Test unilat´eral, localement le plus puissant . . . 27

6.3.2 Test bilat´eral, localement le plus puissant . . . 28

6.3.3 Test MinMax-Neyman Pearson . . . 30

6.4 M´ethode du rapport de Vraisemblance G´en´eralis´e (GLRT) . . . 30

(2)

1 Contexte, d´ efinitions

Le probl`eme le plus simple relevant de la th´eorie de la d´ecision est le probl`eme qui consiste `a devoir choisir entre plusieurs hypoth`eses (not´eesHi) qui permettent chacune d’expliquer ou d’interpr´eter des donn´ees observ´ees : il s’agit donc de d´ecider `a partir d’un ensemble d’observations collect´ees, quelle est l’hypoth`ese qui est vraie, ou qui semble vraie. Sous chacune des hypoth`eses, les donn´ees collect´ees sont suppos´ees de nature al´eatoire. Les observations ont une fonction de densit´e de probabilit´e (cas continu) ou une loi de probabilit´e (cas discret) qui d´epend de l’hypoth`eseHi qui est r´ealis´ee. Chaque fonction de densit´e (fdp) ou chaque loi de probabilit´e est totalement (hypoth`eses simples) ou partiellement (hypoth`eses compos´ees) connue sous chacune des hypoth`eses possiblesHi. A chaque hypoth`ese est donc associ´ee une fdp ou une loi de probabilit´e sur l’espace de mesure.

Consid´erons un syst`eme de communication par exemple; l’´emetteur envoie une suite de symboles repr´esent´es chacun par un signal de forme particuli`ere (l’op´eration de modulation qui r´ealise la correspondance entre un symbole et une forme d´etermin´ee de signal). Le r´ecepteur doit donc d´etecter si un symbole a ´et´e ´emis et s´electionner ce symbole parmi un alphabet de symboles possibles. La s´equence de ces symboles con- stitue un message. Ce dernier se propage dans un canal de transmission (ligne ´electrique, fibre optique, atmosph`ere, ...) imparfait, et subit des modifications ou des alt´erations lors de sa propagation. Ces mod- ifications sont le plus souvent dues `a la nature dispersive et fluctuante du milieu dans lequel se propage le signal, `a des att´enuations, voire plus simplement `a des effets d’interf´erences en pr´esence de signaux parasites (d’autres ´emetteurs utilisent le mˆeme canal de transmission). Le signal capt´e par le r´ecepteur est donc diff´erent du signal ´emis et les fluctuations subies par ce dernier sont de nature al´eatoire. Il se peut par ailleurs que l’appareil de r´eception lui mˆeme introduise un bruit parasite non n´egligeable. La tˆache du d´etecteur est donc de retrouver le symbole ´emis `a partir d’observations ”noy´ees” dans un bruit, ou de prendre toute autre d´ecision sur la nature du signal observ´e, en faisant un minimum d’erreurs de d´ecision par exemple. L’objectif de la th´eorie de la d´etection est d’´etudier comment de telles erreurs peuvent ˆetre rendues aussi rares ou aussi peu coˆuteuses que que possible.

Notons que quel que soit le type de signal auquel on s’int´eresse, de nature d´eterministe ou bien de nature al´eatoire, la pr´esence de bruit au niveau du r´ecepteur ne peut ˆetre prise en compte que dans le cadre d’une approche probabiliste. Le signal `a l’entr´ee du r´ecepteur sera donc un processus stochastique ne pouvant ˆetre d´ecrit qu’`a l’aide de sa fonction de densit´e de probabilit´e. La forme de cette fdp r´esume l’ensemble des connaissances disponibles sur la nature physique des perturbations ou du signal lui-mˆeme.

Dans la presque totalit´e de ce chapitre nous nous int´eresserons au probl`eme de d´ecision binaire, le r´ecepteur ayant `a choisir entre deux hypoth`eses not´ees H0 (le signal est de type T0) et H1 (le signal re¸cu est de typeT1) respectivement. Dans ce contexte, la notion d’hypoth`ese porte sur le type (T0 ou T1) du signal ´emis qui n’est observ´e qu’`a travers un canal de transmission imparfait. Cette d´emarche se g´en´eralise ais´ement au probl`eme de test d’hypoth`eses multiples, dans lequel les signaux peuvent ˆetre de plus de deux types diff´erents, et auquel nous consacrerons un bref paragraphe.

2 Formulation g´ en´ erale du probl` eme de test d’hypoth` ese binaire

Consid´eronsx∈ Xune mesure ou une observation d’un signal etθ∈Θ un ensemble de param`etres de cette observation. Bien queθ soit ind´etermin´e, l’ensemble Θ est connu et les formes des fonctions de densit´e de probabilit´e (p(x|θ)) de l’observation xen fonction des param`etresθ sont connues. Une exp´erience, not´ee (X, PΘ), est donc compos´ee d’une r´ealisationx∈ X ayant pour fdppθ(x), θ∈Θ. L’observationx consid´er´ee peut ˆetre de nature quelconque, num´erique ou symbolique, scalaire ou vectorielle.

(3)

Les hypoth`eses qui doivent ˆetre consid´er´ees dans la suite sont donc:

H0: θ∈Θ0 [x'p(x|θ) θ∈Θ0] H1: θ∈Θ1 [x'p(x|θ) θ∈Θ1]

expression dans laquelle {Θ01} est une partition de l’ensemble Θ1. L’´egalit´ex'p(x|θ) signifie que la variable al´eatoire x a pour fdp, conditionnellement `a θ, la fonction p(x|θ). Le choix op´er´e par le r´ecepteur est donc exclusif et le r´ecepteur choisit toujours l’un ou l’autre des hypoth`eses. L’hypoth`ese H0 est souvent appel´eehypoth`ese nulleouhypoth`ese de bruit seul alors queH1 est qualifi´ee d’alternative ou d’hypoth`ese depr´esence de signal, selon le contexte.

La synth`ese d’un d´etecteur se r´esume donc `a la d´efinition d’une fonction de d´ecision φ qui ne d´epend que des observationsx∈ X, et qui d´efinit une partition de l’espace des r´ealisationsX en deux r´egions de d´ecisions :

X0={x:φ(x) = 0 : d´ecider H0}

X1={x:φ(x) = 1 : d´ecider H1} (1) Les erreurs faites par le r´ecepteur (prise de mauvaises d´ecisions) construit `a l’aide de la fonction de d´ecisionφpeuvent ˆetre de deux types

• Le d´etecteur choisit l’hypoth`eseH1alors que la fdp du signal ´emis est de type T0 : p(x|θ), θ∈Θ0

(hypoth`eseH0); cette erreur est qualifi´ee de Fausse Alarme (FA).PF A est parfois qualifi´ee aussi de niveau du test.

• Le d´etecteur choisit l’hypoth`ese H0 alors que le signal ´emis est de type T1 : cette erreur est une Non D´etection (ND), ou d´etection Manqu´ee (M)

Les probabilit´es de chacune de ces erreurs s’expriment `a l’aide de la fonction de d´ecision et des fdp des observationsx

PF A(θ) = R

X1pθ(x)dx= Eθ[φ] θ∈Θ0 (2)

PM(θ) = R

X0pθ(x)dx= 1−R

X1pθ(x)dx= Eθ[1−φ] θ∈Θ1 (3) La probabilit´e de fausse alarme est ici une fonction deθ ∈Θ0. Si la fonction de densit´e de probabilit´e p(θ) est connue, on peut exprimer la probabilit´e de fausse alarme moyenne (par rapport `aθ∈Θ0

PF A= Z

Θ0

PF A(θ)p(θ|θ∈Θ0)dθ= Z

Θ0

PF A(θ)p(θ|H0)dθ o`u

p(θ) =p(H0)p(θ|H0) et o`u la probabilit´e de r´ealisation de l’hypoth`eseH0est

p(H0) = Z

θ0

p(θ)dθ (4)

De mˆeme,

PM = Z

Θ1

PM(θ)p(θ|H1)dθ= Z

Θ1

Z

X0

pθ(x)p(θ|H1)dθdx

10,Θ1}est une partition de l’ensemble Θ si Θ0S

Θ1= Θ et Θ0T Θ1=/

(4)

La probabilit´e d’erreur totale se d´eduit des expressions pr´ec´edentes : PE= p(H0)PF A+p(H1)PM

= P

i(0,1)p(Hi)R

Θi

R

Xjpθ(x)p(θ|Hi)dθdx On introduit parfois d’autres probabilit´es caract´eristiques du d´etecteur :

• La probabilit´e de d´etection , d´efinie sousH1,

PD= 1−PM

Cette probabilit´e est aussi appel´eepuissance du test.

• La probabilit´e de d´ecision ou de classification correcte,PC

PC = 1−PE

= p(H0)(1−PF A) +p(H1)(1−PM)

= P

i=0,1p(Hi)R

Θi

R

Xipθ(x)p(θ|Hi)dθdx (5)

Remarques :

• La probabilit´e PC est une fonction de la densit´e de probabilit´e du param`etre θ sur lequel porte le test et de la forme des r´egions de d´ecision Xi. La valeur des probabilit´es{p(Hi), i= 0,1} est calcul´ee `a partir de la fdp deθ. La fdp marginale des observationspX(x) s’exprime

pX(x) = X

i=0,1

P(Hi) Z

Θi

pθ(x)dθ

La fdp de θ, et par cons´equent les probabilit´esp(Hi) ne sont pas n´ecessairement connues a priori;

la forme des solutions qui seront propos´ees dans les paragraphes suivants d´epend en particulier du fait que l’on dispose ou non de cette connaissance.

• Le cas pour lequelθprend ses valeurs sur un ensemble discret se d´eduit directement des ´equations pr´ec´edentes, en rempla¸cant les op´erateurs d’int´egration R

Θi(.)p(θ)dθpar les op´erateurs de somme discr`eteP

θΘi(.)p(θ) o`u Θi est un ensemble discret et o`up(θ) est cette fois une loi de probabilit´e et non une fdp.

Exemple Soit x une variable al´eatoire gaussienne; sous les hypoth`eses H1 et H0 respectivement, x a pour fdp p(x|θ1) etp(x|θ0) :

( p(x|θ0) = 1

σ

exp(−(xθ20)2) sous H0

p(x|θ1) =σ1exp(−(xθ21)2) sous H1

(6) Ces fdp sont repr´esent´ees sur la figure 1, dans le cas θ0 = 0, θ1 = 3, σ2 = 2. Nous ´etablirons que le probl`eme de d´ecision binaire (x est une variable al´eatoire dont la fdp est associ´ee `a l’hypoth`eseH1 ou

`a l’hypoth`ese H0) conduit simplement `a comparer x `a un seuil η. Alors X0 =]− ∞, η] et X1 =]η,∞[;

PF A et PM correspondent aux surfaces hachur´ees `a droite et `a gauche de la droite d’´equation x = η respectivement.

(5)

-6 -4 -2 0 2 4 6 8 -0.05

0 0.05 0.1 0.15 0.2 0.25 0.3

P0(x) P

1(x)

η

x

pdf(x)

Figure 1: Un exemple de test d’hypoth`ese binaire: x a une distribution gaussienne avec σ2 = 2 sous chacune des hypoth`eses. SousH1, xa une moyenne connueθ= 3 alors que sousH0,xest une variable al´eatoire centr´ee. Comparer une valeur observ´ee dexau seuilη permet d’´evaluer les probabilit´es de non d´etection ou de fausse alarme, repr´esent´ees par les surfaces hachur´ees.

3 Approches bayesiennes, hypoth` eses simples

3.1 R` egle de Bayes et r` egle du max. a posteriori (MAP)

On suppose dans cette section que les fdp sur les param`etresθ sont connues; en cons´equence, les prob- abilit´es de r´ealisation de chacune des hypoth`eses sont elles aussi d´etermin´ees (cf eq. 4). La probabilit´e a posteriori , i.e. apr`es avoir observ´ex, que l’hypoth`ese Hi : (θ ∈ Θi) soit r´ealis´ee est obtenue par la formule de Bayes sur les probabilit´es conditionnelles

p(Hi|x) = P(Hi).p(x|Hi)

pX(x) (7)

Ces probabilit´es sont calcul´ees pour chacune des hypoth`eses. La r`egle de d´etection Bayesienne dite de Maximum a posteriori consiste alors `a s´electionner l’hypoth`ese ayant la plus forte probabilit´e a posteriori,

´etant donn´ees les observations dex, exploitant l’´egalit´e (7). Cette m´ethode conduit au minimum d’erreur de classification (PE) et donc maximisePC = 1−PE : l’´equation (5) peut en effet s’exprimer

PC = P

i(0,1)p(Hi)R

Xi

hR

Θipθ(x)p(θ|Hi)i dθ

= P

i∈(0,1)p(Hi)R

Xip(x|Hi)dx

Le choix des zones de d´ecision Xi au sens du MAP est tel que le terme sous l’int´egrale est toujours maximal. En cons´equencePC est maximal etPE minimal. Un tel r´ecepteur est dit optimal au sens de Bayes.

Il a ´et´e d´ej`a soulign´e que dans l’approche bayesienne, les probabilit´es de r´ealisation de chacune des hypoth`eses (ou les pdf a priori pourθ) sont suppos´ees connues. Les informations fournies par l’exp´erience

(6)

consistent alors uniquement en la mesure ou l’observation de r´ealisations de x. Les r´egions de d´ecision sont enti`erement d´etermin´ees par l’´evaluation des quantit´esp(x|Hi) dans l’´equation (7), et les probabilit´es a priori des hypoth`eses. L’approche du MAP peut alors ˆetre formul´ee de la mani`ere suivante : si p(H1)p(x|H1) > p(H0)p(x|H0) alors choisir H1, sinon choisir H0. Dans une formulation ´equivalente utilisant le rapport de vraisemblance

L(x) = p(x|H1)

p(x|H0) (8)

on obtient

L(x) = p(x|H1) p(x|H0)

H1

H0

p(H0)

p(H1) (9)

Remarque

• Le termepX(x) n’agit que comme une constante de normalisation et disparaˆıt donc dans la formu- lation du test.

• Si p(H0) =p(H1) = 12, le choix de l’hypoth`ese `a retenir se fait au sens du maximum de vraisem- blance :

L(x)H1

H0

1

Exemple Le test de maximum a posteriori (MAP) pour le test d’hypoth`ese d´ecrit par l’´equation (6), conduit `a

L(x) = p(x|H1)

p(x|H0) =e(x−θ1 )

2 2

e(x−θ1 )

2 2

H1

H0

p(H0) p(H1) soit, en exprimant le crit`ere de d´ecision en fonction de l’observationx.

xH1

H0

η= θ10

2 + σ2

θ1−θ0

log(p(H0) p(H1))

3.2 Strat´ egie de Bayes, notion de coˆ ut

Nous avons ´etabli dans le paragraphe pr´ec´edent que le test d’hypoth`ese binaire conduit `a comparer le rapport de vraisemblance `a un seuil. Dans le cadre de l’approche MAP, ce seuil est fonction des lois de probabilit´es a priori sous chacune des hypoth`eses. Il y a cependant de nombreux cas pour lesquels les deux types d’erreurs n’impliquent pas les mˆemes cons´equences, ni surtout les mˆemes coˆuts. Il est alors n´ecessaire de proposer une strat´egie dont la finalit´e soit de minimiser le coˆut moyen des d´ecisions qui seront prises par le d´etecteur. C’est exactement ce `a quoi le strat´egie bayesienne apporte une r´eponse.

Soitp( ˆHi|Hj) la probabilit´e qu’a le d´etecteur de choisir l’hypoth`ese ˆHiquand c’estHjqui est l’hypoth`ese correcte et Cij le coˆut associ´e `a une telle d´ecision . Le coˆut associ´e au choix de l’hypoth`ese ˆHi `a partir de l’observationxvaut

C( ˆHi) =X

j

Cijp( ˆHi|Hj)p(Hj) =X

j

Cijp( ˆHj|x) Le coˆut moyen pour le d´etecteur est alors obtenu par la r`egle de Bayes

C= P

i

R

XipX(x)C( ˆHi)dx

= P

i

P

jp(Hj)Cij

R

Xi

R

Θjpθ(x)p(θ|Hj)dθdx (10)

(7)

Le coˆut moyen est donc minimal lorsque la r´egion de d´ecisionXi ne contient que les observations pour lesquelles C( ˆHi) est minimal. Bien que les ´equations pr´ec´edentes s’appliquent en toute g´en´eralit´e au probl`eme de test d’hypoth`eses multiples, les ´el´ements suivant ne sont expos´es que dans le cas du test d’hypoth`eses binaire permettant de mettre en ´evidence l’importance du rˆole jou´e par le rapport de vraisemblance (8). L’´equation (10) prend alors la formulation suivante :

C=C00p(H0) +C11p(H1) + R

X1([C10−C00]p(H0)p(x|H0)−[C01−C11]p(H1)p(x|H1)dx

=p(H0) [(C10PF A+C00(1−PF A)] +p(H1) [C01(1−PD) +C11PD] (11) Les deux premiers termes de cette ´equation sont ind´ependants des observations et de la fonction de test retenue; l’int´egrale est minimale si l’int´egrande est toujours n´egatif, ce qui conduit `a la r`egle de d´ecision suivante : une observationxest associ´ee `a la r´egion de d´ecisionX1si

[C10−C00]p(H0)p(x|H0)<[C01−C11]p(H1)p(x|H1) (12) Remarque : Le coˆut, c’est `a dire la p´enalit´e, associ´e `a une d´etection correcte ´etant logiquement plus faible que le coˆut associ´e `a une erreur de d´ecision, les in´egalit´es suivantes sont impos´ees :

C10≥C00 C01≥C11 (13)

Une formulation ´equivalente de (12) `a l’aide du rapport de vraisemblance est2 L(x) =p(x|H1)

p(x|H0)

H1

H0

[C10−C00]p(H0)

[C01−C11]p(H1) (14)

Ces approches sont optimales au sens o`u elles minimisent le coˆut moyen, mais s’appuient sur une con- naissance a priori des lois de probabilit´es (ou des fdp) du param`etreθ, ou plus simplement dep(Hi)3 ; de plus, elles supposent qu’il est possible d’associer a priori un coˆut `a chacune des d´ecisions que peut prendre le d´etecteur. Dans le cas o`u aucun a priori n’est possible ou simplement disponible surθ, mais o`u d´efinir les coˆuts de chaque d´ecision est possible, l’approche minimax d´evelopp´ee dans un paragraphe ult´erieur est optimale. Notons seulement pour l’instant que le test revient `a nouveau `a comparer le rapport de vraisemblance `a un seuil.

Remarque : SiC10=C01= 1 etC11=C00= 0, le coˆut moyen de Bayes se confond avec la probabilit´e d’erreur de d´ecisionPE. On retrouve la r`egle de d´ecision obtenue au paragraphe pr´ec´edent(eq. (9).

Exemple Le calcul du d´etecteur de Bayes pour le test d’hypoth`ese d´ecrit par l’´equation (6) se d´eduit des r´esultats pr´ec´edents et conduit `a la fonction de d´ecision suivante

xH1

H0

η= θ10

2 + σ2

θ1−θ0log

[C10−C00]p(H0) [C01−C11]p(H1)

(15) Le seuilη´etant fix´e, les probabilit´es de fausse alarme et de d´etection sont d´etermin´ees (eq. (11)). Le coˆut de bayes peut donc s’´ecrire comme fonction de η. Les courbes exprimant le coˆut C(η) en fonction deη sont repr´esent´ees sur la figure (2), pour diff´erentes valeurs des param`etresCij. Les minima correspondent aux valeurs optimale deη exprim´ees par l’´equation (15).

2C’est ici que les in´egalit´es exprim´ees par l’´equation (13) sont importantes, car si elles ne changent pas la valeur du seuil auquel est compar´e le rapport de vraisemblance, elles d´eterminent la d´ecision `a prendre.

3De fait, l’´equation(14) montre que seule la connaissance des probabilit´esp(Hi) est n´ecessaire; la connaissance de la fdp deθconduit `a la d´etermination desp(Hi) par l’´equation (4).

(8)

-40 -3 -2 -1 0 1 2 3 4 5 6 0.5

1 1.5

seuil η

Coût bayesien, C(η)

Figure 2: Coˆut bayesien associ´e au d´etecteurxH1

H0

η pour le test d’hypoth`ese d´ecrit par l’´equation (6), en fonction du seuilη. Les courbes en trait plein sont obtenues pourp(H1) =.5,C00=C11= 0,C10= 1, et C01= 1 et C01= 3 respectivement. Les courbes en pointill´es reprennent les mˆemes valeurs de Cij mais pourp(H1) =.2. Les seuils th´eoriques optimaux obtenus `a partir de l’´equation (15) sont indiqu´es par les lignes verticales.

L’inconv´enient majeur de l’approche bayesienne reste la difficult´e `a d´efinir des valeurs raisonnables de Cij, le plus souvent `a partir de consid´erations subjectives. De plus, l’approche bayesienne ne permet pas de garantir une valeur maximale de la probabilit´e de fausse alarme et n’est optimale qu’au regard des divers a priori qui ont pu ˆetre formul´es.

3.3 Le d´ etecteur MiniMax de Bayes

On consid`ere cette fois les situations dans lesquelles les coˆutsCij sont connus ou peuvent ˆetre d´etermin´es, sans que les a priori sur les probabilit´es des hypoth`eses soient connus. L’approche minimax permet de palier l’ind´etermination dep(H0), en minimisant le coˆut moyen associ´e au test obtenu pour la valeur de p(H0) la plus d´efavorable.

Soit un seuil η quelconque, auquel est compar´e le rapport de vraisemblanceL(x)4: l’ensemble des tests rencontr´es permettent de d´eterminer η `a partir de crit`eres d’optimalit´e (erreur moyenne de d´ecision minimale (MAP), risque minimal (Bayes),...) en fonction de p(H0). p(H0) ´etant inconnue, il peut tout au plus ˆetre envisag´e de l’estimer, ce qui permet alors de fixer η, `a partir de l’´equation (14). La d´etermination de η d´etermine `a son tour parfaitement les probabilit´es de non d´etection ou de fausse alarme, et donc aussi le coˆut moyen (risque) dans la strat´egie de Bayes.

Le risqueCs’´ecrit en fonction dep=p(H0) etη (cf eq. 11)

C(η, p) =p[C10PF A(η) +C00(1−PF A(η))] + (1−p)[C01PM(η) +C11(1−PM(η))]

4Dans le paragraphe pr´ec´edent,η repr´esente le seuil appliqu´e aux observationsx, et non `aL(x); ces deux seuils sont

´

evidemment r´eli´es bijectivement, c’est pourquoi on a gard´e les mˆemes notations

(9)

Le risque calcul´e pour une valeur deηdonn´ee, est une fonction lin´eaire dep; cette fonction est tangente `a la courbe ˆC(ηopt(p), p)) en fonction dep, o`uηopt(p) est le seuil calcul´e pour minimiser le risque bayesien quand p est connu. La courbe ˆC(ηopt(p), p)) pour 0 ≤ p≤1 d´elimite dans le plan (C, p) une zone de performance non accessible, repr´esent´ee sur la figure (3).

Sur la figure (3), il apparaˆıt que si la valeur choisie pourη est proche de la valeur optimale (qui suppose pconnue), le coˆut moyen obtenu reste proche du coˆut minimal; par contre, siη est tr`es diff´erent deηopt, le coˆut r´esultant peut ˆetre tr`es largement sup´erieur au coˆut optimal accessible, du fait de la croissance lin´eaire du coˆut en fonction dep. Cette situation est susceptible de se produire d`es que le choix (arbitraire sipest totalement inconnu) deηs’´ecarte de la valeurηopt(p). Cet effet peut ˆetre ´evit´e si la courbe ˆC(η, p) est de pente nulle en fonction dep, ce qui donne un coˆut moyen constant et ind´ependant dep. On cherche donc la solution v´erifiant

∂C(η, p)

∂p = 0 ce qui conduit `a

[C10PF A(η) +C00(1−PF A(η))] = [C01PM(η) +C11(1−PM(η))] (16) et `a l’expression du coˆut moyen :

C(η) = [C01PM(η) +C11(1−PM(η))] (17) La premi`ere de ces deux ´equations exprime une contrainte d’´egalit´e entre les coˆuts de d´ecisions sous chacune des hypoth`eses, la seconde donne l’expression du coˆut moyen, ind´ependant dep, obtenu quand cette contrainte est v´erifi´ee. La valeur (not´eeη) du seuil η est alors d´etermin´e de sorte `a minimiser la valeur du coˆut moyenC(η):

η= ArgMinηC(η)

Soit p0 la valeur de p pour laquelle cette valeur du coˆut moyen est la plus faible (l’optimale), le test minimax s’´ecrit alors en fonction dep0:

L(x)H1

H0

ηopt(p0) = [C10−C00]p0

[C10−C11](1−p0) Remarques:

• Le test minimax est le test de Bayes de seuilη(p0), pour lequel la fonctionC(p, eta0) est une droite horizontale, tangente `a la courbeC(ηopt(p), p) fonction dep=p(H0).

• Si C00 = C11 = 0 et C10 =C01 = 1, le coˆut moyen est la probabilit´e d’erreur du d´etecteur et la condition d’´egalit´e des coˆuts sous chacune des hypoth`ese s’´ecritPF A=PM.

3.4 Test ` a hypoth` eses multiples

Les hypoth`eses `a tester sont dites multiples si le probl`eme de d´ecision s’´ecrit H0: θ∈Θ0 [x'p(x|θ), θ∈Θ0]

...

HM : θ∈ΘM [x'p(x|θ), θ∈ΘM]

(10)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7

C(η(p),p)

CMinimax C(η=3,p) C(η=0.2,p)

zone de performance non accessible

p=p(H0)

risque=coût moyen, fonction de p

Figure 3: Coˆut moyen de Bayes en fonction de p=p(H0), pourC00 =C11 = 0 et C01 =C10 = 1. Les statistiques d’entr´ees, pour cet exemple, sont normales de varianceσ2=.5 et de moyenneθ1= 1 sousH1

etθ0= 0 sousH0. Les droites repr´esentent les coˆuts obtenus pour une valeur fix´ee deη (respectivement 0.2,1, .3); la courbe en pointill´e repr´esente le coˆut minimal de Bayes (η=ηopt) est alors fix´e en fonction dep. Cette courbe fixe la limite des performances (en terme de faible coˆut moyen) que peut atteindre le d´etecteur. Le test MiniMax est obtenu dans ce cas particulier pourp=p0= 1/2 etηopt=η(1/2) = 1.

(11)

pour M > 2; {Θ0, . . . ,ΘM} forme une partition de l’ensemble Θ. La fonction de d´ecision devient φ(x) = [φ1(x), . . . , φM(x)]T et v´erifie

φ(x)∈ {0,1}∀x∈ X PM

i=1φi(x) = 1∀x∈ X

φd´efinit ainsi une partition de l’espace des observationsX enM sous-espacesXi.

Les probabilit´es a priori de chacune des hypoth`eses Hi s’exprime comme pr´ec´edemment, `a partir de la fdp deθ suppos´ee connue, not´eep(θ)

p(Hi) = Z

Θi

p(θ)dθ,

M

X

i=1

p(Hi) = 1

Soit Cij(θ) le coˆut associ´e au choix de la d´ecision ”Hi : θ ∈Θi” alors que c’est ”Hj :θ ∈ Θj” qui est v´erifi´ee. La probabilit´e d’une telle d´ecision est not´eep( ˆHi|Hj). On introduit alors la matrice de coˆut

C(θ) =

C11(θ) . . . C1M(θ)

... ...

CM1(θ) . . . CM M(θ)

Le choix optimal au sens de la strat´egie de Bayes conduit `a d´eterminer la fonction de d´ecision φ qui minimise le risque (coˆut moyen)

C=

M

X

i,j=1

Cijp( ˆHi|Hj)p(Hj)

Cette expression ne conduit pas `a des formulations simples du test optimal dans le cas g´en´eral. On s’int´eresse plus particuli`erement au cas suivant :

Cii = 0 i∈ {1, . . . , M} Cij = 1, i6=j, i, j∈ {1, . . . , M}

Le risque de Bayes est alors ´egal `a la probabilit´e d’erreur de d´ecision, et s’exprime C =PM

i6=j=1Cijp( ˆHi|Hj)p(Hj)

= 1−PM

i=1Ciip( ˆHi|Hi)p(Hi)

= 1−PM

i=1p(Hi)R

Xip(x|Hi)dx o`u p(x|Hi) =

R

Θipθ(x)dθ

p(Hi) est la probabilit´e de l’observation conditionnellement `a l’hypoth`ese Hi. Il apparaˆıt queCest minimal si pour tout i∈ {1, . . . , M}, les r´egions de d´ecisionsXi sont telles que

x∈ Xi ⇔p(Hi)p(x|Hi)≥p(Hj)p(x|Hj) j6=i Le r`egle de d´ecision peut donc se r´esumer ainsi :

i=ArgM axHj[p(Hj)p(x|Hj)] =ArgM axHj[p(Hj|x)]

(12)

o`u ˆHi signifiele d´etecteur retient l’hypoth`ese Hi. La seconde ´egalit´e est obtenue `a partir de l’´egalit´e de Bayes, en notant que la fdp globale des observations n’intervient que comme une constante de normali- sation (cf paragraphe 3.1). On retrouve ainsi le test de maximum a posteriori (MAP).

RemarqueLes r`egles de d´ecision ne sont en g´en´eral pas transitives, ce qui interdit de traiter le probl`eme en consid´erant les diff´erentes hypoth`eses par paires. Il se peut en effet que `a partir de l’observationx∈ X, les d´ecisions soient les suivantes

H1vsH2 →Hˆ2

H2vsH3 →Hˆ3

H1vsH3 →Hˆ1

Tester Hi contre Hj am`ene `a consid´erer le test optimal d´efini pour le probl`eme de test d’hypoth`eses binaires (´equation (14)). SoitLij = p(xp(x||HHij)) le rapport de vraisemblance dans le test d’hypoth`ese Hi vs Hj, et ηij le seuil optimal au sens de Bayes. Consid´erons un ensemble de 3 hypoth`esesHi, Hj, et Hk. L’´egalit´e

Lik(x) =Lij(x)Ljk(x)

et les r`egles de d´ecisions pour les tests d’hypoth`eses binaires Lij(x) Hi

Hj

ζij, permettent de mettre en

´evidence une condition suffisante pour la transitivit´e des r`egles de d´ecisions : ζikijζjk⇔ (Cji−Cii)

(Cij−Cjj)

(Ckj−Cjj)

(Cjk−Ckk)= (Cki−Cii) (Cik−Ckk)

Cette contrainte exprim´ee sur la matrice des coˆuts bayesiens est v´erifi´ee dans le cas ´etudi´e pr´ec´edemment;

la consid´eration des hypoth`eses deux par deux aurait, dans ces cas particuliers, donc conduit `a la mˆeme r`egle de d´ecision.

ExempleConsid´erons trois hypoth`eses ´equiprobables (p(Hi) = 13, i= 1,2,3), sous lesquelles les fdp des observations sont normales, de mˆeme variance σ2 mais de moyennes respectivesθ1= 1, θ2= 0, θ3=−1 (voir figure (3.4). Les coˆuts de d´ecisions sontC12=C21=C23 =C32 = 1. Les tests d’hypoth`eses (H1

vs H2) et (H2 vs H3)conduisent `a comparer les observations aux seuils respectifs η12 = 12 et η23 = 12, d’apr`es l’´equation (15). Si le rapport des coˆuts CC3113 est tel queη13= σ22log

C31

C13

≤η23, il apparaˆıt que la transitiv´e du test d’hypoth`eses peut ˆetre viol´ee pour toute observationx∈]η13, η23[.

4 L’approche de Neyman Pearson (NP)

Cette fois, aucune connaissance a priori sur la loi de probabilit´e ou sur la fdp de θ n’est suppos´ee.

L’approche bayesienne ne peut donc pas ˆetre d´evelopp´ee. Neyman et Pearson ont propos´e de calculer le d´etecteur deniveauPF A(θ) au moins ´egal `a α, qui maximise lapuissancePD(θ) du test, i.e.

PD(θ)|θ∈Θ1maximal sous la contrainte max|θ∈Θ0PF A(θ)≤α

Important : Dans la suite nous ne consid´erons que le cas simple dans lequelθ0etθ1ne peuvent prendre qu’une valeur chacun (Θ0 et Θ1 sont des singletons). Quelques ´el´ements suppl´ementaires sur la cas le plus g´en´eral seront donn´es dans le paragraphe consacr´e `a l’´etude des tests `a hypoth`ese composite.

(13)

−2.50 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 0.2

0.4 0.6 0.8 1 1.2 1.4

θ3 θ2 θ1

η23 η12

η13

Figure 4: Fdps et seuils de d´ecision optimaux au sens de Bayes pour le test d’hypoth`eses triple, non transitif (voir texte). σ2=.5, C12=C21=C23=C32=C31= 1,C13= 11

La strat´egie de NP consiste `a recherche le test le plus puissant compte tenu d’une contrainte de valeur maximum sur la probabilit´e de fausse alarme. Neyman et Pearson ont ´etabli que cette strat´egie conduit

`

a nouveau `a tester le rapport de vraisemblance :

Lemme Neymann Pearson Le test le plus puissant de niveau α∈[0,1] est le test al´eatoire suivant, portant sur le rapport de vraisemblance :

φ(x) =

1, p(x|θ1)> ηp(x|θ0) q, p(x|θ1) =ηp(x|θ0) 0, p(x|θ1)< ηp(x|θ0)

(18) Dans ce test, les param`etres η etq sont choisis de mani`ere `a satisfaire la contrainteEθ0[φ] =α

Remarque : l’´equation impliquant le param`etre q n’est n´ecessaire que lorsque la fdp Pθ0(L(x) > η) pr´esente des discontinuit´es, ou lorsquexest une variable `a valeurs discr`etes comme cela peut par exemple se produire dans les tests sur les processus poissonniens. Dans toutes les autres situations, q= 0.

Le probl`eme de maximisation sous contrainte exprim´ee sur le niveau puissanceαdu test peut ˆetre r´esolu par la m´ethode des multiplicateurs de Lagrange, en maximisant la fonction objectif L(φ) exprim´ee `a l’aide des ´equations (2,3) et en introduisant le multiplicateurη:

L(φ) = Eθ1[φ(x)] +η(α−Eθ0[φ(x)]) (19) La d´efinition du rapport de vraisemblanceL(x) (´equation (9)) permet de re-exprimer l’esp´erance condi- tionnelle Eθ1 :

Eθ1[φ(x)] = Eθ0[φ(x)L(x)]

soit

L(φ) = Eθ0[(φ(x)(L(x)−η)]−ηα

(14)

On voit alors que la fonction de d´ecision φ d´efinie par (18) maximises L(φ) : il suffit en effet d’avoir φ(x) = 0 pour toute valeur dexv´erifiantL(x)< η pour maximiserL(φ); ce qui ´etablit le lemme.

Remarque : Soient φ(x) et φ0(x) deux fonctions de d´ecision v´erifiant α0 < α, etη le seuil associ´e du test de vraisemblance associ´e `a la fonction de d´ecisionφ(x). Par construction :

p(x|θ1)> ηp(x|θ0) φ(x)−φ0(x)≤0 p(x|θ1)< ηp(x|θ0) φ(x)−φ0(x)≥0 d’o`u on d´eduit,

Z

X

(p(x|θ1)−ηp(x|θ0))(φ(x)−φ0(x))dx >0 soit

PD−PD0 > η(α−α0)>0

et finalement, puisqueη >0 (le seuil sur le rapport de vraisemblance est n´ecessairement positif) α > α0 ⇒PD > PD0

Si φ0 est une fonction de d´ecision permettant d’obtenir une probabilit´e de fausse alarme plus faible que celui obtenu parφ, alors sa puissance est moindre.

5 Tests de rapport de vraisemblance

(LRT pour la d´enomination anglaise Likelihood Ratio Tests)

Nous avons insist´e dans les paragraphes pr´ec´edents sur le fait que tous les tests ´etudi´es conduisaient `a comparer le rapport de vraisemblance `a un seuil. La d´etermination de ce dernier d´epend des a priori et de la possibilit´e de d´efinir des coˆuts associ´es `a chaque type de d´ecision dans le cadre Bayesien. Lorsque de telles connaissances a priori ne sont pas disponibles, l’approche de NP permet de construire un test optimal (maximum de puissance) tout en exer¸cant un contrˆole sur le niveau du test. L’objet de cette section est de fournir quelques ´el´ements sur la caract´erisation des performances de ces tests de rapport de vraisemblance.

5.1 Observations multiples : interpr´ etation du LRT

Soitx={x1, . . . , xN} ∈ X un ensemble de N observations ind´ependantes et identiquement distribu´ees (i.i.d.), de fonction de probabilit´e conjointep(x, θj) sous l’hypoth`eseHj. Les hypoth`eses imposentp(x) = QN

i=1p(xi),p(.) ´etant la fdp d’une seule observation. Le log-rapport de vraisemblance de cet ensemble d’observations pour le test d’hypoth`eseH1versusH0s’´ecrit en fonction des log-rapports de vraisemblance pour chacune des observations qui constituentX :

logp(x, θ1) p(x, θ0) = log

N

Y

i=1

p(xi, θ1) p(xi, θ0) =

N

X

i=1

log (xi, θ1) p(xi, θ0)

Consid´erons d’abord par soucis de simplification un espace de r´ealisationsX de nature discr`ete; on a donc plus des fonctions de densit´e de probabilit´e mais des lois de probabilit´es sous chacune des hypoth`eses.

(15)

Pour toute fonctiong(x) de la variable al´eatoirex,

N

X

i=1

g(xi) =N X

x∈X

Pxi(x)g(xi) (20)

o`uPxi(x) est la loi de probabilit´e empirique des observationsxobtenue `a partir deN observations : Pxi(x) =

N

X

i=1

δ(x−xi) N o`u

δ(x) = 1 six= 0 δ(x) = 0 six6= 0

Pxi apparaˆıt comme l’histogramme empirique normalis´e (parN) obtenu `a partir des observations. En substituant `a la fonctiong(x) le log-rapport de vraisemblance log(L(x)) dans l’´equation (20),

PN

i=1logp(xp(xii10)) =NP

x∈XPxi(x) logp(x,θp(x,θ10))

=NP

x∈XPxi(x) logp(x,θp(x,θ10)P)Pxi(x)

xi(x)

=NP

x∈XPxi(x) logp(x,θP 1)

xi(x) −NP

x∈XPxi(x) logp(x,θP 0)

xi(x)

=ND(Pxi(x)kp(x, θ0))−ND(Pxi(x)kp(x, θ1))

Le test de rapport de vraisemblance admet donc une formulation ´equivalente dans l’espace des lois de probabilit´e,

D(Pxi(x)kp(x, θ0))−D(Pxi(x)kp(x, θ1))H1

H0

1 N logη o`u

D(P kQ) =X

x∈X

P(x) logQ(x) P(x)

est la divergence informationnelle de Kullback-Leibler (KL)5. Le test formul´e dans ce nouvel espace conduit donc `a retenir l’hypoth`eseHi pour laquelle la loi conditionnelle sous Hi est la plus proche (au sens de la divergence de KL) de la loi empirique obtenue `a partir desN observations.

Dans le cas o`u X est un espace continu, les r´esultats pr´ec´edents sont g´en´eralis´es par l’introduction de mesures de r´esolution finies ∆xd´efinissant une partition deX et conduisant `a ne plus consid´erer que les probabilit´esPx=p(x)∆x. La nature continue deX conduit `a ´etudier les propri´et´es pr´ec´edentes lorsque la r´esolution tend vers l’infini, i.e. ∆x→ ∞. L’ensemble des r´esultats se g´en´eralisent sans difficult´e; les divergences informationnelles de KL s’expriment alors sous la forme d’une f-divergence de Csiz`ar.

5La divergence de KLD(P kQ) entre deux lois de probabilit´eP etQ(d´efinies sur le mˆeme espace de r´ealisations) est une quantit´e toujours positive ou nulle. D(P kQ) est minimale siP etQsont identiques. Cette distance se g´en´eralise sans difficult´es au cas de fdp, le minimum ´etant alors obtenu siP(x) =Q(x) presque partout (P diff`ere deQsur une ensemble de mesure nulle).

(16)

5.2 Courbes CORe

Les performances d’un test d’hypoth`ese ou d’un d´etecteur sont caract´eris´ees par les probabilit´es de d´etection PD et de fausse alarme PF A auxquels il conduit : un test performant est par cons´equent un test pour lequel la probabilit´e de d´etection PD est importante tout en garantissant un niveau moindre pour la probabilit´e de fausse alarmePF A. Ces deux quantit´es ne sont fonctions que du seuilηdu test de rapport de vraisemblance introduit dans les paragraphes pr´ec´edents, et ´eventuellement deq(cf eq. (18)).

La caract´eristique op´erationnelle de r´eception (CORe en abr´eg´e) est la courbe param´etrique exprimant PD(η, q) en fonction dePF A(η, q). Les courbes CORe pr´esentent quelques propri´et´es int´eressantes pour l’analyse des performances d’un test, que nous allons rapidement d´ecrire.

• Dans le cas limiteη→ ∞,PD= 0 andPF A= 0 (point A) alors que siη→ −∞,PD= 1 etPF A= 1 (point B).

• Le test consistant `a tirer `a pile ou face l’hypoth`ese `a retenir, ind´ependamment des observations (φ(x) =cste=q), conduit `a PF A =PD,∀η, et donc la courbe CORe est la diagonale d’´equation PF A=PD. Cette droite est appel´ee ligne de hasard.

• La courbe CORe d’un d´etecteur `a seuil doit toujours ˆetre au dessus de la ligne de hasard; dans le cas contraire, tirer `a pile ou face pour prendre la d´ecision donnerait de meilleurs r´esultats.

Remarque :Un test conduisant `a une probabilit´e de fausse alarme sup´erieure `a la probabilit´e de d´etection est dit biais´e.

• La courbe CORe obtenue pour tout test de rapport de vraisemblance est concave. SoientPF A1, PD1

et PF A2, PD2 2 points de la courbe CORe, associ´es aux fonctions de d´ecisionφ1 et φ2 respective- ment6. Consid´erons le test qui consiste `a utiliser al´eatoirement les fonctions de d´ecisionsφ1 ouφ2

avec les probabilit´es respectives pet (1−p) ; soitφ12 ce nouveau test. On calcule alors facilement PF A12=pPF A1+ (1−p)PF A2etPD12=pPD1+ (1−p)PD2. Pour toute valeur dep,p∈[0,1], La coure CORe associ´ee `a φ12 es le segment de droite qui connecte entre eux les pointsPF A1, PD1 et PF A2, PD2. Par cons´equent, il apparaˆıt que si la courbe CORe ´etait convexe, le test ”randomis´e”

aurait de meilleures performances.

• Quand la coure CORePD(PF A) est d´erivable , le test de rapport de vraisemblance le plus puissant (MP-LRT) pour une probabilit´e de fausse alarme donn´ee (test de Neyman-Pearson)PF A(η), PD(η) est obtenu pour la valeur suivante du seuilη dans le test

η= d dPF A

PD(PF A)

• Le test Minimax de Bayes est obtenu lorsque les coˆuts sous chacune des hypoth`eses sont ´egaux (cf paragraphe 3.3) ; dans le casC11=C00 = 0 et C10 =C01, cela conduit `a PF A=PD. Les valeurs de PF A, PD et η pour le test Minimax de Bayes sont donc d´etermin´ees par l’intersection de la

6Chaque point de la courbe CORe est associ´e `a une valeur diff´erente du test LRT, et par cons´equent `a des fonctions de ecisions diff´erentes par la valeur deηqui leur est associ´ee.

(17)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

False alarm probability

detection probability

ROC (m0=0)

chance line m1=1

m1=2 m1=3

Figure 5: CORe : Probabilit´e de d´etection (ou de choix d’hypoth`ese correct) en fonction de la probabilit´e de fausse alarme (choix deH1 quand l’hypoth`ese correcte est H0). Les courbes illustrent l’am´elioration des performances du d´etecteur lorsque les moyennes deH1 et H0 s’´ecartent l’une de l’autre.

courbe CORe avec la droite d’´equationPD= 1−PM = 1−PF A. C’est aussi le point dans le plan (PF A, PD) pour lequel le minimum d’erreur de d´ecision est atteint.

Exemples : Pour le probl`eme d´ecision introduit pr´ec´edemment (eq. (6)), PF A et PD peuvent ˆetre calcul´es ais´ement : on obtient 

PF A(η) = 12h

1−erf(ση2)i PD(η) = 12h

1−erf(η−mσ2)i o`u erf(x) = 2πRx

0 exp(t2)dt. La courbe CORe obtenue `a partir de ces ´equations est repr´esent´ee sur la figure (5.2). Il apparaˆıt clairement que plus la diff´erence entre les moyennes des fdp normales sousH0 et H1 respectivement sont diff´erentes, meilleure est la courbe CORe. Il apparaˆıt aussi dans les ´equations pr´ec´edentes qu’une augmentation deσ2 conduit `a une d´egradation des performances du r´ecepteur.

Des r´esultats identiques sont obtenus lorsque un ensemble deN observations ind´ependantes est pris en compte pour construire le test. Le logarithme du rapport de vraisemblance utilis´e comme statistique de test conduit `a comparer la moyenne empirique des observations (N1 PN

i=1xi) `a un seuil d´etermin´e. La moyenne empirique ´etant elle mˆeme une variable al´eatoire normale de moyenne m et de variance σN2, l’analyse pr´ec´edente garde toute sa validit´e, mais avec ces nouvelles valeurs de moyenne et variance. La diminution de variance (r´eduction d’un facteurN) conduit `a une meilleure courbe CORe.

Un second exemple simple : il s’agit de tester une augmentation de moyenne d’une variable al´eatoire poissonienne . L’objectif est donc de tester l’hypoth`ese H1 : “la moyenne est λ1” contre H0 : “la

(18)

moyenne est λ0. Sans restreindre la g´en´eralit´e du probl`eme, on supposera λ1 > λ0. Le rapport de vraisemblance s’obtient facilement et s’exprime

L(x) = λ1

λ0

x

exp(λ0−λ1)

Cette fois encore, en utilisant le logarithme du rapport de vraisemblance comme statistique de test, une expression tr`es simple peut est obtenue :

xH1

H0

η

Dans cet exemplexest un nombre entier. PF A et PD prennent les expression suivantes ( PF A(η) = 1−λ0Pη1

x=0 λx0

x!

PD(η) = 1−λ1Pη1 x=0

λx1 x!

La courbe CORe compl`ete peut ˆetre obtenue dans le cas pr´esent en rendant al´eatoire la fonction test, comme dans l’´equation (18). Le comportement et les performances de ce test sont repr´esent´es sur la figure 6. Sur la vignette de gauche sont repr´esent´ees les fdps des variables al´eatoires poissonniennes sous chacune des hypoth`eses “H0 : λ0 = 3” et “H1 : λ1 = 5” respectivement. Les CORes obtenues pour diff´erentes valeurs deλ1sont repr´esent´ees sur la vignette de droite. Comme attendu, les CORes obtenues sont meilleures (plus proches PF A = 0, PD = 1, quelles que soient les valeurs de seuil η consid´er´ees) lorsque la diff´erence entre moyennes des lois de Poisson augmente.

5.3 Evaluation de la possibilit´ e de d´ etection d’un signal

Dans ce paragraphe (comme dans la suite) on supposera que la statistique de d´etection (log-rapport de vraisemblance) est construite `a partir d’un ensemble de N observations xi ind´ependantes et par cons´equent s’exprime comme la somme des statistiques construites `a partir d’une observation unique.

Par exemple

G=

N

X

i=1

logL(xi)

o`uL(xi) est le rapport de vraisemblance form´e `a partir de la i−`eme observation. Les performances de d´etection d’un r´ecepteur donn´e sont parfaitement caract´eris´ees par la CORe. Ceci impose cependant d’´evaluer pour toute valeur possible du seuilη les quantit´es

PF A= Z

η

pG(g, θ0)dg and PD= Z

η

pG(g, θ1)dg (21)

Dans cette ´equation,pG,θi(g)dgrepr´esente la fdp conditionnelle de la statistique de testGsous l’hypoth`ese Hi. Il est le plus souvent tr`es difficile (quand ¸ca n’est pas impossible) de r´esoudre analytiquement cette int´egrale.

Une premi`ere approche consiste `a recourir `a des d´eveloppements limit´es de la statistique obtenue au- tour de la statistique gaussienne (d´eveloppements de Edgeworth ou de Gram-Charlier), d´eveloppements d’autant plus pr´ecis queN est grand. La qualit´e de ces d´eveloppements et leur convergence s’appuient sur le th´eor`eme central limite et une pr´ecision correcte des approximations qui en r´esultent ne peut donc

(19)

0 2 4 6 8 10 12 14 16 18 20 0

0.05 0.1 0.15 0.2 0.25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Chance line λ1=5

λ1=8

PFA

PD

ROC, λ 0=3

Figure 6: En haut : Fdps des variable poissonniennes de moyenne λ0 = 3 (H0) etλ1 = 5 (H1). Les valeurs des observations associ´ees `a de fausses alarmes ou `a des d´etections manqu´ees sont indiqu´ees par les zones hachur´ees de part et d’autre de la ligne de seuilη. En bas : CORe de ce probl`eme de d´etection, pour deux valeurs diff´erentes de la moyenne sousH1. Dans le cas pr´esent´e ici, la fonction de d´ecision a

´et´e “randomis´ee” (cf eq. (18)).

(20)

ˆetre attendue que si le seuilη est proche de le la valeur moyenne de la statistiqueG.

Une alternative est d’utiliser des m´ethodes d’int´egration num´erique, qui peuvent conduire `a de bonnes approximations de l’int´egrale (21); il n’est pas possible de donner une m´ethode de r´esolution g´en´erale dans ce cas, les calculs et d´eveloppements n´ecessaires ´etant tr`es largement d´ependants de la forme analytique prise par les fonctions d’esp´erance conditionnelle.

Les bornes de Chernoff, d´evelopp´ees au paragraphe suivant, permettent de pr´eciser des caract´eristiques limites pour la d´et´ectabilit´e. Si ces bornes sont d’un grand int´erˆet dans un contexte de th´eorie de l’information, elles ne peuvent que donner des valeurs sup´erieures pour les probabilit´esPF A etPD; en ce sens elles caract´erisent la limite inf´erieure de la zone du plan (PF A, PD) dans laquelle se trouve la CORe, et peuvent ˆetre interpr´et´ees comme une performance minimale assur´ee pour un d´etecteur donn´e.

Bornes de Chernoff, exposant de d´ecroissance de l’erreur de d´etection.

SoitGla statistique de test utilis´ee, etfG,i(g) les fdp de la statistique de test sous chacune des hypoth`eses Hi. Consid´erons l’expression suivante pour la probabilit´e de fausse alarme :

PF A(η) = Z

η

fG,0(g)dg= Z

−∞

U(g−η)fG,0(g)dg

dans laqelleU(.) est l’´echelon de Heaviside. Pours≥0,U(g−η)≤exp((g−η)s) et donc PF A

Z

−∞

exp((g−η)s)fG,0(g)dg= exp(−ηs)h0(s) (22) o`u h0(s) = EG,0[exp(gs)] est la fonction g´en´eratrice des moments (premi`ere fonction caract´eristique) de la fdp fG,0(g). La fonction exp(−ηs)h0(s) est une fonction convexe et ne poss`ede par cons´equent qu’un minimum `a l’int´erieur de la bande de convergence de h0(s) dans la plan complexe. Minimiser exp(−ηs)h(s) ´etant ´equivalent `a minimiser son logarithme,

η =h00(s)

h0(s) (23)

o`uh00(s) =dh0s(s). Sis0 est solution de l’´equation (23), on peut donc ´ecrire PF A≤exp(−ηs0)h(s0)

Cette borne est appel´ee borne de Chernoffpour la PF A. Il est souvent int´eressant d’en d´evelopper une expression ´equivalente : Soitµ0(s) = log(h0(s)); l’´equation (23) devient alorsη=dµ(s)ds0(s), d’o`u

PF A≤exp(µ(s)−sµ0(s))

Un raisonnement identique permet de mettre en ´evidence l’existence d’une borne sup´erieure pourPD, ou une borne inf´erieure pourPM dont l’expression est

(1−PD) =PM ≤exp(µ1(s)−ηs), s≤0 (24)

On s’int´eresse dans la suite au cas o`u la statistique de test est la log-vraisemblance des observations.

Alors

µ0(s) = log(h0(s)) = logR

exp(sg)fG,0(g)dg µ1(s) = log(h1(s)) = logR

−∞exp(sg)fG,1(g)dg

(21)

Or, on sait par ailleurs7 queg ´etant la log-vraisemblance des observations, fG,1(g) = exp(g)fG,0(g)

ce qui conduit `a

µ0(s) = log(h0(s)) = logR

−∞

f

G,1(g) fG,0(g)

s

fG,0(g)dg µ1(s) = log(h1(s)) = logR

−∞

f

G,1(g) fG,0(g)

s

fG,1(g)dg

= logR

−∞

f

G,1(g) fG,1(g)

s+1

fG,0(g)dg=µ0(s+ 1) En cons´equence, l’´equation (24) s’´ecrit

PM ≤exp(µ0(s) +η(1−s)), s≤1 (25)

Les in´egalit´es exprim´ees par les bornes de Chernoff surPF A et PM permettent de construire une borne sur la probabilit´e d’erreur de d´ecisionPE, pour 0≤s≤1 :

PE =p(H0)PF A+p(H1)PM

≤p(H0) exp(µ0(s)−ηs) +p(H1) exp(µ0(s) +η(1−s))

= [p(H0) +p(H1) exp(η)] (exp(µ0−ηs))

Si on s’int´eresse au probl`eme de d´etection conduisant au minimum d’erreur de d´ecision (voir paragraphe pr´ec´edents),η= logp(H

0) p(H1)

. Par substitution dans les ´equations pr´ec´edentes :

PE ≤2p(H0)

p(H0) p(H1)

s

exp(µ0) = 2p(H0)1sp(H1)sexp(µ0)

Dans le cas o`u l’observation est constitu´ee de N ´echantillons i.i.d. de fdp pθi, sous Hi, on obtient, 0≤s≤1,

µ0(s) =Nlog

Z p(x|θ1) p(x|θ0)

s

p(x, θ0)sdx=−N(1−s)Ds(pθ1||pθ0) (26) Dans cette ´equation Ds(pθ1||pθ0) n’est autre que la divergence informationnelle de R´enyi entre les fdp conditionnelles8. La probabilit´e d’erreur de d´ecision d´ecroˆıt donc exponentiellement avecN, l’exposant de d´ecroissance ´etant donn´e par la divergence de R´enyi d’ordresentre les statistiques d’entr´ees associ´ees

`a chacune des hypoth`eses.

Il est int´eressant de souligner ici que les quantit´es exp(µ0(s)) et exp(µ1(s)), ne sont rien d’autre que l’esp´erance de la fonction de vraisemblance du test `a la puissances, sous chacune des hypoth`eses respec- tivement.

6 Test d’hypoth` eses compos´ ees

Jusqu’`a pr´esent, chacune des hypoth`eses envisag´ees d´ependait de param`etres inconnus (θi ∈ Θi) ne prenant sous une hypoth`ese donn´ee, qu’une seule valeur. Ces tests ont ´et´e qualifi´es de test d’hypoth`eses

7´el´ements de d´emonstration en annexe

8Ds(p||q) est une quantit´e positive qui s’annule sip=q(pesquepartout.) ´egale `a l’entropy de R´enyi de la distributionp siqest la distribution uniforme.L’existence de cette divergence suppose queqdominep(siq= 0 alorsp= 0).

Références

Documents relatifs

Réaliser une analyse de l’arbre généalogique suivant pour déterminer quel risque pour III4 d’avoir un enfant malade. Les femmes sont symbolisées par des ronds, et les hommes par

L'objet posé sur le sol ne pourra en aucun cas libérer de l'énergie par le travail de son poids. Son énergie potentielle de pesanteur est nulle. Pour définir une énergie potentielle

Mise en valeur du travail de création : Ronsard au gré des poèmes associe le mythe de Méduse à un autre mythe, complète et dépasse le mythe en attribuant à

Le soumissionnaire remet, comme pièce constitutive de son offre, un document par lequel il marque son engagement à mettre en œuvre

L'induit d’un moteur est alimenté par une tension continue V = 275V, par l'intermédiaire d'un hacheur série, selon le schéma de principe connu. A l'aide d'un oscilloscope bi-courbe,

Les réactifs sont les ions Ag + et le cuivre métallique car les courbes correspondantes ont un coefficient directeur négatif.. Les produits sont le métal Ag et les ions Cu 2+ car

* Détermination de la graduation 100 : on plonge le réservoir du thermomètre dans de l’eau en ébullition sous la pression atmosphérique normale.. Le liquide dans le capillaire

L’événement « manger une salade verte et une pizza aux quatre fromages » a une probabilité de 1/6. L’événement «manger une salade verte, une pizza végétarienne et une