Cours d introduction à la théorie de la détection

(1)

Olivier J.J. MICHEL D´epartement EEA, UNSA v1.Mars 06 [email protected] Laboratoire LUAN UMR6525-CNRS

Cours d’introduction ` a la th´ eorie de la d´ etection

L’ensemble du document s’appuie très largement sur les notes de cours dispensés d’une part à l’Université du Michigan (Ann Arbor, département EECS) par A.O.Hero et d’autre part à l’Université de Nice-Sophia Antipolis (ED.SFA, 2004) par O.Michel.

1 Contexte, d´ efinitions

Le problème le plus simple relevant de la théorie de la décision est le problème qui consiste à devoir choisir entre plusieurs hypothèses (notéesHi) qui permettent chacune d’expliquer ou d’interpréter des données observées : il s’agit donc de décider à partir d’un ensemble d’observations collectées, quelle est l’hypothèse qui est vraie, ou qui semble vraie. Sous chacune des hypothèses, les données collectées sont supposées de nature aléatoire. Les observations ont une fonction de densité de probabilité (cas continu) ou une loi de probabilité (cas discret) qui dépend de l’hypothèseHi qui est réalisée. Chaque fonction de densité (fdp) ou chaque loi de probabilité est totalement (hypothèses simples) ou partiellement (hypothèses composées) connue sous chacune des hypothèses possiblesHi. A chaque hypothèse est donc associée une fdp ou une loi de probabilité sur l’espace de mesure.

Considérons un système de communication par exemple; l’émetteur envoie une suite de symboles représentés chacun par un signal de forme particulière (l’opération de modulation qui réalise la correspondance entre un symbole et une forme déterminée de signal). Le récepteur doit donc détecter si un symbole a été émis et sélectionner ce symbole parmi un alphabet de symboles possibles. La séquence de ces symboles con- stitue un message. Ce dernier se propage dans un canal de transmission (ligne électrique, fibre optique, atmosphère, ...) imparfait, et subit des modifications ou des altérations lors de sa propagation. Ces modifications sont le plus souvent dues à la nature dispersive et fluctuante du milieu dans lequel se propage le signal, à des atténuations, voire plus simplement à des effets d’interférences en présence de signaux parasites (d’autres émetteurs utilisent le même canal de transmission). Le signal capté par le récepteur est donc différent du signal émis et les fluctuations subies par ce dernier sont de nature aléatoire. Il se peut par ailleurs que l’appareil de réception lui même introduise un bruit parasite non négligeable. La tâche du détecteur est donc de retrouver le symbole émis à partir d’observations ”noyées” dans un bruit, ou de prendre toute autre décision sur la nature du signal observé, en faisant un minimum d’erreurs de décision par exemple. L’objectif de la théorie de la détection est d’étudier comment de telles erreurs peuvent être rendues aussi rares ou aussi peu coûteuses que que possible.

Notons que quel que soit le type de signal auquel on s’intéresse, de nature déterministe ou bien de nature aléatoire, la présence de bruit au niveau du récepteur ne peut être prise en compte que dans le cadre d’une approche probabiliste. Le signal à l’entrée du récepteur sera donc un processus stochastique ne pouvant être décrit qu’à l’aide de sa fonction de densité de probabilité. La forme de cette fdp résume l’ensemble des connaissances disponibles sur la nature physique des perturbations ou du signal lui-même.

Dans la presque totalité de ce chapitre nous nous intéresserons au problème de décision binaire, le récepteur ayant à choisir entre deux hypothèses notées H0 (le signal est de type T0) et H1 (le signal re¸cu est de typeT1) respectivement. Dans ce contexte, la notion d’hypothèse porte sur le type (T0 ou T1) du signal émis qui n’est observé qu’à travers un canal de transmission imparfait. Cette démarche se généralise aisément au problème de test d’hypothèses multiples, dans lequel les signaux peuvent être de plus de deux types différents, et auquel nous consacrerons un bref paragraphe.

2 Formulation g´ en´ erale du probl` eme de test d’hypoth` ese binaire

Considéronsx∈ Xune mesure ou une observation d’un signal etθ∈Θ un ensemble de paramètres de cette observation. Bien queθ soit indéterminé, l’ensemble Θ est connu et les formes des fonctions de densité de probabilité (p(x|θ)) de l’observation xen fonction des paramètresθ sont connues. Une expérience, notée (X, PΘ), est donc composée d’une réalisationx∈ X ayant pour fdppθ(x), θ∈Θ. L’observationx considérée peut être de nature quelconque, numérique ou symbolique, scalaire ou vectorielle.

(3)

Les hypothèses qui doivent être considérées dans la suite sont donc:

H0: θ∈Θ0 [x'p(x|θ) θ∈Θ0] H1: θ∈Θ1 [x'p(x|θ) θ∈Θ1]

expression dans laquelle {Θ0,Θ1} est une partition de l’ensemble Θ¹. L’égalitéx'p(x|θ) signifie que la variable aléatoire x a pour fdp, conditionnellement à θ, la fonction p(x|θ). Le choix opéré par le récepteur est donc exclusif et le récepteur choisit toujours l’un ou l’autre des hypothèses. L’hypothèse H0 est souvent appeléehypothèse nulleouhypothèse de bruit seul alors queH1 est qualifiée d’alternative ou d’hypothèse deprésence de signal, selon le contexte.

La synthèse d’un détecteur se résume donc à la définition d’une fonction de décision φ qui ne dépend que des observationsx∈ X, et qui définit une partition de l’espace des réalisationsX en deux régions de décisions :

X⁰={x:φ(x) = 0 : d´ecider H0}

X¹={x:φ(x) = 1 : décider H1} (1) Les erreurs faites par le récepteur (prise de mauvaises décisions) construit à l’aide de la fonction de décisionφpeuvent être de deux types

• Le détecteur choisit l’hypothèseH1alors que la fdp du signal émis est de type T0 : p(x|θ), θ∈Θ0

(hypothèseH0); cette erreur est qualifiée de Fausse Alarme (FA).PF A est parfois qualifiée aussi de niveau du test.

• Le détecteur choisit l’hypothèse H0 alors que le signal émis est de type T1 : cette erreur est une Non Détection (ND), ou détection Manquée (M)

Les probabilités de chacune de ces erreurs s’expriment à l’aide de la fonction de décision et des fdp des observationsx

PF A(θ) = R

X¹pθ(x)dx= Eθ[φ] θ∈Θ0 (2)

PM(θ) = R

X0pθ(x)dx= 1−R

X1pθ(x)dx= Eθ[1−φ] θ∈Θ1 (3) La probabilité de fausse alarme est ici une fonction deθ ∈Θ0. Si la fonction de densité de probabilité p(θ) est connue, on peut exprimer la probabilité de fausse alarme moyenne (par rapport àθ∈Θ0

PF A= Z

Θ0

PF A(θ)p(θ|θ∈Θ0)dθ= Z

Θ0

PF A(θ)p(θ|H0)dθ o`u

p(θ) =p(H0)p(θ|H0) et où la probabilité de réalisation de l’hypothèseH0est

p(H0) = Z

θ0

p(θ)dθ (4)

De mˆeme,

PM = Z

Θ1

PM(θ)p(θ|H1)dθ= Z

Θ1

Z

X0

pθ(x)p(θ|H1)dθdx

1{Θ0,Θ1}est une partition de l’ensemble Θ si Θ0S

Θ1= Θ et Θ0T Θ1=/

(4)

La probabilité d’erreur totale se déduit des expressions précédentes : PE= p(H0)PF A+p(H1)PM

= P

i∈(0,1)p(Hi)R

Θi

R

Xjpθ(x)p(θ|Hi)dθdx On introduit parfois d’autres probabilités caractéristiques du détecteur :

• La probabilité de détection , définie sousH1,

PD= 1−PM

Cette probabilit´e est aussi appel´eepuissance du test.

• La probabilit´e de d´ecision ou de classification correcte,PC

PC = 1−PE

= p(H0)(1−PF A) +p(H1)(1−PM)

= P

i=0,1p(Hi)R

Θi

R

Xipθ(x)p(θ|Hi)dθdx (5)

Remarques :

• La probabilité PC est une fonction de la densité de probabilité du paramètre θ sur lequel porte le test et de la forme des régions de décision Xⁱ. La valeur des probabilités{p(Hi), i= 0,1} est calculée à partir de la fdp deθ. La fdp marginale des observationsp_X(x) s’exprime

p_X(x) = X

i=0,1

P(Hi) Z

Θi

pθ(x)dθ

La fdp de θ, et par conséquent les probabilitésp(Hi) ne sont pas nécessairement connues a priori;

la forme des solutions qui seront propos´ees dans les paragraphes suivants d´epend en particulier du fait que l’on dispose ou non de cette connaissance.

• Le cas pour lequelθprend ses valeurs sur un ensemble discret se déduit directement des équations précédentes, en rempla¸cant les opérateurs d’intégration R

Θi(.)p(θ)dθpar les op´erateurs de somme discr`eteP

θ∈Θi(.)p(θ) où Θi est un ensemble discret et oùp(θ) est cette fois une loi de probabilité et non une fdp.

Exemple Soit x une variable al´eatoire gaussienne; sous les hypoth`eses H1 et H0 respectivement, x a pour fdp p(x|θ1) etp(x|θ0) :

( p(x|θ0) = ¹

σ√

2πexp(−^(x⁻2σ^θ²⁰⁾²) sous H0

p(x|θ1) =_σ^√¹_2πexp(−^(x⁻2σ^θ²¹⁾²) sous H1

(6) Ces fdp sont représentées sur la figure 1, dans le cas θ0 = 0, θ1 = 3, σ² = 2. Nous établirons que le problème de décision binaire (x est une variable aléatoire dont la fdp est associée à l’hypothèseH1 ou

à l’hypothèse H0) conduit simplement à comparer x à un seuil η. Alors X⁰ =]− ∞, η] et X¹ =]η,∞[;

PF A et PM correspondent aux surfaces hachurées à droite et à gauche de la droite d’équation x = η respectivement.

(5)

-6 -4 -2 0 2 4 6 8 -0.05

0 0.05 0.1 0.15 0.2 0.25 0.3

P0(x) P

1(x)

η

x

pdf(x)

Figure 1: Un exemple de test d’hypothèse binaire: x a une distribution gaussienne avec σ² = 2 sous chacune des hypothèses. SousH1, xa une moyenne connueθ= 3 alors que sousH0,xest une variable aléatoire centrée. Comparer une valeur observée dexau seuilη permet d’évaluer les probabilités de non détection ou de fausse alarme, représentées par les surfaces hachurées.

3 Approches bayesiennes, hypoth` eses simples

3.1 R` egle de Bayes et r` egle du max. a posteriori (MAP)

On suppose dans cette section que les fdp sur les paramètresθ sont connues; en conséquence, les prob- abilités de réalisation de chacune des hypothèses sont elles aussi déterminées (cf eq. 4). La probabilité a posteriori , i.e. après avoir observéx, que l’hypothèse Hi : (θ ∈ Θi) soit réalisée est obtenue par la formule de Bayes sur les probabilités conditionnelles

p(Hi|x) = P(Hi).p(x|Hi)

p_X(x) (7)

Ces probabilités sont calculées pour chacune des hypothèses. La règle de détection Bayesienne dite de Maximum a posteriori consiste alors à sélectionner l’hypothèse ayant la plus forte probabilité a posteriori,

étant données les observations dex, exploitant l’égalité (7). Cette méthode conduit au minimum d’erreur de classification (PE) et donc maximisePC = 1−PE : l’équation (5) peut en effet s’exprimer

PC = P

i∈(0,1)p(Hi)R

Xi

hR

Θipθ(x)p(θ|Hi)i dθ

= P

i∈(0,1)p(Hi)R

Xip(x|Hi)dx

Le choix des zones de décision Xⁱ au sens du MAP est tel que le terme sous l’intégrale est toujours maximal. En conséquencePC est maximal etPE minimal. Un tel récepteur est dit optimal au sens de Bayes.

Il a été déjà souligné que dans l’approche bayesienne, les probabilités de réalisation de chacune des hypothèses (ou les pdf a priori pourθ) sont supposées connues. Les informations fournies par l’expérience

(6)

consistent alors uniquement en la mesure ou l’observation de réalisations de x. Les régions de décision sont entièrement déterminées par l’évaluation des quantitésp(x|Hi) dans l’équation (7), et les probabilités a priori des hypothèses. L’approche du MAP peut alors être formulée de la manière suivante : si p(H1)p(x|H1) > p(H0)p(x|H0) alors choisir H1, sinon choisir H0. Dans une formulation équivalente utilisant le rapport de vraisemblance

L(x) = p(x|H1)

p(x|H0) (8)

on obtient

L(x) = p(x|H1) p(x|H0)

H1

≷

H0

p(H0)

p(H1) (9)

Remarque

• Le termep_X(x) n’agit que comme une constante de normalisation et disparaˆıt donc dans la formulation du test.

• Si p(H0) =p(H1) = ¹₂, le choix de l’hypoth`ese `a retenir se fait au sens du maximum de vraisemblance :

L(x)^H≷¹

H0

1

Exemple Le test de maximum a posteriori (MAP) pour le test d’hypothèse décrit par l’équation (6), conduit à

L(x) = p(x|H1)

p(x|H0) =e⁻^{(x−θ1 )}

2 2σ2

e⁻^{(x−θ1 )}

2 2σ2

H1

≷

H0

p(H0) p(H1) soit, en exprimant le crit`ere de d´ecision en fonction de l’observationx.

x^H≷¹

H0

η= θ1+θ0

2 + σ²

θ1−θ0

log(p(H0) p(H1))

3.2 Strat´ egie de Bayes, notion de coˆ ut

Nous avons établi dans le paragraphe précédent que le test d’hypothèse binaire conduit à comparer le rapport de vraisemblance à un seuil. Dans le cadre de l’approche MAP, ce seuil est fonction des lois de probabilités a priori sous chacune des hypothèses. Il y a cependant de nombreux cas pour lesquels les deux types d’erreurs n’impliquent pas les mêmes conséquences, ni surtout les mêmes coûts. Il est alors nécessaire de proposer une stratégie dont la finalité soit de minimiser le coût moyen des décisions qui seront prises par le détecteur. C’est exactement ce à quoi le stratégie bayesienne apporte une réponse.

Soitp( ˆHi|Hj) la probabilité qu’a le détecteur de choisir l’hypothèse ˆHiquand c’estHjqui est l’hypothèse correcte et Cij le coût associé à une telle décision . Le coût associé au choix de l’hypothèse ˆHi à partir de l’observationxvaut

C( ˆHi) =X

j

Cijp( ˆHi|Hj)p(Hj) =X

j

Cijp( ˆHj|x) Le coût moyen pour le détecteur est alors obtenu par la règle de Bayes

C= P

i

R

Xip_X(x)C( ˆHi)dx

= P

i

P

jp(Hj)Cij

R

Xi

R

Θjpθ(x)p(θ|Hj)dθdx (10)

(7)

Le coût moyen est donc minimal lorsque la région de décisionXⁱ ne contient que les observations pour lesquelles C( ˆHi) est minimal. Bien que les équations précédentes s’appliquent en toute généralité au problème de test d’hypothèses multiples, les éléments suivant ne sont exposés que dans le cas du test d’hypothèses binaire permettant de mettre en évidence l’importance du rôle joué par le rapport de vraisemblance (8). L’équation (10) prend alors la formulation suivante :

C=C00p(H0) +C11p(H1) + R

X1([C10−C00]p(H0)p(x|H0)−[C01−C11]p(H1)p(x|H1)dx

=p(H0) [(C10PF A+C00(1−PF A)] +p(H1) [C01(1−PD) +C11PD] (11) Les deux premiers termes de cette équation sont indépendants des observations et de la fonction de test retenue; l’intégrale est minimale si l’intégrande est toujours négatif, ce qui conduit à la règle de décision suivante : une observationxest associée à la région de décisionX¹si

[C10−C00]p(H0)p(x|H0)<[C01−C11]p(H1)p(x|H1) (12) Remarque : Le coût, c’est à dire la pénalité, associé à une détection correcte étant logiquement plus faible que le coût associé à une erreur de décision, les inégalités suivantes sont imposées :

C10≥C00 C01≥C11 (13)

Une formulation ´equivalente de (12) `a l’aide du rapport de vraisemblance est² L(x) =p(x|H1)

p(x|H0)

H1

≷

H0

[C10−C00]p(H0)

[C01−C11]p(H1) (14)

Ces approches sont optimales au sens où elles minimisent le coût moyen, mais s’appuient sur une connaissance a priori des lois de probabilités (ou des fdp) du paramètreθ, ou plus simplement dep(Hi)³ ; de plus, elles supposent qu’il est possible d’associer a priori un coût à chacune des décisions que peut prendre le détecteur. Dans le cas où aucun a priori n’est possible ou simplement disponible surθ, mais où définir les coûts de chaque décision est possible, l’approche minimax développée dans un paragraphe ultérieur est optimale. Notons seulement pour l’instant que le test revient à nouveau à comparer le rapport de vraisemblance à un seuil.

Remarque : SiC10=C01= 1 etC11=C00= 0, le coût moyen de Bayes se confond avec la probabilité d’erreur de décisionPE. On retrouve la règle de décision obtenue au paragraphe précédent(eq. (9).

Exemple Le calcul du détecteur de Bayes pour le test d’hypothèse décrit par l’équation (6) se déduit des résultats précédents et conduit à la fonction de décision suivante

x^H≷¹

H0

η= θ1+θ0

2 + σ²

θ1−θ0log

[C10−C00]p(H0) [C01−C11]p(H1)

(15) Le seuilηétant fixé, les probabilités de fausse alarme et de détection sont déterminées (eq. (11)). Le coût de bayes peut donc s’écrire comme fonction de η. Les courbes exprimant le coût C(η) en fonction deη sont représentées sur la figure (2), pour différentes valeurs des paramètresCij. Les minima correspondent aux valeurs optimale deη exprimées par l’équation (15).

2C’est ici que les inégalités exprimées par l’équation (13) sont importantes, car si elles ne changent pas la valeur du seuil auquel est comparé le rapport de vraisemblance, elles déterminent la décision à prendre.

3De fait, l’équation(14) montre que seule la connaissance des probabilitésp(Hⁱ) est nécessaire; la connaissance de la fdp deθconduit à la détermination desp(Hⁱ) par l’équation (4).

(8)

-40 -3 -2 -1 0 1 2 3 4 5 6 0.5

1 1.5

seuil η

Coût bayesien, C(η)

Figure 2: Coût bayesien associé au détecteurx^H≷¹

H0

η pour le test d’hypothèse décrit par l’équation (6), en fonction du seuilη. Les courbes en trait plein sont obtenues pourp(H1) =.5,C00=C11= 0,C10= 1, et C01= 1 et C01= 3 respectivement. Les courbes en pointillés reprennent les mêmes valeurs de Cij mais pourp(H1) =.2. Les seuils théoriques optimaux obtenus à partir de l’équation (15) sont indiqués par les lignes verticales.

L’inconvénient majeur de l’approche bayesienne reste la difficulté à définir des valeurs raisonnables de Cij, le plus souvent à partir de considérations subjectives. De plus, l’approche bayesienne ne permet pas de garantir une valeur maximale de la probabilité de fausse alarme et n’est optimale qu’au regard des divers a priori qui ont pu être formulés.

3.3 Le d´ etecteur MiniMax de Bayes

On considère cette fois les situations dans lesquelles les coûtsCij sont connus ou peuvent être déterminés, sans que les a priori sur les probabilités des hypothèses soient connus. L’approche minimax permet de palier l’indétermination dep(H0), en minimisant le coût moyen associé au test obtenu pour la valeur de p(H0) la plus défavorable.

Soit un seuil η quelconque, auquel est comparé le rapport de vraisemblanceL(x)⁴: l’ensemble des tests rencontrés permettent de déterminer η à partir de critères d’optimalité (erreur moyenne de décision minimale (MAP), risque minimal (Bayes),...) en fonction de p(H0). p(H0) étant inconnue, il peut tout au plus être envisagé de l’estimer, ce qui permet alors de fixer η, à partir de l’équation (14). La détermination de η détermine à son tour parfaitement les probabilités de non détection ou de fausse alarme, et donc aussi le coût moyen (risque) dans la stratégie de Bayes.

Le risqueCs’´ecrit en fonction dep=p(H0) etη (cf eq. 11)

C(η, p) =p[C10PF A(η) +C00(1−PF A(η))] + (1−p)[C01PM(η) +C11(1−PM(η))]

4Dans le paragraphe précédent,η représente le seuil appliqué aux observationsx, et non àL(x); ces deux seuils sont

´

evidemment réliés bijectivement, c’est pourquoi on a gardé les mêmes notations

(9)

Le risque calculé pour une valeur deηdonnée, est une fonction linéaire dep; cette fonction est tangente à la courbe ˆC(ηopt(p), p)) en fonction dep, oùηopt(p) est le seuil calculé pour minimiser le risque bayesien quand p est connu. La courbe ˆC(ηopt(p), p)) pour 0 ≤ p≤1 délimite dans le plan (C, p) une zone de performance non accessible, représentée sur la figure (3).

Sur la figure (3), il apparaˆıt que si la valeur choisie pourη est proche de la valeur optimale (qui suppose pconnue), le coût moyen obtenu reste proche du coût minimal; par contre, siη est très différent deηopt, le coût résultant peut être très largement supérieur au coût optimal accessible, du fait de la croissance linéaire du coût en fonction dep. Cette situation est susceptible de se produire dès que le choix (arbitraire sipest totalement inconnu) deηs’écarte de la valeurηopt(p). Cet effet peut être évité si la courbe ˆC(η, p) est de pente nulle en fonction dep, ce qui donne un coût moyen constant et indépendant dep. On cherche donc la solution vérifiant

∂C(η, p)

∂p = 0 ce qui conduit `a

[C10PF A(η) +C00(1−PF A(η))] = [C01PM(η) +C11(1−PM(η))] (16) et `a l’expression du coˆut moyen :

C^∗(η) = [C01PM(η) +C11(1−PM(η))] (17) La première de ces deux équations exprime une contrainte d’égalité entre les coûts de décisions sous chacune des hypothèses, la seconde donne l’expression du coût moyen, indépendant dep, obtenu quand cette contrainte est vérifiée. La valeur (notéeη^∗) du seuil η est alors déterminé de sorte à minimiser la valeur du coût moyenC^∗(η):

η^∗= ArgMin_ηC^∗(η)

Soit p0 la valeur de p pour laquelle cette valeur du coˆut moyen est la plus faible (l’optimale), le test minimax s’´ecrit alors en fonction dep0:

L(x)^H≷¹

H0

η^∗=ηopt(p0) = [C10−C00]p0

[C10−C11](1−p0) Remarques:

• Le test minimax est le test de Bayes de seuilη(p0), pour lequel la fonctionC(p, eta0) est une droite horizontale, tangente `a la courbeC(ηopt(p), p) fonction dep=p(H0).

• Si C00 = C11 = 0 et C10 =C01 = 1, le coût moyen est la probabilité d’erreur du détecteur et la condition d’égalité des coûts sous chacune des hypothèse s’écritPF A=PM.

3.4 Test ` a hypoth` eses multiples

Les hypothèses à tester sont dites multiples si le problème de décision s’écrit H0: θ∈Θ0 [x'p(x|θ), θ∈Θ0]

...

HM : θ∈ΘM [x'p(x|θ), θ∈ΘM]

(10)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7

C(η(p),p)

CMinimax C(η=3,p) C(η=0.2,p)

zone de performance non accessible

p=p(H₀)

risque=coût moyen, fonction de p

Figure 3: Coˆut moyen de Bayes en fonction de p=p(H0), pourC00 =C11 = 0 et C01 =C10 = 1. Les statistiques d’entr´ees, pour cet exemple, sont normales de varianceσ²=.5 et de moyenneθ1= 1 sousH1

etθ0= 0 sousH0. Les droites représentent les coûts obtenus pour une valeur fixée deη (respectivement 0.2,1, .3); la courbe en pointillé représente le coût minimal de Bayes (η=ηopt) est alors fixé en fonction dep. Cette courbe fixe la limite des performances (en terme de faible coût moyen) que peut atteindre le détecteur. Le test MiniMax est obtenu dans ce cas particulier pourp=p0= 1/2 etηopt=η(1/2) = 1.

(11)

pour M > 2; {Θ0, . . . ,ΘM} forme une partition de l’ensemble Θ. La fonction de d´ecision devient φ(x) = [φ1(x), . . . , φM(x)]^T et v´erifie

φ(x)∈ {0,1}∀x∈ X PM

i=1φi(x) = 1∀x∈ X

φd´efinit ainsi une partition de l’espace des observationsX enM sous-espacesXⁱ.

Les probabilités a priori de chacune des hypothèses Hi s’exprime comme précédemment, à partir de la fdp deθ supposée connue, notéep(θ)

p(Hi) = Z

Θi

p(θ)dθ,

M

X

i=1

p(Hi) = 1

Soit Cij(θ) le coût associé au choix de la décision ”Hi : θ ∈Θi” alors que c’est ”Hj :θ ∈ Θj” qui est vérifiée. La probabilité d’une telle décision est notéep( ˆHi|Hj). On introduit alors la matrice de coût

C(θ) =







C11(θ) . . . C1M(θ)

... ...

CM1(θ) . . . CM M(θ)







Le choix optimal au sens de la stratégie de Bayes conduit à déterminer la fonction de décision φ qui minimise le risque (coût moyen)

C=

M

X

i,j=1

Cijp( ˆHi|Hj)p(Hj)

Cette expression ne conduit pas à des formulations simples du test optimal dans le cas général. On s’intéresse plus particulièrement au cas suivant :

Cii = 0 i∈ {1, . . . , M} Cij = 1, i6=j, i, j∈ {1, . . . , M}

Le risque de Bayes est alors égal à la probabilité d’erreur de décision, et s’exprime C =PM

i6=j=1Cijp( ˆHi|Hj)p(Hj)

= 1−PM

i=1Ciip( ˆHi|Hi)p(Hi)

= 1−PM

i=1p(Hi)R

Xip(x|Hi)dx o`u p(x|Hi) =

R

Θipθ(x)dθ

p(Hi) est la probabilité de l’observation conditionnellement à l’hypothèse Hi. Il apparaˆıt queCest minimal si pour tout i∈ {1, . . . , M}, les régions de décisionsXi sont telles que

x∈ Xⁱ ⇔p(Hi)p(x|Hi)≥p(Hj)p(x|Hj) j6=i Le règle de décision peut donc se résumer ainsi :

Hˆi=ArgM axHj[p(Hj)p(x|Hj)] =ArgM axHj[p(Hj|x)]

(12)

où ˆHi signifiele détecteur retient l’hypothèse Hi. La seconde égalité est obtenue à partir de l’égalité de Bayes, en notant que la fdp globale des observations n’intervient que comme une constante de normalisation (cf paragraphe 3.1). On retrouve ainsi le test de maximum a posteriori (MAP).

RemarqueLes règles de décision ne sont en général pas transitives, ce qui interdit de traiter le problème en considérant les différentes hypothèses par paires. Il se peut en effet que à partir de l’observationx∈ X, les décisions soient les suivantes

H1vsH2 →Hˆ2

H2vsH3 →Hˆ3

H1vsH3 →Hˆ1

Tester Hi contre Hj amène à considérer le test optimal défini pour le problème de test d’hypothèses binaires (équation (14)). SoitLij = ^p(x_p(x_|^|^H_Hⁱ_j⁾₎ le rapport de vraisemblance dans le test d’hypothèse Hi vs Hj, et ηij le seuil optimal au sens de Bayes. Considérons un ensemble de 3 hypothèsesHi, Hj, et Hk. L’égalité

Lik(x) =Lij(x)Ljk(x)

et les règles de décisions pour les tests d’hypothèses binaires Lij(x) ^H≷ⁱ

Hj

ζij, permettent de mettre en

évidence une condition suffisante pour la transitivité des règles de décisions : ζik =ζijζjk⇔ (Cji−Cii)

(Cij−Cjj)

(Ckj−Cjj)

(Cjk−Ckk)= (Cki−Cii) (Cik−Ckk)

Cette contrainte exprimée sur la matrice des coûts bayesiens est vérifiée dans le cas étudié précédemment;

la considération des hypothèses deux par deux aurait, dans ces cas particuliers, donc conduit à la même règle de décision.

ExempleConsidérons trois hypothèses équiprobables (p(Hi) = ¹₃, i= 1,2,3), sous lesquelles les fdp des observations sont normales, de même variance σ² mais de moyennes respectivesθ1= 1, θ2= 0, θ3=−1 (voir figure (3.4). Les coûts de décisions sontC12=C21=C23 =C32 = 1. Les tests d’hypothèses (H1

vs H2) et (H2 vs H3)conduisent à comparer les observations aux seuils respectifs η12 = ¹₂ et η23 = ¹₂, d’après l’équation (15). Si le rapport des coûts ^C_C³¹₁₃ est tel queη13= ^σ₂²log

C31

C13

≤η23, il apparaˆıt que la transitivé du test d’hypothèses peut être violée pour toute observationx∈]η13, η23[.

4 L’approche de Neyman Pearson (NP)

Cette fois, aucune connaissance a priori sur la loi de probabilit´e ou sur la fdp de θ n’est suppos´ee.

L’approche bayesienne ne peut donc pas être développée. Neyman et Pearson ont proposé de calculer le détecteur deniveauPF A(θ) au moins égal à α, qui maximise lapuissancePD(θ) du test, i.e.

PD(θ)|θ∈Θ1maximal sous la contrainte max|θ∈Θ0PF A(θ)≤α

Important : Dans la suite nous ne considérons que le cas simple dans lequelθ0etθ1ne peuvent prendre qu’une valeur chacun (Θ0 et Θ1 sont des singletons). Quelques éléments supplémentaires sur la cas le plus général seront donnés dans le paragraphe consacré à l’étude des tests à hypothèse composite.

(13)

−2.50 −2 −1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 0.2

0.4 0.6 0.8 1 1.2 1.4

θ₃ θ₂ θ₁

η₂₃ η₁₂

η₁₃

Figure 4: Fdps et seuils de d´ecision optimaux au sens de Bayes pour le test d’hypoth`eses triple, non transitif (voir texte). σ²=.5, C12=C21=C23=C32=C31= 1,C13= 11

La stratégie de NP consiste à recherche le test le plus puissant compte tenu d’une contrainte de valeur maximum sur la probabilité de fausse alarme. Neyman et Pearson ont établi que cette stratégie conduit

`

a nouveau `a tester le rapport de vraisemblance :

Lemme Neymann Pearson Le test le plus puissant de niveau α∈[0,1] est le test al´eatoire suivant, portant sur le rapport de vraisemblance :

φ(x) =







1, p(x|θ1)> ηp(x|θ0) q, p(x|θ1) =ηp(x|θ0) 0, p(x|θ1)< ηp(x|θ0)

(18) Dans ce test, les paramètres η etq sont choisis de manière à satisfaire la contrainteEθ0[φ] =α

Remarque : l’équation impliquant le paramètre q n’est nécessaire que lorsque la fdp Pθ0(L(x) > η) présente des discontinuités, ou lorsquexest une variable à valeurs discrètes comme cela peut par exemple se produire dans les tests sur les processus poissonniens. Dans toutes les autres situations, q= 0.

Le problème de maximisation sous contrainte exprimée sur le niveau puissanceαdu test peut être résolu par la méthode des multiplicateurs de Lagrange, en maximisant la fonction objectif L(φ) exprimée à l’aide des équations (2,3) et en introduisant le multiplicateurη:

L(φ) = Eθ1[φ(x)] +η(α−Eθ0[φ(x)]) (19) La définition du rapport de vraisemblanceL(x) (équation (9)) permet de re-exprimer l’espérance conditionnelle Eθ1 :

Eθ1[φ(x)] = Eθ0[φ(x)L(x)]

soit

L(φ) = Eθ0[(φ(x)(L(x)−η)]−ηα

(14)

On voit alors que la fonction de décision φ définie par (18) maximises L(φ) : il suffit en effet d’avoir φ(x) = 0 pour toute valeur dexvérifiantL(x)< η pour maximiserL(φ); ce qui établit le lemme.

Remarque : Soient φ(x) et φ⁰(x) deux fonctions de décision vérifiant α⁰ < α, etη le seuil associé du test de vraisemblance associé à la fonction de décisionφ(x). Par construction :

p(x|θ1)> ηp(x|θ0) φ(x)−φ⁰(x)≤0 p(x|θ1)< ηp(x|θ0) φ(x)−φ⁰(x)≥0 d’o`u on d´eduit,

Z

X

(p(x|θ1)−ηp(x|θ0))(φ(x)−φ⁰(x))dx >0 soit

PD−PD0 > η(α−α⁰)>0

et finalement, puisqueη >0 (le seuil sur le rapport de vraisemblance est n´ecessairement positif) α > α⁰ ⇒PD > PD0

Si φ⁰ est une fonction de d´ecision permettant d’obtenir une probabilit´e de fausse alarme plus faible que celui obtenu parφ, alors sa puissance est moindre.

5 Tests de rapport de vraisemblance

(LRT pour la d´enomination anglaise Likelihood Ratio Tests)

Nous avons insisté dans les paragraphes précédents sur le fait que tous les tests étudiés conduisaient à comparer le rapport de vraisemblance à un seuil. La détermination de ce dernier dépend des a priori et de la possibilité de définir des coûts associés à chaque type de décision dans le cadre Bayesien. Lorsque de telles connaissances a priori ne sont pas disponibles, l’approche de NP permet de construire un test optimal (maximum de puissance) tout en exer¸cant un contrôle sur le niveau du test. L’objet de cette section est de fournir quelques éléments sur la caractérisation des performances de ces tests de rapport de vraisemblance.

5.1 Observations multiples : interpr´ etation du LRT

Soitx={x1, . . . , xN} ∈ X un ensemble de N observations indépendantes et identiquement distribuées (i.i.d.), de fonction de probabilité conjointep(x, θj) sous l’hypothèseHj. Les hypothèses imposentp(x) = QN

i=1p(xi),p(.) étant la fdp d’une seule observation. Le log-rapport de vraisemblance de cet ensemble d’observations pour le test d’hypothèseH1versusH0s’écrit en fonction des log-rapports de vraisemblance pour chacune des observations qui constituentX :

logp(x, θ1) p(x, θ0) = log

N

Y

i=1

p(xi, θ1) p(xi, θ0) =

N

X

i=1

log (xi, θ1) p(xi, θ0)

Considérons d’abord par soucis de simplification un espace de réalisationsX de nature discrète; on a donc plus des fonctions de densité de probabilité mais des lois de probabilités sous chacune des hypothèses.

(15)

Pour toute fonctiong(x) de la variable al´eatoirex,

N

X

i=1

g(xi) =N X

x∈X

Pxi(x)g(xi) (20)

oùPxi(x) est la loi de probabilité empirique des observationsxobtenue à partir deN observations : Pxi(x) =

N

X

i=1

δ(x−xi) N o`u

δ(x) = 1 six= 0 δ(x) = 0 six6= 0

Pxi apparaˆıt comme l’histogramme empirique normalisé (parN) obtenu à partir des observations. En substituant à la fonctiong(x) le log-rapport de vraisemblance log(L(x)) dans l’équation (20),

PN

i=1log^p(x_p(xⁱ_i^,θ_,θ¹₀⁾₎ =NP

x∈XPxi(x) log^p(x,θ_p(x,θ¹₀⁾₎

=NP

x∈XPxi(x) log^p(x,θ_p(x,θ¹₀^)P_)P^xi^(x)

xi(x)

=NP

x∈XPxi(x) log^p(x,θ_P ¹⁾

xi(x) −NP

x∈XPxi(x) log^p(x,θ_P ⁰⁾

xi(x)

=ND(Pxi(x)kp(x, θ0))−ND(Pxi(x)kp(x, θ1))

Le test de rapport de vraisemblance admet donc une formulation ´equivalente dans l’espace des lois de probabilit´e,

D(Pxi(x)kp(x, θ0))−D(Pxi(x)kp(x, θ1))^H≷¹

H0

1 N logη o`u

D(P kQ) =X

x∈X

P(x) logQ(x) P(x)

est la divergence informationnelle de Kullback-Leibler (KL)⁵. Le test formulé dans ce nouvel espace conduit donc à retenir l’hypothèseHi pour laquelle la loi conditionnelle sous Hi est la plus proche (au sens de la divergence de KL) de la loi empirique obtenue à partir desN observations.

Dans le cas où X est un espace continu, les résultats précédents sont généralisés par l’introduction de mesures de résolution finies ∆xdéfinissant une partition deX et conduisant à ne plus considérer que les probabilitésPx=p(x)∆x. La nature continue deX conduit à étudier les propriétés précédentes lorsque la résolution tend vers l’infini, i.e. ∆x→ ∞. L’ensemble des résultats se généralisent sans difficulté; les divergences informationnelles de KL s’expriment alors sous la forme d’une f-divergence de Csizàr.

5La divergence de KLD(P kQ) entre deux lois de probabilitéP etQ(définies sur le même espace de réalisations) est une quantité toujours positive ou nulle. D(P kQ) est minimale siP etQsont identiques. Cette distance se généralise sans difficultés au cas de fdp, le minimum étant alors obtenu siP(x) =Q(x) presque partout (P diffère deQsur une ensemble de mesure nulle).

(16)

5.2 Courbes CORe

Les performances d’un test d’hypothèse ou d’un détecteur sont caractérisées par les probabilités de détection PD et de fausse alarme PF A auxquels il conduit : un test performant est par conséquent un test pour lequel la probabilité de détection PD est importante tout en garantissant un niveau moindre pour la probabilité de fausse alarmePF A. Ces deux quantités ne sont fonctions que du seuilηdu test de rapport de vraisemblance introduit dans les paragraphes précédents, et éventuellement deq(cf eq. (18)).

La caractéristique opérationnelle de réception (CORe en abrégé) est la courbe paramétrique exprimant PD(η, q) en fonction dePF A(η, q). Les courbes CORe présentent quelques propriétés intéressantes pour l’analyse des performances d’un test, que nous allons rapidement décrire.

• Dans le cas limiteη→ ∞,PD= 0 andPF A= 0 (point A) alors que siη→ −∞,PD= 1 etPF A= 1 (point B).

• Le test consistant à tirer à pile ou face l’hypothèse à retenir, indépendamment des observations (φ(x) =cste=q), conduit à PF A =PD,∀η, et donc la courbe CORe est la diagonale d’équation PF A=PD. Cette droite est appelée ligne de hasard.

• La courbe CORe d’un détecteur à seuil doit toujours être au dessus de la ligne de hasard; dans le cas contraire, tirer à pile ou face pour prendre la décision donnerait de meilleurs résultats.

Remarque :Un test conduisant à une probabilité de fausse alarme supérieure à la probabilité de détection est dit biaisé.

• La courbe CORe obtenue pour tout test de rapport de vraisemblance est concave. SoientPF A1, PD1

et PF A2, PD2 2 points de la courbe CORe, associés aux fonctions de décisionφ1 et φ2 respectivement⁶. Considérons le test qui consiste à utiliser aléatoirement les fonctions de décisionsφ1 ouφ2

avec les probabilités respectives pet (1−p) ; soitφ12 ce nouveau test. On calcule alors facilement PF A12=pPF A1+ (1−p)PF A2etPD12=pPD1+ (1−p)PD2. Pour toute valeur dep,p∈[0,1], La coure CORe associée à φ12 es le segment de droite qui connecte entre eux les pointsPF A1, PD1 et PF A2, PD2. Par conséquent, il apparaˆıt que si la courbe CORe était convexe, le test ”randomisé”

aurait de meilleures performances.

• Quand la coure CORePD(PF A) est dérivable , le test de rapport de vraisemblance le plus puissant (MP-LRT) pour une probabilité de fausse alarme donnée (test de Neyman-Pearson)PF A(η), PD(η) est obtenu pour la valeur suivante du seuilη dans le test

η= d dPF A

PD(PF A)

• Le test Minimax de Bayes est obtenu lorsque les coûts sous chacune des hypothèses sont égaux (cf paragraphe 3.3) ; dans le casC11=C00 = 0 et C10 =C01, cela conduit à PF A=PD. Les valeurs de PF A, PD et η pour le test Minimax de Bayes sont donc déterminées par l’intersection de la

6Chaque point de la courbe CORe est associé à une valeur différente du test LRT, et par conséquent à des fonctions de décisions différentes par la valeur deηqui leur est associée.

(17)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

False alarm probability

detection probability

ROC (m0=0)

chance line m1=1

m1=2 m1=3

Figure 5: CORe : Probabilité de détection (ou de choix d’hypothèse correct) en fonction de la probabilité de fausse alarme (choix deH1 quand l’hypothèse correcte est H0). Les courbes illustrent l’amélioration des performances du détecteur lorsque les moyennes deH1 et H0 s’écartent l’une de l’autre.

courbe CORe avec la droite d’´equationPD= 1−PM = 1−PF A. C’est aussi le point dans le plan (PF A, PD) pour lequel le minimum d’erreur de d´ecision est atteint.

Exemples : Pour le problème décision introduit précédemment (eq. (6)), PF A et PD peuvent être calculés aisément : on obtient 





PF A(η) = ¹₂h

1−erf(_σ^√^η₂)i PD(η) = ¹₂h

1−erf(^η−m_σ^√₂)i o`u erf(x) = ^√²_πRx

0 exp(t²)dt. La courbe CORe obtenue à partir de ces équations est représentée sur la figure (5.2). Il apparaˆıt clairement que plus la différence entre les moyennes des fdp normales sousH0 et H1 respectivement sont différentes, meilleure est la courbe CORe. Il apparaˆıt aussi dans les équations précédentes qu’une augmentation deσ² conduit à une dégradation des performances du récepteur.

Des résultats identiques sont obtenus lorsque un ensemble deN observations indépendantes est pris en compte pour construire le test. Le logarithme du rapport de vraisemblance utilisé comme statistique de test conduit à comparer la moyenne empirique des observations (_N¹ PN

i=1xi) à un seuil déterminé. La moyenne empirique étant elle même une variable aléatoire normale de moyenne m et de variance ^σ_N², l’analyse précédente garde toute sa validité, mais avec ces nouvelles valeurs de moyenne et variance. La diminution de variance (réduction d’un facteurN) conduit à une meilleure courbe CORe.

Un second exemple simple : il s’agit de tester une augmentation de moyenne d’une variable al´eatoire poissonienne . L’objectif est donc de tester l’hypoth`ese H1 : “la moyenne est λ1” contre H0 : “la

(18)

moyenne est λ0. Sans restreindre la généralité du problème, on supposera λ1 > λ0. Le rapport de vraisemblance s’obtient facilement et s’exprime

L(x) = λ1

λ0

x

exp(λ0−λ1)

Cette fois encore, en utilisant le logarithme du rapport de vraisemblance comme statistique de test, une expression tr`es simple peut est obtenue :

x^H≷¹

H0

η

Dans cet exemplexest un nombre entier. PF A et PD prennent les expression suivantes ( PF A(η) = 1−λ0Pη−1

x=0 λ^x₀

x!

PD(η) = 1−λ1Pη−1 x=0

λ^x₁ x!

La courbe CORe complète peut être obtenue dans le cas présent en rendant aléatoire la fonction test, comme dans l’équation (18). Le comportement et les performances de ce test sont représentés sur la figure 6. Sur la vignette de gauche sont représentées les fdps des variables aléatoires poissonniennes sous chacune des hypothèses “H0 : λ0 = 3” et “H1 : λ1 = 5” respectivement. Les CORes obtenues pour différentes valeurs deλ1sont représentées sur la vignette de droite. Comme attendu, les CORes obtenues sont meilleures (plus proches PF A = 0, PD = 1, quelles que soient les valeurs de seuil η considérées) lorsque la différence entre moyennes des lois de Poisson augmente.

5.3 Evaluation de la possibilit´ e de d´ etection d’un signal

Dans ce paragraphe (comme dans la suite) on supposera que la statistique de détection (log-rapport de vraisemblance) est construite à partir d’un ensemble de N observations xi indépendantes et par conséquent s’exprime comme la somme des statistiques construites à partir d’une observation unique.

Par exemple

G=

N

X

i=1

logL(xi)

oùL(xi) est le rapport de vraisemblance formé à partir de la i−ème observation. Les performances de détection d’un récepteur donné sont parfaitement caractérisées par la CORe. Ceci impose cependant d’évaluer pour toute valeur possible du seuilη les quantités

PF A= Z ∞

η

pG(g, θ0)dg and PD= Z ∞

η

pG(g, θ1)dg (21)

Dans cette équation,pG,θi(g)dgreprésente la fdp conditionnelle de la statistique de testGsous l’hypothèse Hi. Il est le plus souvent très difficile (quand ¸ca n’est pas impossible) de résoudre analytiquement cette intégrale.

Une première approche consiste à recourir à des développements limités de la statistique obtenue au- tour de la statistique gaussienne (développements de Edgeworth ou de Gram-Charlier), développements d’autant plus précis queN est grand. La qualité de ces développements et leur convergence s’appuient sur le théorème central limite et une précision correcte des approximations qui en résultent ne peut donc

(19)

0 2 4 6 8 10 12 14 16 18 20 0

0.05 0.1 0.15 0.2 0.25

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

Chance line λ₁=5

λ₁=8

PFA

PD

ROC, λ 0=3

Figure 6: En haut : Fdps des variable poissonniennes de moyenne λ0 = 3 (H0) etλ1 = 5 (H1). Les valeurs des observations associées à de fausses alarmes ou à des détections manquées sont indiquées par les zones hachurées de part et d’autre de la ligne de seuilη. En bas : CORe de ce problème de détection, pour deux valeurs différentes de la moyenne sousH1. Dans le cas présenté ici, la fonction de décision a

été “randomisée” (cf eq. (18)).

(20)

ˆetre attendue que si le seuilη est proche de le la valeur moyenne de la statistiqueG.

Une alternative est d’utiliser des méthodes d’intégration numérique, qui peuvent conduire à de bonnes approximations de l’intégrale (21); il n’est pas possible de donner une méthode de résolution générale dans ce cas, les calculs et développements nécessaires étant très largement dépendants de la forme analytique prise par les fonctions d’espérance conditionnelle.

Les bornes de Chernoff, développées au paragraphe suivant, permettent de préciser des caractéristiques limites pour la détéctabilité. Si ces bornes sont d’un grand intérêt dans un contexte de théorie de l’information, elles ne peuvent que donner des valeurs supérieures pour les probabilitésPF A etPD; en ce sens elles caractérisent la limite inférieure de la zone du plan (PF A, PD) dans laquelle se trouve la CORe, et peuvent être interprétées comme une performance minimale assurée pour un détecteur donné.

Bornes de Chernoff, exposant de d´ecroissance de l’erreur de d´etection.

SoitGla statistique de test utilisée, etfG,i(g) les fdp de la statistique de test sous chacune des hypothèses Hi. Considérons l’expression suivante pour la probabilité de fausse alarme :

PF A(η) = Z _∞

η

fG,0(g)dg= Z _∞

−∞

U(g−η)fG,0(g)dg

dans laqelleU(.) est l’´echelon de Heaviside. Pours≥0,U(g−η)≤exp((g−η)s) et donc PF A ≤

Z ∞

−∞

exp((g−η)s)fG,0(g)dg= exp(−ηs)h0(s) (22) où h0(s) = EG,0[exp(gs)] est la fonction génératrice des moments (première fonction caractéristique) de la fdp fG,0(g). La fonction exp(−ηs)h0(s) est une fonction convexe et ne possède par conséquent qu’un minimum à l’intérieur de la bande de convergence de h0(s) dans la plan complexe. Minimiser exp(−ηs)h(s) étant équivalent à minimiser son logarithme,

η =h⁰₀(s)

h0(s) (23)

oùh⁰₀(s) =^dh⁰_s^(s). Sis0 est solution de l’équation (23), on peut donc écrire PF A≤exp(−ηs0)h(s0)

Cette borne est appelée borne de Chernoffpour la PF A. Il est souvent intéressant d’en développer une expression équivalente : Soitµ0(s) = log(h0(s)); l’équation (23) devient alorsη=^dµ(s)_ds =µ⁰(s), d’où

PF A≤exp(µ(s)−sµ⁰(s))

Un raisonnement identique permet de mettre en évidence l’existence d’une borne supérieure pourPD, ou une borne inférieure pourPM dont l’expression est

(1−PD) =PM ≤exp(µ1(s)−ηs), s≤0 (24)

On s’int´eresse dans la suite au cas o`u la statistique de test est la log-vraisemblance des observations.

Alors

µ0(s) = log(h0(s)) = logR

exp(sg)fG,0(g)dg µ1(s) = log(h1(s)) = logR_∞

−∞exp(sg)fG,1(g)dg

(21)

Or, on sait par ailleurs⁷ queg ´etant la log-vraisemblance des observations, fG,1(g) = exp(g)fG,0(g)

ce qui conduit `a

µ0(s) = log(h0(s)) = logR∞

−∞

_f

G,1(g) fG,0(g)

s

fG,0(g)dg µ1(s) = log(h1(s)) = logR∞

−∞

_f

G,1(g) fG,0(g)

s

fG,1(g)dg

= logR∞

−∞

_f

G,1(g) fG,1(g)

s+1

fG,0(g)dg=µ0(s+ 1) En conséquence, l’équation (24) s’écrit

PM ≤exp(µ0(s) +η(1−s)), s≤1 (25)

Les inégalités exprimées par les bornes de Chernoff surPF A et PM permettent de construire une borne sur la probabilité d’erreur de décisionPE, pour 0≤s≤1 :

PE =p(H0)PF A+p(H1)PM

≤p(H0) exp(µ0(s)−ηs) +p(H1) exp(µ0(s) +η(1−s))

= [p(H0) +p(H1) exp(η)] (exp(µ0−ηs))

Si on s’intéresse au problème de détection conduisant au minimum d’erreur de décision (voir paragraphe précédents),η= log_p(H

0) p(H1)

. Par substitution dans les équations précédentes :

PE ≤2p(H0)

p(H0) p(H1)

−s

exp(µ0) = 2p(H0)¹⁻^sp(H1)^sexp(µ0)

Dans le cas où l’observation est constituée de N échantillons i.i.d. de fdp pθi, sous Hi, on obtient, 0≤s≤1,

µ0(s) =Nlog

Z p(x|θ1) p(x|θ0)

s

p(x, θ0)^sdx=−N(1−s)Ds(pθ1||pθ0) (26) Dans cette équation Ds(pθ1||pθ0) n’est autre que la divergence informationnelle de Rényi entre les fdp conditionnelles⁸. La probabilité d’erreur de décision décroˆıt donc exponentiellement avecN, l’exposant de décroissance étant donné par la divergence de Rényi d’ordresentre les statistiques d’entrées associées

`a chacune des hypoth`eses.

Il est intéressant de souligner ici que les quantités exp(µ0(s)) et exp(µ1(s)), ne sont rien d’autre que l’espérance de la fonction de vraisemblance du test à la puissances, sous chacune des hypothèses respectivement.

6 Test d’hypoth` eses compos´ ees

Jusqu’à présent, chacune des hypothèses envisagées dépendait de paramètres inconnus (θi ∈ Θi) ne prenant sous une hypothèse donnée, qu’une seule valeur. Ces tests ont été qualifiés de test d’hypothèses

7éléments de démonstration en annexe

8D^s(p||q) est une quantité positive qui s’annule sip=q(pesquepartout.) égale à l’entropy de Rényi de la distributionp siqest la distribution uniforme.L’existence de cette divergence suppose queqdominep(siq= 0 alorsp= 0).

Cours d introduction à la théorie de la détection

Cours d’introduction ` a la th´ eorie de la d´ etection

Contents

1 Contexte, d´ efinitions

2 Formulation g´ en´ erale du probl` eme de test d’hypoth` ese binaire

3 Approches bayesiennes, hypoth` eses simples

3.1 R` egle de Bayes et r` egle du max. a posteriori (MAP)

3.2 Strat´ egie de Bayes, notion de coˆ ut

3.3 Le d´ etecteur MiniMax de Bayes

3.4 Test ` a hypoth` eses multiples

4 L’approche de Neyman Pearson (NP)

5 Tests de rapport de vraisemblance

5.1 Observations multiples : interpr´ etation du LRT

5.2 Courbes CORe

5.3 Evaluation de la possibilit´ e de d´ etection d’un signal

6 Test d’hypoth` eses compos´ ees