1 si Λrvg(Z) <τ 0 sinon ,
où le seuil de décision τ est fixé de façon à ce que δrvg ∈ Kα0, i. e. est la solution de l’équation supθ0∈Θ0P[δrvg(Z) ≥τ] =α0
L’idée est alors, en quelque sorte, de choisir pour une observation Z le paramètre le plus vraisemblable sous chacune des deux hypothèses. Les tests du rapport de vraisemblance généralisé consistent ensuite à tester ces deux hypothèses de façon
ana-logue à ce que nous avons vu pour le cas d’hypothèses simple (voir le lemmeA.1de
Neyman-Pearson). Il est en revanche notable que le test du RVG n’est pas nécessaire-ment optimal en un quelconque sens, il garantit par contre le respect d’une contrainte sur la probabilité de fausse-alarme, le risque α0(δrvg)étant majoré par la constante α0˙ L’application de cette méthodologie peut tout à fait être étendue aux cas de test entre multiples hypothèses composites. La seule précaution à prendre est d’assurer
Définition A.14 (Test du rapport de vraisemblance généralisé (RVG) entre plusieurs hypothèses composites). De manière analogue, soit données K hypothèses compositesH0, . . . ,HK, le test du rapport de vraisemblance généralisé est défini par la règle de décision suivante :
ψrvg0 (Z) = 1 si ∀k∈ {0, . . . , K}, supθ∈Θkfθk(Z) supθ∈Θ0fθ0(Z) <τ 0 sinon , ψrvgk (Z) = 1 si supθ∈Θkfθk(Z)
supθ∈Θ0fθ0(Z) ≥τ et ∀j6=k , supθ∈Θk fθk(Z) >supθ∈Θj fθj(Z)
0 sinon
,
a.4 Difficultés soulevées par la présence de paramètres de
nuisance
Dans le cadre des travaux présentés dans ce mémoire, le lecteur averti constatera que l’une des principales difficultés pour l’application de décision statistique à la sté-ganalyse est liée à la définition de la famille de distribution paramétrée. L’une des difficultés est notamment liée à la présence de paramètres de nuisance. Plus précisé-ment, les observations Z sont alors la réalisation d’une variable aléatoire Z distribuée
suivant la loi Pθ,ηoù, comme précédemment, θ∈Θ⊂Rpsont des paramètres
informa-tifs (ou paramètres d’intérêts) et η∈ Υ ⊂ Rm sont des des paramètres “de nuisance”. La
En toute généralité, le domaine de définition du paramètre de nui-sance peut varier selon l’hypo-thèse :ηk∈Υkavec∃j6=k|Υk∩ Υk 6= ∅ mais le problème cou-ramment envisagé est que∀k = {1, . . . , K},Υk=Υ.
prise en compte de ces paramètres est fondamental puisqu’ils interviennent dans la définition de la famille de distribution paramétriqueP = {Pθ,η; θ∈ Θ , η∈ Υ}mais
ne présentent pas d’intérêt pour proposer une estimation bθde θ ou pour décider en
faveur d’une des hypothèsesHk= {θ∈Θk, η∈Υ}.
Il est par ailleurs notable que la distinction entre paramètres de nuisance et informa-tifs dépend de l’application envisagée, des paramètres de nuisance peuvent être jugés informatifs pour un autre problème de décision statistique et inversement. À titre d’exemple dans ce manuscrit le but est de détecter la présence d’information cachées dans un signal. Le contenu du signal en lui-même n’est pas un paramètre informatif, puisqu’il ne renseignera pas sur la présence d’éventuelles informations cachées, mais doit être scrupuleusement pris en compte dans la définition de la distribution des échantillons. On pourrait à l’inverse imaginer utiliser le contenu de ce signal, qui in-terviendrait alors comme paramètre informatif, pour contrôler le bon fonctionnement de l’appareil d’enregistrement.
si leur dimension est importante : il peut exister des inférences entre paramètres de nuisance et informatifs. Pour solutionner rigoureusement un tel problème plusieurs approches peuvent être envisagées.
Détection statistique en présence de paramètres de nuisance
Pour la détection statistique en présence de paramètres de nuisance, l’approche la plus pessimiste (ou “rigoureuse”) consisterait à rechercher un test qui minimise l’er-reur maximale de non-détection lorsque les paramètres informatifs et les paramètres de nuisance sont simultanément les plus défavorables. Les paramètres de nuisance dis-simulent alors le mieux possible les anomalies recherchées : cette recherche du “cas le plus défavorable” conduit naturellement à envisager une approche de type minimax. Toutefois, il faut nécessairement que les hypothèses envisagées soit “suffisamment dis-cernables” car en présence de paramètres de nuisance, si les interférences entre ces derniers et les paramètres informatifs sont trop importantes, il est fort probable que ce type d’approche ne soit plus applicable en pratique du fait des rapprochements multiples entre hypothèses.
Une autre approche séduisante consiste à utiliser la théorie de l’invariance
statis-tique [107, chap.6],[87, chap.47]. Rappelons qu’un ensemble G muni d’une loi de
com-position interne possède une structure de groupe algébrique s’il vérifie les trois pro-priétés suivantes :
1. ∀(g1, g2, g3) ∈G3,(g1·g2) ·g3=g1· (g2·g3). 2. ∃e∈G| ∀g∈G , g·e=e·g=g.
3. ∀g∈G , ∃g−1∈G|g·g−1=g−1·g=e.
Le principe de l’invariance statistique repose sur l’utilisation du groupe algébrique
(noté G) des transformations mesurables deZN sur lui-même muni de la loi interne
qui est la composition de transformations.. Il est notable que toute
transfor-mation g∈ G est bijective puis-qu’il existe une transformation ré-ciproque g−1
Définition A.15. La famille de distribution P = {Pθ; θ∈ Θ}est invariante par le groupe de transformation G si :
∀g∈G ,∀θ∈Θ ,∃¯θ∈Θ|Pθ(g(Z)) =P¯θ(Z)
Il est notable que ¯θ dépend uniquement de la transformation g et du paramètre θ, aussi il est courant de noter ¯θ= ¯g(θ)où ¯g :Θ7→Θ est une transformation bijective.
Définition A.16. Le problème consistant à décider entre les hypothèses statistiquesH0, . . . ,HK
avecHk : {θ∈ Θk}où{Θ0, . . . ,ΘK}forment une partition deΘ, voir (A.1), est invariant par le groupe de transformation G si :
– La famille de distribution paramétrique P = {Pθ; θ ∈ Θ}est invariante par le groupe de transformation G.
– Les ensemblesΘksont invariants par la transformation ¯g quelque soit g∈G, i. e. :
∀θk ∈Θk, ¯θk= ¯g(θk) ∈Θk
Lorsque le problème de décision statistique est invariant par le groupe de transfor-mation G, la recherche de test préservant cette invariance semble assez naturelle.
Définition A.17. Le test statistique δ(Z):ZN 7→ {H0, . . . ,HK}est invariant par le groupe de transformation G si :
L’utilisation du principe d’invariance statistique est particulièrement adapté à l’éli-mination des paramètres de nuisance linéaire. Considérons par exemple que le pro-blème de décision statistique entre les hypothèses :
(
H0 = {Z∼ N (H η, σ2IN); η∈Rp}
H1 = {Z∼ N (H η+θ, σ2IN); η∈Rp, θ6=0N} , (A.5)
où H ∈ MN,p(R) avec N p, IN est la matrice d’identité de taille N et 0N est le
vecteur nul deRN. À la vue du problème , il semble assez naturel d’utiliser la théorie
de l’invariance statistique pour éliminer le paramètre de nuisance que constitue Hη.
En admettant que H est une matrice rang plein, i. e. rang(H) = p, la projection sur
le noyau de l’application linéaire défini par H permet d’éliminer algébriquement. En notant W la matrice orthonormale de projection sur le noyau de H vérifiant :
HTW=0p,N−p , WTW=IN−p et W WT=P⊥H=IN−H HTH−1 HT
et en notant ¯Z= WTZ, un rapide calcul montre que le problème (A.5) est équivalent au problème de décision suivant :
(
H0 = {Z¯ ∼ N (0 , σ2IN−p)}
H1 = {Z¯ ∼ N (WTθ, σ2IN−p); θ6=0N}. ,
pour lequel une solution satisfaisante est donnée par le test [161,192] :
δ(Z¯) = ( H0 si Λ(Z¯) <τα 0 H1 sinon , avecΛ(Z) = kZ¯k2 2=ZTP⊥HZ.
Dans cet exemple, la théorie de l’invariance est utilisée en exploitant le groupe de
transformation G : {g : g(Z) = Z+Hx, x ∈ Rp} pour éliminer algébriquement le
paramètre de nuisance par Z−H η. Dans la pratique η étant inconnu, cette opération
s’effectue, dans le cas d’un bruit additif blanc Gaussien, par le projecteur linéaire
P⊥H=IN−H HTHHT =WWT.
Ce cas d’utilisation de la théorie de l’invariance a notamment servi pour détecter les anomalies sur lesquelles peu d’information sont a priori connues : θ6=0N. Si en outre
l’anomalie appartient à un sous-espace vectoriel deRNde dimension q, i. e. si θ=Mµ,
il est intéressant de prendre en compte cette information a priori. En admettant que
WTMest une matrice de rang plein colonne le problème (A.5) devient alors :
Si WTM n’est pas une matrice
de rang plein colonne cela signifie que certaines anomalies ne sont pas détectables car elles appar-tiennent au sous-espace vectoriel des paramètres de nuisance en-gendré par la matrice H.
(
H0 = {Z¯ ∼ N (0 , σ2IN−p)}
H1 = {Z¯ ∼ N (WTMµ, σ2IN−p); µ6=0q}. .
Là encore la théorie de l’invariance peut-être utilisée en exploitant, comme précédem-ment, le groupe de transformation G :{g : g(Z) =Z+Hx, x∈Rp}. La connaissance
de l’information a priori sur θ=Mµest utilisée en projetant Z−Hηsur M. Un rapide
calcul montre que algébriquement la projection de Z sur le sous-espace orthogonal à
Hengendré par M est donnée par (voir [161] plus de détail) :
la propriété (WTM)TWTM =
MTP⊥HM est utilisé pour obtenir
ce résultat. P⊥HM MTP⊥HM−1MTP⊥HZ
Hélas, cet exemple de détection d’anomalie connue ou pas n’est pas directement transposable pour la stéganalyse. En effet, d’une part les modifications engendrées par l’insertion d’informations sont de nature stochastique ; le détecteur ne peut que décrire statistiquement ces modifications. D’autre part, les modification engendrées par la stéganographie sont de puissance très faible, chacune des modification étant de l’ordre du pas de quantification pour les schémas d’insertion dans les LSB, aussi un
test ne tenant pas compte des informations a priori sur la nature des modifications ne pourra apporter une réponse satisfaisante en terme de puissance de détection.
Il nous faudra donc envisager une approche permettant d’éliminer les paramètres de nuisance et tenant compte des informations a priori sur les propriétés stochastiques des modifications engendrées par l’insertion d’informations.