• Aucun résultat trouvé

a .4 Difficultés soulevées par la présence de paramètres de nuisance

1 si Λrvg(Z) <τ 0 sinon ,

où le seuil de décision τ est fixé de façon à ce que δrvg ∈ Kα0, i. e. est la solution de l’équation supθ0Θ0P[δrvg(Z) ≥τ] =α0

L’idée est alors, en quelque sorte, de choisir pour une observation Z le paramètre le plus vraisemblable sous chacune des deux hypothèses. Les tests du rapport de vraisemblance généralisé consistent ensuite à tester ces deux hypothèses de façon

ana-logue à ce que nous avons vu pour le cas d’hypothèses simple (voir le lemmeA.1de

Neyman-Pearson). Il est en revanche notable que le test du RVG n’est pas nécessaire-ment optimal en un quelconque sens, il garantit par contre le respect d’une contrainte sur la probabilité de fausse-alarme, le risque α0(δrvg)étant majoré par la constante α0˙ L’application de cette méthodologie peut tout à fait être étendue aux cas de test entre multiples hypothèses composites. La seule précaution à prendre est d’assurer

Définition A.14 (Test du rapport de vraisemblance généralisé (RVG) entre plusieurs hypothèses composites). De manière analogue, soit données K hypothèses compositesH0, . . . ,HK, le test du rapport de vraisemblance généralisé est défini par la règle de décision suivante :

ψrvg0 (Z) =    1 si ∀k∈ {0, . . . , K}, supθ∈Θkfθk(Z) supθΘ0fθ0(Z) <τ 0 sinon , ψrvgk (Z) =    1 si supθ∈Θkfθk(Z)

supθΘ0fθ0(Z)τ et ∀j6=k , supθ∈Θk fθk(Z) >supθ∈Θj fθj(Z)

0 sinon

,

a.4 Difficultés soulevées par la présence de paramètres de

nuisance

Dans le cadre des travaux présentés dans ce mémoire, le lecteur averti constatera que l’une des principales difficultés pour l’application de décision statistique à la sté-ganalyse est liée à la définition de la famille de distribution paramétrée. L’une des difficultés est notamment liée à la présence de paramètres de nuisance. Plus précisé-ment, les observations Z sont alors la réalisation d’une variable aléatoire Z distribuée

suivant la loi Pθoù, comme précédemment, θ∈Θ⊂Rpsont des paramètres

informa-tifs (ou paramètres d’intérêts) et η∈ Υ ⊂ Rm sont des des paramètres “de nuisance”. La

En toute généralité, le domaine de définition du paramètre de nui-sance peut varier selon l’hypo-thèse :ηk∈Υkavec∃j6=k|Υk∩ Υk 6= ∅ mais le problème cou-ramment envisagé est que∀k = {1, . . . , K},Υk=Υ.

prise en compte de ces paramètres est fondamental puisqu’ils interviennent dans la définition de la famille de distribution paramétriqueP = {Pθ; θΘ , η∈ Υ}mais

ne présentent pas d’intérêt pour proposer une estimation bθde θ ou pour décider en

faveur d’une des hypothèsesHk= {θ∈Θk, η∈Υ}.

Il est par ailleurs notable que la distinction entre paramètres de nuisance et informa-tifs dépend de l’application envisagée, des paramètres de nuisance peuvent être jugés informatifs pour un autre problème de décision statistique et inversement. À titre d’exemple dans ce manuscrit le but est de détecter la présence d’information cachées dans un signal. Le contenu du signal en lui-même n’est pas un paramètre informatif, puisqu’il ne renseignera pas sur la présence d’éventuelles informations cachées, mais doit être scrupuleusement pris en compte dans la définition de la distribution des échantillons. On pourrait à l’inverse imaginer utiliser le contenu de ce signal, qui in-terviendrait alors comme paramètre informatif, pour contrôler le bon fonctionnement de l’appareil d’enregistrement.

si leur dimension est importante : il peut exister des inférences entre paramètres de nuisance et informatifs. Pour solutionner rigoureusement un tel problème plusieurs approches peuvent être envisagées.

Détection statistique en présence de paramètres de nuisance

Pour la détection statistique en présence de paramètres de nuisance, l’approche la plus pessimiste (ou “rigoureuse”) consisterait à rechercher un test qui minimise l’er-reur maximale de non-détection lorsque les paramètres informatifs et les paramètres de nuisance sont simultanément les plus défavorables. Les paramètres de nuisance dis-simulent alors le mieux possible les anomalies recherchées : cette recherche du “cas le plus défavorable” conduit naturellement à envisager une approche de type minimax. Toutefois, il faut nécessairement que les hypothèses envisagées soit “suffisamment dis-cernables” car en présence de paramètres de nuisance, si les interférences entre ces derniers et les paramètres informatifs sont trop importantes, il est fort probable que ce type d’approche ne soit plus applicable en pratique du fait des rapprochements multiples entre hypothèses.

Une autre approche séduisante consiste à utiliser la théorie de l’invariance

statis-tique [107, chap.6],[87, chap.47]. Rappelons qu’un ensemble G muni d’une loi de

com-position interne possède une structure de groupe algébrique s’il vérifie les trois pro-priétés suivantes :

1. ∀(g1, g2, g3) ∈G3,(g1·g2) ·g3=g1· (g2·g3). 2. ∃e∈G| ∀g∈G , g·e=e·g=g.

3. ∀g∈G , ∃g−1∈G|g·g−1=g−1·g=e.

Le principe de l’invariance statistique repose sur l’utilisation du groupe algébrique

(noté G) des transformations mesurables deZN sur lui-même muni de la loi interne

qui est la composition de transformations.. Il est notable que toute

transfor-mation g∈ G est bijective puis-qu’il existe une transformation ré-ciproque g−1

Définition A.15. La famille de distribution P = {Pθ; θ∈ Θ}est invariante par le groupe de transformation G si :

∀g∈G ,∀θ∈Θ ,∃¯θ∈Θ|Pθ(g(Z)) =P¯θ(Z)

Il est notable que ¯θ dépend uniquement de la transformation g et du paramètre θ, aussi il est courant de noter ¯θ= ¯g(θ)où ¯g :Θ7→Θ est une transformation bijective.

Définition A.16. Le problème consistant à décider entre les hypothèses statistiquesH0, . . . ,HK

avecHk : {θ∈ Θk}où{Θ0, . . . ,ΘK}forment une partition deΘ, voir (A.1), est invariant par le groupe de transformation G si :

– La famille de distribution paramétrique P = {Pθ; θ ∈ Θ}est invariante par le groupe de transformation G.

– Les ensemblesΘksont invariants par la transformation ¯g quelque soit g∈G, i. e. :

θk ∈Θk, ¯θk= ¯g(θk) ∈Θk

Lorsque le problème de décision statistique est invariant par le groupe de transfor-mation G, la recherche de test préservant cette invariance semble assez naturelle.

Définition A.17. Le test statistique δ(Z):ZN 7→ {H0, . . . ,HK}est invariant par le groupe de transformation G si :

L’utilisation du principe d’invariance statistique est particulièrement adapté à l’éli-mination des paramètres de nuisance linéaire. Considérons par exemple que le pro-blème de décision statistique entre les hypothèses :

(

H0 = {Z∼ N (H η, σ2IN); ηRp}

H1 = {Z∼ N (H η+θ, σ2IN); ηRp, θ6=0N} , (A.5)

où H ∈ MN,p(R) avec N  p, IN est la matrice d’identité de taille N et 0N est le

vecteur nul deRN. À la vue du problème , il semble assez naturel d’utiliser la théorie

de l’invariance statistique pour éliminer le paramètre de nuisance que constitue Hη.

En admettant que H est une matrice rang plein, i. e. rang(H) = p, la projection sur

le noyau de l’application linéaire défini par H permet d’éliminer algébriquement. En notant W la matrice orthonormale de projection sur le noyau de H vérifiant :

HTW=0p,N−p , WTW=IN−p et W WT=PH=INH HTH−1 HT

et en notant ¯Z= WTZ, un rapide calcul montre que le problème (A.5) est équivalent au problème de décision suivant :

(

H0 = {Z¯ ∼ N (0 , σ2IN−p)}

H1 = {Z¯ ∼ N (WTθ, σ2IN−p); θ6=0N}. ,

pour lequel une solution satisfaisante est donnée par le test [161,192] :

δ(Z¯) = ( H0 si Λ(Z¯) <τα 0 H1 sinon , avecΛ(Z) = kZ¯k2 2=ZTPHZ.

Dans cet exemple, la théorie de l’invariance est utilisée en exploitant le groupe de

transformation G : {g : g(Z) = Z+Hx, xRp} pour éliminer algébriquement le

paramètre de nuisance par ZH η. Dans la pratique η étant inconnu, cette opération

s’effectue, dans le cas d’un bruit additif blanc Gaussien, par le projecteur linéaire

PH=INH HTHHT =WWT.

Ce cas d’utilisation de la théorie de l’invariance a notamment servi pour détecter les anomalies sur lesquelles peu d’information sont a priori connues : θ6=0N. Si en outre

l’anomalie appartient à un sous-espace vectoriel deRNde dimension q, i. e. si θ=,

il est intéressant de prendre en compte cette information a priori. En admettant que

WTMest une matrice de rang plein colonne le problème (A.5) devient alors :

Si WTM n’est pas une matrice

de rang plein colonne cela signifie que certaines anomalies ne sont pas détectables car elles appar-tiennent au sous-espace vectoriel des paramètres de nuisance en-gendré par la matrice H.

(

H0 = {Z¯ ∼ N (0 , σ2IN−p)}

H1 = {Z¯ ∼ N (WT, σ2IN−p); µ6=0q}. .

Là encore la théorie de l’invariance peut-être utilisée en exploitant, comme précédem-ment, le groupe de transformation G :{g : g(Z) =Z+Hx, x∈Rp}. La connaissance

de l’information a priori sur θ=est utilisée en projetant Zsur M. Un rapide

calcul montre que algébriquement la projection de Z sur le sous-espace orthogonal à

Hengendré par M est donnée par (voir [161] plus de détail) :

la propriété (WTM)TWTM =

MTPHM est utilisé pour obtenir

ce résultat. PHM MTPHM−1MTPHZ

Hélas, cet exemple de détection d’anomalie connue ou pas n’est pas directement transposable pour la stéganalyse. En effet, d’une part les modifications engendrées par l’insertion d’informations sont de nature stochastique ; le détecteur ne peut que décrire statistiquement ces modifications. D’autre part, les modification engendrées par la stéganographie sont de puissance très faible, chacune des modification étant de l’ordre du pas de quantification pour les schémas d’insertion dans les LSB, aussi un

test ne tenant pas compte des informations a priori sur la nature des modifications ne pourra apporter une réponse satisfaisante en terme de puissance de détection.

Il nous faudra donc envisager une approche permettant d’éliminer les paramètres de nuisance et tenant compte des informations a priori sur les propriétés stochastiques des modifications engendrées par l’insertion d’informations.

a.5 Test entre deux hypothèses et classification par