Codes lin´ eaires - Mod` eles de s´ ecurit´ e pour le chiffrement et la signature

2.3 Mod` eles de s´ ecurit´ e pour le chiffrement et la signature

3.1.1 Codes lin´ eaires

Les codes actuellement les plus utilisés forment la famille descodes linéaires. Dans ces codes, les messages que l’on veut coder sont vus comme des vecteurs de longueur k d’éléments d’un corps fini àq élémentsFq. Ces éléments de F^k_q sont transformés en un élément deFⁿ_q, n≥k par une application linéaire. L’ensemble des images de F^kq par cette application forme lecode C qui est donc un sous-espace vectoriel deFⁿ_q et peut être décrit entièrement par une base formée de k vecteurs linéairement indépendants deFⁿq.

3.1. Éléments de théorie des codes correcteurs d’erreurs 31

Figure3.2 – Protection de l’information lors du passage par un canal bruit´e `a l’aide d’un code correcteur d’erreur.

Définition 3.1.1 (Matrice génératrice) Soit C un code linéaire sur Fq de longueur n et de dimensionk. Une matrice génératriceGde C est une matrice k×ndont les lignes forment une base deC.

Si G s’écrit sous la forme G= (I_k|A) oùI_k est la matrice identité de dimension k etA est une matricek×(n−k), on dit alors que Gest sous forme systématique.

L’encodage d’un élément x de F^kq en un élément c ∈ C peut être réalisé simplement en calculant le produitc=xG. Si la matriceGest sous forme systématique, leskpremiers symboles de c sont exactement les k éléments de x; ils sont appelés symboles d’information, les n−k derniers symboles forment lessymboles de redondance.

Un code linéaire peut également être défini par une matrice de parité dont nous donnons la définition ci-dessous.

Définition 3.1.2 (Code dual) Soit C un code de longueurn sur Fq. Le code dualde C, noté C^⊥ est l’ensemble des vecteurs qui sont orthogonaux à tous les mots du code C :

C^⊥=

x∈Fⁿq |x·c= 0 pour tout c∈ C

Définition 3.1.3 (Matrice de parité) SoitC un code linéaire de matrice génératriceG. Une matrice de paritéHdeCest une matrice génératrice du codeC^⊥. On a :C= kerH, c’est-à-dire :

C ={x∈Fⁿq |Hx^T = 0}.

De plus, si G est sous forme systématique G = (I_k|A), alors H = (A^T|I_n−k) où ·^T désigne la transposition.

message

Figure 3.3 – Encodage et transmission d’un message par un code linéaire dont la matrice génératrice est sous forme systématique.

Durant la transmission, un vecteur d’erreur e∈ Fⁿ_q est ajouté au vecteur c pour former le message re¸cu y = c+e. Informellement, on appellera correction le fait de retrouver e tel que y−e∈ C et décodage l’action consistant à retrouver à partir d’un mot y ∈ C le message m tel que y=mG oùG est une matrice génératrice du code C. Si Gest sous forme systématique, ce décodage peut alors être fait simplement en lisant leskpremiers éléments dey−e. Par abus de langage, on appellera parfoisdécoder l’action de retrouver une erreur etelle que y−e∈ C.

Afin de définir formellement les notions précédentes, il est utile d’introduire les définitions suivantes :

D´efinition 3.1.4 (Support, Distance et Poids de Hamming) Soient x = (x1, . . . , xn) et y= (y₁, . . . , y_n) deux vecteurs deFⁿq.

– Le support de x, not´e supp(x) est l’ensemble des indices des positions non nulles de x : supp(x) ={1≤i≤n| x_i 6= 0}.

– Le poids de Hamming de x, not´e wt(x) est le nombre de positions non nulles de x : wt(x) =|supp(x)|.

– La distance de Hamming entre x et y, notée dist(x,y) est le nombre de positions où ils diffèrent. De fa¸con évidente, dist(x,y) =wt(x−y).

Le poids et la distance de Hamming forment respectivement une norme et une distance surFⁿ₂.

Nous ´etablissons les d´efinitions suivantes :

Définition 3.1.5 (Encodeur, décodeur, t-correction) Soit C un code défini par une ma-trice de parité G de taille k×n(n≥k).

3.1. Éléments de théorie des codes correcteurs d’erreurs 33 – Un encodeur est une fonctionEnc:F^kq → C ⊂Fⁿq qui àx associe xGet telle que Enc(x)6=

Enc(x⁰) six6=x⁰ (Encest surjective).

– Un d´ecodeur est une fonction Dec:C →F^k_q qui associex `a y si y=Enc(x)

– Un t-correcteur est une fonction Corr:Fⁿq → C qui renvoiec si et seulement si x =c+e o`u e∈Fⁿ_q et wt(e)≤t et renvoie ⊥ (erreur) sinon.

Par abus de langage, on dira que Dec corrige t erreurs (ou est t-correcteur) si et seulement si∀e∈Fⁿq tq wt(e)≤t, Dec(Enc(x) +e) =x.

On dira que le décodage est complet (ou total) si quelque soit le mot décodé, le décodeur renvoie toujours un mot de code. Si Dec(Enc(x) + e) = x⁰ 6= x, on dira qu’une erreur de décodages’est produite.

Le troisième paramètre d’un code linéaireC par ordre d’importance, après sa longueur et sa dimension, est sadistance minimum. Il s’agit du minimum d des distances de Hamming entre deux de ses mots :

d = min dist(x,y)

= min wt(x−y), x∈ C,y∈ C,x6=y

Dans le cas d’un code lin´eaire, la diff´erence de deux mots du code est elle aussi dans le code.

On a donc

d= min

w∈C,w6=0wt(w)

Définition 3.1.6 (code [n, k, d]) Un code linéaire de longueurn, de dimensionket de distance minimum dest appelé un code [n, k, d].

Calculer la distance minimum d’un code de longueur n, de dimension k peut être extrˆ e-mement coûteux puisqu’il faut énumérer les 2^k mots du code et calculer leur poids, ce qui est rarement réalisable en pratique. Il existe cependant une borne, ditedu singleton, permettant de l’estimer.

Théorème 3.1.1 (Borne du singleton) Tout code[n, k, d]vérifie la majorationn−k≥d−1.

Si cette borne est atteinte, le code est dit MDS (pour Maximum Distance Separable) ou parfait.

Preuve – Un mot de code contenant un unique symbole d’information est de poids au plus n−k+ 1. Par suite,d≤n−k+ 1.♦

De plus, la borne de Gilbert-Varshamov permet de s’assurer de l’existence de codes de param`etres donn´es.

Théorème 3.1.2 (Borne de Gilbert-Varshamov) Il existe un code linéaire surFqde longueur n, de dimension k et de distance minimale≥d pourvu que

GVq(n, d)^def=

d−1

i=0

n i

(q−1)ⁱ ≥q^n−k.

La preuve de ce théorème peut être trouvée dans [Moo05] ou [Wel88], par exemple.

D´ecodage `a maximum de vraisemblance

Le décodage à maximum de vraisemblance consiste à associer au mot re¸cu le mot de code le plus proche au sens de la distance de Hamming. Par exemple, soit le code binaire C défini par la matrice de parité







1 0 0 0 1 1

0 1 0 1 0 1

0 0 1 1 1 0







La première colonne de la figure 3.4 énumère les mots du code et leur poids ; on observe alors que la distance minimale de C est d = 3. Supposons que durant deux transmissions du mot c = (0,1,1,0,1,1) les erreurs e= (0,1,0,0,0,0) et e⁰ = (0,0,1,0,1,0) se produisent. Les mots re¸cus sont donc respectivementy =c+e= (0,0,1,0,1,1) et y⁰ =c+e⁰ = (0,1,0,0,0,1). Les deux dernières colonnes de la figure 3.4 énumèrent les distances de y et y⁰ à chacun des mots du code ; le message y est donc décodé en c = (0,1,1,0,1,1) alors que y⁰ est décodé par le mot c⁰ = (0,1,0,1,0,1). Le décodage à maximum de vraisemblance fournit donc un critère de décodage complet.

Mot de code poids distance au mot distance au mot de Hamming (0,0,1,0,1,1) (0,1,0,0,0,1)

(1,0,0,0,1,1) 3 2 3

(0,1,0,1,0,1) 3 4 1

(0,0,1,1,1,0) 3 2 5

(1,1,0,1,1,0) 4 5 4

(1,0,1,1,0,1) 4 3 4

(0,1,1,0,1,1) 4 1 2

(1,1,1,0,0,0) 3 4 3

Figure3.4 – D´ecodage `a maximum de vraisemblance

Décodage à distance bornée

Si le décodage complet est intéressant, sa mise en œuvre est souvent coûteuse et pas toujours souhaitable : on peut préférer ne corriger que les erreurs dont on est sûr. Dans ce contexte, la propriété 3.1.1 nous permet d’établir un autre critère de décodage, celui-ci non complet : le décodage à distance bornée, défini pour une certaine borne t. S’il s’avère qu’un message a été altéré par moins deterreurs, alors le message est corrigé, sinon il est rejeté.

3.1. Éléments de théorie des codes correcteurs d’erreurs 35 Propriété 3.1.1 SoientC un code [n, k, d]sur Fq et t=b^d−1₂ c. Soit B(y, t) la boule de centrey et de rayont, c’est-à-dire l’ensemble des vecteursv∈Fⁿq tels que dist(y, v)≤t. Alors pour tout y de Fⁿ_q, B(y, t) contient au plus un motx∈ C.

Preuve – Supposons l’existence de deux motsxetx⁰ appartenant à B(y, t)∩ C. Leur apparte-nance à B(y, t) garantit que leurs distances à y sont toutes deux inférieures à tet par inégalité triangulaire quedist(x, x⁰)≤2t < d. Or,xetx⁰ sont également des mots de C, leur distance ne peut donc être inférieure à d. Il ne peut donc pas exister simultanément deux mots deC dans B(y, t).♦

Cette propriété nous permet aussi de voir que la capacité de correction à distance bornée d’un code ne dépend pas de l’ordre de ses symboles. On définit l’équivalence de code comme suit :

Définition 3.1.7 ( Équivalence de codes) Deux codes sont dits équivalentssi leurs matrices génératrices (resp. de parité) se déduisent l’une de l’autre par permutation de colonnes. On notera cette équivalence C₁ ≡ C₂ et on étendra cette notation à leurs matrices génératrices (resp.

de parit´e).

Par exemple, les codes de g´en´eratrices G = 0 0 1 1 1 1 0 0

et G⁰ = 1 0 0 1 0 1 1 0

! sont

´equivalents.

D´ecodage par syndrome

Le décodage par syndrome est une technique permettant de réaliser un décodage à distance bornée. Elle s’appuie sur la notion decoset :

D´efinition 3.1.8 (Coset) SoitC un code [n, k, d]sur Fq. Pour tout vecteurx∈Fⁿ_q, on appelle Coset (ou translat´e) de C l’ensemble

a+C={a+c:c∈ C}.

Tout vecteurx∈Fⁿ_q est dans un coset (au moinsx+C) et chaque coset contientq^kvecteurs.

Deux vecteursxetysont dans le même coset si et seulement si (x−y)∈ C. On peut également remarquer que deux cosets soit sont disjoints, soit co¨ıncident : il ne peut pas y avoir de chevauche-ment partiel entre deux cosets (voir [MS77], Ch. 1,§4, par exemple). Cette propriété permet de partitionner l’espaceFⁿq en cosets deC :

Fⁿq =C ∪(x1+C)∪ · · · ∪(x_`+C)

avec `=q^n−k−1. Supposons qu’un vecteur y∈Fⁿ_q soit re¸cu ; il appartient `a l’un des cosets ci dessus, disons (x_i+C). Il existe donc un mot c∈ C tel quey=x_i+c. Soitc⁰ le mot transmis,

l’erreur est donce=y−c⁰=xi+c−c⁰, c’est-à-dire qu’elle appartient à (xi+C). Une stratégie de décodage à maximum de vraisemblance consiste donc à retrouver le coset d’un mot re¸cu y, puis à trouver le vecteurede poids minimal dans ce coset, appelécoset leader .

La fa¸con la plus simple d’identifier le coset dans lequel se trouve un mot, consiste `a calculer son syndrome :

D´efinition 3.1.9 (Syndrome) Soit H une matrice de parit´e d’un code C sur Fq de longueur n et de dimension k. Le syndrome d’un mot x∈Fq est le vecteur

s=Hx^T

où x^T dénote le transposé de x. Celui-ci est un vecteur colonne de longueur n−k.

Par d´efinition de la matrice de parit´e, le syndrome d’un mot x est nul si et seulement si x est un mot de code. Siy=x+e avecx∈ C, alors

s=Hy^T =Hx^T +He^T =He^T,

le syndrome d’un vecteur caractérise donc son erreur et est un invariant de coset. En effet, deux vecteurs x et y sont dans le même coset si et seulement si (x−y) ∈ C, c’est-à-dire que H(x−y)^T = 0 et donc que Hx^T = Hy^T. Le stockage des coset leaders dans une table indexée par leur syndrome permet donc (quand il est possible) de décoder un mot en erreur.

Dans le document The DART-Europe E-theses Portal (Page 41-47)