Performances

Le but principal de notre démarche est d’évaluer l’apport relatif du parallélisme aussi bien pour le gain en vitesse qu’il peut amener que pour la sécurité apparente que semble fournir la superposition temporelle de deux calculs indépendants.

Nous pouvons citer une implémentation matérielle basée sur du halving qu’est [65]. Dans ce papier, les auteurs proposent d’utiliser le parallélisme naturellement présent au sein des formules d’addition de points et dedivision par deuxde points. Leur architecture est pipelinée de manière à rendre ces opérations très rapides : l’opération la plus couteuse en temps n’occupera que 8 cycles d’horloge. Ces solutions occupent une grande surface silicium et ont été con¸cues pour la performance pure. Nous ne nous comparerons pas à cette implémentation car ce que nous souhaitons vraiment mesurer est l’apport relatif du parallélisme et non la performance brute. D’une manière générale, le calcul d’un halving (trouver P tel que 2 × P = Q) est bien plus rapide que celui d’un doubling (pour P , ´

etablir la valeur de 2×P ). Nous utilisons, en effet, ici, un système de coordonnées affines : un doubling requiert une inversion au niveau du corps fini et trois multiplications. Il faut spécifiquement dix multiplications pour calculer A⁻¹ dans GF(2²³³). Le halving, quant `

a lui, ne nécessite que deux multiplications (en coordonnées affines, toujours), le calcul de la solution quadratique λ2+ λ = c (qui est réalisé en dm/we cycles, très peu face aux m cycles de la multiplication ou aux 10 × m -environ- cycles de l’inversion), le calcul d’une racine carrée (un décalage circulaire) et une poignée d’additions (très rapides dans GF(2^m)). Étant donnée la disparité des opérations de doubling et de halving, couper la clef en deux parties égales ne sera évidemment pas l’optimal en terme de rapidité d’exécution. Nous devons maintenant trouver où couper la clef (dans l’hypothèse ou la clef n’a pas été recodée et qu’il y a donc, en moyenne, autant de 0 que de 1 dans l’écriture binaire de k). Si nous négligeons toutes les opérations au niveau du corps

a l’exceptions faites des multiplications et des inversions, nous avons donc les coˆuts suivants :

halving 2 × M doubling I + 3 × M

add I + 3 × M

où M est le coût d’une multiplication et I celui d’une inversion. Pour un recodage binaire de la clef (ce qui sera notre cas ici), il y a, en moyenne, autant de 0 que de 1. Si l représente le nombre de bits de la clef dont nous nous servons pour calculer un halve-and-add (et donc m − l bits pour la portion double-halve-and-add ), nous obtiendrons les coûts temporels (en nombre de cycles d’horloges) suivants :

H(l) = ^l

2^{× add + l × halving,}

pour la partie halve-and-add et

D(l) = ^{m − l}

2 ^{× add + (m − l) × doubling,}

pour la partie double-and-add . Si les deux calculs sont lancés en parallèle, le coût global de l’opération sera

C(l) = max(H(l), D(l)) + E

où E est un coût, là encore négligeable, de l’opération qui consiste à additionner les deux points respectivement obtenus par les deux algorithmes de multiplications scalaires. La présence de max provient du fait que le temps d’exécution est plafonné par l’algorithme le plus lent. Nous obtenons les courbes de C(l) représentées dans la figure4.7.

Nous observons, dans la figure4.7, un optimum autour de 0.7 × m, pour une clef dont le poids de Hamming est de m/2. D’après les mesures réelles que nous avons obtenues sur ModelSim, nous approchons un optimal voisin de cette valeur théorique (voir figure4.8). Nous reportons dans le tableau4.1les valeurs (slices, LUTs, flip-flops (bascules)) tirées du logiciel ISE après synthèse, placement et routage. Nous avons aussi incorporé dans ces chiffres une version mono-core de notre processeur (implémentation matérielle d’un seul des deux cœurs) afin de montrer l’apport de la version parallèle de notre multiplication

0 1e+006 2e+006 3e+006 4e+006 5e+006 6e+006 7e+006 8e+006 0 100 200 300 400 500 600

Nombre de Cycles (approximatif) pour [k]P

Key Split l m=163 m=233 m=283 m=409 m=571

Figure 4.7: Nombres de cycles (approximatifs et th´^{eoriques) n´}^{ecessaires pour le calcul} d’un [k]P selon l’endroit o`u la clef est coup´ee.

m Slices LUTs FFs Frq (MHz) PTS (×10⁻⁹) Dual-Core 163 1763 5365 4892 270 2345 233 2216 7035 5972 264 4731 283 2662 8339 6593 259 7061 409 3464 10794 8637 263 11309 571 5052 15669 11210 218 27420 Single-Core 163 791 2659 2467 278 1311 233 1154 3253 3004 264 3178 283 1366 3897 3335 250 3754 409 1453 5069 4335 271 5140 571 2571 8340 5627 229 12789

Table 4.1: Surface et fr´equence de notre crypto-processeur.

scalaire [k]P . Dans la version Dual-Core, nous prenons le paramètre l optimal (≈ 0.7m) pour réaliser la multiplication scalaire. Dans la version Mono-Core, nous lan¸cons une multiplication scalaire à l’aide de l’algorithme halve-and-add (plus efficace que le double-and-add standard) sur l’entièreté de la clef k. Le terme PTS est le sigle pourproduit temps surface, c’est à dire le produit entre le temps requis pour le calcul d’un [k]P et la surface (ici en slices) occupée par notre crypto-processeur. Plus le PTS est petit, plus la solution est avantageuse. Nous voyons que la version Dual-Core a un produit temps-surface moins intéressant que la version Mono-core (nous obtenons même une version parallèle plus lente qu’une version strictement séquentielle pour GF(2⁵⁷¹)). Cela est lar-gement explicable par l’hyper-compétitivité du halve-and-add face au double-and-add .

0 500000 1e+006 1.5e+006 2e+006 2.5e+006 3e+006 3.5e+006 4e+006 0 100 200 300 400 500 600 Nombre de Cycles [k]P Split Key 163 bits 233 bits 283 bits 409 bits 571 bits

Figure 4.8: Nombres de cycles mesur´^{es pour le calcul d’un [k]P selon l’endroit o`}^{u la} clef est coup´ee.

m Nombre de Cycles pour un [k]P PTS

163 318987 2082

233 474733 3984

283 593433 6099

409 887709 11692

571 1349080 31264

Table 4.2: Performance de l’algorithme parallel halve-and-add.

Malgré un apport pas forcément intéressant du calcul parallèle (le PTS est bien supérieur au PTS d’une version mono-cœur), celui-ci apporte en plus de sa vitesse une forme de protection contre les attaques SPAs, comme cela a été supposé dans [63]. Évidemment, l’architecture que nous avons proposée permet de lancer deux multiplications scalaires en même temps. Dépendant du contexte et des besoins, notre processeur peut se pro-grammer différemment.

Nous avons aussi codé, à l’aide de notre assembleur, l’algorithme du parallel halve-and-add dont nous faisions référence dans la section4.5. Les résultats sont rassemblés dans le tableau4.2. Nous y apercevons que cette approche est plus attrayante que l’ap-proche parallèle précédente pour les corps GF(2¹⁶³), GF(2²³³), GF(2²⁸³) de par un PTS plus bas que celui d’un double-and-add et halve-and-add parallèle.

4.8 Evaluation de la s´^´ ecurit´e physique de notre

Dans le document Contribution aux opérateurs arithmétiques GF(2m) et leurs applications à la cryptographie sur courbes elliptiques (Page 76-80)

4.8 Evaluation de la s´´ ecurit´e physique de notre

4.8 Evaluation de la s´^´ ecurit´e physique de notre