Insertion d’un CTM apr` es Placement et Routage

3.5 Logiciels utilis´ es

3.5.2 Insertion d’un CTM apr` es Placement et Routage

Comme énoncé dans le chapitre précédent, notre choix porte sur la détection de CTM par des méthodes non destructives via l’étude des temps de calcul internes. Ce chapitre présente les outils qui sont utilisés au cours de ces travaux de recherche.

Dans un premier temps, le principe de fonctionnement d’un circuit synchrone et les violations de contraintes temporelles sont introduits.

Ensuite, le support FPGA utilisé est décrit ainsi que les deux implantations choisies (AES et XOR) qui servent de support à la détection de CTM.

Enfin, une présentation des outils logiciels et le protocole expérimental sont détaillés.

3.1 Les contraintes temporelles

La plupart des circuits intégrés fonctionnent à un rythme imposé par une horloge afin de cadencer toutes leurs opérations internes : on parle de circuits synchrones. Il existe ´

egalement des circuits qui n’utilisent pas de signal d’horloge global pour synchroniser leurs différents éléments : ce sont les circuits asynchrones. Le marché de la sécurité utilise principalement les circuits synchrones. C’est pour cela que l’on choisit de considérer ces circuits au cours de ces travaux.

3.1.1 Fonctionnement d’un circuit synchrone

Un circuit synchrone est compos´e de blocs de logiques combinatoires encadr´es par des registres (cf figure 3.1). Horloge Q D_i+1 i Q _i+1 Horloge Data_in Logique combinatoire D Q D Q Data_out Horloge D clock -> Q D tMax t _setup t _hold T clock i i i+1 i+1 i D clock -> Q i+1 Registre R 1 Registre R2 ’1’

3.1. Les contraintes temporelles

A chaque coup d’horloge, les données D en entrée des registres sont enregistrées et rem- placent les anciennes valeurs qui sont relâchées par les sorties Q. Ces dernières progressent `

a travers la logique combinatoire avant d’être enregistrées par les registres suivants au coup d’horloge suivant. Afin que les calculs de la logique combinatoire se déroulent dans de bonnes conditions, des contraintes temporelles sont à respecter, à savoir :

– Tclock est la dur´ee d’une p´eriode de l’horloge,

– Dclock−>Qi désigne le délai entre le front montant de l’horloge et la mise à jour de

la sortie d’un registre,

– DtM ax est le temps maximal que va prendre une donn´ee pour se propager `a travers toute la logique combinatoire en sortie du registre,

– Tskew représente le décalage temporel qui peut exister entre les deux signaux d’une même horloge aux entrées de deux registres différents,

– thold est la durée minimale pendant laquelle la donnée doit être stable après le front montant d’horloge,

– tsetup d´esigne le temps minimum avant le front montant de l’horloge durant lequel la donn´ee doit rester stable.

Le temps de transit de la donn´ee Tdata incorrespond au temps n´ecessaire pour traverser le registre R1 ainsi que la logique combinatoire et arriver au registre R2.

Tdata in = Dclock−>Qi+ DtM ax (3.1)

Tneed est le temps maximal requis par la donnée pour que cette opération se déroule sans erreur :

Tneed = Tclock+ Tskew− tsetup (3.2)

Pour que la donnée soit stable à l’entrée d’un registre, il faut donc respecter la contrainte suivante (cf figure3.2) :

On a ainsi :

Tclock> Dclock−>Qi + DtM ax− Tskew+ tsetup (3.4)

clock -> Q clock T D - T i + D Période

tMax skew + t setup

Figure 3.2 – Chronogramme des contraintes temporelles sur un cycle d’horloge

3.1.2 Violations des contraintes temporelles

Modifier l’horloge interne d’un circuit est un moyen r´epandu d’injection de fautes (cf section 2.4.2.1 et article [107]). Le principe repose sur les violations de ses contraintes temporelles. Le but est de faire en sorte que le registre enregistre une valeur erron´ee.

Une violation de contrainte temporelle se produit lorsque le dernier signal de transition d’une donn´ee est trop proche du front montant de l’horloge (cf3.1.2) : on parle de violation de temps de setup.

Tclock≈ Dclock−>Qi + DtM ax− Tskew+ tsetup (3.5)

Pour réaliser ces violations de contraintes temporelles, l’horloge est diminuée progressivement jusqu’à arriver dans une configuration où la donnée est échantillonnée à l’instant même où elle change de valeur : le registre peut enregistrer indifféremment une valeur ´

3.1. Les contraintes temporelles

(présence d’oscillations) durant le temps de hold thold ou le temps de setup tsetup, la sortie du registre se trouve dans un état métastable [95]. Diminuer l’effet de la métastabilité permet de s’assurer de la répétabilité des mesures effectuées. Un exemple de violations de contraintes temporelles est illustré à la figure 3.3.

En continuant de diminuer l’horloge, la donn´ee n’a pas le temps d’atteindre sa valeur finale : une faute stable apparait (cf figure3.4).

Horloge Q D_i+1 i Q _i+1 Horloge Logique combinatoire D Q D Q Horloge D clock -> Q D tMax t setup t _hold T clock i i i+1 i+1 i D clock -> Q i+1 ’0’ ou ’1’ ? Registre R 1 Registre R2 Data_in Data_out

Figure 3.3 – ´Etat m´etastable d’une violation de contraintes temporelles

Horloge Q D_i+1 i Q _i+1 Horloge Logique combinatoire D Q D Q Horloge D clock -> Q D tMax t setup t _hold T clock i i i+1 i+1 i D clock -> Q i+1 ’0’ Registre R 1 Registre R2 Data_in Data_out

Le chemin critique désigne le chemin ayant le plus long temps de calcul : c’est lui qui détermine la fréquence maximum de fonctionnement du circuit. Lorsque l’on diminue progressivement une période d’horloge, le chemin critique est celui impacté en premier. Si un CTM -ou une partie de ce CTM- est connecté à ce chemin critique, le délai de ce dernier sera augmenté et le CTM repéré. C’est pour cela que les attaquants visent plutôt les chemins non critiques (appelés aussi chemins sous critiques) afin de minimiser les chances que leurs modifications soient détectées.

Pour impacter les chemins non critiques, il est nécessaire de réduire davantage la pé- riode d’horloge.

Afin de maximiser les chances de d´etection d’un CTM, les travaux porteront sur l’´etude des chemins critiques et sous critiques.

3.2 Injection de fautes par modification transitoire de la fr´e-

quence d’horloge

Le travail de cette thèse repose sur la modification de la fréquence normale de fonctionnement normale du circuit. Il existe deux approches dans la littérature :

– la première consiste à modifier de fa¸con globale la période durant tout le fonctionnement du circuit cible : on parle de modification statique ou “d’overclocking” (cf partie3.2),

– la seconde est plus ciblée, car on choisit de n’affecter qu’une période d’horloge : on parle de glitchs d’horloge. Seul un moment précis de l’exécution du système visé est perturbé (comme expliqué dans [8]). Notre choix d’étude porte sur cette technique.

3.2.1 Description du banc de glitchs d’horloge

Le circuit étudié est implanté sur un FPGA alimenté sous une tension nominale de 1,2 V. Ce dernier est cadencé par une horloge externe générée par un second FPGA, comme illustré sur la photo3.5. Cette horloge externe a une période de 10 ns et permet d’injecter un glitch d’horloge au moment voulu à l’aide d’un déclencheur (trigger ). Elle est diminuée par pas de 35 ps. On parlera du stress appliqué.

A chaque pas de décrémentation de la période d’horloge, il est possible d’altérer un, voire plusieurs bits de la logique combinatoire. On dira que l’on a détecté ou fauté les bits. Ces bits sont déterminés en analysant la réponse en sortie du montage étudié [8]. Le temps de calcul correspond à la durée d’une période d’horloge diminuée du temps décrémenté nécessaire pour fauter le bit concerné. Cette approche permet donc de choisir l’intensité de la perturbation en jouant sur le nombre de stress que l’on veut appliquer et le moment précis où on veut l’exécuter.

3.2. Injection de fautes par modification transitoire de la fr´equence d’horloge

Horloge externe

Circuit étudié

Horloge Déclencheur du glitch d’horloge

Figure 3.5 – Photo du montage exp´erimental

Cette méthode ne nécessite qu’un accès à l’horloge du circuit visé, ainsi qu’à ses en- trées/sorties. L’ajout de circuit additionnel n’est pas requis.

Ce générateur de glitch d’horloge a été construit selon [33], [8] et [37]. Cette horloge modifiée Clk0 est fabriquée à l’aide des DLL (Delay Locked Loop) disponibles dans les FPGA Xilinx Virtex 5. L’horloge principale Clk permet de générer deux horloges secondaires (Clk1 et Clk2 ) retardées chacune d’une phase réglable δ comme illustré sur la figure3.6. Le signal Clk0 provient d’un ET logique entre les deux horloges secondaires. Un trigger permet d’injecter l’horloge Clk0 à la place du signal d’horloge d’origine Clk. La combinaison des DLL permet ainsi de générer un cycle plus ou moins court.

Sur l’exemple de la figure 3.6, la nouvelle horloge générée Clk0 est construite à partir de Clk1 et Clk2. Si Clk2 est retardée de 2 unités δ, Clk1 sera retardée de 2∗δ₂ , soit d’une unité δ.

Prenons l’exemple d’un bit α pour lequel il a fallu faire N diminutions de la période d’horloge pour y injecter une faute. On dira que l’on a détecté (ou fauté) le bit α. Son temps de calcul Tα (en ps) est défini par l’équation 3.6. On choisit de stresser le dernier tour de calcul du circuit cible afin de pouvoir retrouver aisément les bits qui ont été fautés `

a partir du résultat en sortie, car les résultats altérés ne repassent pas dans la logique combinatoire.

2 Clk Clk Clk Clk’ 1 2 Clk T - 2 Clk T

Figure 3.6 – Construction de l’horloge ”glitch´ee”

Tα = Tclock− N ∗ 35 (3.6)

50 000 acquisitions ont été effectuées sur un oscilloscope en mode pertinence afin d’étu- dier la stabilité de la diminution d’une période au regard du phénomène de gigue de l’horloge (variation dans le temps d’un événement périodique) pour 2 valeurs de stress. Cette ´

etude permet de justifier l’importance de réitérer les mêmes mesures un grand nombre de fois et vérifie aussi que le pas de diminution est bien de 35 ps.

Les figures3.7et3.8illustrent le phénomène de gigue d’horloge pour 100 et 110 diminutions. Les résultats sont résumés dans le tableau 3.1. Malgré une amplitude de 380 ps, les 50 000 acquisitions ont permis de calculer les valeurs moyennes du front montant de l’horloge. En comparant ces deux résultats, on obtient une différence de 350 ps pour 10 stress : le pas de diminution correspond bien à 35 ps. Néanmoins, pour respecter ce pas, il convient d’effectuer un grand nombre de mesures. La même approche a été effectuée pour 1 000 acquisitions : un pas de 35 ps fut également mesuré. Lors des études à venir, le nombre de répétition sera fixé à 1 000.

Nombre Amplitude Valeur moyenne

de stress appliqu´es de la gigue (en ps) du front montant de l’horloge (en ps)

100 380 96 100

110 380 95 750

3.2. Injection de fautes par modification transitoire de la fr´equence d’horloge

Figure 3.7 – Ph´enom`ene de gigue d’horloge pour 100 stress

Figure 3.8 – Ph´enom`ene de gigue d’horloge pour 110 stress

3.2.2 Approche de d´etection

La figure3.9permet d’illustrer l’impact que peut avoir un CTM sur les temps de calcul. On prend l’exemple d’un circuit composé de 3 signaux internes (a, b, c). Comme décrit dans la section 3.1.2, les délais de ces bits sont mesurés en diminuant la période horloge de fa¸con progressive.

Des mesures identiques sont effectuées sur une puce fiable afin d’obtenir les temps de calcul des bits non perturbés par la présence du CTM (chronogramme en trait continu noir sur la figure).

Diminution de la période d’horloge par pas de 35 ps a b c Période D_a D b D_c : temps supplémentaire dû à la présence d’un CTM T clock

Figure 3.9 – Impact d’un CTM sur les temps de calcul

CTM (entourées en rouge sur la figure3.9). Dans cet exemple, seuls les bits a et c sont impactés par la présence du CTM (partie rouge en pointillé).

3.2.3 Protocole exp´erimental

Un code en Perl permet d’automatiser la communication entre l’ordinateur, la carte `a traiter et l’horloge externe.

Algorithme 1 Proc´edure d’injection de glitch d’horloge

1: for texte P allant de 1 `a NP do

2: Envoi du texte P et de la cl´e

3: Premier chiffrement dans les conditions nominales de fonctionnement

4: Récupération du chiffré correct (Ccorrect) qui servira de référence

5: for Diminution d’une p´eriode d’horloge allant de 1 `a Nstress do

6: Augmentation du stress appliqu´e au circuit cible

7: for N allant de 1 `a Nmax do

8: Chiffrement

9: Récupération du chiffré (Ctemp)

10: D´etermination des temps de calcul des bits faut´es

11: end for

12: end for

13: end for

Les donn´ees manipul´ees ont de l’influence sur le temps de calcul internes d’un bit α. `

A chaque réduction d’horloge effectuée, plusieurs bits sont fautés. Les données récupérées correspondent aux temps de calcul des bits qui ont été fautés. Toutes les durées ne peuvent ˆ

3.3. FPGA

est perturbée à son tour, ce qui engendre une interruption du fonctionnement global du circuit étudié. Par conséquent, tous les temps de calcul ne peuvent être mesurés (cf figure

5.1). Chaque bit détecté est alors associé au nombre de diminutions qu’il a fallu pour le corrompre. Cela permet de calculer la longueur de son temps de calcul (cf section 3.2). Pour un texte P considéré, si un bit n’a pas été fauté, alors la valeur de son délai est défini `

a la valeur NaN (pour ”Not a Number”) dans la matrice des mesures. Cet élément ne sera alors pas considéré dans les calculs suivants.

Afin de réduire l’incertitude liée à la métastabilité (cf section3.1.2), les mesures sont répétées plusieurs fois (cf indice N dans l’équation 1). Les distributions de délais obtenues sont approximées en considérant la moyenne de ces données.

3.3 FPGA

Le travail a été réalisé sur des circuits intégrés de type FPGA (Field-Programmable Gate Array) afin de valider expérimentalement les hypothèses émises ainsi que les modèles proposés. Ces circuits ont l’avantage d’être composés de réseaux de portes logiques pro- grammables, contrairement aux ASIC qui sont des circuits intégrés con¸cus pour réaliser des fonctions précises et spécifiques. Les cartes FPGA émulent le comportement des ASIC `

a moindre coˆut.

Les FPGA offrent des avantages intéressants d’un point de vue du test. Le routage ainsi que les fonctionnalités du circuit émulé peuvent être facilement modifiés, allant d’altéra- tions importantes aux plus minimes. Cette reconfiguration à souhait des FPGA permet de simuler le comportement d’un grand nombre de CTM, comme étudié dans [24]. Ils font appel à la technologie Complementary Metal Oxide Semi-conductor (CMOS).

CLB I O B I O B CLB SM CLB CLB SMSM SM I O B I O B CLB CLB SM Bloc de logique configurable

(Configurable Logic Bloc)

Bloc d’entrée/sortie (In/Out Bloc) I O B SM SMSM Matrice de connexions configurables (Switching Matrix) Canaux de routage

Schématiquement, les FPGA sont composés d’une matrice de blocs logiques configurables (CLB) qui permettent de réaliser des fonctions séquentielles et combinatoires. Ces blocs sont composés de slices (appelés ainsi chez Xilinx, l’entreprise qui a inventé la technologie FPGA). Le nombre de slices dépend du type de FPGA.

L’ensemble des travaux expérimentaux ont été effectués sur des cartes Spartan 3AN [105] (XC3S700AN) qui comprennent 4 slices par CLB, deux slices de type L et deux de type M. Une slice est composée de 2 Look Up Tables (LUT, composées chacune de 4 entrées pour programmer des fonctionnalités dans le FPGA), de bascules D en sortie pour assurer une bonne synchronisation des signaux, de multiplexeurs et d’une chaine de propagation rapide de retenue. La différence entre ces slices M et L réside dans le fait que lorsque la LUT pour les slices M n’est pas employée pour implémenter une fonction, elle peut être utilisée comme une mémoire. Au total, ces FPGA sont composés de 1 472 CLB, soit de 5 888 slices. Certains FPGA, tels que les Spartan 6, disposent de slices composées de 4 LUT, ayant chacune 6 entrées. Dans ce cas, il est possible de réduire en termes de slices occupées la taille du CTM, car la logique pourra être condensée plus aisément. Néanmoins, le ratio de la taille du CTM par rapport à celle du circuit ne va pas diminuer.

L’interface avec les modules extérieurs est assurée par des blocs d’entrée/sortie (IOB) situés tout autour des CLB et des “matrices d’interconnexions” (SM) établissent la connexion entre les lignes.

3.4 Cibles ´etudi´ees

Notre choix d’étude porte sur deux implantations détaillées dans ce paragraphe : – le circuit XOR qui permet de comprendre les modifications que peuvent subir les

temps de calcul de bits soumis `a des violations de contraintes temporelles,

– le circuit AES qui représente un cas concret d’implémentation d’un algorithme cryp- tographique de référence.

3.4.1 Circuit XOR

Le circuit XOR (présenté sur la figure 3.11) modélise une implantation de faible com- plexité. Ce circuit a été mis au point afin d’étudier précisément son comportement sous l’effet de violations de contraintes temporelles. Son implantation permet de se focaliser sur les éléments extérieurs pouvant modifier le délai d’un bit par exemple.

L’implantation est composée de deux tours, chacun comprenant un bloc de retard suivi d’un “ou-exclusif” dont les entrées sont une clé et un texte clair (on le désignera par plaintext ) sur 4 bits. Le bloc de retard est constitué de suiveurs qui n’ont pas d’effet sur la donnée manipulée. Compte tenu de cette implantation, le texte en sortie est identique

3.4. Cibles ´etudi´ees XOR Plaintext Clé XOR _Résultat : un bit Retard Retard

Figure 3.11 – Montage XOR

au texte clair dans les conditions normales de fonctionnement.

Plaintext S₁ S₂ S_a S₁ S₂ S_b S₁ S₂ S_c S₁ S₂ S_d Clé Résultat pour une opération

XOR

: un bit S : une unité de retard (suiveur)

Retard

Figure 3.12 – D´etail d’un tour du montage XOR

Les hardmacros permettent de décrire une fonction en indiquant la fa¸con dont les éléments logiques sont connectés entre eux, les chemins physiques empruntés ainsi que les motifs de câblages. On utilise des hardmacros de suiveurs afin d’augmenter les temps de traversé de la logique combinatoire. Au niveau du code VHDL (cf section3.5), le nombre de suiveurs peut être modifié pour chaque bit du plaintext (représenté par a, b, c et d sur la figure3.12). Cela permet de moduler la durée du retard imposé.

3.4.2 Circuit AES

L’AES (Advanced Encrytion Standard) est un algorithme de chiffrement symétrique con¸cu par Joan Daemen et Vincent Rijmen. Il est également connu sous le nom de Rijndael. Lauréat du concours lancé par le NIST [29] en 1997, il a été défini comme standard de

référence en 2000. Cet algorithme à clé secrète est organisé en blocs de matrices de 4*4 octets, ici notées ai,j. Il permet de produire un texte chiffré (128 bits) à partir d’une clé (de 128, 192 ou 256 bits) et d’un plaintext (de 128 bits). L’algorithme est composé de tours (ou rondes) dont le nombre de tours dépend de la taille de la clé (10 pour 128 bits, 12 pour 192 et 14 pour 256 bits). Dans notre cas d’étude, un AES avec une taille de clé de 128 bits est utilisé.

On distingue quatre étapes (ou transformations) dans cet algorithme s’effectuant à chaque tour (excepté sur le dernier) comme illustré sur la figure 3.13:

– AddRoundKey : ajout de la clé de tour, – SubBytes : substitution non linéaire, – ShiftRows : décalage de lignes, – MixColumns : mixage des colonnes.

AddRoundKey SubBytes ShiftRows MixColumns AddRoundKey SubBytes ShiftRows AddRoundKey Nombre de tour < 10 Nombre de tour = 10 Nombre de tour + 1

Dans le document Détection non destructive de modification malveillante de circuits intégrés (Page 54-76)