Ajustement agressif de l’alimentation pour les appli- appli-cations r´esistantes aux erreursappli-cations r´esistantes aux erreurs

R´ esum´ e ´ etendu

1.4 Ajustement agressif de l’alimentation pour les appli- appli-cations r´esistantes aux erreursappli-cations r´esistantes aux erreurs

Comme mentionné dans la section précédente, des applications basées sur des algo-rithmes statistiques et probabilistes, par exemple pour le calcul vidéo, la reconnaissance d’image, l’exploitation large échelle de données et de texte, ont une capacité inhérente à tolérer les incertitudes liées au matériel. De telles applications peuvent fonctionner avec des erreurs, évitant ainsi le besoin de matériel supplémentaire pour détecter et corriger les erreurs. Ainsi, les applications résilientes aux erreurs sont une opportunité pour la conception d’architecture approximative pour satisfaire les besoins de calcul avec une meilleure efficacité énergétique. Dans les applications résilientes aux erreurs, le calcul approximatif peut être introduit à différents niveaux et à différentes granularités.

Dans ce travail, nous utilisons une diminution agressive de la tension d’alimentation (voltage overscaling) dans les opérateurs arithmétiques ce qui cause délibérément des approximations au niveau du circuit. En réduisant la tension d’alimentation vers le niveau du seuil des transistors, des erreurs dues à des délais de propagation peuvent survenir. Le comportement des opérateurs arithmétiques fonctionnant à la région proche, ou sous le seuil, est différent par rapport à une tension d’alimentation élevée (super threshold region). Dans le cas d’un additionneur à propagation de retenu (Ripple Carry Adder – RCA), lorsque la tension d’alimentation diminue, le comportement attendue est une défaillance des chemins critiques, en commen¸cant par le plus long jusqu’au plus court, en fonction de la diminution de la tension d’alimentation. La Fig.1.5montre l’effet de la diminution de tension pour un RCA 8 bits. Lorsque la tension d’alimentation est diminuée de 1V à 0,8V, les bits de poids forts commencent à être erronés. Lorsque la tension continue à diminuer, de 0,7V à 0,6V, le plus grand taux d’erreur binaire (Bit Error Rate – BER) apparaˆıt sur les bits de poids moyens plutôt que sur les bits de poids forts. Pour une alimentation de 0,5V, presque tous les bits atteignent 50% ou plus de BER. Ce comportement impose des limitations dans la modélisation des opérateurs arithmétiques dans la région proche/sous le seuil en utilisant des modèles

classiques. Le comportement des opérateurs arithmétiques pour le réglage agressif de l’alimentation peut être caractérisé avec des simulations SPICE. Cependant le simulateur SPICE nécessite un temps long (4 jours avec un CPU 8 cœurs) pour simuler de manière exhaustive un ensemble de vecteurs d’entrées nécessaire pour caractériser les opérateurs arithmétiques.

0 1 2 3 4 5 6 7 8

Output bit position (LSB to MSB) 0 20 40 60 80 100 BER [%] 0.8V 0.7V 0.6V 0.5V

Figure 1.5: Distribution du BER sur les bits de sortie d’un RCA 8 bits sous diff´erentes tensions d’alimentation

1.4.1 Modélisation d’opérateur arithmétique avec gestion agressive de

la tension d’alimentation

Comme indiqué précédemment, il y a un besoin de développer de nouveaux modèles pour simuler le comportement d’opérateur arithmétique fautif au niveau fonctionnel. Dans cette section, nous proposons une nouvelle technique de modélisation qui est scalable pour des opérateurs de grande taille et compatible avec de nombreuses configurations arithmétiques. Le modèle proposé est précis et permet des simulations rapides au niveau algorithme en imitant l’opérateur fautif via des paramètres statistiques.

Comme la réduction d’alimentation agressive génère en priorité des fautes dans le chemin de données combinatoires le plus long, il y a un lien clair entre le chemin de propagation de retenue pour un additionneur donné et l’erreur résultante de l’addition. La Fig.1.6illustre le besoin de relation entre l’opérateur matériel contrôlé par la triade de configuration (constituée de la tension d’alimentation V_dd, la période d’horloge T_clket

sont utilisées pour générer les paramètres statistiques qui contrôlent le modèle équivalent. Ces paramètres statistiques sont obtenus à travers un processus d’optimisation hors ligne qui minimise les différences entre les sorties de l’opérateur et de son modèle statistique ´

equivalent, avec le respect de certaines métriques. Dans ce travail, nous avons utilisé trois métriques pour calibrer l’efficacité de notre modèle statistique : l’erreur quadratique moyenne (Mean Square Error – MSE), la distance de Hamming (Hamming distance) et la distance de Hamming pondérée (Weighted Hamming distance).

Hardware Operator Tclk Vdd Vbb in1 in2 x ⁱⁿ¹ in2 Ctrl P1,P2,P3,P4 ^ ^~x

Figure 1.6: ´^{Equivalence fonctionnelle de l’additionneur mat´}^eriel

1.4.2 Validation du concept: mod´elisation d’additionneurs

Dans le reste de cette section, une validation du concept est effectuée en appliquant une gestion agressive de l’alimentation (Voltage Overscaling – VOS) pour différentes configurations d’additionneurs. Tous les additionneurs subissent le VOS et sont car-actérisés par le flot décrit par la Fig.1.7. La Fig.1.8 montre le flot de conception pour modéliser les opérateurs avec VOS. Comme illustré en Fig.1.6, un modèle rudimentaire de l’opérateur matériel est créé avec les vecteurs d’entrées et les paramètres statistiques. Pour un vecteur d’entrée donné, les sorties du modèle et de l’opérateur matériel sont comparées en se basant sur les métriques définies précédemment. Le comparateur il-lustré en Fig.1.8génère le rapport signal sur bruit (Signal to Noise Ration – SNR) et la distance de Hamming pour déterminer la qualité du modèle en fonction des métriques. Le SNR et la distance de Hamming sont renvoyés dans un algorithme d’optimisation afin de configurer plus finement le modèle représentant l’opérateur sous VOS. Dans le cas d’additionneurs, seulement un paramètre Pi est utilisé pour le modèle statistique. Il est défini par Cmax, la longueur de la plus grande chaˆıne de retenu à propager.

Figure 1.7: Flot de caract´^{erisation pour op´}^{erateur arithm´}^etiques

Figure 1.8: Flot de conception pour la mod´^{elisation des op´}^{erateurs sous VOS}

Ainsi, en fonction des paramètres de fonctionnement (T_clk, V_dd, V_bb) et d’un couple d’entrée (in1, in2), le but est de trouver Cmax en minimisant la distance entre les sorties de l’opérateur matériel et de son modèle équivalent. Cette distance peut être définie par les métriques déjà présentées. Ainsi, Cmax est donnée par:

Cmax(in1, in2) = Argmin

C∈[0,N ]

kˆx (in1, in2) , ˜x (in1, in2)k

où kx, yk est la métrique de distance choisie appliquée à x et y. Etant donnée que l’espace d’exploration pour caractériser C_max, en considérant toutes les entrées possibles, est potentiellement très élevée, Cmaxest caractérisé uniquement en terme de probabilité d’apparition par une fonction liée à la plus grande chaine de propagation théorique des entrées, et notée P C_max= k|C_max^th = l . De cette manière, l’espace d’exploration

´equivalent modifi´e CmaxC_max^th 0 1 2 3 4 0 1 P (0|1) P (0|2) P (0|3) P (0|4) 1 0 P (1|1) P (1|2) P (1|3) P (1|4) 2 0 0 P (2|2) P (2|3) P (2|4) 3 0 0 0 P (3|3) P (3|4) 4 0 0 0 0 P (4|4)

L’algorithme d’optimisation utilisé pour construire l’additionneur modifié est montré en Algorithme 1. Lorsque les entrées (in₁, in₂) sont dans le vecteur d’entrée, la sortie de l’additionneur matériel ˆx est calculée. Basé sur la paire particulière (in1, in2), la chaˆıne maximale de retenue C_max^th correspondant aux entrées est déterminée. La sortie ˜

x, de l’additionneur modifié avec trois paramètres d’entrées (in1, in2, C), est calculée. La distance entre ˆx et ˜x est calculée en fonction des métriques définies pour différentes itérations en C. Le flot continue pour la totalité des vecteurs d’entrées.

begin

P (0 : N_{bit adder}| 0 : N_{bit adder}) := 0; max dist := +∞;

C_{max temp}= 0;

for variable in₁, in₂∈ training inputs do ˆ

x := add hardware(in1, in2) C_max^th := max carry chain(in1, in2); for variable C ∈ C_max^th down to 0 do

x := add modif ied(in1, in2, C); dist := kˆx, ˜xk;

if dist <= max dist then dist max := dist; C_{max temp}:= C; end

end

P (C_{max temp}|C_max^th ) + + end

P (: | :) := P (: | :)/size(training outputs); end

Algorithm 1: L’algorithme d’optimisation

Après que le processus d’optimisation hors ligne soit effectué, l’additionneur mod-ifié équivalent peut être utilisé pour générer les valeurs de sortie de n’importe quel couple d’entrée in1 et in2. Pour imiter l’opérateur exact sujet à du VOS, l’additionneur ´

1. Extraction de la chaˆıne de propagation de retenue maximale C_max^th qui serait pro-duite par l’addition exacte de in₁ et in₂.

2. Sélection d’un nombre aléatoire qui déterminera la colonne la table de probabilité, et choix de la valeur en fonction du C_max qui détermine la ligne.

3. Calcul de la somme de in1 et de in2 avec la chaˆıne de propagation de retenue limit´ee `a C_max.

La Fig. 1.9 montre l’erreur d’estimation de la modélisation de différents addition-neurs basée sur les métriques définies. Les simulations SPICE sont effectuées pour les 43 triades de configuration avec des vecteurs d’entrée de taille 20K. Les vecteurs d’entrée sont choisis de manière à ce que tous les bits d’entrées aient la même probabilité de propager une retenue. Fig. 1.9a représente le SNR pour les additionneurs 8 et 16 bits RCA et BKA. La métrique MSE montre un SNR plus grand, suivie par la distance de Hamming et la distance de Hamming pondérée. Étant donnée que la MSE et la dis-tance de Hamming pondérée prennent compte du poids des bits, ils montrent un SNR plus grand que la distance de Hamming. La Fig.1.9b montre les métriques normalisées pour les quatre additionneurs. Sur cette figure, la MSE et la distance de Hamming sont presque identiques, avec un léger avantage pour la distance de Hamming, ce qui est logique étant donnée que cette métrique donne le même impact à toutes les positions de bit. Les deux additionneurs 8 bits n’ont pas le même comportement en terme de distances entre les sorties de l’additionneur matériel et de l’additionneur modifié. D’un autre côté, le 16-bit RCA est meilleur en terme de SNR par rapport au BKA de même taille. Ces résultats démontrent la précision de l’approche proposée pour modéliser le comportement des opérateurs subissant du VOS dans un contexte de calcul approximatif.

Dans le document Error Handling and Energy Estimation Framework For Error Resilient Near-Threshold Computing (Page 36-41)