Limitations et contre-mesures - L’usage de l’exécution symbolique pour la déobfuscation binair

Dans cette section nous discutons des limitations de notre approche ainsi que des contre-mesures pouvant être misent en place afin de contrer notre analyse. Pour cela, nous commen¸cons par introduire les définitions des termes résultat correct, résultat complet et résultat pertinent.

5.7.1 Propri´et´es attendues

Soit la fonction f0 obtenue à partir d’une fonction f avec notre approche. On note φw la disjonction logique de l’ensemble des prédicats de chemin calculé en

reconstruisant f0. On d´efinit Sf0 comme l’ensemble des valeurs satisfaisant φ_w. S_f0

est le support de construction de f0.

Résultat correct : Soit f0 la fonction reconstruite d’une fonction virtualisée f , et Sf0 son support de construction. On considère que la fonction f0 est correcte

si pour toutes les entrées dans Sf0, la valeur retournée par l’exécution de f0 est

identique à celle retournée par l’exécution de f . Soit : _{∀x ∈ S}f0, f0(x) = f (x). Si

la fonction dévirtualisée est correcte, on dit que le résultat de notre approche est correct.

Résultat complet : Soit f0 la fonction reconstruite d’une fonction virtualisée f , et Sf0 son support de construction comprenant toutes les entrées (x ∈ X).

On considère que la fonction f0 est complète si pour toutes les entrées dans Sf0, la

valeur retournée par l’exécution de f0 est identique à celle retournée par l’exécution de f . Soit : _{∀x ∈ S}f0, f0(x) = f (x). Si la fonction dévirtualisée est complète, on

dit que le r´esultat de notre approche est complet.

Résultat pertinent : Soit f0 la fonction reconstruite d’une fonction virtualisée f . On dit que le résultat de notre analyse est pertinent si la concision (critère C1,

Section 5.4.1) de la fonction f0(x) est b´en´efique pour un analyste.

Le Tableau 5.8 est l’aper¸cu des conséquences de chacune des limitations sur le résultat de notre approche, ces limitations étant ensuite discutées dans les sections qui suivent.

R´esultat de notre approche

Pr´esence d’index symbolique incorrect & incomplet

Couverture incompl`ete des chemins incomplet

Timeout du solveur de contraintes incomplet

sous-approximation de la teinte incorrect & incomplet

sur-approximation de la teinte non pertinent

Bytecode prot´eg´e non pertinent

†_{Cas nominal} _{correct, complet et pertinent}

Table 5.8 – Aper¸cu des cons´equences de chacune des limitations sur le r´esultat de notre approche.

† : indexes concrets, peu de chemins, teinte et solveur ok

5.7.2 Accès mémoire à index symbolique

La politique de concr´etisation du moteur symbolique de Triton (voir Sec-

tion 3.5.3, Figure 3.10) ne nous permet pas d’avoir une représentation des accès mémoires sous la forme symbolique. Cela signifie que l’implémentation de notre approche (voir Section 5.2.7) ne nous permet de reconstruire des accès mémoire dépendants des entrées de la fonction (arguments teintés).

0 1 . char b y t e s [ ] = { 0 2 . 0 x11 , 0 x22 , 0 x33 , 0 x44 , 0 x55 , 0 x66 , 0 3 . 0 x77 , 0 x88 , 0 x99 , 0 xaa , 0xbb , 0 xcc , 0 4 . 0xdd , 0 xee , 0 x f f 0 5 . } ; 0 6 .

0 7 . unsigned f (unsigned x ) { 0 8 . i n t hash = 1 ; 0 9 . while ( x ) { 1 0 . hash ∗= b y t e s [ ( x & 0 x f f ) % s i z e o f( b y t e s ) ] ; 1 1 . x >>= 1 ; 1 2 . } 1 3 . return hash ; 1 4 . }

Listing 5.10 – Exemple d’index symbolique

Le Listing 5.10 illustre un exemple de structure de code impliquant un index symbolique. Dans cet exemple, l’argument x de la fonction f est symbolique ainsi que teinté. À la ligne 10, x est utilisé comme index dans le tableau bytes et le contenu de ce tableau est utilisé dans le calcul du hash. Compte tenu de la politique de concrétisation de Triton, ce lien entre l’argument de la fonction (qui est symbolique) et l’indexation du tableau dans le calcul du hash est perdu (concrétisé pour une entrée donnée). Cela signifie que le résultat de notre approche sera correct uniquement pour une seule entrée (celle courante) mais incorrect pour le reste des valeurs possibles de x et par conséquent incomplet.

Conclusion : En pr´esence d’indexation symbolique, le r´esultat de notre approche est incorrect et incomplet.

5.7.3 Couverture de chemins et timeout

Explosion combinatoire : La compl´etude de notre approche est bas´ee sur le

fait de pouvoir lister l’ensemble des chemins d’une fonctions virtualis´ee. Cela pose probl`eme sur des grosses fonctions en raison de l’explosion combinatoire qu’im- plique l’exploration des chemins.

Conclusion : Si l’ensemble des chemins n’est pas énuméré, le résultat de notre approche est incomplet.

Expressions trop complexes : Comment mentionné précédemment, nous de-

vons identifier toutes les branches possibles d’une fonction afin d’avoir un résultat complet. Pour cela, nous faisons appel au solveur de contraintes pour résoudre chaque condition de branchement et ainsi parcourir toutes les branches (voir Sec- tion 5.2.5.1) de la fonction virtualisée. Une contre-mesure possible pour cette étape

serait d’intégrer des expressions complexes à résoudre pour chaque condition de branchement (conditions dépendantes des entrées teintées) afin d’engendrer un délai non négligeable (ex : timeout ) côté solveur de contraintes. Ci-dessous un exemple avec le Listing 5.11 où hash(x) serait une fonction de hachage cryptogra- phique non réversible.

i n t f (i n t x ) { i f ( hash ( x ) == 0 x 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 ) /∗ . . . ∗/ e l s e /∗ . . . ∗/ }

Listing 5.11 – Contre-mesure possible pour notre ´etape de couverture de chemin

Conclusion : En présence de timeout levé par le solveur de contraintes, le résultat de notre approche est incomplet.

5.7.4 Sous ou sur-approximation de la teinte

Etant donné que nous nous reposons sur une analyse de teinte pour dissocier les instructions qui font partie de la machine virtuelle de celles qui sont exécutées pour simuler le programme d’origine, il serait possible pour un défenseur d’entrelacer ces deux séquences d’instructions pour (1) engendrer une sous-approximation de la teinte afin d’omettre certaines instructions utilisées dans le calcul du programme d’origine et donc d’impliquer une incorrection sur le résultat final, (2) engendrer une sur-approximation de la teinte afin d’intégrer le plus d’instructions teintées possibles sur la trace d’exécution. Par exemple, si nous imaginons que toutes les instructions exécutées faisant partie de la machine virtuelle sont teintées, le résultat de notre approche serait la machine virtuelle dans son intégralité (ce qui ne serait pas pertinent pour un analyste).

Conclusion : En cas d’une sous-approximation de la teinte, le r´esultat de notre approche est incorrect et incomplet. En cas d’une sur-approximation le r´esultat de notre approche est non pertinent.

5.7.5 Prot´eger le bytecode plutˆot que la VM

Une contre-mesure possible contre des attaques statiques et dynamiques serait de protéger le bytecode de la machine virtuelle plutôt que ses composants (l’un n’empêchant pas l’autre). Prenons comme exemple le code illustré dans le Listing 5.12. Cette fonction f effectue une simple multiplication de ses deux arguments.

i n t f (i n t x , i n t y ) {

return x ∗ y ; }

Listing 5.12 – ´Echantillon de fonction `a virtualiser

Supposons maintenant que nous voulions protéger ce calcul en appliquant une protection par virtualisation. Le Listing 5.13 illustre un exemple de bytecode possible qui sera simulé par une machine virtuelle. Dans notre exemple, le registre r9 est l’argument x et le registre r10 l’argument y. C’est deux registres sont mis respectivement dans r0 et r1, puis une multiplication est effectuée en pla¸cant le résultat dans r0. Le registre r0 étant le registre de retour (comme rax pour x86-64).

31 01 00 09 : MOV r0 , r 9 31 01 01 0 a : MOV r1 , r 1 0 44 00 00 01 : MUL r0 , r0 , r 1

60 : RET

Listing 5.13 – Bytecode de la fonction f

Nos exp´erimentations (voir Section 5.3) montrent clairement que ce genre

de code virtualisé (simple fonction avec un calcul sans effet de bord) permet très facilement de retrouver son code d’origine (x _{× y). En protégeant le by-} tecode de la machine virtuelle par le biais de passes d’obfuscation, cela rendrait le résultat de notre approche moins pertinent. Par exemple, l’utilisation de MBA rendrait la compréhension des expressions arithmétiques et logiques après dévirtualisation plus compliquées. Par exemple, Yongxin Zhou et al. [101] montrent qu’une opération x_{× y peut être transformée en une expression (x ∧ y) × (x ∨ y) +} (x_{∧ (¬y)) × (¬x ∧ y). Si cette transformation est appliquée sur le bytecode du} Listing 5.13, notre approche ne pourrait pas retrouver le code d’origine x_{× y et} aura pour résultat l’expression issue du MBA, ce qui nuirait à la compréhension de la fonction f .

Conclusion : En cas de bytecode protégé, le résultat de notre approche est non pertinent.

Dans le document L’usage de l’exécution symbolique pour la déobfuscation binaire en milieu industriel (Page 130-135)