M´ ethodologie - D´ etection symbolique de pr´ edicats opaques

4.2 D´ etection symbolique de pr´ edicats opaques

4.2.2 M´ ethodologie

La méthode mise en œuvre pour détecter des prédicats opaques dans les conditions de branchement est la suivante :

? Étape 0, récupération des blocs de base : Désassemblage statique de code binaire puis construction d’un CFG pour obtenir la liste des blocs de base du programme. Cette étape peut être effectuée par des outils tels que IDA, Radare, Ghidra, . . .

? ´Etape 1, construction des contraintes : Pour chaque bloc de base ter-

minant par un saut conditionnel, lancer une instance de Triton en rendant symbolique l’ensemble des registres ainsi que chaque lecture mémoire† – les écritures mémoire sont de fait inutiles. Cela correspond à suivre précisément les registres tout en abstrayant complètement la mémoire. Puis exécuter avec Triton chacune des instructions du bloc de base. Ce dernier se charge de construire les expressions symboliques de chaque affectation (cellules mémoire, registres et drapeaux) y compris celles du pointeur d’instructions. Si le bloc de base contient des appels externes, ignorer les appels et symboliser leur valeur de retour ce qui résulte en une sur-approximation de ces dernières. ? Étape 2, détection des prédicats opaques : Pour chaque bloc de base,

récupérer le prédicat de chemin φ construit par Triton et vérifier qu’il est SAT, puis faire de même avec sa négation _{¬φ. Si, l’un des deux prédicats φ} ou_{¬φ est UNSAT, cela signifie que l’une des deux branches est inatteignable} et qu’il existe un prédicat opaque dans la condition de branchement. Atten- tion, à l’inverse si les deux prédicats de chemin sont SAT cela ne garantit pas l’absence d’un prédicat opaque dans la condition de branchement car nous effectuons une sur-approximation du raisonnement symbolique (voir Section 4.2.3), tout étant symbolisé en début de bloc.

†_{Note importante : Par d´}_{efaut Triton concr´}_{etise les acc`}_{es m´}_{emoire et renvoie}

l’expression symbolique ϕ assignée à la cellule mémoire indexée (voir règle @ en Figure 3.9). Lors de l’étape 1, pour pouvoir renvoyer une nouvelle variable symbolique lorsqu’une lecture mémoire a lieu, il faut interagir sur le comportement initial du moteur symbolique de Triton. Pour cela, nous utilisons une fonctionnalité de Triton nous permettant de placer des hooks sur différentes étapes (lecture, écriture, . . .) de ses composants internes (concret, symbolique, . . .). Les hooks ne permettent pas de modifier le comportement des règles d’ana- lyses mais uniquement de modifier le contexte avant et après l’application de ces

dernières. Nous utilisons donc le mécanisme de hooks pour initialiser les cellules mémoire avant chaque lecture de ces dernières (règle @) en y pla¸cant des nou- velles variables symboliques. Cela résulte en une sur-approximation des lectures mémoire. Un exemple d’utilisation des hooks est présentée ci-après.

Sur-approximation des lectures m´emoire : Dans ce cas d’´etude, l’usage

de hook permettant de créer une nouvelle variable symbolique dès qu’une lecture mémoire à lieu, nous permet de prendre en compte l’ensemble des possibilités venant de la mémoire (peu importe l’indexation de la lecture). Pour illustrer ce concept, prenons comme exemples les pseudo-codes des listings suivants.

x := @a y := @b if ( x > y ) { ... } ... Listing 4.2 – Exemple 1 x := @a y := @a if ( x == y ) { ... } ... Listing 4.3 – Exemple 2 @a := x y := @a if ( x == y ) { ... } ... Listing 4.4 – Exemple 3

Toutes les cellules m´emoire lues se verront assigner une nouvelle variable sym-

bolique. Dans l’exemple du Listing 4.2, au moment de la lecture m´emoire @a,

Triton concrétise l’adresse pointée par a (disons 0x1000) et assigne son contenu à la variable x. Ici, avec l’usage des hooks, on va donc construire une variable symbolique (disons v1) et l’assigner à la variable x (x := v1). On fait de même avec

la lecture @b (y := v2). Au moment de la condition de branchement, nous avons

donc un pr´edicat avec deux variables symboliques (v1 > v2) et cela peu importe la

valeur des adresses initiales.

Dans l’exemple du Listing 4.3 les variables x et y sont initialisés avec le contenu mémoire pointé par a. Dans cet exemple, x et y se verront assigner deux variables symboliques distinctes alors qu’elles pointaient sur la même adresse mémoire. Lors de la condition de branchement le prédicat sera alors vrai ou f aux alors qu’il devrait toujours être vrai. Ce qui résulte en une sur-approximation des valeurs.

Dans l’exemple du Listing 4.4 la variable x est issue d’une assignation précédente (ex. bloc de base parent), on dit alors qu’elle est externe au périmètre local du bloc de base courant et donc symbolique (x := v1). Lors de l’instruction @a := x, la

variable v1 est placée à l’adresse de a mais lors de deuxième instruction, nous char-

geons tout de mˆeme une nouvelle variable symbolique dans y (y := v2) car une

lecture mémoire a lieu et tout contenu lu se voit symbolisé. Lors de la condition de branchement le prédicat sera alors vrai ou f aux alors qu’il devrait toujours être vrai. Ce qui résulte en une sur-approximation des valeurs.

Travaux similaires pour la détection de POs : David et al. [16] on travaillé sur des travaux similaires en effectuant une analyse symbolique dite en arrière bornée (Backward-Bounded DSE ). Cela signifie qu’ils partent de chaque condition de branchement dans le programme à une position X et effectue une exécution

symbolique de X _{− N à X où N est le nombre fixe d’instructions à remonter}

dans le CFG (dans leur étude la délimitation est fixée à 16 instructions). Notre méthode est d’ailleurs proche de BB-SE [16] mais avec une borne dynamique (fin d’un bloc de base) au lieu d’une taille fixe d’instructions et nous calculons en avant (à partir de la limite jusqu’à la condition de branchement) plutôt que en arrière (de la condition de branchement vers la limite). Cependant, tout comme David et al. nous calculons le même objet prek _(pr´_ed´_{ecesseurs en moins de k ´}_{etapes). Pour}

r´esumer, les diff´erences sont essentiellement :

1. Borne dynamique mais au sein d’un mˆeme bloc de base ; 2. Sur-approximation agressive de la m´emoire ;

Par ailleurs, notre m´ethode est proche de celle de DoSE [93]. Tout comme

DosE, nous effectuons une analyse symbolique bloc par bloc en avant born´ee.

Leur méthode est principalement utilisée pour déterminer l’équivalence de deux blocs de base (détection de prédicat opaque de type Two-Way). Cependant ils peuvent également détecter la présence de prédicats opaques dans les conditions de branchement (classe de prédicats opaques qu’ils ne considèrent pas).

Dans le document L’usage de l’exécution symbolique pour la déobfuscation binaire en milieu industriel (Page 88-90)