4 Impl´ ementation des expressions r´ eguli` eres

Le but de cette section est de décrire une technique d’implémentation possible des expres-sions régulières en Java. Il s’agit d’une première approche, beaucoup moins sophistiquée que celle adoptée notamment par la bibliothèque Java. Toutefois, on pourra, même avec des tech-niques simples, déjà aborder les problèmes de programmation posés et comprendre ((comment

¸ca marche )). De fait nous allons imiter l’architecture du package java.util.regexp et ´ecrire nous aussi un package que nous appelons regextout court.

Nous en profitons donc pour écrire un package. Tous les fichiers source du package regex commencent par la ligne package regex ; qui identifie leur classe comme appartenant à ce package. En outre, il est pratique de regrouper ces fichiers dans un sous-répertoire nommé justement regex.

4.1 Arbres de syntaxe abstraite

Nous reprenons les techniques de la section IV.4 sur les arbres de syntaxe abstraite. `A savoir nous d´efinissons une classeRedes nœuds de l’arbre de syntaxe abstraite.

package regex ; class Re {

private final static int EMPTY=0, CHAR=1, WILD=2, OR=3, SEQ=4, STAR=5 ; private int tag ;

private char asChar ; private Re p1, p2 ; private Re() {}

.. . }

Nous définissons cinq sortes de nœuds, la sorte d’un nœud étant identifiée par son champ tag.

Des constantes nommées identifient les cinq sortes de nœuds. La correspondance entre constante et sorte de nœud est directe, on note la présence de nœuds(( WILD ))qui représentent les jokers.

Ensuite nous définissons tous les champs nécessaires, un champ asCharutile quand le motif est un caractère (tagCHAR), et deux champsp1etp2utiles pour les nœuds internes qui ont au plus deux fils. Enfin, le constructeur par défaut est redéfini et déclaré privé.

On construira les divers nœuds en appelant des méthodes statiques bien nommées. Par exemple, pour créer un motif caractère, on appelle :

static Re charPat(char c) { // On ne peut pas nommer cette m´ethode (( char )) Re r = new Re() ;

r.asChar = c ; return r ; }

Pour créer un motif répétition, on appelle :

static Re star(Re p) { Re r = new Re() ; r.p1 = p ;

return p ; }

Les autres autres m´ethodes de construction sont ´evidentes.

Les méthodes statiques de construction ne se limitent évidemment pas à celles qui corres-pondent aux sortes de nœuds existantes. On peut par exemple écrire facilement une méthode plus qui construit un motifp+commepp*.

static Re plus(Re p) { return seq(p, star(p)) ; }

Du point de vue de l’architecture, on peut remarquer que tous les champs et le construc-teur sont privés. Rendre le construcconstruc-teur privé oblige les utilisaconstruc-teurs de la classe Re appeler les méthodes statiques de construction, de sorte qu’il est garanti que tous les champs utiles dans un nœud sont correctement initialisés. Rendre les champs privés interdira leur accès de l’extérieur de la classe Re. Au final, la politique de visibilité des noms est très stricte. Elle renforce la sécurité de la programmation, puisque si nous ne modifions pas les champs dans la classe Re, nous pourrons être sûrs que personne ne le fait. En outre, la classe Ren’est pas publique, son accès est donc limité aux autres classes du packageregex. La classeReest donc complètement invisible pour les utilisateurs du package.

4.2 Fabrication des expressions r´eguli`eres

Nous présentons maintenant notre classe Pattern, un modeste remplacement de la classe ho-monyme de la bibliothèque Java. Pour le moment nous évitons les automates et nous contentons de cacher un arbre Redans un objet de la classe Pattern.

package regex ;

/* Une classe Pattern simple : encapsulage d’un arbre de syntaxe abstraite */

public class Pattern { private Re pat ;

private Pattern(Re pat) { this.pat = pat ; } // Cha^ıne -> Pattern

public static Pattern compile(String patString) { Re re = Re.parse(patString) ;

return new Pattern(re) ; }

// Fabriquer le M atcher

public Matcher matcher(String text) { return new Matcher(pat, text) ; } }

Comme dans la classe de la bibliothèque, c’est la méthode statique compile qui appelle le constructeur, ici privé. La partie la plus technique de la tâche de la méthode compile est le passage de la syntaxe concrète contenue dans la chaˆıne patString à la syntaxe abstraite représenté par un arbre Re, opération déléguée à la méthode Re.parse. Nous ne savons pas

écrire cette méthoded’analyse syntaxique (parsing). (cours INF 431). Mais ne soyons pas dé¸cus,

nous pouvons déjà par exemple construire le motif qui reconnaˆıt au moins k caractères c, en appelant la méthode atLeast suivante, à ajouter dans la classe Pattern.

public static Pattern atLeast(int k, char c) { return new Pattern(buildAtLeast(k, c)) ; }

private static Re buildAtLeast(int k, char c) { i f (k <= 0) {

return Re.empty() ; } else i f (k == 1) {

return Re.charPat(c) ; } else {

return Re.seq

(Re.charPat(c),

Re.seq(Re.star(Re.wild()), buildAtLeast(k-1, c))) }

}

Enfin, la m´ethode matcher de de la classe Pattern se contente d’appeler le constructeur de notre modeste classe Matcher, que nous allons d´ecrire.

4.3 Filtrage

Le source de la classe Matcher (figure 6) indique que les objets contiennent deux champs pat ettext, pour le motif et le texte `a filtrer. Comme on pouvait s’y attendre, le constructeur Matcher(Re pat, String text)initialise ces deux champs. Mais les objets comportent trois champs suppl´ementaires, mStart,mEnd et regStart.

La valeur du champregStartindique l’indice danstextdu début de la recherche suivante, c’est-à-dire où la méthodefinddoit commencer à chercher une sous-chaˆıne filtrée parpat.

Ce champ permet donc aux appels successifs defind de communiquer entre eux.

Les champsmStartetmEnd identifient la position de la dernière sous-chaˆıne detext dont un appel à find a déterminé que le motif pat la filtrait. La convention adoptée est celle de la méthode substring des objets String (voir la section B.6.1.3). Les deux champs servent à la communication entre un appel à find et un appel subséquent à group (voir la fin de la section 3.3).

La méthode find est la plus intéressante, elle cherche à identifier une sous-chaˆıne filtrée par pat, à partir de la position regStart et de la gauche vers la droite. La technique adoptée est franchement na¨ıve, on essaie tout simplement de filtrer successivement toutes les sous-chaˆınes commen¸cant à une positon donnée (start) des plus longues à la chaˆıne vide. On renvoie true (après mise à jour de l’état duMatcher), dès qu’une sous-chaˆıne filtrée est trouvée. Pour savoir si une sous-chaˆınetext[start. . .end[est filtrée, on fait appel à la méthode statiqueRe.matches.

Notons que c’est notre parti-pris de rendre privés tous les champs de l’arbre de syntaxe des expressions régulière qui oblige à écrire toute méthode qui a besoin d’examiner cette structure comme une méthode de la classe Re.

Exercice 5 Ecrire la méthode´ matches de la classe Matcher. On suivra la spécification de la classeMatcherde la bibliothèque. À savoir, l’appelmatches()teste le filtrage de toute l’entrée par le motif et on peut utiliser group() pour retrouver la chaˆıne filtrée.

Solution.C’est simple : un appel `aRe.matcheset on affecte les champsmStart etmEnd selon le r´esultat.

Fig. 6 – Notre classe Matcher package regex ;

public class Matcher { private Re pat ; private String text ;

// Les recherches commencent `a cette position dans text private int regStart ;

// La derni`ere sous-cha^ıne filtr´ee est text[mStart...mEnd[

private int mStart, mEnd ; Matcher(Re pat, String text) {

this.pat = pat ; this.text = text ;

regStart = 0 ; // Commencer à filtrer à partir du début mStart = mEnd = -1 ; // Aucun motif encore reconnu

}

// Renvoie la derni`ere sous-cha^ıne filtr´ee, si il y a lieu public String group() {

i f (mStart == -1) throw new Error("Pas de sous-cha^ıne filtr´ee") ; return text.substring(mStart, mEnd) ;

}

// Méthode de recherche des sous-cha^ınes filtrées a peu près // conforme à celle des Matcher de java.util.regex

public boolean find() {

for (int start = regStart ; start <= text.length() ; start++) for (int end = text.length() ; end >= start ; end--) {

i f (Re.matches(text, pat, start, end)) { mStart = start ; mEnd = end ;

regStart = mEnd ; // Le prochain find commencera apr`es celui-ci return true ;

} }

mStart = mEnd = -1 ; // Pas de sous-cha^ıne reconnue regStart = 0 ; // Recommencer au d´ebut, bizarre return false ;

} }

public boolean matches() {

i f (Re.matches(text, pat, 0, text.length())) { mStart = 0 ;

mEnd = text.length() ; return true ;

} else {

mStart = mEnd = -1 ; return false ;

} }

Pour écrire la méthode matches de la classe Re, nous allons distinguer les divers motifs possibles et suivre la définition de pm de la figure 3.

// Test de pat text[i. . .j[

static boolean matches(String text, Re pat, int i, int j) { switch (pat.tag) {

.. . }

throw new Error ("Arbre Re incorrect") ; }

Notons bien que text[i. . .j[ est la chaˆıne dont nous cherchons à savoir si elle est filtrée par pat. La longueur de cette chaˆıne estj-i. Nous écrivons maintenant le source du traitement des cinq sortes de motifs possibles, c’est à dire la liste des cas du switchci-dessus. Le cas des motifs vide, des caractères et du joker est rapidement réglé.

case EMPTY:

return i == j ; case CHAR:

return i+1 == j && text.charAt(i) == pat.asChar ; case WILD:

return i+1 == j ;

En effet, le motif vide filtre la chaˆıne vide et elle seule (j−i = 0), le motif caractère ne filtre que la chaˆıne composée de lui même une fois, et le joker filtre toutes les chaˆınes de longueur un.

Le cas de l’alternative est ´egalement assez simple, il suffit d’essayer les deux termes de l’alternative (regles OrLeft etOrRight).

case OR:

return matches(text, pat.p1, i, j) || matches(text, pat.p2, i, j) ; La séquence (ruleSeq) demande plus de travail. En effet il faut essayertoutes les décompositions en préfixe et suffixe de la chaˆıne testée, faute de quoi nous ne pourrions pas renvoyer false avec certitude.

case SEQ:

for (int k = i ; k <= j ; k++) {

i f (matches(text, pat.p1, i, k) && matches(text, pat.p2, k, j)) return true ;

}

return false ;z

Et enfin, le cas de la répétitionq*est un peu plus subtil, il est d’abord clair (règleStarEmpty) qu’un motif q* filtre toujours la chaˆıne vide. Si la chaˆıne text[i. . .j[ est non-vide alors on cherche à la décomposer en préfixe et suffixe et à appliquer la règleStarSeq.

case STAR:

i f (i == j) { return true ; } else {

for (int k = i+1 ; k <= j ; k++) {

i f (matches(text, pat.p1, i, k) && matches(text, pat, k, j)) return true ;

}

return false ; }

On note un point un peu subtil, dans le cas d’une chaˆıne non-vide, on évite le cas k = j qui correspond à une division de la chaˆıne testée en préfixe vide et suffixe complet. Si tel n’était pas le cas, la méthode matches pourrait ne pas terminer. En effet, le second appel récursif matches(text, pat, k, j) aurait alors les mêmes arguments que lors de l’appel. Un autre point de vue est de considérer que l’application de la règleStarSeqà ce cas est inutile, dans le sens qu’on ne risque pas de ne pas pouvoir prouverq*mparce que l’on abstient de l’employer.

q ǫ q*m q*m

L’inutilité de cette règle est particulièrement flagrante, puisqu’une des prémisses et la conclusion sont identiques.

4.4 Emploi de notre package regex

Nos classes Pattern etMatchersont suffisamment proches de celles de la biblioth`eque pour que l’on puisse, dans le sourceGrep.java(figure 5), changer la ligneimport java.util.regex.*

en import regex.*, ce qui nous donne le nouveau source ReGrep.java. Dès lors, à condition que le source des classes du package regex se trouve dans un sous-répertoireregex, nous pou-vons compiler par javac ReGrep.java et nous obtenons un nouveau programme ReGrep qui utilise notre implémentation des expressions régulières à la place de celle de la bibliothèque.

Nous nous livrons ensuite à des expériences en comparant les temps d’exécution (par les commandestime java Grep . . . ettime java ReGrep . . . ).

(1) Dans le dictionnaire fran¸cais, nous recherchons les mots qui contiennent au moins n fois la même voyelle non accentuée. Par exemple, pourn= 3 nous exécutons la commande :

% java Grep ’(a.*a.*a|e.*e.*e|i.*i.*i|o.*o.*o|u.*u.*u)’ /usr/share/dict/french

1 2 3 4 5 6

Grep 2.7 2.5 1.9 1.7 1.6 1.5

ReGrep 3.1 9.7 16.4 17.9 18.6 18.0

On voit que notre technique, sans ˆetre ridicule, est nettement moins efficace.

(2) Toujours dans le dictionnaire fran¸cais, nous recherchons les mots qui contiennent n fois la lettre e, apr`es effacement des accents. Par exemple, pour n = 3 nous ex´ecutons la commande :

% java Grep ’(e|é|è|ê).*(e|é|è|ê).*(e|é|è|ê)’ /usr/share/dict/french

1 2 3 4 5 6 7

Grep 2.9 2.2 1.9 1.7 1.6 1.5 1.5

ReGrep 3.1 9.0 12.8 15.2 15.8 16.0 15.9

Cette expérience donne des résultats similaires à la précédente. Plus précisément d’une part la bibliothèque est plus rapide en valeur absolue ; et d’autre part, nos temps d’exécution sont croissants, tandis que ceux de la bibliothèque sont décroissants. Mais et c’est impor-tant, il semble bien que les temps se stabilisent dans les deux cas.

(3) Nous recherchons une sous-chaˆıne filtrée par X(.+)+X dans la chaˆıne XX=· · ·=, où =· · ·= est le caractère = répété n fois. Cette reconnaissance doit échouer, mais nous savons [3, Chapitre 5] qu’elle risque de mettre en difficulté l’implémentation de la bibliothèque.

16 18 20 22 24

Grep 0.3 0.5 1.3 4.8 18.6

ReGrep 0.2 0.2 0.2 0.2 0.2

Et effectivement l’emploi de la bibliothèque conduit à un temps d’exécution manifestement exponentiel. Il est fascinant de constater que notre implémentation ne conduit pas à cette explosion du temps de calcul.

Dans le document Cours programmation et algorithmique – Cours et formation gratuit (Page 144-150)