Conclusions - Cours informatique complet et programmation

8.4 Conclusions

Nous venons de voir comment stocker des informations présentant des liens entre elles. Ce n’est qu’une partie de l’histoire. Dans les bases de données, on stocke des informations pouvant avoir des liens compliqués entre elles. Pensez à une carte des villes de France et des routes entre elles, par exemple. Des structures de données plus complexes seront décrites dans les autres cours (graphes par exemple) qui permettront de résoudre des problèmes plus complexes : comment aller de Paris à Toulouse en le moins de temps possible, etc.

Recherche exhaustive

Ce que l’ordinateur sait faire de mieux, c’est traiter très rapidement une quantité gigantesque de données. Cela dit, il y a des limites à tout, et le but de ce chapitre est d’expliquer sur quelques cas ce qu’il est raisonnable d’attendre comme temps de résolution d’un problème. Cela nous permettra d’insister sur le coût des algorithmes et de la fa¸con de les modéliser.

9.1 Rechercher dans du texte

Commen¸cons par un probl`eme pour lequel de bonnes solutions existent.

Rechercher une phrase dans un texte est une tâche que l’on demande à n’importe quel programme de traitement de texte, à un navigateur, un moteur de recherche, etc. C’est également une part importante du travail accompli régulièrement en bio-informatique.

Vues les quantités de données gigantesques que l’on doit parcourir, il est crucial de faire cela le plus rapidement possible. Le but de cette section est de présenter quelques algorithmes qui accomplissent ce travail.

Pour modéliser le problème, nous supposons que nous travaillons sur un texteT (un tableau de caractèreschar[], plutôt qu’un objet de typeStringpour alléger un peu les programmes) de longueurndans lequel nous recherchons un motifM (un autre tableau de caractères) de longueur m que nous supposerons plus petit que n. Nous appelerons occurence en position i>0 la propriété queT[i]=M[0], . . . ,T[i+m-1]=M[m-1].

Recherche na¨ıve

C’est l’idée la plus naturelle : on essaie toutes les positions possibles du motif en dessous du texte. Comment tester qu’il existe une occurrence en position i? Il suffit d’utiliser un indice j qui va servir à comparerM[j] àT[i+j]de proche en proche : static boolean occurrence(char[] T, char[] M, int i){

for(int j = 0; j < M.length; j++) if(T[i+j] != M[j]) return false;

return true;

}

Nous utilisons cette primitive dans la fonction suivante, qui teste toutes les occu-rences possibles :

101

static void naif(char[] T, char[] M){

System.out.print("Occurrences en position :");

for(int i = 0; i < T.length-M.length; i++) if(occurrence(T, M, i))

System.out.print(" "+i+",");

System.out.println("");

}

Si T contient les caract`eres de la chaˆıne "il fait beau aujourd’hui"et M ceux de

"au", le programme affichera

Occurrences en position: 10, 13,

Le nombre de comparaisons de caractères effectuées est (n−m)m, puisque chacun desn−mtests en demandem. Simest négligeable devantn, on obtient un nombre de l’ordre de nm. Le but de la section qui suit est de donner un algorithme faisant moins de comparaisons.

Algorithme lin´eaire de Karp-Rabin

Supposons que S soit une fonction (non nécessairement injective) qui donne une valeur numérique à une chaˆıne de caractères quelconque, que nous appeleronssignature: nous en donnons deux exemples ci-dessous. Si deux chaˆınes de caractères C1 et C2sont identiques, alors S(C1) =S(C2). Réciproquement, siS(C1)6=S(C2), alorsC1 ne peut être égal àC₂.

Le principe de l’algorithme de Karp-Rabin utilise cette idée de la fa¸con suivante : on remplace le test d’occurrenceT[i..i+m−1] =M[0..m−1] par S(T[i..i+m−1]) = S(M[0..m−1]). Le membre de droite de ce test est constant, on le précalcule donc et il ne reste plus qu’à effectuer n−mcalculs deS et comparer la valeurS(T[i..i+m−1]) à cette constante. En cas d’égalité, on soup¸conne une occurrence et on la vérifie à l’aide de la fonction occurrence présentée ci-dessus. Le nombre de calculs à effectuer est simplement 1 +n−m évaluations deS.

Voici la fonction qui implante cette idée. Nous préciserons la fonction de signature S plus loin (codée ici sous la forme d’une fonctionsignature) :

static void KR(char[] T, char[] M){ int n, m;

}

System.out.println("");

}

La fonction de signature est critique. Il est difficile de fabriquer une fonction qui soit à la fois injective et rapide à calculer. On se contente d’approximations. Soit Xun texte de longueur m. En Java ou d’autres langages proches, il est généralement facile de convertir un caractère en nombre. Le langage unicode représente un caractère sur 16 bits et le passage du caractère cà l’entier est simplement(int)c. La première fonction

à laquelle on peut penser est celle qui se contente de faire la somme des caractères représentés par des entiers :

static long signature(char[] X, int m, int i){ long s = 0;

for(int j = i; j < i+m; j++) s += (long)X[j];

return s;

}

Avec cette fonction, le programme affichera : Occurrences en position: 10, 13, [18],

o`u on a indiqu´e les fausses occurrences par des crochets. On verra plus loin comment diminuer ce nombre.

Pour accélérer le calcul de la signature, on remarque que l’on peut faire cela de manière incrémentale. Plus précisément :

S(X[1..m]) =S(X[0..m−1])−X[0] +X[m],

ce qui remplace m additions par 1 addition et 1 soustraction à chaque étape (on a confondu X[i] et sa valeur en tant que caractère).

Une fonction de signature qui présente moins de collisions s’obtient à partir de ce qu’on appelle une fonction de hachage, dont la théorie ne sera pas présentée ici. On prend p un nombre premier etB un entier. La signature est alors :

S(X[0..m−1]) = (X[0]B^m−1+· · ·+X[m−1]B⁰) modp.

On montre que la probabilit´e de collisions est alors 1/p. Typiquement, B = 2¹⁶, p = 2³¹−1 = 2147483647.

L’intérêt de cette fonction est qu’elle permet un calcul incrémental, puisque : S(X[i+ 1..i+m]) =BS(X[i..i+m−1])−X[i]B^m+X[i+m], qui s’évalue d’autant plus rapidement que l’on a précalculé B^mmodp.

Le nombre de calculs effectués estO(n+m), ce qui représente une amélioration notable par rapport à la recherche na¨ıve.

Les fonctions correspondantes sont :

static long B = ((long)1) << 16, p = 2147483647;

// calcul de S(X[i..i+m-1])

static long signature2(char[] X, int i, int m){

long s = 0;

static long signatureIncr(char[] X, int m, int i, long s, long Bm){ long ss;

static void KR2(char[] T, char[] M){ int n, m;

long Bm, hT, hM;

n = T.length;

m = M.length;

System.out.print("Occurrences en position :");

hM = signature2(M, 0, m);

// calcul de Bm = B^m mod p Bm = B;

for(int i = 2; i <= m; i++) Bm = (Bm * B) % p;

hT = signature2(T, 0, m);

for(int i = 0; i < n-m; i++){ if(i > 0)

hT = signatureIncr(T, m, i-1, hT, Bm);

if(hT == hM){

Cette fois, le programme ne produit plus de collisions : Occurrences en position : 10, 13,

Remarques compl´ementaires

Des algorithmes plus rapides existent, comme par exemple ceux de Knuth-Morris-Pratt ou Boyer-Moore. Il est possible également de chercher des chaˆınes proches du motif donné, par exemple en cherchant à minimiser le nombre de lettres différentes entre les deux chaˆınes.

La recherche de chaˆınes est tellement importante qu’Unix poss`ede une commande grep qui permet de rechercher un motif dans un fichier. `A titre d’exemple :

unix% grep int Essai.java

affiche les lignes du fichierEssai.java qui contiennent le motifint. Pour afficher les lignes ne contenant pas int, on utilise :

unix% grep -v int Essai.java

On peut faire des recherches plus compliqu´ees, comme par exemple rechercher les lignes contenant un 0 ou un 1 :

unix% grep [01] Essai.java Le dernier exemple est :

unix% grep "int .*[0-9]" Essai.java

qui est cas d’expression régulière. Elles peuvent être décrites en termes d’automates, qui sont étudiés en cours d’Informatique Fondamentale. Pour plus d’informations sur la commande grep, tapez man grep.

Dans le document Cours informatique complet et programmation – Cours et formation gratuit (Page 102-107)