• Aucun résultat trouvé

Nous nous int´eressons maintenant `a l’un des probl`emes majeurs de l’alg`ebre lin´eaire sur un corps fini pour des matrices denses non structur´ees, la triangularisation de matrice. Les triangu-larisations sont tr`es importantes en alg`ebre lin´eaire car elles permettent de simplifier la plupart des probl`emes (i.e. r´esolution de syst`emes, inverse, rang, d´eterminant, ...). Nous focalisons ici notre attention sur les algorithmes de triangularisation bas´es sur la multiplication de matrices car ils autorisent les meilleures complexit´es th´eoriques.

Une de ces triangularisations est bas´ee sur la factorisation sous forme LDU, o`u L, U et D sont respectivement un matrice triangulaire inf´erieure unitaire, une matrice triangulaire sup´ e-rieure unitaire et une matrice diagonale. L’algorithme de Gauss par blocs permet de calculer une telle factorisation. Toutefois, cette factorisation n’est envisageable que sous certaines conditions de g´en´ericit´e (inversibilit´e, profil de rang g´en´erique). Un autre algorithme propos´e en 1974 par Bunch et Hopcroft [8] permet d’´eliminer la condition sur le profil de rang g´en´erique en utilisant la notion de pivotage et en introduisant la factorisation LUP, o`u L, U et P sont respectivement une matrice triangulaire inf´erieure unitaire, une matrice triangulaire sup´erieure et une matrice de permutation. Cependant, cette factorisation ne reste possible que pour des matrices inversibles.

Enfin en 1982, Ibarra, Moran et Hui ont propos´e une g´en´eralisation de la factorisation LUP au cas singulier en introduisant les factorisations LSP/LQUP. Nous nous int´eressons ici `a l’implan-tations d’un algorithme de factorisations LSP/LQUP en insistant sur des aspects pratiques tels que la gestion m´emoire et la gestion du profil de rang. Nous proposons dans la suite plusieurs implantations r´ecursives de cette algorithme bas´ees sur la r´esolution de syst`emes triangulaires et la multiplication de matrices. Tout d’abord, nous d´etaillons le sch´ema de l’algorithme original d’Ibarra et al. [46] en pr´ecisant sa complexit´e arithm´etique. Ensuite, nous pr´esentons une im-plantation de cet algorithme appel´ee LUdivine [67, 7] permettant de r´eduire l’espace m´emoire en compressant L pour la stocker en place. Enfin, nous proposons une version totalement en place qui correspond `a la factorisation LQUP d’Ibarra et al.. On peut noter qu’il est toujours possible `a partir de ces diff´erentes versions de retrouver la factorisation LSP simplement `a partir d’extractions et de permutations.

3.2.1 Factorisation LSP

Soit A une matrice m×n d´efinie sur un corps premier Zp. La factorisation LSP de A se d´efinit par un triplet de matrices < L, S, P >tel queA=L×S×P. Les matrices Let P sont d´efinies de la mˆeme mani`ere que pour la factorisation LU P alors queS se r´eduit `a une matrice triangulaire sup´erieure non singuli`ere quand toutes les lignes nulles ont ´et´e supprim´ees. L’al-gorithme permettant de se ramener au produit de matrices est un alL’al-gorithme r´ecursif utilisant l’approche ”diviser pour r´egner”. Dans la suite nous consid´erons sans perte de g´en´eralit´e que les dimensions des matrices sont des puissances de deux.

Algorithme LSP

Entr´ees : A∈Zm×np ,m≤n

Sortie : < L, S, P >tels que A=LSP :L∈Km×m,S∈Km×n,P une permutation Sch´ema

sim=1alors

< L, S, P >:=<[ 1 ], APT, P >; tel que (APT)1,16= 0 sinonD´ecouper A en 2 blocs de m2 lignes

3.2. Triangularisations de matrices 79

Lemme 3.2.1. L’algorithme LSPest correct et le nombre d’op´erations arithm´etiques est born´e par 2(2ω−2Cω−1)mω−1(n−m22ω−2ω−1−1−1) op´erations sur K.

Preuve. La validit´e de l’algorithmeLSPs’appuie sur une r´esolution du syst`emeGT =X. En effet, si une telle solution existe alors l’algorithmeLSPest correct. Nous renvoyons le lecteur `a [46] et [6, page 103].

Le coˆut de l’algorithmeLSPse d´eduit `a partir d’une expression r´ecursive. SoientCLSP(m, n) le coˆut arithm´etique de l’algorithmeLSPpour une matricem×n,CTrsm(m, n) le coˆut de l’algorithme URight-Trsm(section 3.1.1) etR(m, n, k) le coˆut de la multiplication de matrices rectangulaires.

D’apr`es l’algorithmelsp, on peut alors ´ecrire la relation de r´ecurrence suivante : CLSP(m, n) =CLSP(m

D’apr`es la preuve de [67, th´eor`eme 1] on obtient la complexit´e attendue lorsque tous les blocs interm´ediaires sont de plein rang. Il suffit de remarquer que R(m, k, n−k) ≤R(m, m, n−m) quand k≤m pour obtenir la mˆeme complexit´e lorsque les blocs interm´ediaires ne sont pas de plein rang (par exemple, rang≤ m2i).

Le point important mis en ´evidence dans la figure 3.2 est le fait que la matrice L qui est m×mne peut ˆetre stock´ee en place en dessous deS. L’implantation directe de cette factorisation

n´ecessite donc de stocker une matrice m×m en plus de la matrice A initiale en consid´erant que S soit stock´ee dans A. Afin de proposer des implantations n´ecessitant moins de ressources m´emoire, nous nous int´eressons dans les deux sections suivantes `a compresser L pour qu’elle tienne en dessous deS et `a effectuer l’ensemble des calculs en place.

L

S

T Y

X Z

S

L

L G

1

Fig. 3.2 – Principe de la factorisationLSP

3.2.2 LUdivine

On remarque d’apr`es la figure 3.2 que bien que la matriceL ne peut ˆetre plac´ee directement sous S, il y a assez de place sousS pour stocker tous les coefficients non nuls de L. Le principe de l’implantation LUdivineest de stocker uniquement les coefficients non nuls deL. D’apr`es la figure 3.2 on voit que si lai-`eme ligne deS est nulle alors lai-`eme colonne correspondante dans L est ´egale au vecteur unit´e ei (ei[i] = 1 et∀k6= i, ei[k] = 0). En ne stockant dans L que les colonnes diff´erentes des ei on remarque alors que l’on peut stockerLdirectement sousS comme d´ecrit dans la figure 3.3. Soit ˜L = LQ la matrice contenant les colonnes non unitaires de L.

AlorsQest telle que les premi`eres lignes de QTS forme une matrice triangulaire sup´erieure. La r´ecup´eration deLest donc directe `a partir de ˜LetS. On notera que la matrice ˜Lcorrespond `a la forme ´echelonn´ee d´ecrite dans [49, 76] `a une transposition pr`es.

X Z

Y

Fig. 3.3 – Principe de la factorisationLUdivine

Toutefois, cette implantation n’est pas encore satisfaisante car elle ne permet pas d’effectuer les calculs totalement en place. En effet, on remarque que pour r´esoudre le syst`eme GT = X il faut compresser les lignes de T de telle sorte qu’elles engendrent un syst`eme triangulaire non singulier. De mˆeme pour le calcul du compl´ement de Schur (Z =Z−GY) o`u il faut permuter les lignes de Y pour les faire correspondre aux colonnes non nulles de G. L’avantage de cette

3.2. Triangularisations de matrices 81 implantation par rapport `a l’implantation directe de la factorisation LSPest de tirer parti du rang des blocs interm´ediaires, et donc d’obtenir un coˆut enO(mnrω−2), o`u r est le rang de la matrice.

3.2.3 LQUP

Afin de proposer une version totalement en place, c’est-`a-dire qui ´elimine aussi les lignes nulles dansS, on pr´ef´erera utiliser la factorisation LQUP propos´ee dans [46]. La factorisation LQUP est reli´ee `a la factorisation LSP par la relationS =QTU, o`uQT est une permutation telle que la matriceU soit triangulaire sup´erieure. En utilisant la mˆeme compression de L que pour l’implantationLUdivine, l’implantation LQUPest totalement en place (voir figure 3.4). En effet, du fait de la contigu¨ıt´e des blocsT,Y etG,l’utilisation de ressources m´emoire suppl´ementaires pour r´esoudreGT =X et calculerZ=Z−GY n’est plus n´ecessaire.

Z Y X

Fig. 3.4 – Principe de la factorisationLQUP

Toutefois, cette implantation n´ecessite encore de permuter les lignes de U et deL `a chaque niveau r´ecursif. N´eanmoins, ces op´erations sont quadratiques et ne sont pas primordiales dans le coˆut final de l’algorithme.

3.2.4 Performances et comparaisons

Nous comparons maintenant les performances de ces trois implantations. Les coˆuts arith-m´etiques de ces trois implantations se r´eduisent tous au produit de matrices ; seule la gestion de la m´emoires et du rang diff`ere. Nos implantations reposent toutes sur le produit de matrices fflas[28] et sur la r´esolution de syst`eme triangulaire utilisant lesblaspr´esent´ee dans la section 3.1.2. Afin d’´eviter les conversions de donn´ees entre les nombres flottants et les corps finis, nous utilisons l’implantation de corps finisModular<double>qui nous permet d’obtenir les meilleures performances. Grˆace `a cette implantation, nous obtenons des r´esultats tr`es satisfaisant, par exemple l’implantationLQUPpermet de factoriser une matrice 3000×3000 dansZ101 en `a peine 7.59 secondes sur un Pentium 4 cadenc´e `a 2.4Ghz avec 512 Mo de RAM. En comparaison, le calcul de cette factorisation en num´erique `a partir de la biblioth`eque lapack33 s’effectue en 6 secondes.

Nous comparons maintenant le temps de calcul et l’espace m´emoire effectif de nos trois routines. Nos relev´es s’appuient sur le temps utilisateur et l’allocation m´emoire des processus.

33http://www.netlib.org/lapck

Afin d’observer un comportement non g´en´erique de nos implantations, nous utilisons des matrices ayant une d´eficience de rang non nulle.

n 400 1000 3000 5000 8000 10000

LSP 0.05 0.48 8.01 32.54 404.8 1804 LUdivine 0.05 0.47 7.79 30.27 403.9 1691 LQUP 0.05 0.45 7.59 29.90 201.7 1090

Tab.3.3 – Performances (secondes) LSP,LUdivine,LQUP pour Z101 (P4-2.4Ghz)

Nous observons dans la table 3.3 que les performances de nos trois implantations sont tr`es proches sauf pour les matrices qui n´ecessitent des acc`es disque. Cela provient du fait que le coˆut dominant de ces implantations restent le produit de matrices. Toutefois, l’implantation LSPest la moins performante du fait que son coˆut arithm´etique n’est pas d´ependant du rang de la matrice et qu’elle effectue des op´erations sur des lignes nulles. En effet, le calcul directe de Z =Z−GY entraˆıne des op´erations inutiles du fait de la pr´esence des lignes nulles dansY. En comparaison, la varianteLUdivine, permet de meilleures performances du fait de la gestion des lignes nulles. Elle est cependant moins performante que l’implantation LQUPcar elle n´ecessite encore des ressources m´emoire suppl´ementaires pour compresser les lignes non nulles deY. Bien que les temps de calculs de ces trois implantations sont tr`es proches pour de petites matrices, on observe un saut de performance d`es lors que les ressources m´emoire sont sup´erieures `a la m´emoire RAM et n´ecessitent des acc`es disques. Typiquement, les versionsLSPetLQUPn´ecessitent des acc`es disques pour des matrices d’ordre 8000 alors que la versionLQUP tient encore dans la RAM (voir table 3.4), ce qui induit une chute de performances de quasiment 100%.

n 400 1000 3000 5000 8000 10000

LSP 2.83 17.85 160.4 444.2 1136.0 1779.0 LUdivine 1.60 10.00 89.98 249.9 639.6 999.5 LQUP 1.28 8.01 72.02 200.0 512.1 800.0 Tab. 3.4 – Ressource (Mo)LSP,LUdivine,LQUP pour Z101

En ce qui concerne les ressources m´emoire de nos implantations, on remarque que l’implanta-tion totalement en placeLQUPpermet d’´economiser en moyenne 20% par rapport `a l’implantation LUdivineet 55% par rapport `a l’implantationLSP. Plus pr´ecis´ement, les ressources deLSP sont celles de LUdivineplus la m´emoire pour stocker la matrice L, ce qui correspond exactement `a la m´emoire deLQUP: e.g. ( 5000×5000×8ocets= 200M o). La m´emoire temporaire utilis´ee par LUdivinepermet de nous renseigner sur le profil de rang de la matrice. En outre, les ressources m´emoire suppl´ementaires requises parLUdivines’´el`event exactement `ar1(n−r1) ´el´ements, o`u r1 repr´esente le nombre de lignes non nulles deY au premier appel r´ecursif. Ainsi, en comparant l’espace m´emoire et la dimension des matrices, on peut connaˆıtre approximativement le d´efaut de rang de la matrice. Dans notre cas, les matrices utilis´ees ont un d´efaut de rang assez faible, ce qui se v´erifie par le fait que les ressources m´emoire suppl´ementaires sont tr`es proches de m42 ´el´ements.

L’´economie de ressources m´emoire est un facteur important pour permettre de traiter de grandes matrices sans perte de performances due aux acc`es disque. N´eanmoins, lorsqu’on se place en calculout of coreon pr´ef´erera g´en´eralement utiliser des algorithmes qui n´ecessitent plus de ressource m´emoire mais qui offrent une meilleure gestion de la localit´e des donn´ees. L’id´ee propos´ee dans [29] est d’utiliser l’algorithme de triangularisation TURBO[32] pour obtenir une

3.3. Applications des triangularisations 83