Utilisation de la routine ”dtrsm” des blas

2.4 Conclusion

3.1.2 Utilisation de la routine ”dtrsm” des blas

L’utilisation des routines numériquesblas a permis de réduire considérablement les temps de calcul pour la multiplication de matrices sur les corps finis [28, 66]. L’idée consiste à convertir les matrices dans un format flottant double précision, calculer la multiplication avec lesblas et convertir le résultat dans la représentation des éléments du corps fini. Cette méthode est possible du fait que la valeur maximale des données intervenant dans le calcul est linéaire en fonction de la dimension des matrices. Pour des matrices d’ordren sur Zp et des nombres flottants double précision, l’utilisation des blas est possible si l’équation suivante est satisfaite [28] :

n(p−1)²<2⁵³.

Notre idée consiste à utiliser la même approche pour la résolution de systèmes linéaires triangulaires matriciels. Cependant, l’utilisation directe des résolutions numériques est moins

evidente. Premièrement, la valeur maximale des données durant le calcul est exponentielle en la dimension du système. Deuxièmement, la solution du système est une solution rationnelle.

Du fait de la taille des valeurs calcul´ees, l’utilisation directe des blas est ici impossible.

Par exemple, le résultat entier d’un système d’ordre 100 à coefficients entiers inférieurs à 1009 possède de l’ordre de 1000 bits. Afin de pouvoir utiliser les routines de résolution des blas, nous utilisons la récursivité de l’algorithme ULeft-Trsm pour faire diminuer la dimension des systèmes jusqu’à ce qu’ils soient suffisamment petits pour être résolus numériquement. Pour gérer les solutions rationnelles, nous décomposons le système de telle sorte que la solution rationnelle est un dénominateur égal à 1. Ainsi, cela nous permet d’éviter d’avoir une approximation du résultat.

Nous étudions dans un premier temps une borne sur la croissance des coefficients des r´ e-sultats entiers nous permettant d’utiliser au maximum les routines de résolution numérique des blas(i.e.dtrsmen double précision etstrsmen simple précision) à la place des derniers niveaux récursifs de l’algorithme ULeft-Trsm.

3.1.2.a Croissance des coefficients

La k-ième composante de la solution d’un système triangulaire d’ordre n étant une combi-naison linéaire desn−kcomposantes suivantes, on peut donc majorer la valeur maximale de la solution en fonction de la dimension du système et de la taille des entrées initiales. Il suffit donc de trouver la largeur maximale de blocs pour laquelle l’appel de la fonction dtrsm retournera un résultat exact. Ainsi en utilisant l’algorithme récursif par blocs et en rempla¸cant les derniers niveaux d’appel récursif par des appels à la fonction dtrsm on bénéficie au maximum des per-formances des blas. Dans la suite, nous définissons pour une matrice M = [m_ij] ∈ Z^m×n ou un vecteur v = [v_i] ∈ Zⁿ, les fonctions de magnitude |M| et |v| telles que |M|= max_ij(|m_ij|) et|v|= maxi(|v_i|). Nous définissons aussi la notion de matrice triangulaire unitaire pour parler des matrices triangulaires possédant uniquement des ”1” sur la diagonale.

Lemme 3.1.2. SoientU ∈Z^n×n une matrice triangulaire unitaire etb∈Zⁿ tels que|T|,|b|< p et p > 1. Soit x = [x1, . . . , xn]^T ∈ Zⁿ la solution enti`ere du syst`eme T x = b. Alors pour tout k∈ {0, . . . , n−1},

(p−2)^k−p^k≤2^x_p−1^n−k ≤p^k+ (p−2)^k si k est pair

−p^k−(p−2)^k≤2^x_p−1^n−k ≤p^k−(p−2)^k si k est impair

La preuve de ce théorème se fait à partir d’une induction sur les dépendances des xi, en s’appuyant sur la relation x_k = b_k −Pn

i=k+1T_kixi. La preuve complète de ce théorème est proposée en annexe de [30].

Th´eor`eme 3.1.3. La borne |x| ≤ ^p−1₂ (pⁿ⁻¹−(p−2)ⁿ⁻¹) est la meilleure possible.

Preuve. Considérons les séries{u_k}_k≥1 et{v_k}_k≥1 définies par les bornes du théorème 3.1.2 : u_k = p−1

p^k−(p−2)^k , v_k = p−1

p^k+ (p−2)^k

3.1. Systèmes linéaires triangulaires 73 Considérons le systèmeT x=b suivant

T =

A partir de cette borne, on peut donc d´` eterminer la taille maximale des systèmes pouvant être résolus à partir des routinesblas. Pour un système denéquations et un corps de cardinalité p, il suffit que l’équation suivante soit vérifiée :

p−1

2 pⁿ⁻¹+ (p−2)ⁿ⁻¹

<2^s (3.1)

Ici,sreprésente la précision autorisée par les nombres flottants pour représenter des entiers. Par exemple, les nombres flottants double précision permettent une précision de 53 bits (voir§2.2.5), ce qui donne au plus des matrices 55×55 pour p= 2 et 4×4 pour p = 9739. Bien que cette borne limite l’utilisation desblas, nous verrons dans la section 3.1.4 que cette technique permet d’accélérer le temps de calcul par rapport à la version purement récursive.

Néanmoins, on peut pratiquement doubler la borne définie par l’équation (3.1) en utilisant une représentation centrée des éléments du corps finis (i.e. −^p−1₂ ≤x≤ ^p−1₂ ). Ainsi, on obtient

et on peut atteindre par exemple des matrices 93×93 pour p= 2.

3.1.2.b Gestion des divisions

Nous nous intéressons maintenant à éliminer les calculs approchées que peut entraˆıner la résolution numérique. En particulier, cette approximation provient du fait que la solution exacte du système est un nombre rationnel où le dénominateur est égal au déterminant de la matrice (règles de Cramer [36, théorème 25.6, page 706]). Le déterminant d’une matrice triangulaire

étant égal au produit des éléments diagonaux, les divisions n’apparaisent que dans le dernier niveau récursif de l’algorithme ULeft-Trsm(i.e. A⁻¹₁₁ ×B). On ne peut prédire si le résultat de ces divisions sera exacte ou non, cela dépend totalement du second membre B. Toutefois, si le système provient d’une matrice triangulaire unitaire alors ces divisions sont exactes (division par 1). L’idée est donc de transformer le système initial en un système unitaire de telle sorte que chaque appel récursif dans l’algorithmeULeft-Trsm soit unitaire. Soit le systèmeAX =B, si DA =U, où D est une matrice diagonale et U est une matrice triangulaire unitaire. Alors, la résolution du système U Y =DB assure qu’aucune division n’est effectuée, et la solution du système inital est égale à Y. Pour déterminer un tel système, il faut donc calculer la matrice D qui correspond à l’inverse de la diagonale de A dans le corps fini et multiplier B par D. Le nombre d’opérations nécessaires pour réaliser cela est de :

• minversions dans Zp pour calculer D.

• (m−1)^m₂ +mnmultiplications dans Zp pour calculer normaliser U etX.

Cependant, l’élimination des divisions n’est nécessaire que pour les résolutions à partir de la routine numérique dtrsm. On peut donc retarder l’utilisation des systèmes unitaires tant que l’on ne résout pas le système de fa¸con numérique. Soitβla taille maximale des systèmes pouvant ˆ

etre résolus numériquement. Afin d’évaluer le coût relatif du calcul des systèmes unitaires, nous considérons que la dimension des matrices triangulaires est de l’ordre de m = 2ⁱβ, où i le nombre d’appels récursifs dans l’algorithmeULeft-Trsm. Dans ce cas précis, il y a 2ⁱ utilisations de systèmes unitaires de dimensionβ. Le coût total pour utiliser ces systèmes unitaires est donc de :

• minversions dans Zp.

• (β−1)^m₂ +mnmultiplications dans Zp.

Cette implantation nous permet donc d’´eviter ¹₂ −₂_i+1¹

m² multiplications dans Zp par rapport au passage à un système unitaire dès le début. En utilisant un seul niveau récursif, on

economise ¹₄m² multiplications alors que le gain maximum est de ¹₂(m²−m) multiplications pour logmniveaux r´ecursifs.

Dans le document ECOLE NORMALE SUP´ ´ ERIEURE DE LYON Laboratoire de l’Informatique du Parall´ elisme (Page 81-84)