Enjeux de complexit´e - 3.6.2 ´ Elimination gaussienne

3.6.2 ´ Elimination gaussienne

3.9 Enjeux de complexit´e

           b1 c1 0 ··· ··· 0 a₂ b₂ c₂ 0 .._. 0 a₃ . ._. . ._. . ._. .._. .. . 0 . ._. . ._. . ._. ₀ .. . . ._. _a n−1 ^bn−1 ^cn−1 0 ··· ··· 0 a_n b_n             , (3.136)

les éléments non nuls de A peuvent être stockés dans trois vecteurs a, b et c (un par diagonale descendante non nulle). Ceci permet d’économiser de la mémoire qui au-rait été utilisée de façon inutile pour stocker les éléments nuls de A. La factorisation LU devient alors extraordinairement simple avec l’algorithme de Thomas [42]. La façon dont MATLAB gère les matrices creuses est expliquée dans [70]. Un point critique quand on résout des systèmes de grande taille est la façon dont les éléments non nuls de A sont stockés. Des choix malvenus peuvent se traduire par des échanges intenses avec la mémoire disque, ce qui peut ralentir l’exécution de plusieurs ordres de grandeur. Des algorithmes (non présentés ici) sont disponibles pour réordonner les éléments de matrices creuses de façon automatique.

3.9 Enjeux de complexit´e

Une première mesure naturelle de la complexité d’un algorithme est le nombre des opérations requises.

3.9.1 Compter les flops

En général, on se borne à compter les opérations à virgule flottante (ou flops). Pour les algorithmes finis, le comptage des flops est juste une question de compta-bilité.

Exemple 3.6.Multiplier deux matrices n× n génériques requiert O(n3) flops ; mul-tiplier une matrice n× n générique par un vecteur générique ne requiert que O(n2)

flops.

Exemple 3.7.Pour résoudre un système triangulaire supérieur avec l’algorithme de la section 3.6.1, il faut un flop pour obtenir x_n par (3.31), trois flops de plus pour obtenir x_n₋₁ par (3.32), ···, et 2n − 1 flops supplémentaires pour obtenir x1 par (3.33). Le nombre total de flops est donc

Exemple 3.8.Quand A est tridiagonale, (3.1) peut être résolue avec l’algorithme de Thomas (un cas particulier de la factorisation LU) en 8n− 6 flops [42]. Pour une matrice A générique n× n, le nombre de flops requis pour résoudre un système d’équations linéaires se révèle beaucoup plus grand que dans les exemples 3.7 et 3.8 :

— la factorisation LU requiert 2n³/3 flops. La résolution de chacun des deux systèmes triangulaires résultants pour obtenir la solution pour un seul membre de droite demande environ n²flops supplémentaires, de sorte que le nombre total de flops pour m membres de droite est environ(2n3/3) + 2mn2. — la factorisation QR requiert 4n³/3 flops, et le nombre total de flops pour m

membres de droite est(4n3/3) + 3mn2. — la SVD requiert(20n3/3) + O(n2) flops [49].

Remarque 3.21.Pour une matrice A générique n× n, les factorisations LU, QR et SVD requièrent donc toutes O(n3) flops. On peut cependant les classer du point de vue du nombre de flops requis, avec LU< QR < SVD. Pour de petits problèmes, chacune de ces factorisations est de toute façon obtenue très rapidement, de sorte que ces enjeux de complexité ne deviennent significatifs que pour des problèmes de grande taille (ou des problèmes résolus à de nombreuses reprises par des algorithmes

it´eratifs).

Quand A est sym´etrique d´efinie positive, la factorisation de Cholesky s’applique, et ne requiert que n³/3 flops. Le nombre total de flops pour m membres de droite devient alors(n3/3) + 2mn2.

Le nombre de flops requis par des méthodes itératives dépend du degré de creux de A, de la vitesse de convergence de ces méthodes (qui dépend elle-même du problème considéré) et du degré d’approximation qu’on est prêt à tolérer dans la résolution. Pour les solveurs de Krylov, le nombre maximum d’itérations requis pour obtenir une solution exacte en l’absence d’erreurs d’arrondi est connu et égal à dim x. C’est un avantage considérable sur les méthodes itératives classiques.

3.9.2 Faire faire le travail rapidement

Pour un système linéaire de grande taille, comme on en rencontre dans de vraies applications, le nombre de flops n’est qu’un ingrédient parmi d’autres pour déterminer le temps nécessaire pour arriver à une solution, car faire entrer et sor-tir les données pertinentes des unités arithmétiques peut prendre plus de temps que l’exécution des flops. Il faut noter que la mémoire de l’ordinateur est in-trinsèquement unidimensionnelle, tandis que A a deux dimensions. La façon dont les tableaux à deux dimensions sont transformées en objets à une dimension pour tenir compte de ce fait dépend du langage utilisé. FORTRAN, MATLAB, Octave,

R et Scilab, par exemple, stockent les matrices denses par colonnes, tandis que C et Pascal les stockent par lignes. Pour les matrices creuses, la situation est encore plus diverse.

La connaissance et l’exploitation de la façon dont les tableaux sont stockés per-mettent d’accélérer les algorithmes, car l’accès à des éléments contigus est rendu beaucoup plus rapide par l’utilisation de mémoire cache.

Quand on utilise un langage interprété à base de matrices, comme MATLAB, Oc-tave ou Scilab, il faut éviter, chaque fois que possible, de décomposer des opérations telles que (2.1) sur des matrices génériques en des opérations sur les éléments de ces matrices comme dans (2.2) car ceci ralentit considérablement les calculs.

Exemple 3.9.Soient v et w deux vecteurs choisis au hasard dans Rn. Le calcul de leur produit scalaire vTw par décomposition en une somme de produit d’éléments, comme dans le script

vTw = 0; for i=1:n,

vTw = vTw + v(i)*w(i); end

prend plus de temps que son calcul par

vTw = v’*w;

Sur un MacBook Pro avec un processeur 2.4 GHz Intel Core 2 Duo et 4 Go de RAM, qui sera toujours utilisé pour les mesures de temps de calcul, la première méthode prend environs 8 s pour n= 106, tandis que la seconde demande environ 0.004 s, de sorte qu’elle est à peu près 2000 fois plus rapide. La possibilité de modifier la taille d’une matrice M à chaque itération s’avère elle aussi coûteuse. Chaque fois que possible, il est beaucoup plus efficace de créer un tableau de taille appropriée une fois pour toute en incluant dans le script MATLAB une instruction comme M=zeros(nr,nc);, où nr est un nombre fixé de lignes et nc un nombre fixé de colonnes.

Quand on tente de réduire les temps de calcul en utilisant des processeurs gra-phiques (ou GPU, pour Graphical Processing Units) comme accélérateurs, il faut se rappeler que le rythme avec lequel le bus transfère des nombres de ou vers un GPU est beaucoup plus lent que le rythme auquel ce GPU peut les traiter, et organiser les transferts de données en conséquence.

Avec les ordinateurs personnels multicœurs, les accélérateurs GPU, les proces-seurs embarqués à grand nombre de cœurs, les clusters, les grilles et les supercalcu-lateurs massivement parallèles, le paysage du calcul numérique n’a jamais été aussi divers, mais la question de Gene Golub et Charles Van Loan [80] demeure :

Pouvons-nous occuper les unités arithmétiques ultrarapides en leur livrant suffisamment de données sur des matrices et pouvons-nous réexpédier les résultats vers la mémoire suffi-samment vite pour éviter de prendre du retard ?

Dans le document Méthodes numériques et optimisation, un guide du consommateur (Page 59-62)