A New Fexible Checkpoint/Restart Model
Mohamed Slim Bouguerra
Directeur de recherche Denis Trystram Directeur de recherche Thierry Gautier
1
Equipe projet MOAIS (INRIA Grenoble)
Workshop APRETAF, 22 Janvier 2009
2/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Motivation
Évolution continue des besoins de calcul scien- tifique.
Temps processeur
Espace mémoire ou espace de stockage
Ces nouvelles paletformes se caractérisent
par une croissance exponentielle du nombre
des processeurs.
Motivation
Évolution continue des besoins de calcul scien- tifique.
Temps processeur
Espace mémoire ou espace de stockage
Ces nouvelles paletformes se caractérisent
par une croissance exponentielle du nombre
des processeurs.
2/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Motivation
Évolution continue des besoins de calcul scien- tifique.
Temps processeur
Espace mémoire ou espace de stockage
Ces nouvelles paletformes se caractérisent
par une croissance exponentielle du nombre
des processeurs.
Challenge
À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.
En guise d’exemple sur la plate-forme Blue
Gene/L, le taux de pannes annoncé par le
constructeur est de l’ordre d’une panne par
jour (MTBF ≤ 20h)
3/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Challenge
À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.
En guise d’exemple sur la plate-forme Blue
Gene/L, le taux de pannes annoncé par le
constructeur est de l’ordre d’une panne par
jour (MTBF ≤ 20h)
Challenge
À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.
En guise d’exemple sur la plate-forme Blue
Gene/L, le taux de pannes annoncé par le
constructeur est de l’ordre d’une panne par
jour (MTBF ≤ 20h)
4/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Challenge (2) Problématique
Ces pannes entraînent le crash direct de toute l’application, puisque les processeurs non dé- faillants ont souvent besoin de communiquer avec les processeurs défaillants afin de partager des données ou des résultats.
Besoins
Aussi, il est essentiel de disposer de méca-
nismes de tolérance aux pannes afin d’obtenir
de bonnes performances.
Challenge (2) Problématique
Ces pannes entraînent le crash direct de toute l’application, puisque les processeurs non dé- faillants ont souvent besoin de communiquer avec les processeurs défaillants afin de partager des données ou des résultats.
Besoins
Aussi, il est essentiel de disposer de méca-
nismes de tolérance aux pannes afin d’obtenir
5/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Challenge (3)
Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?
Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes
· · · ) ?
Quel est le nombre optimal de ressources à
utiliser pour ces mécanismes défensifs si le
nombre de ressources est limité ?
Challenge (3)
Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?
Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes
· · · ) ?
Quel est le nombre optimal de ressources à
utiliser pour ces mécanismes défensifs si le
nombre de ressources est limité ?
5/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Challenge (3)
Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?
Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes
· · · ) ?
Quel est le nombre optimal de ressources à
utiliser pour ces mécanismes défensifs si le
nombre de ressources est limité ?
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
7/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle de Fiabilité
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
Définition de la fiabilité
Définition
La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données
Mathématiquement la loi de fiabilité d’un système non réparable est définie par :
Z est une variable aléatoire dans R + , qui décrit l’instant de l’apparition de la panne dans le système.
Z sera gouvernée par une fonction de distribution F (t).
F (t) c’est la probabilité que [Z 6 t].
8/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle de Fiabilité
Définition de la fiabilité
Définition
La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données
Mathématiquement la loi de fiabilité d’un système non réparable est définie par :
Z est une variable aléatoire dans R + , qui décrit l’instant de l’apparition de la panne dans le système.
Z sera gouvernée par une fonction de distribution F (t).
F (t) c’est la probabilité que [Z 6 t].
Définition de la fiabilité
Définition
La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données
Mathématiquement la loi de fiabilité d’un système non réparable est définie par :
Z est une variable aléatoire dans R + , qui décrit l’instant de l’apparition de la panne dans le système.
Z sera gouvernée par une fonction de distribution F (t).
F (t) c’est la probabilité que [Z 6 t].
9/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle de Fiabilité
Modèle de pannes considéré
Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).
Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.
Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.
Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).
Nous supposons que l’apparition de pannes est indépen-
dante de l’exécution de l’application.
Modèle de pannes considéré
Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).
Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.
Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.
Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).
Nous supposons que l’apparition de pannes est indépen-
dante de l’exécution de l’application.
9/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle de Fiabilité
Modèle de pannes considéré
Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).
Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.
Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.
Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).
Nous supposons que l’apparition de pannes est indépen-
dante de l’exécution de l’application.
Modèle de pannes considéré
Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).
Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.
Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.
Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).
Nous supposons que l’apparition de pannes est indépen-
dante de l’exécution de l’application.
9/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle de Fiabilité
Modèle de pannes considéré
Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).
Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.
Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.
Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).
Nous supposons que l’apparition de pannes est indépen-
dante de l’exécution de l’application.
Fiabilité des Systèmes Parallèles
Notre plate-forme est composée de m composants en série : m : Le nombre des machines (composants).
Z 1 , Z 2 · · · Z m : Sont des variables aléatoires dans R + , tel que chaque Z i décrit l’instant d’apparition de la panne sur le composant i.
R i (t) : La loi de fiabilité du composant i.
Fiabilité d’un système // est calculée par la relation suivante
R(t) = P[Z 1 > t ∩ Z 1 > t · · · ∩ Z m > t] ⇐⇒ R(t) = Y
i
R i (t) (2)
10/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle de Fiabilité
Fiabilité des Systèmes Parallèles
Notre plate-forme est composée de m composants en série : m : Le nombre des machines (composants).
Z 1 , Z 2 · · · Z m : Sont des variables aléatoires dans R + , tel que chaque Z i décrit l’instant d’apparition de la panne sur le composant i.
R i (t) : La loi de fiabilité du composant i.
Fiabilité d’un système // est calculée par la relation suivante
R(t) = P[Z 1 > t ∩ Z 1 > t · · · ∩ Z m > t] ⇐⇒ R(t) = Y
i
R i (t) (2)
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
12/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Travaux Existants
Travaux Existants Daly (2006)
À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ
τ opt =
q 2C
λ [1 + 1 3 ( Cλ 2 )
12+ 1 9 ( Cλ 2 )] − C si C ≤ 2 λ
1
λ si C > λ 2
(-) Processus de Poisson
(-) Coût constant de la barrière de Checkpoint
Travaux Existants Daly (2006)
À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ
τ opt =
q 2C
λ [1 + 1 3 ( Cλ 2 )
12+ 1 9 ( Cλ 2 )] − C si C ≤ 2 λ
1
λ si C > λ 2
(-) Processus de Poisson
(-) Coût constant de la barrière de Checkpoint
12/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Travaux Existants
Travaux Existants Daly (2006)
À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ
τ opt =
q 2C
λ [1 + 1 3 ( Cλ 2 )
12+ 1 9 ( Cλ 2 )] − C si C ≤ 2 λ
1
λ si C > λ 2
(-) Processus de Poisson
(-) Coût constant de la barrière de Checkpoint
Travaux Existants Yudan et al (2008)
Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique
(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.
(-) Coût constant de la barrière de sauvegarde
13/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Travaux Existants
Travaux Existants Yudan et al (2008)
Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique
(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.
(-) Coût constant de la barrière de sauvegarde
Travaux Existants Yudan et al (2008)
Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique
(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.
(-) Coût constant de la barrière de sauvegarde
14/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
Modèle d’Application
L’application d’entrée est modélisée par une fonction notée ω t ,
tel que t représente le temps et ω t représente la quantité de
travail résiduel à l’instant t.
15/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Modèle d’Application
L’application d’entrée est modélisée par une fonction notée ω t , tel que t représente le temps et ω t représente la quantité de travail résiduel à l’instant t.
Pmc
ω
0ω
xt
xω
tt t
xT
f inω
xω
0− ω
xP3
P2
P1
T
f int
Modèle d’Application
Penteαmc
ω0
ωt
τ ωτ
Tend
t
Soit ω
0la quantité de travail à l’instant t = 0, m
cest le nombre de
processeurs disponibles et α le facteur de overhead tel que (0 < α 6
1).
17/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Modèle d’Application Avec Pannes
Next Failure
R R
Failure R
phase of recovery phase of startup
X1 X2 X3
t Z2
Z1 Tend
ω0 ωt
Z3
Modèle d’Application Avec Pannes
Next Failure
R R
Failure R
phase of recovery phase of startup
X1 X2 X3
t Z2
Z1 Tend
ω0 ωt
Z3
Idée
T fin est borné par X 1 + X 2 + · · · + X n tel que, { N = n } est la réalisation de l’évènement {X n > ( αm ω
0c
+ R)}.
17/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Modèle d’Application Avec Pannes
Next Failure
R R
Failure R
phase of recovery phase of startup
X1 X2 X3
t Z2
Z1 Tend
ω0 ωt
Z3
On a E (T end ) = E (
N
X
i=1
X i ) + ω 0
αm c
+ R − E (X N )., tel que X N > ( αm ω
0c
+ R).
En utilisant Wald’s equation on obtient : E (T end ) = E (N) E (X 1 ) + ω 0
αm c
+ R − E (X N ).
Modèle d’Application Avec Pannes
On a E(T end ) = E(
N
X
i=1
X i ) + ω 0
αm c
+ R − E(X N ). tel que X N est le premier intervalle inter-pannes supérieur à
( αm ω
0c
+ R).
En utilisant Wald’s equation on obtient : E (T end ) = E (N) E (X 1 ) + ω 0
αm + R − E (X N ).
Théorème
E(T fin ) = 1
p ¯ E(X 1 ) + ω 0
αm c − E(X n ) tel que p = P[X n > ( αm ω
0c
+ R)] et E(X N ) = 1
P[X>
ω0+R]
Z + ∞
ω
xf (x )dx .
18/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
Modélisation avec mécanisme de sauvegarde
Nouveau Problème
Apres un intervalle de temps noté par I j on sauvegarde l’état global de l’application.
Le coût de cette barriére de Checkpoint est modélisé par la fonction C(S j , ms)
S
jreprésente le quantité de travail terminée (S
j= P
j s=1I
s).
m
sreprésente le nombre de machines dédiées aux Checkpoint (m
s+ m
c= m).
Le Coût du Restart est modélisé par la fonction R(S j , m s )
20/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Modélisation avec mécanisme de sauvegarde
Phase of Checkpoint
*
Ik
X11 X21 X31 X1k−1 X2k−1 X3k−1 I1
Ik−1
Tend1 Tendk−1 Tendk
X1k Xk2
t
Tend ω0
C(I1+I2+· · ·+Ik−1) C(I1)
Wt
R1 R1 R1
Rk−1
Rk Rk Rk−1
Rk−1
Modélisation avec mécanisme de sauvegarde
Phase of Checkpoint
*
Ik
X11 X21 X31 X1k−1 Xk−12 X3k−1 I1
Ik−1
Tend1 Tendk−1 Tendk
X1k Xk2
t
Tend ω0
C(I1+I2+· · ·+Ik−1) C(I1)
Wt
R1 R1 R1
Rk−1
Rk Rk
Rk−1 Rk−1
Idée
Nous considérons le même principe de l’exécution sans sauve-
garde d’une manière récursive pour chaque intervalle de sauve-
garde I .
20/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Modèle d’Application sans Checkpoint
Modélisation avec mécanisme de sauvegarde
Phase of Checkpoint
*
Ik
X11 X21 X31 X1k−1 Xk−12 X3k−1 I1
Ik−1
Tend1 Tendk−1 Tendk
X1k Xk2
t
Tend ω0
C(I1+I2+· · ·+Ik−1) C(I1)
Wt
R1 R1 R1
Rk−1
Rk Rk
Rk−1 Rk−1
Théorème
E (T
fin)= P
kj=1
E(X
1)
1−1pj
+I
j+C(S
j,m
s)+R(S
j,m
s) − E(X
Nj) avec p
j= P [Z 6
I
j+C(S
j,m
s)+R(S
j,m
s)]
Modélisation avec mécanisme de sauvegarde
Théorème
E(T
fin)= P
kj=1
E(X
1)
1−1pj
+I
j+C(S
j,m
s)+R(S
j,m
s) − E(X
Nj) avec p
j=P[Z 6 I
j+C(S
j,m
s)+R(S
j,m
s)]
Objectif
(I 1 , I 2 · · · I k ) opt : Le vecteur des intervalles inter- sauvegardes optimal .
(m c /m s ) opt : Le ratio optimal entre noeuds de calcul/noeuds
de checkpoint .
21/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
23/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Processus de Poisson
Coût Constant de Checkpoint
Fonction de répartition sur R + s’écrit.F (t) = 1 − e − λt Densité de probabilité est égale à f(t) = λe − λt
1 er Cas : C(S i , m s ) = C la forme générale de l’équation à minimiser devient 4
E(T fin ) =
k
X
j=1
[ 1
λ (e λ(I
j+C+R) − 1)] avec
k
X
j=1
I j = ω 0
αm c
(4)
La solution optimale :
I 1 = I 2 = · · · = 1 + Lambert W − e − 1 − λ (C+R)
λ
Coût Constant de Checkpoint
Fonction de répartition sur R + s’écrit.F (t) = 1 − e − λt Densité de probabilité est égale à f(t) = λe − λt
1 er Cas : C(S i , m s ) = C la forme générale de l’équation à minimiser devient 4
E(T fin ) =
k
X
j=1
[ 1
λ (e λ(I
j+C+R) − 1)] avec
k
X
j=1
I j = ω 0
αm c
(4)
La solution optimale :
I 1 = I 2 = · · · = 1 + Lambert W − e − 1 − λ (C+R)
λ
23/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Processus de Poisson
Coût Constant de Checkpoint
Fonction de répartition sur R + s’écrit.F (t) = 1 − e − λt Densité de probabilité est égale à f(t) = λe − λt
1 er Cas : C(S i , m s ) = C la forme générale de l’équation à minimiser devient 4
E(T fin ) =
k
X
j=1
[ 1
λ (e λ(I
j+C+R) − 1)] avec
k
X
j=1
I j = ω 0
αm c
(4)
La solution optimale :
I 1 = I 2 = · · · = 1 + Lambert W − e − 1 − λ (C+R)
λ
Comparaison avec J.Daly (2006)
0 10 20 30 40 50 60 70 80 90 100
0 5 10 15 20 25 30
Average completion times (days)
Failures rate per day FCM
J.Daly
0 10 20 30 40 50 60 70 80 90 100
0 200 400 600 800 1000 1200 1400 1600
Checkpoint number
Failures rate per day FCM
J.Daly
Variation of the average completion times with λ ∈ [
12, 96] per day ,
25/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Processus de Poisson
Comparaison avec J.Daly (2006)
0 10 20 30 40 50 60 70 80 90 100
0 1 2 3 4 5 6 7 8 9 10
Average completion time (days)
Checkpoint cost (mins) FCM
J.Daly
0 10 20 30 40 50 60 70 80 90 100
0 20 40 60 80 100 120 140
Number of checkpoint
Cost of Checkpoint (minute)
MCM J.Daly
Variation of the average completion times with C ∈ [1, 95] mins,
αmω0c
= 7 days, λ =
12per day
Ratio Optimal Noeuds de Calcul / Serveur Checkpoint
2 eme Cas : C(S i , m s ) = m C
s
la forme générale de l’équation à minimiser devient 5
E (T end ) = 1 λm c
k
X
j=1
[e λm
c(I
j+
msC+R) − 1], avec
k
X
j=1
I j = ω 0 αm c (5) Nous cherchons les racines des dérivés partielles.
8
> >
> >
> <
> >
> >
> :
∂f
∂k
= 0
@e
λmc
1+LambertW −e−
ms+λCmc+λRmc ms ms
!!
λ−1mc−1+C ms+R
!
− 1 1
A λ
−1m
c−1−
„
1 + LambertW
„
− e
−ms+λCmc+λms Rmc ms«« e
λmc
1+LambertW −e−
ms+λCmc+λRmc ms ms
!!
λ−1mc−1+C ms+R
!
λ
−1m
c−1∂f
∂mc
= −
mωc02+
(m−mkcc)2
−
k eλmc
(
mc kω0 +m−mcc)
−1!λmc2
+
k
„ λ“ω
0 mc k+ c
m−mc
” +λmc
„
− ω0 mc2k+ c
(m−mc)2
««
ela mc
(
mc kω0+m−cmc)
λ−1mc−1
26/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Processus de Poisson
Ratio Optimal Noeuds de Calcul / Serveur Checkpoint
2 eme Cas : C(S i , m s ) = m C
s
la forme générale de l’équation à minimiser devient 5
E (T end ) = 1 λm c
k
X
j=1
[e λm
c(I
j+
msC+R) − 1], avec
k
X
j=1
I j = ω 0 αm c (5) Nous cherchons les racines des dérivés partielles.
8
> >
> >
> <
> >
> >
> :
∂f
∂k
= 0
@e
λmc
1+LambertW −e−
ms+λCmc+λRmc ms ms
!!
λ−1mc−1+C ms+R
!
− 1 1
A λ
−1m
c−1−
„
1 + LambertW
„
− e
−ms+λCmc+λms Rmc ms«« e
λmc
1+LambertW −e−
ms+λCmc+λRmc ms ms
!!
λ−1mc−1+C ms+R
!
λ
−1m
c−1∂f
∂mc
= −
mωc02+
(m−mkcc)2
−
k eλmc
(
mc kω0 +m−mcc)
−1!λmc2
+
k
„ λ“ω
0 mc k+ c
m−mc
” +λmc
„
− ω0 mc2k+ c
(m−mc)2
««
ela mc
(
mc kω0+m−cmc)
λ−1mc−1
Ratio Optimal Noeuds de Calcul / Serveur Checkpoint
La solution optimale :
I 1 = I 2 · · · = „ λ 1+LambertW
„
− e
−ms+λCmc+λRmc ms ms
««
Enfin Pour Trouver m ˆ c , Nous utilisons une méthode numé-
rique (Newton-Raphson algorithm).
28/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Processus de Poisson
Ratio Optimal Noeuds de Calcul / Serveur Checkpoint
0 100 200 300 400 500 600 700 800 900 1000
0 5 10 15 20 25
Mean of completion time over 1000 simulation (days)
Computing nodes number
X = 886 Y = 1.4847 L = 0.0026834 U = 0.0026834
Coût Variable de Checkpoint
3 eme Cas : C(S i , m s ) = C(S i )
0 5 10 15 20
0 1 2 3 4 5 6 7 8 9 10
The checkpoint number
Total Checkpoint data size (MByte)
0 50 100 150 200 220
1 2 3 4 5 6 7 8 9 10
Residual Workload (minute)
Total checkpoint size (Mbytes)
29/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Processus de Poisson
Coût Variable de Checkpoint
0 10 20 30 40 50 60 70
0 0,5 1 1,5 2 2,5 3 3,5
Checkpoint Number
Amount of workload (minute)
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
31/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Loi de Weibull
Loi de Weibull
Fonction de répartition sur R + s’écrit.F (t) = 1 − e ( −λt)
βDensité de probabilité est égale à f(t) = λ(λt) β − 1 e ( − λt)
β1 er Cas : C(S i , m c ) = C la forme générale de l’équation à minimiser devient 6
E (T end ) =
k
X
j=1
e (λ(I
j+C+R))
βZ I
j+C+R
0
e − (λx)
βdx , avec
k
X
j=1
I j = ω 0
αm c
(6)
Loi de Weibull
Fonction de répartition sur R + s’écrit.F (t) = 1 − e ( −λt)
βDensité de probabilité est égale à f(t) = λ(λt) β − 1 e ( − λt)
β1 er Cas : C(S i , m c ) = C la forme générale de l’équation à minimiser devient 6
E (T end ) =
k
X
j=1
e (λ(I
j+C+R))
βZ I
j+C+R
0
e − (λx)
βdx , avec
k
X
j=1
I j = ω 0
αm c
(6)
32/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Loi de Weibull
Comparaison avec Yudan et al 2008
0 500 1000 1500 2000 2500
0 50 100 150 200 250 300
Average wast time per hrs
Initial amount of work per hrs FCM (15 mins)
Yudan et al (15 mins) Yudan et al (10 mins) FCM (10 mins)
Variation of the average wast time with
ω0
αmc
∈ [100, 2500] hrs, λ =
20.5841, β = 0.509
Lignes directrices
1 Principe de Modélisation Modèle de Fiabilité Travaux Existants
2 Modélisation Proposée
Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint
3 Application et Expérimentations Processus de Poisson Loi de Weibull
4 Conclusions et Perspectives
34/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Conclusions
Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :
Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.
Introduction de nouveaux paramètres d’entrée dans le mo-
dèle tels que le modèle de coût de checkpoint, nombre de
ressources
Conclusions
Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :
Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.
Introduction de nouveaux paramètres d’entrée dans le mo-
dèle tels que le modèle de coût de checkpoint, nombre de
ressources
34/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Conclusions
Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :
Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.
Introduction de nouveaux paramètres d’entrée dans le mo-
dèle tels que le modèle de coût de checkpoint, nombre de
ressources
Conclusions (2)
Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.
Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ opt = W ( e
−(λC+1)(λC − 1) ) +1
λ .
Nous avons montré avec des simulations que notre modèle
réduit jusqu’à 25% le surcoût généré par le mécanisme de
sauvegarde
35/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Conclusions (2)
Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.
Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ opt = W ( e
−(λC+1)(λC − 1) ) +1
λ .
Nous avons montré avec des simulations que notre modèle
réduit jusqu’à 25% le surcoût généré par le mécanisme de
sauvegarde
Conclusions (2)
Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.
Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ opt = W ( e
−(λC+1)(λC − 1) ) +1
λ .
Nous avons montré avec des simulations que notre modèle
réduit jusqu’à 25% le surcoût généré par le mécanisme de
sauvegarde
36/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Conclusions (3)
Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.
Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.
Nous avons montré avec des simulations que notre modèle
s’adapte parfaitement avec la variation du coût de la phase
de sauvegarde.
Conclusions (3)
Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.
Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.
Nous avons montré avec des simulations que notre modèle
s’adapte parfaitement avec la variation du coût de la phase
de sauvegarde.
36/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives
Conclusions (3)
Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.
Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.
Nous avons montré avec des simulations que notre modèle
s’adapte parfaitement avec la variation du coût de la phase
de sauvegarde.
Perspectives
Résolution des autres cas.
Éliminer quelques hypothèses dans la modé- lisation, comme la totale disponibilité des ma- chines de réserves.
Enfin nous pouvons effectuer d’autres études
avec d’autre mesures (Loi de panne, Coût de
checkpoint · · · ), ainsi qu’avec d’autres types
ou modèles de pannes.
37/37
Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives