A New Fexible Checkpoint/Restart Model

(1)

A New Fexible Checkpoint/Restart Model

Mohamed Slim Bouguerra

Directeur de recherche Denis Trystram Directeur de recherche Thierry Gautier

1

Equipe projet MOAIS (INRIA Grenoble)

Workshop APRETAF, 22 Janvier 2009

(2)

2/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Motivation

Évolution continue des besoins de calcul scien- tifique.

Temps processeur

Espace mémoire ou espace de stockage

Ces nouvelles paletformes se caractérisent

par une croissance exponentielle du nombre

des processeurs.

(3)

Motivation

Évolution continue des besoins de calcul scien- tifique.

Temps processeur

Espace mémoire ou espace de stockage

Ces nouvelles paletformes se caractérisent

par une croissance exponentielle du nombre

des processeurs.

(4)

2/37

Motivation

Évolution continue des besoins de calcul scien- tifique.

Temps processeur

Espace mémoire ou espace de stockage

Ces nouvelles paletformes se caractérisent

par une croissance exponentielle du nombre

des processeurs.

(5)

Challenge

À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.

En guise d’exemple sur la plate-forme Blue

Gene/L, le taux de pannes annoncé par le

constructeur est de l’ordre d’une panne par

jour (MTBF ≤ 20h)

(6)

3/37

Challenge

À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.

En guise d’exemple sur la plate-forme Blue

Gene/L, le taux de pannes annoncé par le

constructeur est de l’ordre d’une panne par

jour (MTBF ≤ 20h)

(7)

Challenge

À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.

En guise d’exemple sur la plate-forme Blue

Gene/L, le taux de pannes annoncé par le

constructeur est de l’ordre d’une panne par

jour (MTBF ≤ 20h)

(8)

4/37

Challenge (2) Problématique

Ces pannes entraînent le crash direct de toute l’application, puisque les processeurs non dé- faillants ont souvent besoin de communiquer avec les processeurs défaillants afin de partager des données ou des résultats.

Besoins

Aussi, il est essentiel de disposer de méca-

nismes de tolérance aux pannes afin d’obtenir

de bonnes performances.

(9)

Challenge (2) Problématique

Ces pannes entraînent le crash direct de toute l’application, puisque les processeurs non dé- faillants ont souvent besoin de communiquer avec les processeurs défaillants afin de partager des données ou des résultats.

Besoins

Aussi, il est essentiel de disposer de méca-

nismes de tolérance aux pannes afin d’obtenir

(10)

5/37

Challenge (3)

Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?

Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes

· · · ) ?

Quel est le nombre optimal de ressources à

utiliser pour ces mécanismes défensifs si le

nombre de ressources est limité ?

(11)

Challenge (3)

Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?

Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes

· · · ) ?

Quel est le nombre optimal de ressources à

utiliser pour ces mécanismes défensifs si le

nombre de ressources est limité ?

(12)

5/37

Challenge (3)

Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?

Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes

· · · ) ?

Quel est le nombre optimal de ressources à

utiliser pour ces mécanismes défensifs si le

nombre de ressources est limité ?

(13)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(14)

7/37

Modèle de Fiabilité

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(15)

Définition de la fiabilité

Définition

La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données

Mathématiquement la loi de fiabilité d’un système non réparable est définie par :

Z est une variable aléatoire dans R ⁺ , qui décrit l’instant de l’apparition de la panne dans le système.

Z sera gouvernée par une fonction de distribution F (t).

F (t) c’est la probabilité que [Z 6 t].

(16)

8/37

Définition de la fiabilité

Définition

La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données

Mathématiquement la loi de fiabilité d’un système non réparable est définie par :

Z est une variable aléatoire dans R ⁺ , qui décrit l’instant de l’apparition de la panne dans le système.

Z sera gouvernée par une fonction de distribution F (t).

F (t) c’est la probabilité que [Z 6 t].

(17)

Définition de la fiabilité

Définition

La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données

Mathématiquement la loi de fiabilité d’un système non réparable est définie par :

Z est une variable aléatoire dans R ⁺ , qui décrit l’instant de l’apparition de la panne dans le système.

Z sera gouvernée par une fonction de distribution F (t).

F (t) c’est la probabilité que [Z 6 t].

(18)

9/37

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(19)

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(20)

9/37

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(21)

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(22)

9/37

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(23)

Fiabilité des Systèmes Parallèles

Notre plate-forme est composée de m composants en série : m : Le nombre des machines (composants).

Z ¹ , Z ² · · · Z ^m : Sont des variables aléatoires dans R ⁺ , tel que chaque Z ⁱ décrit l’instant d’apparition de la panne sur le composant i.

R _i (t) : La loi de fiabilité du composant i.

Fiabilité d’un système // est calculée par la relation suivante

R(t) = P[Z ¹ > t ∩ Z ¹ > t · · · ∩ Z ^m > t] ⇐⇒ R(t) = Y

i

R _i (t) (2)

(24)

10/37

Fiabilité des Systèmes Parallèles

Notre plate-forme est composée de m composants en série : m : Le nombre des machines (composants).

Z ¹ , Z ² · · · Z ^m : Sont des variables aléatoires dans R ⁺ , tel que chaque Z ⁱ décrit l’instant d’apparition de la panne sur le composant i.

R _i (t) : La loi de fiabilité du composant i.

Fiabilité d’un système // est calculée par la relation suivante

R(t) = P[Z ¹ > t ∩ Z ¹ > t · · · ∩ Z ^m > t] ⇐⇒ R(t) = Y

i

R _i (t) (2)

(25)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(26)

12/37

Travaux Existants

Travaux Existants Daly (2006)

À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ

τ ^opt =





 q 2C

λ [1 + ¹ ₃ ( ^Cλ ₂ )

¹²

+ ¹ ₉ ( ^Cλ ₂ )] − C si C ≤ ² _λ

1 λ si C > _λ ²

(-) Processus de Poisson

(-) Coût constant de la barrière de Checkpoint

(27)

Travaux Existants Daly (2006)

À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ

τ ^opt =





 q 2C

λ [1 + ¹ ₃ ( ^Cλ ₂ )

¹²

+ ¹ ₉ ( ^Cλ ₂ )] − C si C ≤ ² _λ

1 λ si C > _λ ²

(-) Processus de Poisson

(-) Coût constant de la barrière de Checkpoint

(28)

12/37

Travaux Existants

Travaux Existants Daly (2006)

À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ

τ ^opt =





 q 2C

λ [1 + ¹ ₃ ( ^Cλ ₂ )

¹²

+ ¹ ₉ ( ^Cλ ₂ )] − C si C ≤ ² _λ

1 λ si C > _λ ²

(-) Processus de Poisson

(-) Coût constant de la barrière de Checkpoint

(29)

Travaux Existants Yudan et al (2008)

Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique

(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.

(-) Coût constant de la barrière de sauvegarde

(30)

13/37

Travaux Existants

Travaux Existants Yudan et al (2008)

Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique

(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.

(-) Coût constant de la barrière de sauvegarde

(31)

Travaux Existants Yudan et al (2008)

Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique

(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.

(-) Coût constant de la barrière de sauvegarde

(32)

14/37

Modèle d’Application sans Checkpoint

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(33)

Modèle d’Application

L’application d’entrée est modélisée par une fonction notée ω _t ,

tel que t représente le temps et ω t représente la quantité de

travail résiduel à l’instant t.

(34)

15/37

Modèle d’Application

L’application d’entrée est modélisée par une fonction notée ω t , tel que t représente le temps et ω t représente la quantité de travail résiduel à l’instant t.

Pmc

ω

0

ω

x

t

x

ω

t

t t

x

T

f in

ω

x

ω

0

− ω

x

P3

P2

P1

T

f in

t

(35)

Modèle d’Application

Penteαmc

ω0

ωt

τ ωτ

Tend

t

Soit ω

₀

la quantité de travail à l’instant t = 0, m

c

est le nombre de

processeurs disponibles et α le facteur de overhead tel que (0 < α 6

1).

(36)

17/37

Modèle d’Application Avec Pannes

Next Failure

R R

Failure R

phase of recovery phase of startup

X1 X2 X3

t Z2

Z1 Tend

ω0 ωt

Z3

(37)

Modèle d’Application Avec Pannes

Next Failure

R R

Failure R

X1 X2 X3

t Z2

Z1 Tend

ω0 ωt

Z3

Idée

T _fin est borné par X ₁ + X ₂ + · · · + X _n tel que, { N = n } est la réalisation de l’évènement {X n > ( _αm ^ω

⁰

c

+ R)}.

(38)

17/37

Modèle d’Application Avec Pannes

Next Failure

R R

Failure R

X1 X2 X3

t Z2

Z1 Tend

ω0 ωt

Z3

On a E (T _end ) = E (

N

X

i=1

X _i ) + ω 0

αm c

+ R − E (X _N )., tel que X _N > ( _αm ^ω

⁰

c

+ R).

En utilisant Wald’s equation on obtient : E (T _end ) = E (N) E (X ₁ ) + ω 0

αm c

+ R − E (X _N ).

(39)

Modèle d’Application Avec Pannes

On a E(T _end ) = E(

N

X

i=1

X _i ) + ω 0

αm c

+ R − E(X _N ). tel que X _N est le premier intervalle inter-pannes supérieur à

( _αm ^ω

⁰

c

+ R).

En utilisant Wald’s equation on obtient : E (T _end ) = E (N) E (X ₁ ) + ω ₀

αm + R − E (X _N ).

Théorème

E(T _fin ) = 1

p ¯ E(X ₁ ) + ω 0

αm c − E(X _n ) tel que p = P[X _n > ( _αm ^ω

⁰

c

+ R)] et E(X _N ) = ¹

P[X>

^ω⁰

+R]

Z + ∞

ω

xf (x )dx .

(40)

18/37

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(41)

Modélisation avec mécanisme de sauvegarde

Nouveau Problème

Apres un intervalle de temps noté par I _j on sauvegarde l’état global de l’application.

Le coût de cette barriére de Checkpoint est modélisé par la fonction C(S _j , ms)

S

_j

représente le quantité de travail terminée (S

_j

= P

j s=1

I

_s

).

m

_s

représente le nombre de machines dédiées aux Checkpoint (m

_s

+ m

_c

= m).

Le Coût du Restart est modélisé par la fonction R(S _j , m _s )

(42)

20/37

Modélisation avec mécanisme de sauvegarde

Phase of Checkpoint

*

Ik

X1¹ X2¹ X3¹ X₁^k−1 X₂^k−1 X₃^k−1 I1

Ik−1

Tend¹ Tend^k−1 Tend^k

X1^k X^k2

t

Tend ω0

C(I1+I2+· · ·+Ik−1) C(I1)

Wt

R¹ R¹ R¹

R^k−1

R^k R^k R^k−1

R^k−1

(43)

Modélisation avec mécanisme de sauvegarde

Phase of Checkpoint

*

Ik

X1¹ X2¹ X3¹ X1^k−1 X^k−12 X3^k−1 I1

I_k−1

Tend¹ Tend^k−1 Tend^k

X1^k X^k2

t

Tend ω0

C(I1+I2+· · ·+I_k−1) C(I1)

Wt

R1 R1 R1

Rk−1

R^k Rk

Rk−1 Rk−1

Idée

Nous considérons le même principe de l’exécution sans sauve-

garde d’une manière récursive pour chaque intervalle de sauve-

garde I .

(44)

20/37

Modélisation avec mécanisme de sauvegarde

Phase of Checkpoint

*

Ik

X1¹ X2¹ X3¹ X1^k−1 X^k−12 X3^k−1 I1

Ik−1

T_end¹ T_end^k−1 T_end^k

X1^k X^k2

t

Tend ω0

C(I1+I2+· · ·+Ik−1) C(I1)

Wt

R¹ R¹ R¹

Rk−1

Rk Rk

Rk−1 R^k−1

Théorème

E (T

_fin

)= P

k

j=1

E(X

₁

)

₁₋¹

pj

+I

_j

+C(S

_j

,m

s

)+R(S

_j

,m

s

) − E(X

_Nj

) avec p

_j

= P [Z 6

I

j

+C(S

j

,m

s

)+R(S

j

,m

s

)]

(45)

Modélisation avec mécanisme de sauvegarde

Théorème

E(T

_fin

)= P

k

j=1

E(X

₁

)

₁₋¹

pj

+I

_j

+C(S

_j

,m

s

)+R(S

_j

,m

s

) − E(X

_Nj

) avec p

_j

=P[Z 6 I

j

+C(S

j

,m

s

)+R(S

j

,m

s

)]

Objectif

(I ₁ , I ₂ · · · I _k ) ^opt : Le vecteur des intervalles inter- sauvegardes optimal .

(m c /m s ) ^opt : Le ratio optimal entre noeuds de calcul/noeuds

de checkpoint .

(46)

21/37

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(47)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(48)

23/37

Processus de Poisson

Coût Constant de Checkpoint

Fonction de répartition sur R ⁺ s’écrit.F (t) = 1 − e ⁻ ^λt Densité de probabilité est égale à f(t) = λe ⁻ ^λt

1 ^er Cas : C(S _i , m s ) = C la forme générale de l’équation à minimiser devient 4

E(T _fin ) =

k

X

j=1

[ 1

λ (e ^λ(I

^j

^+C+R) − 1)] avec

k

X

j=1

I _j = ω 0

αm c

(4)

La solution optimale :

I ₁ = I ₂ = · · · = 1 + Lambert W − e ⁻ ¹ ⁻ ^λ ^(C+R)

λ

(49)

Coût Constant de Checkpoint

Fonction de répartition sur R ⁺ s’écrit.F (t) = 1 − e ⁻ ^λt Densité de probabilité est égale à f(t) = λe ⁻ ^λt

1 ^er Cas : C(S _i , m s ) = C la forme générale de l’équation à minimiser devient 4

E(T _fin ) =

k

X

j=1

[ 1

λ (e ^λ(I

^j

^+C+R) − 1)] avec

k

X

j=1

I _j = ω 0

αm c

(4)

La solution optimale :

I ₁ = I ₂ = · · · = 1 + Lambert W − e ⁻ ¹ ⁻ ^λ ^(C+R)

λ

(50)

23/37

Coût Constant de Checkpoint

Fonction de répartition sur R ⁺ s’écrit.F (t) = 1 − e ⁻ ^λt Densité de probabilité est égale à f(t) = λe ⁻ ^λt

1 ^er Cas : C(S _i , m s ) = C la forme générale de l’équation à minimiser devient 4

E(T _fin ) =

k

X

j=1

[ 1

λ (e ^λ(I

^j

^+C+R) − 1)] avec

k

X

j=1

I _j = ω 0

αm c

(4)

La solution optimale :

I ₁ = I ₂ = · · · = 1 + Lambert W − e ⁻ ¹ ⁻ ^λ ^(C+R)

λ

(51)

Comparaison avec J.Daly (2006)

0 10 20 30 40 50 60 70 80 90 100

0 5 10 15 20 25 30

Average completion times (days)

Failures rate per day FCM

J.Daly

0 10 20 30 40 50 60 70 80 90 100

0 200 400 600 800 1000 1200 1400 1600

Checkpoint number

Failures rate per day FCM

J.Daly

Variation of the average completion times with λ ∈ [

¹₂

, 96] per day ,

(52)

25/37

Comparaison avec J.Daly (2006)

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9 10

Average completion time (days)

Checkpoint cost (mins) FCM

J.Daly

0 10 20 30 40 50 60 70 80 90 100

0 20 40 60 80 100 120 140

Number of checkpoint

Cost of Checkpoint (minute)

MCM J.Daly

Variation of the average completion times with C ∈ [1, 95] mins,

_αm^ω⁰

c

= 7 days, λ =

¹₂

per day

(53)

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

2 ^eme Cas : C(S _i , m s ) = _m ^C

s

la forme générale de l’équation à minimiser devient 5

E (T _end ) = 1 λm _c

k

X

j=1

[e ^λm

^c

^(I

^j

⁺

^ms^C

^+R) − 1], avec

k

X

j=1

I _j = ω ₀ αm _c (5) Nous cherchons les racines des dérivés partielles.

8 > >

> >

> <

> >

> :

∂f

∂k

= 0

@e

λmc

1+LambertW −e⁻

ms+λCmc+λRmc ms ms

!!

λ⁻¹m_c⁻¹+^C ms+R

!

− 1 1

A λ

⁻¹

m

c−1

−

„

1 + LambertW

„

− e

⁻^ms+λ^Cmc+λ^ms ^{Rmc ms}

«« e

λmc

1+LambertW −e⁻

!!

!

λ

⁻¹

m

c−1

∂f

∂mc

= −

m^ω_c⁰²

+

_(m−m^kc

c)²

−

k e^λ^mc

(

_{mc k}^ω⁰ ⁺_m−mc^c

)

₋₁^!

λmc2

+

k

„ λ“_ω

0 mc k+ ^c

m−mc

” +λm_c

„

− ^ω⁰ mc2k+ ^c

(m−mc)2

««

e^{la mc}

(

_{mc k}^ω⁰⁺m−^cmc

)

λ⁻¹m_c⁻¹

(54)

26/37

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

2 ^eme Cas : C(S _i , m s ) = _m ^C

s

la forme générale de l’équation à minimiser devient 5

E (T _end ) = 1 λm _c

k

X

j=1

[e ^λm

^c

^(I

^j

⁺

^ms^C

^+R) − 1], avec

k

X

j=1

I _j = ω ₀ αm _c (5) Nous cherchons les racines des dérivés partielles.

8 > >

> >

> <

> >

> :

∂f

∂k

= 0

@e

λmc

1+LambertW −e⁻

!!

!

− 1 1

A λ

⁻¹

m

c−1

−

„

1 + LambertW

„

− e

⁻^ms+λ^Cmc+λ^ms ^{Rmc ms}

«« e

λmc

1+LambertW −e⁻

!!

!

λ

⁻¹

m

c−1

∂f

∂mc

= −

m^ω_c⁰²

+

_(m−m^kc

c)²

−

k e^λ^mc

(

_{mc k}^ω⁰ ⁺_m−mc^c

)

₋₁^!

λmc2

+

k

„ λ“_ω

0 mc k+ ^c

m−mc

” +λm_c

„

− ^ω⁰ mc2k+ ^c

(m−mc)2

««

e^{la mc}

(

_{mc k}^ω⁰⁺m−^cmc

)

λ⁻¹m_c⁻¹

(55)

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

La solution optimale :

I ₁ = I ₂ · · · = „ ^λ 1+LambertW

„

− e

⁻^ms

+λCmc+λRmc ms ms

««

Enfin Pour Trouver m ˆ _c , Nous utilisons une méthode numé-

rique (Newton-Raphson algorithm).

(56)

28/37

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

0 100 200 300 400 500 600 700 800 900 1000

0 5 10 15 20 25

Mean of completion time over 1000 simulation (days)

Computing nodes number

X = 886 Y = 1.4847 L = 0.0026834 U = 0.0026834

(57)

Coût Variable de Checkpoint

3 ^eme Cas : C(S _i , m _s ) = C(S _i )

0 5 10 15 20

0 1 2 3 4 5 6 7 8 9 10

The checkpoint number

Total Checkpoint data size (MByte)

0 50 100 150 200 220

1 2 3 4 5 6 7 8 9 10

Residual Workload (minute)

Total checkpoint size (Mbytes)

(58)

29/37

Coût Variable de Checkpoint

0 10 20 30 40 50 60 70

0 0,5 1 1,5 2 2,5 3 3,5

Checkpoint Number

Amount of workload (minute)

(59)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(60)

31/37

Loi de Weibull

Fonction de répartition sur R ⁺ s’écrit.F (t) = 1 − e ⁽ ^−λt)

^β

Densité de probabilité est égale à f(t) = λ(λt) ^β ⁻ ¹ e ⁽ ⁻ ^λt)

^β

1 ^er Cas : C(S _i , m c ) = C la forme générale de l’équation à minimiser devient 6

E (T _end ) =

k

X

j=1

e ^(λ(I

^j

^+C+R))

^β

Z I

j

+C+R

0 e ⁻ ^(λx)

^β

dx , avec

k

X

j=1

I _j = ω ₀

αm _c

(6)

(61)

Loi de Weibull

Fonction de répartition sur R ⁺ s’écrit.F (t) = 1 − e ⁽ ^−λt)

^β

Densité de probabilité est égale à f(t) = λ(λt) ^β ⁻ ¹ e ⁽ ⁻ ^λt)

^β

1 ^er Cas : C(S _i , m c ) = C la forme générale de l’équation à minimiser devient 6

E (T _end ) =

k

X

j=1

e ^(λ(I

^j

^+C+R))

^β

Z I

j

+C+R

0 e ⁻ ^(λx)

^β

dx , avec

k

X

j=1

I _j = ω ₀

αm _c

(6)

(62)

32/37

Loi de Weibull

Comparaison avec Yudan et al 2008

0 500 1000 1500 2000 2500

0 50 100 150 200 250 300

Average wast time per hrs

Initial amount of work per hrs FCM (15 mins)

Yudan et al (15 mins) Yudan et al (10 mins) FCM (10 mins)

Variation of the average wast time with

ω₀

αmc

∈ [100, 2500] hrs, λ =

_20.584¹

, β = 0.509

(63)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(64)

34/37

Conclusions

Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :

Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.

Introduction de nouveaux paramètres d’entrée dans le mo-

dèle tels que le modèle de coût de checkpoint, nombre de

ressources

(65)

Conclusions

Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :

Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.

Introduction de nouveaux paramètres d’entrée dans le mo-

dèle tels que le modèle de coût de checkpoint, nombre de

ressources

(66)

34/37

Conclusions

Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :

Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.

Introduction de nouveaux paramètres d’entrée dans le mo-

dèle tels que le modèle de coût de checkpoint, nombre de

ressources

(67)

Conclusions (2)

Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.

Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ ^opt = ^W ( ^e

^−(λC+1)

^(λC − 1) ) ⁺¹

λ .

Nous avons montré avec des simulations que notre modèle

réduit jusqu’à 25% le surcoût généré par le mécanisme de

sauvegarde

(68)

35/37

Conclusions (2)

Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.

Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ ^opt = ^W ( ^e

^−(λC+1)

^(λC − 1) ) ⁺¹

λ .

Nous avons montré avec des simulations que notre modèle

réduit jusqu’à 25% le surcoût généré par le mécanisme de

sauvegarde

(69)

Conclusions (2)

Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.

Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ ^opt = ^W ( ^e

^−(λC+1)

^(λC − 1) ) ⁺¹

λ .

Nous avons montré avec des simulations que notre modèle

réduit jusqu’à 25% le surcoût généré par le mécanisme de

sauvegarde

(70)

36/37

Conclusions (3)

Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.

Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.

Nous avons montré avec des simulations que notre modèle

s’adapte parfaitement avec la variation du coût de la phase

de sauvegarde.

(71)

Conclusions (3)

Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.

Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.

Nous avons montré avec des simulations que notre modèle

s’adapte parfaitement avec la variation du coût de la phase

de sauvegarde.

(72)

36/37

Conclusions (3)

Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.

Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.

Nous avons montré avec des simulations que notre modèle

s’adapte parfaitement avec la variation du coût de la phase

de sauvegarde.

(73)

Perspectives

Résolution des autres cas.

Éliminer quelques hypothèses dans la modé- lisation, comme la totale disponibilité des ma- chines de réserves.

Enfin nous pouvons effectuer d’autres études

avec d’autre mesures (Loi de panne, Coût de

checkpoint · · · ), ainsi qu’avec d’autres types

ou modèles de pannes.

(74)

37/37

Perspectives

Résolution des autres cas.

Éliminer quelques hypothèses dans la modé- lisation, comme la totale disponibilité des ma- chines de réserves.

Enfin nous pouvons effectuer d’autres études

avec d’autre mesures (Loi de panne, Coût de

checkpoint · · · ), ainsi qu’avec d’autres types

ou modèles de pannes.

(75)