• Aucun résultat trouvé

A New Fexible Checkpoint/Restart Model

N/A
N/A
Protected

Academic year: 2022

Partager "A New Fexible Checkpoint/Restart Model"

Copied!
75
0
0

Texte intégral

(1)

A New Fexible Checkpoint/Restart Model

Mohamed Slim Bouguerra

Directeur de recherche Denis Trystram Directeur de recherche Thierry Gautier

1

Equipe projet MOAIS (INRIA Grenoble)

Workshop APRETAF, 22 Janvier 2009

(2)

2/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Motivation

Évolution continue des besoins de calcul scien- tifique.

Temps processeur

Espace mémoire ou espace de stockage

Ces nouvelles paletformes se caractérisent

par une croissance exponentielle du nombre

des processeurs.

(3)

Motivation

Évolution continue des besoins de calcul scien- tifique.

Temps processeur

Espace mémoire ou espace de stockage

Ces nouvelles paletformes se caractérisent

par une croissance exponentielle du nombre

des processeurs.

(4)

2/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Motivation

Évolution continue des besoins de calcul scien- tifique.

Temps processeur

Espace mémoire ou espace de stockage

Ces nouvelles paletformes se caractérisent

par une croissance exponentielle du nombre

des processeurs.

(5)

Challenge

À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.

En guise d’exemple sur la plate-forme Blue

Gene/L, le taux de pannes annoncé par le

constructeur est de l’ordre d’une panne par

jour (MTBF ≤ 20h)

(6)

3/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Challenge

À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.

En guise d’exemple sur la plate-forme Blue

Gene/L, le taux de pannes annoncé par le

constructeur est de l’ordre d’une panne par

jour (MTBF ≤ 20h)

(7)

Challenge

À cette échelle (Petaflops and Teraflops Sys- tems) la probabilité qu’une panne survienne sur un des processeurs est trés élevée.

En guise d’exemple sur la plate-forme Blue

Gene/L, le taux de pannes annoncé par le

constructeur est de l’ordre d’une panne par

jour (MTBF ≤ 20h)

(8)

4/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Challenge (2) Problématique

Ces pannes entraînent le crash direct de toute l’application, puisque les processeurs non dé- faillants ont souvent besoin de communiquer avec les processeurs défaillants afin de partager des données ou des résultats.

Besoins

Aussi, il est essentiel de disposer de méca-

nismes de tolérance aux pannes afin d’obtenir

de bonnes performances.

(9)

Challenge (2) Problématique

Ces pannes entraînent le crash direct de toute l’application, puisque les processeurs non dé- faillants ont souvent besoin de communiquer avec les processeurs défaillants afin de partager des données ou des résultats.

Besoins

Aussi, il est essentiel de disposer de méca-

nismes de tolérance aux pannes afin d’obtenir

(10)

5/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Challenge (3)

Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?

Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes

· · · ) ?

Quel est le nombre optimal de ressources à

utiliser pour ces mécanismes défensifs si le

nombre de ressources est limité ?

(11)

Challenge (3)

Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?

Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes

· · · ) ?

Quel est le nombre optimal de ressources à

utiliser pour ces mécanismes défensifs si le

nombre de ressources est limité ?

(12)

5/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Challenge (3)

Comment mettre en oeuvre le mécanisme de Checkpoint/Restart d’une manière ef- ficace ?

Quelles sont les périodes optimales inter check- point (coût de checkpoint, le taux de pannes

· · · ) ?

Quel est le nombre optimal de ressources à

utiliser pour ces mécanismes défensifs si le

nombre de ressources est limité ?

(13)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(14)

7/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle de Fiabilité

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(15)

Définition de la fiabilité

Définition

La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données

Mathématiquement la loi de fiabilité d’un système non réparable est définie par :

Z est une variable aléatoire dans R + , qui décrit l’instant de l’apparition de la panne dans le système.

Z sera gouvernée par une fonction de distribution F (t).

F (t) c’est la probabilité que [Z 6 t].

(16)

8/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle de Fiabilité

Définition de la fiabilité

Définition

La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données

Mathématiquement la loi de fiabilité d’un système non réparable est définie par :

Z est une variable aléatoire dans R + , qui décrit l’instant de l’apparition de la panne dans le système.

Z sera gouvernée par une fonction de distribution F (t).

F (t) c’est la probabilité que [Z 6 t].

(17)

Définition de la fiabilité

Définition

La probabilité qu’un système accomplisse sa fonction pendant une période donnée et dans des conditions de fonctionnement données

Mathématiquement la loi de fiabilité d’un système non réparable est définie par :

Z est une variable aléatoire dans R + , qui décrit l’instant de l’apparition de la panne dans le système.

Z sera gouvernée par une fonction de distribution F (t).

F (t) c’est la probabilité que [Z 6 t].

(18)

9/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle de Fiabilité

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(19)

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(20)

9/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle de Fiabilité

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(21)

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(22)

9/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle de Fiabilité

Modèle de pannes considéré

Nous considérons l’ensemble des pannes permanentes (Hard- ware, Software).

Nous considérons que si une machine crashe, toutes ses tâches seront réaffectées sur une autre machine.

Nous supposons aussi que notre outil de détection de pannes est fiable et que le temps de détection de cette panne est négligeable.

Nous supposons qu’il n’y a pas de propagation dans les apparitions des pannes (Distribution de pannes iid).

Nous supposons que l’apparition de pannes est indépen-

dante de l’exécution de l’application.

(23)

Fiabilité des Systèmes Parallèles

Notre plate-forme est composée de m composants en série : m : Le nombre des machines (composants).

Z 1 , Z 2 · · · Z m : Sont des variables aléatoires dans R + , tel que chaque Z i décrit l’instant d’apparition de la panne sur le composant i.

R i (t) : La loi de fiabilité du composant i.

Fiabilité d’un système // est calculée par la relation suivante

R(t) = P[Z 1 > t ∩ Z 1 > t · · · ∩ Z m > t] ⇐⇒ R(t) = Y

i

R i (t) (2)

(24)

10/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle de Fiabilité

Fiabilité des Systèmes Parallèles

Notre plate-forme est composée de m composants en série : m : Le nombre des machines (composants).

Z 1 , Z 2 · · · Z m : Sont des variables aléatoires dans R + , tel que chaque Z i décrit l’instant d’apparition de la panne sur le composant i.

R i (t) : La loi de fiabilité du composant i.

Fiabilité d’un système // est calculée par la relation suivante

R(t) = P[Z 1 > t ∩ Z 1 > t · · · ∩ Z m > t] ⇐⇒ R(t) = Y

i

R i (t) (2)

(25)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(26)

12/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Travaux Existants

Travaux Existants Daly (2006)

À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ

τ opt =

 q 2C

λ [1 + 1 3 ( 2 )

12

+ 1 9 ( 2 )] − C si C ≤ 2 λ

1

λ si C > λ 2

(-) Processus de Poisson

(-) Coût constant de la barrière de Checkpoint

(27)

Travaux Existants Daly (2006)

À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ

τ opt =

 q 2C

λ [1 + 1 3 ( 2 )

12

+ 1 9 ( 2 )] − C si C ≤ 2 λ

1

λ si C > λ 2

(-) Processus de Poisson

(-) Coût constant de la barrière de Checkpoint

(28)

12/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Travaux Existants

Travaux Existants Daly (2006)

À partir du modèle de Young 74, Daly propose une approximation d’ordre supérieur de la pé- riode optimale de sauvegarde τ

τ opt =

 q 2C

λ [1 + 1 3 ( 2 )

12

+ 1 9 ( 2 )] − C si C ≤ 2 λ

1

λ si C > λ 2

(-) Processus de Poisson

(-) Coût constant de la barrière de Checkpoint

(29)

Travaux Existants Yudan et al (2008)

Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique

(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.

(-) Coût constant de la barrière de sauvegarde

(30)

13/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Travaux Existants

Travaux Existants Yudan et al (2008)

Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique

(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.

(-) Coût constant de la barrière de sauvegarde

(31)

Travaux Existants Yudan et al (2008)

Yudan et al (2008) proposent un modèle de checkpoint qui ne dépends pas d’une loi spécifique

(-) L’approche est basée sur une methode d’ap- proximation qui n’est pas trop efficace.

(-) Coût constant de la barrière de sauvegarde

(32)

14/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(33)

Modèle d’Application

L’application d’entrée est modélisée par une fonction notée ω t ,

tel que t représente le temps et ω t représente la quantité de

travail résiduel à l’instant t.

(34)

15/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Modèle d’Application

L’application d’entrée est modélisée par une fonction notée ω t , tel que t représente le temps et ω t représente la quantité de travail résiduel à l’instant t.

Pmc

ω

0

ω

x

t

x

ω

t

t t

x

T

f in

ω

x

ω

0

− ω

x

P3

P2

P1

T

f in

t

(35)

Modèle d’Application

Penteαmc

ω0

ωt

τ ωτ

Tend

t

Soit ω

0

la quantité de travail à l’instant t = 0, m

c

est le nombre de

processeurs disponibles et α le facteur de overhead tel que (0 < α 6

1).

(36)

17/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Modèle d’Application Avec Pannes

Next Failure

R R

Failure R

phase of recovery phase of startup

X1 X2 X3

t Z2

Z1 Tend

ω0 ωt

Z3

(37)

Modèle d’Application Avec Pannes

Next Failure

R R

Failure R

phase of recovery phase of startup

X1 X2 X3

t Z2

Z1 Tend

ω0 ωt

Z3

Idée

T fin est borné par X 1 + X 2 + · · · + X n tel que, { N = n } est la réalisation de l’évènement {X n > ( αm ω

0

c

+ R)}.

(38)

17/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Modèle d’Application Avec Pannes

Next Failure

R R

Failure R

phase of recovery phase of startup

X1 X2 X3

t Z2

Z1 Tend

ω0 ωt

Z3

On a E (T end ) = E (

N

X

i=1

X i ) + ω 0

αm c

+ R − E (X N )., tel que X N > ( αm ω

0

c

+ R).

En utilisant Wald’s equation on obtient : E (T end ) = E (N) E (X 1 ) + ω 0

αm c

+ R − E (X N ).

(39)

Modèle d’Application Avec Pannes

On a E(T end ) = E(

N

X

i=1

X i ) + ω 0

αm c

+ R − E(X N ). tel que X N est le premier intervalle inter-pannes supérieur à

( αm ω

0

c

+ R).

En utilisant Wald’s equation on obtient : E (T end ) = E (N) E (X 1 ) + ω 0

αm + R − E (X N ).

Théorème

E(T fin ) = 1

p ¯ E(X 1 ) + ω 0

αm c − E(X n ) tel que p = P[X n > ( αm ω

0

c

+ R)] et E(X N ) = 1

P[X>

ω0

+R]

Z + ∞

ω

xf (x )dx .

(40)

18/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(41)

Modélisation avec mécanisme de sauvegarde

Nouveau Problème

Apres un intervalle de temps noté par I j on sauvegarde l’état global de l’application.

Le coût de cette barriére de Checkpoint est modélisé par la fonction C(S j , ms)

S

j

représente le quantité de travail terminée (S

j

= P

j s=1

I

s

).

m

s

représente le nombre de machines dédiées aux Checkpoint (m

s

+ m

c

= m).

Le Coût du Restart est modélisé par la fonction R(S j , m s )

(42)

20/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Modélisation avec mécanisme de sauvegarde

Phase of Checkpoint

*

Ik

X11 X21 X31 X1k−1 X2k−1 X3k−1 I1

Ik−1

Tend1 Tendk−1 Tendk

X1k Xk2

t

Tend ω0

C(I1+I2+· · ·+Ik−1) C(I1)

Wt

R1 R1 R1

Rk−1

Rk Rk Rk−1

Rk−1

(43)

Modélisation avec mécanisme de sauvegarde

Phase of Checkpoint

*

Ik

X11 X21 X31 X1k−1 Xk−12 X3k−1 I1

Ik−1

Tend1 Tendk−1 Tendk

X1k Xk2

t

Tend ω0

C(I1+I2+· · ·+Ik−1) C(I1)

Wt

R1 R1 R1

Rk−1

Rk Rk

Rk−1 Rk−1

Idée

Nous considérons le même principe de l’exécution sans sauve-

garde d’une manière récursive pour chaque intervalle de sauve-

garde I .

(44)

20/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Modèle d’Application sans Checkpoint

Modélisation avec mécanisme de sauvegarde

Phase of Checkpoint

*

Ik

X11 X21 X31 X1k−1 Xk−12 X3k−1 I1

Ik−1

Tend1 Tendk−1 Tendk

X1k Xk2

t

Tend ω0

C(I1+I2+· · ·+Ik−1) C(I1)

Wt

R1 R1 R1

Rk−1

Rk Rk

Rk−1 Rk−1

Théorème

E (T

fin

)= P

k

j=1

E(X

1

)

1−1

pj

+I

j

+C(S

j

,m

s

)+R(S

j

,m

s

) − E(X

Nj

) avec p

j

= P [Z 6

I

j

+C(S

j

,m

s

)+R(S

j

,m

s

)]

(45)

Modélisation avec mécanisme de sauvegarde

Théorème

E(T

fin

)= P

k

j=1

E(X

1

)

1−1

pj

+I

j

+C(S

j

,m

s

)+R(S

j

,m

s

) − E(X

Nj

) avec p

j

=P[Z 6 I

j

+C(S

j

,m

s

)+R(S

j

,m

s

)]

Objectif

(I 1 , I 2 · · · I k ) opt : Le vecteur des intervalles inter- sauvegardes optimal .

(m c /m s ) opt : Le ratio optimal entre noeuds de calcul/noeuds

de checkpoint .

(46)

21/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(47)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(48)

23/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Processus de Poisson

Coût Constant de Checkpoint

Fonction de répartition sur R + s’écrit.F (t) = 1 − e λt Densité de probabilité est égale à f(t) = λe λt

1 er Cas : C(S i , m s ) = C la forme générale de l’équation à minimiser devient 4

E(T fin ) =

k

X

j=1

[ 1

λ (e λ(I

j

+C+R) − 1)] avec

k

X

j=1

I j = ω 0

αm c

(4)

La solution optimale :

I 1 = I 2 = · · · = 1 + Lambert W − e 1 λ (C+R)

λ

(49)

Coût Constant de Checkpoint

Fonction de répartition sur R + s’écrit.F (t) = 1 − e λt Densité de probabilité est égale à f(t) = λe λt

1 er Cas : C(S i , m s ) = C la forme générale de l’équation à minimiser devient 4

E(T fin ) =

k

X

j=1

[ 1

λ (e λ(I

j

+C+R) − 1)] avec

k

X

j=1

I j = ω 0

αm c

(4)

La solution optimale :

I 1 = I 2 = · · · = 1 + Lambert W − e 1 λ (C+R)

λ

(50)

23/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Processus de Poisson

Coût Constant de Checkpoint

Fonction de répartition sur R + s’écrit.F (t) = 1 − e λt Densité de probabilité est égale à f(t) = λe λt

1 er Cas : C(S i , m s ) = C la forme générale de l’équation à minimiser devient 4

E(T fin ) =

k

X

j=1

[ 1

λ (e λ(I

j

+C+R) − 1)] avec

k

X

j=1

I j = ω 0

αm c

(4)

La solution optimale :

I 1 = I 2 = · · · = 1 + Lambert W − e 1 λ (C+R)

λ

(51)

Comparaison avec J.Daly (2006)

0 10 20 30 40 50 60 70 80 90 100

0 5 10 15 20 25 30

Average completion times (days)

Failures rate per day FCM

J.Daly

0 10 20 30 40 50 60 70 80 90 100

0 200 400 600 800 1000 1200 1400 1600

Checkpoint number

Failures rate per day FCM

J.Daly

Variation of the average completion times with λ ∈ [

12

, 96] per day ,

(52)

25/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Processus de Poisson

Comparaison avec J.Daly (2006)

0 10 20 30 40 50 60 70 80 90 100

0 1 2 3 4 5 6 7 8 9 10

Average completion time (days)

Checkpoint cost (mins) FCM

J.Daly

0 10 20 30 40 50 60 70 80 90 100

0 20 40 60 80 100 120 140

Number of checkpoint

Cost of Checkpoint (minute)

MCM J.Daly

Variation of the average completion times with C ∈ [1, 95] mins,

αmω0

c

= 7 days, λ =

12

per day

(53)

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

2 eme Cas : C(S i , m s ) = m C

s

la forme générale de l’équation à minimiser devient 5

E (T end ) = 1 λm c

k

X

j=1

[e λm

c

(I

j

+

msC

+R) − 1], avec

k

X

j=1

I j = ω 0 αm c (5) Nous cherchons les racines des dérivés partielles.

8

> >

> >

> <

> >

> >

> :

∂f

∂k

= 0

@e

λmc

1+LambertW −e

ms+λCmc+λRmc ms ms

!!

λ−1mc−1+C ms+R

!

− 1 1

A λ

−1

m

c−1

1 + LambertW

− e

ms+λCmc+λms Rmc ms

«« e

λmc

1+LambertW −e

ms+λCmc+λRmc ms ms

!!

λ−1mc−1+C ms+R

!

λ

−1

m

c−1

∂f

∂mc

= −

mωc02

+

(m−mkc

c)2

k eλmc

(

mc kω0 +m−mcc

)

−1!

λmc2

+

k

„ λ“ω

0 mc k+ c

m−mc

” +λmc

ω0 mc2k+ c

(m−mc)2

««

ela mc

(

mc kω0+m−cmc

)

λ−1mc−1

(54)

26/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Processus de Poisson

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

2 eme Cas : C(S i , m s ) = m C

s

la forme générale de l’équation à minimiser devient 5

E (T end ) = 1 λm c

k

X

j=1

[e λm

c

(I

j

+

msC

+R) − 1], avec

k

X

j=1

I j = ω 0 αm c (5) Nous cherchons les racines des dérivés partielles.

8

> >

> >

> <

> >

> >

> :

∂f

∂k

= 0

@e

λmc

1+LambertW −e

ms+λCmc+λRmc ms ms

!!

λ−1mc−1+C ms+R

!

− 1 1

A λ

−1

m

c−1

1 + LambertW

− e

ms+λCmc+λms Rmc ms

«« e

λmc

1+LambertW −e

ms+λCmc+λRmc ms ms

!!

λ−1mc−1+C ms+R

!

λ

−1

m

c−1

∂f

∂mc

= −

mωc02

+

(m−mkc

c)2

k eλmc

(

mc kω0 +m−mcc

)

−1!

λmc2

+

k

„ λ“ω

0 mc k+ c

m−mc

” +λmc

ω0 mc2k+ c

(m−mc)2

««

ela mc

(

mc kω0+m−cmc

)

λ−1mc−1

(55)

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

La solution optimale :

I 1 = I 2 · · · = „ λ 1+LambertW

− e

ms

+λCmc+λRmc ms ms

««

Enfin Pour Trouver m ˆ c , Nous utilisons une méthode numé-

rique (Newton-Raphson algorithm).

(56)

28/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Processus de Poisson

Ratio Optimal Noeuds de Calcul / Serveur Checkpoint

0 100 200 300 400 500 600 700 800 900 1000

0 5 10 15 20 25

Mean of completion time over 1000 simulation (days)

Computing nodes number

X = 886 Y = 1.4847 L = 0.0026834 U = 0.0026834

(57)

Coût Variable de Checkpoint

3 eme Cas : C(S i , m s ) = C(S i )

0 5 10 15 20

0 1 2 3 4 5 6 7 8 9 10

The checkpoint number

Total Checkpoint data size (MByte)

0 50 100 150 200 220

1 2 3 4 5 6 7 8 9 10

Residual Workload (minute)

Total checkpoint size (Mbytes)

(58)

29/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Processus de Poisson

Coût Variable de Checkpoint

0 10 20 30 40 50 60 70

0 0,5 1 1,5 2 2,5 3 3,5

Checkpoint Number

Amount of workload (minute)

(59)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(60)

31/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Loi de Weibull

Loi de Weibull

Fonction de répartition sur R + s’écrit.F (t) = 1 − e ( −λt)

β

Densité de probabilité est égale à f(t) = λ(λt) β 1 e ( λt)

β

1 er Cas : C(S i , m c ) = C la forme générale de l’équation à minimiser devient 6

E (T end ) =

k

X

j=1

e (λ(I

j

+C+R))

β

Z I

j

+C+R

0

e (λx)

β

dx , avec

k

X

j=1

I j = ω 0

αm c

(6)

(61)

Loi de Weibull

Fonction de répartition sur R + s’écrit.F (t) = 1 − e ( −λt)

β

Densité de probabilité est égale à f(t) = λ(λt) β 1 e ( λt)

β

1 er Cas : C(S i , m c ) = C la forme générale de l’équation à minimiser devient 6

E (T end ) =

k

X

j=1

e (λ(I

j

+C+R))

β

Z I

j

+C+R

0

e (λx)

β

dx , avec

k

X

j=1

I j = ω 0

αm c

(6)

(62)

32/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Loi de Weibull

Comparaison avec Yudan et al 2008

0 500 1000 1500 2000 2500

0 50 100 150 200 250 300

Average wast time per hrs

Initial amount of work per hrs FCM (15 mins)

Yudan et al (15 mins) Yudan et al (10 mins) FCM (10 mins)

Variation of the average wast time with

ω0

αmc

∈ [100, 2500] hrs, λ =

20.5841

, β = 0.509

(63)

Lignes directrices

1 Principe de Modélisation Modèle de Fiabilité Travaux Existants

2 Modélisation Proposée

Modèle d’Application sans Checkpoint Modèle d’Application sans Checkpoint

3 Application et Expérimentations Processus de Poisson Loi de Weibull

4 Conclusions et Perspectives

(64)

34/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Conclusions

Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :

Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.

Introduction de nouveaux paramètres d’entrée dans le mo-

dèle tels que le modèle de coût de checkpoint, nombre de

ressources

(65)

Conclusions

Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :

Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.

Introduction de nouveaux paramètres d’entrée dans le mo-

dèle tels que le modèle de coût de checkpoint, nombre de

ressources

(66)

34/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Conclusions

Nous avons proposé une modélisation stochas- tique du problème qui apporte les contributions suivantes :

Indépendance du modèle proposé vis à vie de la distribution de la loi de pannes sur la plate-forme.

Introduction de nouveaux paramètres d’entrée dans le mo-

dèle tels que le modèle de coût de checkpoint, nombre de

ressources

(67)

Conclusions (2)

Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.

Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ opt = W ( e

−(λC+1)

(λC − 1) ) +1

λ .

Nous avons montré avec des simulations que notre modèle

réduit jusqu’à 25% le surcoût généré par le mécanisme de

sauvegarde

(68)

35/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Conclusions (2)

Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.

Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ opt = W ( e

−(λC+1)

(λC − 1) ) +1

λ .

Nous avons montré avec des simulations que notre modèle

réduit jusqu’à 25% le surcoût généré par le mécanisme de

sauvegarde

(69)

Conclusions (2)

Nous avons généralisé ce modèle avec une dis- tribution de pannes qui suit une loi exponentielle et un coût de sauvegarde constant.

Nous avons proposé une solution optimale d’ordre supé- rieur du problème quand (C(t) = C) τ opt = W ( e

−(λC+1)

(λC − 1) ) +1

λ .

Nous avons montré avec des simulations que notre modèle

réduit jusqu’à 25% le surcoût généré par le mécanisme de

sauvegarde

(70)

36/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Conclusions (3)

Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.

Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.

Nous avons montré avec des simulations que notre modèle

s’adapte parfaitement avec la variation du coût de la phase

de sauvegarde.

(71)

Conclusions (3)

Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.

Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.

Nous avons montré avec des simulations que notre modèle

s’adapte parfaitement avec la variation du coût de la phase

de sauvegarde.

(72)

36/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Conclusions (3)

Nous avons généralisé ce modèle avec un pro- cessus de Poisson et la Loi de Weibull.

Nous avons proposé une solution numérique ou analytique optimale d’ordre supérieur du problème pour plusieurs cas.

Nous avons montré avec des simulations que notre modèle

s’adapte parfaitement avec la variation du coût de la phase

de sauvegarde.

(73)

Perspectives

Résolution des autres cas.

Éliminer quelques hypothèses dans la modé- lisation, comme la totale disponibilité des ma- chines de réserves.

Enfin nous pouvons effectuer d’autres études

avec d’autre mesures (Loi de panne, Coût de

checkpoint · · · ), ainsi qu’avec d’autres types

ou modèles de pannes.

(74)

37/37

Principe de Modélisation Modélisation Proposée Application et Expérimentations Conclusions et Perspectives

Perspectives

Résolution des autres cas.

Éliminer quelques hypothèses dans la modé- lisation, comme la totale disponibilité des ma- chines de réserves.

Enfin nous pouvons effectuer d’autres études

avec d’autre mesures (Loi de panne, Coût de

checkpoint · · · ), ainsi qu’avec d’autres types

ou modèles de pannes.

(75)

Perspectives

Résolution des autres cas.

Éliminer quelques hypothèses dans la modé- lisation, comme la totale disponibilité des ma- chines de réserves.

Enfin nous pouvons effectuer d’autres études

avec d’autre mesures (Loi de panne, Coût de

checkpoint · · · ), ainsi qu’avec d’autres types

ou modèles de pannes.

Références

Documents relatifs

On joue à pile ou face avec une pièce de monnaie tombant sur pile avec probabilité p ∈]0, 1[.. On considère que « faire pile » est

On suppose que les occu- rences des sauts sont de deux types A ou B, chaque occurence ´ etant de type A avec proba- bilit´ e p ind´ ependamment des autres occurences du processus (N

The RD parameter is coded in the JOB or EXEC statements and is used to request that an automatic step restart be performed if failure occurs and/or to suppress,

Q 2 Démontrer qu’il existe une suite S dont le numérateur et le dénominateur de la première fraction sont deux entiers positifs strictement inférieurs à 100 telle

Barre l’instrument que nous n’avons pas entendu.. Entoure celui qui fait penser à

tion peut être troublée o'l même arrêtée. Lesinconvénlc&gt;nts qui en résultent .sont d'autant pius graves que les applications sont d'une im.portanee plus

à très haute fréquence de moyenne puissance (Angl. Light House Tube}. An- gl.i variable, proportionnel au temps et constituant la variable indé~n- dante dans

tion par lねmate'ur d laPPar融ls de mesure et de contr61e, etC. ‥ 漢65 DEUX RECEPTEIJ RS DE TEI」EVISION