M´emoire de masse Structure des disques Ordonnancement de disques RAID Structure des SSD

(1)

M ´emoire de masse

Structure des disques

Ordonnancement de disques RAID

Structure des SSD

(2)

Structure d’un disque

Structure tridimensionnelle: plateaux, secteurs, cylindres

Piste = plateau

∩

cylindre Bloc = piste

∩

secteur

T ˆetes volent sur les plateaux De 3600tpm `a 15000tpm

T ˆetes se d ´eplacent radialement

seek time: temps de d ´eplacement de la t ˆete

rotational latency: temps de d ´eplacement du bloc par rotation

(3)

Performance d’un disque

Capacit ´e: de l’ordre de 2TB en 2016, en blocs de 4kB

rotational latency moyenne:

temps pour ¹₂ tour

3600tpm 8.3ms 7200tpm 4.2ms 15000tpm 2ms

seek time moyen:

temps pour

e 1

3 du rayon

3ms − 12ms

moyen

e 1

2

ms

piste `a piste Changement de t ˆete:

e

1ms

Bande passante (bandwidth):

100

MB

/s

(4)

Vue externe d’un disque

Les d ´etails physiques sont cach ´es

•

Le SE ne voit qu’un tableau de N blocs logiques de taille fixe

•

Rec¸oit des requ ˆetes read et write sur ces blocs

•

Acc ès s équentiels cens és obtenir meilleure performance Notion de secteur peut- être invalide

Blocs endommag és cach és par remapping Le disque inclus une m émoire cache

Maintient une queue de requ ˆetes en cours (command queuing)

(5)

SAN, NAS, Storage arrays

Storage array

•

contr ôleur connect é à plusieurs/beaucoup disques

•

Vu de l’ext ´erieur comme un autre ensemble de disques Storage area network (SAN)

•

R éseau sp écialis é pour connecter des disques et des machines

•

Disques d édi és. Facilit é d’ajouter ou enlever disques Network attached storage (NAS)

•

Disques vus soit comme des disques ou des syst `emes de fichiers

•

R éseau standard. Disques peuvent être partag és.

(6)

Ordonnancement de disques

Temps d’acc ès fortement influenc é par les d éplacements de t êtes L’ordre des acc ès influence fortement le temps total

Une queue de requ ˆetes par disque (dans le SE et/ou le disque) Si la queue est vide: pas de diff ´erence

Sinon, choix d’algorithmes d’ordonnancement

(7)

First Come First Serve (FCFS/FIFO)

Garde l’ordre d’arriv ´ee des requ ˆetes

D ´eplacement total sur cet exemple: 640 unit ´es

(8)

Shortest Seek Time First (SSTF)

Choisi toujours la requ ˆete la plus proche de la position actuelle Similaire `a Shortest Job First: peut souffrir de famine

(9)

SCAN

La t ˆete parcourt toute la surface dans un sens puis dans l’autre Aussi appel ´e algorithme de l’ascenceur

(10)

SCAN circulaire (C-SCAN)

La t ête parcourt la surface toujours dans le m ême sens Diminue l’attente maximum par rapport à SCAN

D ´eplacement total plus grand, mais: 1x200

<

2x100

(11)

LOOK circulaire (C-LOOK)

LOOK = SCAN sans aller vraiment jusqu’au bout

C-LOOK = C-SCAN en ´evitant aussi les d ´eplacements inutiles

(12)

Fonctionnement de l’ordonnanceur

Le SE ne peut pas vraiment tenir compte de la latence Le disque a son propre ordonnanceur

Nombre de requ êtes limit é dans la queue du disque D épendances entre requ êtes

•

L’ordre des ´ecritures visible en cas de panne

•

L’ordonnancement doit en tenir compte

(13)

Gestion des disques

Un “disque” est une notion abstraite: un tableau de blocs cons ´ecutifs Un disque est divis ´e en partitions

On peut aussi joindre deux disques en un grand disque virtuel On peut voir les partitions comme des disques

(14)

RAID: Redundant Array of Inexpensive Disks

Tr ès difficile d’acc él érer les disques ou augmenter leur fiabilit é Utiliser plusieurs disques à la place

Copies redondantes sur plusieurs disques, pour la fiabilit é Acc ès parall èles à plusieurs disques, pour la performance Plusieurs structures possibles, selon les besoins

(15)

RAID-0: Striping

Combiner

N

disques

P D

_i en un grand disque

LD

Donn ´ees r ´eparties finement sur tous les disques

Divis ´e en stripes. Stripe S plac ´ee sur disque

S

mod

N

taille

(LD) = P

taille

(P D

_i

)

bande passante

(LD) ' P

brande passante

(P D

_i

)

IOPS

(LD) ' P

IOPS

(P D

_i

)

Mais:

latence

(LD) '

latence

(P D

_i

)

fiabilit ´e

(LD) '

_N¹

×

fiabilit ´e

(P D

_i

)

(16)

RAID-1: Mirroring

Combiner

N

disques

P D

_i en un disque

LD

de m ˆeme taille

Donn ées copi ées N fois: chaque disque est une copie des autres fiabilit é

(LD) ' N ×

fiabilit ´e

(P D

_i

)

bande passante RD

(LD) ' P

brande passante RD

(P D

_i

)

IOPS RD

(LD) ' P

IOPS RD

(P D

_i

)

latence

(LD) <

latence

(P D

_i

)

Mais:

bande passante WR

(LD) <

brande passante WR

(P D

_i

)

IOPS WR

(LD) '

IOPS WR

(P D

_i

)

taille

(LD) '

taille

(P D

_i

)

(17)

RAID-4: Parity

Striping sur N disques plus un disque suppl émentaire de parit é En lecture: comme RAID-0 avec le disque de parit é inutilis é

Fiabilit ´e bien meilleure que RAID-0: un disque peut mourir sans perte Degraded mode: fonctionnement avec un disque en moins

Mais, en ´ecriture: pire que RAID-1

Chaque ´ecriture touche au disque de parit ´e

bande passante WR

(LD) <

bande passante WR

(P D

_i

)

Le calcul de la parit é peut n écessiter des lectures suppl émentaires IOPS WR

(LD) '

¹₂

×

IOPS WR

(P D

_i

)

(18)

RAID-5: Distributed parity

Comme RAID-4, mais avec stripes de parit é r éparties sur les disques En lecture: ^N_N⁺¹ fois mieux que RAID-4 (tous les disques participent) Fiabilit é identique à RAID-5: un disque peut mourir sans perte

Degraded mode: un peu plus complexe que RAID-4

En ´ecriture: beaucoup mieux que RAID-4

Le co ût de la parit é r éparti entre tous les disques

bande passante WR

(LD) '

^N₂

×

bande passante WR

(P D

_i

)

Le calcul de la parit é peut n écessiter des lectures suppl émentaires IOPS WR

(LD) '

^N₄

×

IOPS WR

(P D

_i

)

(19)

Plus sur les RAIDs

RAID-6: comme RAID-5 mais avec un deuxi `eme bit de “parit ´e”

Hot spare: disque inutilis é pr êt à remplacer un autre

RAID-nm: un RAID-m constitu ´es de disques logiques de type RAID-n RAID-01: un mirroir de deux RAID-0 (striping) identiques

RAID-10: un striping de deux RAID-1 (mirroring)

RAID-10 donne la meilleure performance apr `es RAID-0

(20)

Solid State Disks (SSD)

Disque constitu é de m émoire non-volatile à semi-conducteur De nos jours: NAND-Flash ou NOR-Flash

NOR: performance et long évit é; NAND: densit é et co ût Une USB-key est un SSD qui vise le meilleur prix par MB Un vrai SSD vise une meilleure performance par $

Performance beaucoup plus ´elev ´ee qu’un HDD:

•

Bande passante:

e500MB/s

•

Latence:

<

0.1ms

Meilleure fiabilit ´e m ´ecanique; basse consommation

(21)

NAND-Flash

M émoire divis ée en erasure blocs (e.g. 128kB) erasure blocs subdivis é en pages (e.g. 8kB) Op érations:

• ^{read page}

: pas de surprise

• ^{write page}

: ne peut que changer des bits `a 0

• ^{erase bloc}

: met tous les bits à 1 Ph énom ène d’usure: un bloc survit à

e10’000

erase bloc

Caract ´eristiques tr `es variables

(22)

Flash-Transation-Layer (FTL)

SSDs habituellement cachent leur NAND derri `ere une couche magique

•

Expose un tableau de N blocs logiques de taille fixe (e.g. 4kB)

•

Avec seulement

read bloc

_et

write bloc

Performance en ´ecriture pas toujours pr ´evisible:

•

Un

write bloc

peut devoir lire+effacer+r ´e ´ecrire un erasure bloc

•

Wear-leveling: Le FTL doit r ´epartir les erase bloc uniform ´ement

•

En fait,

write bloc

va g én éralement écrire ailleurs!

Table auxiliaire garde position physique d’un bloc logique Blocs devenus inutilis és, r écup ér és par une sorte de GC

(23)

Exemple de FTL

Chaque bloc logique correspond `a une page

Chaque erasure bloc contient un descripteur de ses bloc logiques En m ´emoire:

•

Une table de traduction bloc logique

⇒

page

•

Une table des pages libres

read bloc

simple et efficace:

1. Utilise la table pour trouver la page 2. Lis la page

Au d ´emarrage: lire tous les descripteurs pour reconstruire les tables

(24)

Exemple de FTL: ´ecriture

Un erasure bloc courant en cours d’ ´ecriture Lors d’un write bloc

•

Ecrit dans la prochaine^´ page libre du erasure bloc courant

•

Met `a jour les tables des blocs et des pages libres Quand erasure bloc courant est plein:

•

Ecrire le^´ descripteur

•

Choisir un autre erasure bloc

•

Lire ses pages non-vides;

erase bloc

; R ´e ´ecrire ses pages