• Aucun résultat trouvé

pr´ecision sub-PPB, d`es lors que la dur´ee d’observation est de taille raisonnable. Ces r´esultats sont discut´es plus en d´etails `a la section 3.5.

3.4.2 Configuration Internet public

Comme dans le cas de la configuration WAN priv´e, nous avons commenc´e par r´ealiser de l’ordre de 10000 pings d’une station de travail situ´ee au sein d’un WAN priv´e depuis une machine connect´ee `a l’Internet public via une connexion ADSL. Durant cette exp´erience, le RTD moyen ´etait de 64.06 ms avec un ´ecart-type de 28.04 ms et les RTD minimum et maximum ´etaient de 55 et 849 ms, respectivement. De l’ordre de 0.33% des paquets ont ´et´e perdus.

De nouveau, comme dans la section pr´ec´edente, les donn´ees de ping ont ´et´e divis´ees par 2 et ont servi `a l’estimation des param`etres de position, de forme et d’´echelle d’une loi de Weibull.

En cons´equence, pour la configuration Internet public, nous avons simul´e l’envoi d’un paquet toutes les 20 ms dans les deux directions o`u Di(d) et D(u)i (´equations (3.1) et (3.3), respectivement) ´etaient tir´es selon la loi de Weibull susmentionn´ee. Nous avons alors cherch´e `a retrouver un biais de +40 PPB soit, α = 1.000000040. Rappelons que l’exigence des ±50 PPB est relˆach´ee `a ±100 PPB pour les BTS de classe pico (3GPP, 2001).

La table 3.2 r´esume les r´esultats obtenus (se r´ef´erer `a la section pr´ec´edente pour une description des diff´erentes colonnes de cette table).

Dur´ee # paquets Moy. E.-t.´ Min Max

10 secs 500 0.75066 1.13316 0.00029 6.72219 1 min 3 000 0.04291 0.05569 0.00002 0.27037 10 mins 30 000 0.01065 0.01640 3.8×10−6 0.08255

Table3.2 – Statistiques de|ˆα− α| en fonction de la dur´ee, pour la configuration Internet public. Les chiffres sont en PPB et ont ´et´e obtenus sur 100 simulations.

3.5 Discussion

Les r´esultats exp´erimentaux donn´es dans les deux sections pr´ec´edentes sugg`e-rent donc que notre approche fournit un niveau de pr´ecision suffisant d`es lors que la p´eriode de collecte des donn´ees est sup´erieure `a la minute (en r´esum´e, une erreur pire cas d’approximativement 0.3 PPB a ´et´e observ´ee pour les configurations WAN priv´e, pour un biais de 20 PPB, et Internet public, pour un biais de 40 PPB). Il suit qu’une p´eriode de collecte entre 1 et 10 mins paraˆıt raisonnable aussi bien en termes de pr´ecision que de validit´e de l’hypoth`ese de constance du biais.

50 CHAPITRE 3. SYNCHRONISATION D’HORLOGES `

A notre connaissance, ces caract´eristiques exp´erimentales de la m´ethode ont par la suite ´et´e confirm´ees en laboratoire `a l’aide de simulateurs de trafic r´eseau, puis en situation r´eelle.

`

A noter ´egalement que la pr´esente approche `a ´et´e adapt´ee et ´etendue par Poi-rier et al. (2010) au probl`eme de synchronisation hors ligne des traces d’ex´ecution d’un syst`eme r´eparti.

Deuxi`eme partie

Compilation pour les

architectures de processeurs

massivement parall`eles

Les travaux pr´esent´es dans cette seconde partie sont men´es depuis novembre 2007 dans le cadre de mes activit´es de recherche et de responsable d’´equipe de recherche au sein du Laboratoire Syst`emes Temps R´eel Embarqu´es de la Direction de la Recherche Technologique du Commissariat `a l’´Energie Atomique, `a Saclay. Le chapitre 4 est un chapitre de contexte et refl`ete les travaux de l’ensemble des membres de l’´equipe “Calcul intensif embarqu´e” du LaSTRE. Nous y pr´esentons succinctement un langage de programmation parall`ele adapt´e aux nouvelles ar-chitectures de processeurs massivement multicœurs pour l’embarqu´e, un mod`ele d’ex´ecution parall`ele pour de tels syst`emes ainsi que l’architecture logicielle d’une chaˆıne de compilation permettant de faire le lien entre les deux.

Cette technologie de compilation est bien r´eelle : elle fait l’objet d’un travail de prototypage avanc´e, mobilisant une dizaine d’ing´enieurs-chercheurs du CEA depuis 2008, et d’un transfert technologique vers une startup de l’industrie du semiconducteur. Il s’agit donc bien d’une technologie industrielle en devenir.

De nombreux probl`emes difficiles d’optimisation discr`ete se pr´esentent dans le cadre de la mise en œuvre d’une telle chaˆıne de compilation.

En cons´equence, les autres chapitres de cette partie, les chapitres 5, 6 et 7, pr´esentent des travaux en optimisation combinatoire qui ont donn´e lieu `a des al-gorithmes de r´esolution int´egr´es `a cette chaˆıne de compilation, ou qui ont vocation `a l’ˆetre.

Chapitre 4

Compilation flot de donn´ees

4.1 Introduction

En guise de pr´elude `a notre contribution `a l’optimisation combinatoire dans le domaine des syst`emes embarqu´es nous pr´esentons succinctement, dans ce cha-pitre, l’approche de la programmation et de la compilation pour les architectures de processeurs massivement multicœurs que nous avons d´evelopp´ee ces derni`eres ann´ees. Ces travaux, qui d´efinissent le contexte principal des travaux en optimi-sation pr´esent´es dans cette partie, sont le fruit d’une ´etroite collaboration avec Vincent David ainsi qu’avec l’ensemble des membres de l’´equipe “Calcul intensif embarqu´e” du LaSTRE et s’effectuent principalement dans le cadre d’un labo-ratoire commun entre le CEA et la soci´et´e Kalray, startup cr´e´ee en juillet 2008, dont l’objectif est de concevoir et d´evelopper une nouvelle g´en´eration de circuits parall`eles programmables multiapplications pour l’embarqu´e. Le d´eveloppement de cette technologie de compilation mobilise depuis 2008 une ´equipe d’une pe-tite dizaine d’ing´enieurs-chercheurs, l’´equipe “Calcul intensif embarqu´e” susmen-tionn´ee, dont je me suis vu confi´e la responsabilit´e. Cette technologie est aujour-d’hui `a l’´etat de prototype avanc´e : il existe une premi`ere version compl`ete d’une chaˆıne de compilation qui a pass´e son baptˆeme du feu industriel sur des appli-cations de r´ef´erence complexes (notamment un encodeur H.264 complet) jusqu’`a la construction d’un binaire et `a son ex´ecution sous l’´egide d’un micro-noyau que nous avons aussi prototyp´e. Cette technologie a ´egalement d’ores et d´ej`a fait l’objet d’une premi`ere vague de transfert industriel en 2011.

Confidentialit´e oblige, nous ne pouvons pas vraiment donner de d´etails sur l’architecture Kalray. Nous nous contenterons d’indiquer qu’il s’agit d’un micro-processeur comportant un certain nombre de clusters, qui sont des petits calcu-lateurs parall`eles MIMD compos´es de quelques cœurs de calcul et dot´es d’une m´emoire partag´ee, interconnect´es par un r´eseau paquet asynchrone sur puce de topologie torique, born´e en latence. Cette technologie permet d’int´egrer de l’ordre de 200 `a 1000 cœurs de calcul, fonctionnant `a des fr´equences relativement faibles,

56 CHAPITRE 4. COMPILATION FLOT DE DONN ´EES au sein d’une unique puce avec un budget thermique tr`es r´eduit. Cf. Kalray (2011) pour plus de d´etails.

Si ses bases ont ´et´e jet´ees en mˆeme temps que celles de l’informatique1, le parall´elisme est longtemps rest´e l’apanage des sp´ecialistes des grands centres de recherche. Ce n’est que depuis la fin de ce que l’on appelle d´esormais l’`ere Moore qu’il devient n´ecessaire de rendre le parall´elisme, c’est-`a-dire l’´ecriture, la mise au point, l’ex´ecution performante et maˆıtris´ee et la maintenance de programmes parall`eles, accessibles au plus grand nombre. Ceci afin de permettre une exploita-tion viable des architectures de processeurs parall`eles, dites multicœurs, qui sont d´esormais monnaie courante.