Discussion - Contributions à l'optimisation combinatoire pour l'embarqué : des autocommutateurs

précision sub-PPB, dès lors que la durée d’observation est de taille raisonnable. Ces résultats sont discutés plus en détails à la section 3.5.

3.4.2 Configuration Internet public

Comme dans le cas de la configuration WAN privé, nous avons commencé par réaliser de l’ordre de 10000 pings d’une station de travail située au sein d’un WAN privé depuis une machine connectée à l’Internet public via une connexion ADSL. Durant cette expérience, le RTD moyen était de 64.06 ms avec un écart-type de 28.04 ms et les RTD minimum et maximum étaient de 55 et 849 ms, respectivement. De l’ordre de 0.33% des paquets ont été perdus.

De nouveau, comme dans la section précédente, les données de ping ont été divisées par 2 et ont servi à l’estimation des paramètres de position, de forme et d’échelle d’une loi de Weibull.

En conséquence, pour la configuration Internet public, nous avons simulé l’envoi d’un paquet toutes les 20 ms dans les deux directions où D_i^(d) et D^(u)_i (équations (3.1) et (3.3), respectivement) étaient tirés selon la loi de Weibull susmentionnée. Nous avons alors cherché à retrouver un biais de +40 PPB soit, α = 1.000000040. Rappelons que l’exigence des ±50 PPB est relâchée à ±100 PPB pour les BTS de classe pico (3GPP, 2001).

La table 3.2 résume les résultats obtenus (se référer à la section précédente pour une description des différentes colonnes de cette table).

Dur´ee # paquets Moy. E.-t.^´ Min Max

10 secs 500 0.75066 1.13316 0.00029 6.72219 1 min 3 000 0.04291 0.05569 0.00002 0.27037 10 mins 30 000 0.01065 0.01640 3.8×10−6 0.08255

Table3.2 – Statistiques de|ˆα− α| en fonction de la durée, pour la configuration Internet public. Les chiffres sont en PPB et ont été obtenus sur 100 simulations.

3.5 Discussion

Les résultats expérimentaux donnés dans les deux sections précédentes suggè-rent donc que notre approche fournit un niveau de précision suffisant dès lors que la période de collecte des données est supérieure à la minute (en résumé, une erreur pire cas d’approximativement 0.3 PPB a été observée pour les configurations WAN privé, pour un biais de 20 PPB, et Internet public, pour un biais de 40 PPB). Il suit qu’une période de collecte entre 1 et 10 mins paraˆıt raisonnable aussi bien en termes de précision que de validité de l’hypothèse de constance du biais.

50 CHAPITRE 3. SYNCHRONISATION D’HORLOGES `

A notre connaissance, ces caractéristiques expérimentales de la méthode ont par la suite été confirmées en laboratoire à l’aide de simulateurs de trafic réseau, puis en situation réelle.

A noter également que la présente approche à été adaptée et étendue par Poi-rier et al. (2010) au problème de synchronisation hors ligne des traces d’exécution d’un système réparti.

Deuxi`eme partie

Compilation pour les

architectures de processeurs

massivement parall`eles

Les travaux présentés dans cette seconde partie sont menés depuis novembre 2007 dans le cadre de mes activités de recherche et de responsable d’équipe de recherche au sein du Laboratoire Systèmes Temps Réel Embarqués de la Direction de la Recherche Technologique du Commissariat à l’Énergie Atomique, à Saclay. Le chapitre 4 est un chapitre de contexte et reflète les travaux de l’ensemble des membres de l’équipe “Calcul intensif embarqué” du LaSTRE. Nous y présentons succinctement un langage de programmation parallèle adapté aux nouvelles ar-chitectures de processeurs massivement multicœurs pour l’embarqué, un modèle d’exécution parallèle pour de tels systèmes ainsi que l’architecture logicielle d’une chaˆıne de compilation permettant de faire le lien entre les deux.

Cette technologie de compilation est bien réelle : elle fait l’objet d’un travail de prototypage avancé, mobilisant une dizaine d’ingénieurs-chercheurs du CEA depuis 2008, et d’un transfert technologique vers une startup de l’industrie du semiconducteur. Il s’agit donc bien d’une technologie industrielle en devenir.

De nombreux problèmes difficiles d’optimisation discrète se présentent dans le cadre de la mise en œuvre d’une telle chaˆıne de compilation.

En conséquence, les autres chapitres de cette partie, les chapitres 5, 6 et 7, présentent des travaux en optimisation combinatoire qui ont donné lieu à des al-gorithmes de résolution intégrés à cette chaˆıne de compilation, ou qui ont vocation à l’être.

Chapitre 4

Compilation flot de donn´ees

4.1 Introduction

En guise de prélude à notre contribution à l’optimisation combinatoire dans le domaine des systèmes embarqués nous présentons succinctement, dans ce cha-pitre, l’approche de la programmation et de la compilation pour les architectures de processeurs massivement multicœurs que nous avons développée ces dernières années. Ces travaux, qui définissent le contexte principal des travaux en optimi-sation présentés dans cette partie, sont le fruit d’une étroite collaboration avec Vincent David ainsi qu’avec l’ensemble des membres de l’équipe “Calcul intensif embarqué” du LaSTRE et s’effectuent principalement dans le cadre d’un labo-ratoire commun entre le CEA et la société Kalray, startup créée en juillet 2008, dont l’objectif est de concevoir et développer une nouvelle génération de circuits parallèles programmables multiapplications pour l’embarqué. Le développement de cette technologie de compilation mobilise depuis 2008 une équipe d’une pe-tite dizaine d’ingénieurs-chercheurs, l’équipe “Calcul intensif embarqué” susmen-tionnée, dont je me suis vu confié la responsabilité. Cette technologie est aujour-d’hui à l’état de prototype avancé : il existe une première version complète d’une chaˆıne de compilation qui a passé son baptême du feu industriel sur des appli-cations de référence complexes (notamment un encodeur H.264 complet) jusqu’à la construction d’un binaire et à son exécution sous l’égide d’un micro-noyau que nous avons aussi prototypé. Cette technologie a également d’ores et déjà fait l’objet d’une première vague de transfert industriel en 2011.

Confidentialité oblige, nous ne pouvons pas vraiment donner de détails sur l’architecture Kalray. Nous nous contenterons d’indiquer qu’il s’agit d’un micro-processeur comportant un certain nombre de clusters, qui sont des petits calcu-lateurs parallèles MIMD composés de quelques cœurs de calcul et dotés d’une mémoire partagée, interconnectés par un réseau paquet asynchrone sur puce de topologie torique, borné en latence. Cette technologie permet d’intégrer de l’ordre de 200 à 1000 cœurs de calcul, fonctionnant à des fréquences relativement faibles,

56 CHAPITRE 4. COMPILATION FLOT DE DONN ÉES au sein d’une unique puce avec un budget thermique très réduit. Cf. Kalray (2011) pour plus de détails.

Si ses bases ont été jetées en même temps que celles de l’informatique1, le parallélisme est longtemps resté l’apanage des spécialistes des grands centres de recherche. Ce n’est que depuis la fin de ce que l’on appelle désormais l’ère Moore qu’il devient nécessaire de rendre le parallélisme, c’est-à-dire l’écriture, la mise au point, l’exécution performante et maˆıtrisée et la maintenance de programmes parallèles, accessibles au plus grand nombre. Ceci afin de permettre une exploita-tion viable des architectures de processeurs parallèles, dites multicœurs, qui sont désormais monnaie courante.

Dans le document Contributions à l'optimisation combinatoire pour l'embarqué : des autocommutateurs cellulaires aux microprocesseurs massivement parallèles (Page 50-57)