HAL Id: tel-01151640
https://tel.archives-ouvertes.fr/tel-01151640
Submitted on 13 May 2015HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
silicon photonics technology
Zhen Li
To cite this version:
N° d’ordre : 2015-01
Année : 2015
THESE
délivré parL’ECOLE CENTRALE DE LYON
Spécialité : Electronique, micro et nano-électronique, optique et laser
Présentée et soutenue publiquement par
Zhen LI
Préparé à l’Institut des Nanotechnologies de Lyon (INL), UMR CNRS 5270
RECONFIGURABLE COMPUTING ARCHITECTURE
EXPLORATION USING SILICON PHOTONICS
TECHNOLOGY
Ecole Doctoral E.E.A « Electronique, Electrotechnique, Automatique » de Université de Lyon Sera soutenue le 28 janvier 2015 devant la Commission d’Examen
Jury :
M.Peter Bienstman
Associate Professeur, Ghent University
Rapporteur
M.Lionel Torres
Professeur, Univ.de Montpellier 2
Rapporteur
M.Yannick Dumeige
HDR, Univ.de Rennes 1
Examinateur
M.Jacques-Olivier Klein Professeur, Université Paris-Sud XI
Examinateur
M.Sébastien Le Beux
Maitre de conférence, ECL
Examinateur
Mme.Christelle Monat Maitre de conférence, ECL
Examinateur
M.Xavier Letartre
Directeur de recherche, CNRS
Examinateur
i
REMERCIEMENTS
Tout d’abord, je tiens à remercier Peter Bienstman et Lionel Torres pour avoir joué le role essentiel de rapporteurs de cette thèse, en lisant avec sérieux et indulgence ce manuscrite « double-disciplinaire ». Peter et Lionel a aussi contribué grandement non seulement à l’amélioration de l’architecture je proposé, et encore à reconsidérer ce travail sous un autre horizon. Je joins à ces remerciements Jacques-Olivier Klein et Yannick Dumeige pour avoir ajouté des visions différentes à la variété des compétences de mon jury et aussi pour leurs remarques, questions et conseils lors de ma présentation.
Les quatres personnes restant du jury ont contribué plus intensément à la réussite de cette thèse, mon directeur de thèse Ian O’Connor, avec Sébastien Le Beux, Christelle Monat et Xavier Letartre. Je tiens à exprimer ma profonde gratitude envers cette équipe d’encadrement « fantastique » et « croisé le monde du système et du photonique », pour m’avoir encadré, accompagné, conseillé et soutenu tout au long de ma thèse, pour leur aides scientifiques, organisationnelles et énormément encouragements à défendre mes idées et suivre le chemin je choisie, pour l’ensemble de nos échanges stimulants, de nos débats agreables et passionants ainsi que pour ces nombreuses relecteurs de ce manuscrite.
Je voudrais remercier Guy Hollinger (directeur de l’INL), Catherine Bru-Chevallier (directrice INL) et Christian Seassal (directeur adjoint INL, résponsable site-ECL) pour m’avoir accueillie au sein de l’INL et m’avoir permis d’effectuer cette thèse dans ses murs.
Bien sûr, Xavier a joué un rôle essentiel qui est un peu comme « le roi physique » dans ces traveaux de thèse. Combien de fois j’ai pu apprécier de discuter avec toi des problèmes épineux et mes questions à la fois « informé » et « inprécisé », et l’ésprit prolifique de sortir un solution élégant et satisfaite (plus qu’un compromis) pour des choses compliqués. Souvent je me sens plutot comme jouer un petit jeu de raisonnement avec toi, avec les échos « et alors » « et alors » « mais c’est bien sur » ou « on sent fou», on a trouvé finalment c’était tout simple !… J’espère vraiment que je me montrerai aussi l’ésprit que toi dans ma carrière de recherche de futur.
ii
tous ce que je t’ai parlé et proposé, tu es toujours curieuse et passionné à apprendre les nouveaux (plus que du côte physique, mais aussi du système), à décourir des petits choses intéréssantes, à tenir les détails au cœur et pu faire le lien entre eux quand t’a besoin (par exemple, pour me montrer les choses bizzares ou inraisonnables qui sont dans un coin caché de ma thèse). Pour ces moments, le mieux je peux faire est de te dire « je ne sais pas, et je vais le bien vérifier après ». Mais plus qu’une perfectionniste et parfois « exigente » en science, tu es aussi très attentive et tolérante, je ne sais plus combien de fois je suis ému que tu tiens sur ma position à considérer et/ou à montré un autre angle sur mes idées et mes traveaux. Tu es le premier exemple du chercheur accompli qui me vienne à l’esprit.
Egalement, Sébastien prends le rôle comme « boss système ». C’est vraiment difficile à croire que tu as des imaginations si riches et tu as pu inspirer des belles idées chaque fois qu’on échange et discute. J’ai encore bien du mal à réaliser comment tu parviens d’avoir le grande vue en même temps n’oublier pas tous les petites détails, parfois je ne sais pas comment te faire plaisir quand tu m’a dit « c’est pas claire ». Mais ce qui est précieuse pour moi, c’est tu m’as parlé souvent la difficulté sur ce sujet multi-disciplinaire qui est entre le système et physique (la communication, la compromis), surtout quand on n’étais pas content sur les résultats, ta tolérence et personnalité fait toi comme « mon frère ».
Et finalement j’ai eu la chance d’avoir Ian, le meilleur directeur de la thèse, cette thèse n’aurait pas pu voir le jour sans l’implication de toi. Je n’a pas pu de trouver un mot ou une phrase pour merci ton support, tes encouragements, tes idées, tes temps, ta compherension…tu es le « père » de ma vie de la science.
Je tiens aussi à mentioner le plaisir que j’ai eu à travailler au sein de l’équipe conception et l’équipe nanophotonique et j’en remercie ici tous les membres. Merci également auxadministrateurs systèmes (Laurent Carrel et Rapheal Lopez) et aux secrétaires (Sylvie, Patricia), qui font un travail formidable pour le labo.
iii
distance, m’ont soutenu au cours de cette aventure : Tang Qingshan, Ning Baozhu, Bing jingyi, Shi Peiluo, Wang Weijia…
Enfin, je souhaiterais remercier l’ensemble de ma famille pour m’avoir soutenu au cours de ma thèse, mon père, ma copine et mes frères et mes sœurs. Et merci maman au ciel, tu m’appris heureux, courage, dignité, je sens ta presence chaque jours.
v
RESUME
vii
ABSTRACT
ix
RESUME FRANCAIS
1. Introduction
A l'ère de l'explosion des données, les systèmes de calcul sont un facteur clé pour l’innovation des technologies de l'informatique et de la communication. En raison des besoins sans-cesse croissantes en puissance de calcul, en rentabilité économique, et en efficacité énergétique, les méthodes traditionnelles reposant sur une évolution incrémentale des architectures de calcul ne suffisent plus ; des nouveaux paradigmes de calcul s’appuyant sur de nouvelles technologies sont désormais nécessaires pour relever les défis énergétiques et de performance.
ITRS (the International Technology Roadmap for Semiconductors) prédit que les interconnexions électriques ne seront plus capables de supporter les échanges de données ultrarapides dans les systèmes de calcul parallèle (e.g. système sur puce multiprocesseurs, MPSoC), du fait de leurs faibles efficacités énergétiques et de leur faible bande passante. L’optique intégrée sur puce fait partie des alternatives susceptibles de répondre aux besoins en vitesse et en faible consommation des circuits intégrés (IC), cela en leur conférerant davantage de fiabilité. En effet, selon [12] and [17], l’optique permet d’augmenter la bande passante, de diminuer la latence et la consommation associée aux interconnexions. De plus, la compatibilité de l’optique avec les procédés de fabrication traditionnels CMOS permet de réduire fortement les couts de développements et de fabrication tout en garantissant un accès aux techniques d'assemblage hautement intégrés.
x
architectures de calcul adaptés à l’optique et capable de tirer profit de ses bonne propriété [3]. Une feuille de route permettant de développer des architectures de calcul exploitant l’optique peuvent être résumés ainsi: a) le calcul doit rester autant que possible dans le domaine optique afin de limiter l'utilisation d'interfaces électro-optiques couteuse; b) le spectre de la lumière doit être utilisés via le multiplexage en longueurs d’onde (« wavelength division multiplexing », WDM) afin de représenter et traiter l'information de manière efficace et compacte; c) l’architecture optique doit être reconfigurable pour permettre plus de flexibilité et d’adaptabilité selon les applications traitées; d) l'optique doit permettre d’améliorer l'efficacité énergétique des systèmes de calcul.
Dans cette thèse, nous proposons une nouvelle architecture de calcul optique, la « Optical LookUp table » (OLUT), qui est une implémentation optique de la Lookup table (LUT). Les progrès dans la fabrication des systèmes de calcul reconfigurables de type « field programmable gate arrays » (FPGA) s’appuient sur la technologie CMOS, ce qui engendre une consommation des puces élevée. Dans la mesure où la technologie CMOS approche de ses limites fondamentales, l’approche classique visant à densifier les ressources de calculs au sein des FPGAs mènera à des puissances surfaciques élevées qui ne pourront être réduite que par une limitation de l’activité. Continuer à réduire le nombre de pJ/bits avec chaque génération de technologie n’est donc plus possible. La photonique sur silicium, quant à elle, a le potentiel pour franchir cette barrière énergétique et augmenter le rapport performances/puissance des FPGAs, permettant ainsi de réduire l'écart entre FPGAs et ASICs.
L'architecture OLUT proposée permet d’accélérer les calculs en utilisant le spectre de la lumière au travers de la technologie WDM. Elle améliore significativement la latence et la consommation énergétique par rapport aux architectures de calcul d’optique actuelles tel que RDL (« reconfigurable directed logic »). Nous proposons une méthodologie de conception multi-niveaux permettant l'explorer l’espace de conception et ainsi de réduite la consommation énergétique tout en garantissant une fiabilité élevée des calculs (BER ~ 10-18). Les résultats indiquent que l’OLUT permet une consommation inférieure à 100fJ par bit, ce qui répondait en partie aux besoins d’un FPGA tout-optique.
Objectifs et plan de la thèse
xi
à la frontière entre des domaines de la conception de systèmes de calcul et de la modélisation de dispositifs photoniques. Le plan de cette thèse est le suivant:
Le chapitre 1 introduit les systèmes de traitement de l'information et offre un aperçu des défis technologiques liés à l'utilisation de la technologie optique pour les communications dans les systèmes sur puce électroniques. Il retrace ensuite l'évolution du calcul optique et résumé les raisons de ses échecs pour sa diffusion. Enfin, ce chapitre identifie le rôle que pourrait jouer l’optique dans les systèmes de calcul en tirant profit des ses bonnes propriétés.
Le chapitre 2 identifie les principaux types d'architectures de calcul existant et leurs limites actuels ou à venir pour répondre aux défis de la réduction de la consommation d'énergie et de l’augmentation de la puissance de calcul. Il présente ensuite les tendances actuelles liées à l’utilisation des technologies émergentes pour la mise en œuvre des architectures de calcul reconfigurables, tels que la technologie 3-D, les nano-mémoires et l’optique. Un état de l’art portant sur les architectures de calcul optiques est ensuite adressé.
Le chapitre 3 décrit le principe de fonctionnement de l’OLUT. Dans un premier temps, une implémentation optique équivalente à la LUT électrique est décrite. Nous montrons ensuite comment le WDM est avantageusement utilisé pour réaliser des calculs en parallèles, ce qui permet d’aboutir à une OLUT avec plusieurs sorties. Le principe de filtrage en longueurs d’onde des OLUTs y est ensuite détaillé. Une évaluation préliminaire de gains potentiels de l’OLUT est ensuite réalisée via l’exemple de l’additionneur complet 1-bit. Dans la dernière partie, les sorties sont dupliquées afin de densifier plus encore les calculs. Cela est réalisé par le biais de sorties complémentaire, qui permettent d’effectuer simultanément le calcul d’une fonction logique et de son complément.
xii
Le chapitre 5 présente les résultats d’évaluation de performance de l’OLUT en utilisant la méthodologie de conception multi-niveaux décrite dans le chapitre 4. Dans la première partie, la consommation d’énergie de l’OLUT est évaluée en explorant l'espace de conception des filtres « add-drop ». L'impact des dimensions d'entrée et de sortie d’OLUT sur son efficacité énergétique est étudié. La deuxième partie quantifie les gains de l’OLUT avec les sorties complémentaires sur les performances de calcul et l'efficacité énergétique. La surface sur silicium et la puissance de laser optique d’entrée sont ensuite analysés.
Le chapitre 6 conclut la thèse et donne les perspectives de l’OLUT. En particulier, une OLUT tout-optique reposant sur les interfaces d'entrée et de sortie tout-optique est proposée, ce qui permet de passer à l’échelle et de traiter des fonctions de calcul plus complexes.
2. Utilisé la technologie optique dans les systèmes de calcul reconfigurables
xiii
Fig.1 Une architecture de FPGA optique proposé par Altera[105]
La « Directed logic » (DL) est une architecture proposée pour réaliser du « supercomputing » optique. Elle améliore la latence de calcul par rapport aux circuits électronique en utilisant un réseau de commutateurs optiques interconnectés. L’architecture DL a évolué avec les progrès technologiques récents de la photonique sur silicium, et en particulier les modulateurs d’anneau silicium. Une preuve de concept reposant sur des résonateurs en anneau en cascade a été démontrée expérimentalement. Des améliorations significatives dans la reconfigurabilité et le passage à échèlle ont été apportées par l’architecture reconfigurable DL (RDL). Une implémentation de l’architecture RDL constitués d’une matrice 2 par 2 de interrupteurs a permit d’obtenir une vitesse de calcul de 0.5Gbits/s. Dans RDL, des fonctions logiques sont écrites sous la forme d’une somme de produits, qui sont généralement implémentées dans le circuit photonique via un réseau complet de type « cross-bar ». Ce circuit est constitué de micro-résonateurs électriquement contrôlés, ce qui aboutit à des coûts d’implémentation relativement élevés et des consommations énergétiques trop importantes. De plus, l’architecture RDL ne tire pas profit du WDM, qui est pourtant un intérêt majeur de la photonique pour le calcul parallèle et l’efficacité énergétique.
La capacité de calcul des FPGAs s’appuie sur la petite taille et le grand nombre de LUTs. En électronique, une n-LUT prend n bits de donnée en entrée et fournit 1 bit de donnée en sortie, c'est-à-dire qu’une seule opération est effectuée à chaque cycle. Plusieurs n-LUTs doivent donc être mise en parallèle pour réaliser des calculs différents sur un même ensemble d’entrées. Dans cette thèse, nous proposons une implémentation optique de la LUT, que nous appelons OLUT. Au lieu de multiplexer des signaux électriques et de changer l’état de transistors comme dans une LUT, l’OLUT route des signaux optiques au travers d’un réseau de « démultiplexage » constitué de guides d’ondes et de commutateurs électro-optiques, selon un chemin spécifié par les données d’entrée. En utilisant le WDM, une OLUT avec m opérations (càd une n-m-OLUT) interface n bits de données d’entrée avec m bits de données de sortie, en utilisant m signaux optiques aux longueurs d’onde distincts (λ0,..., λm-1), chacune
réalisant un calcul. De cette manière, les OLUTs permettent d’augmenter la capacité de calcul par rapport aux LUTs traditionnelles, profitant ainsi des avantages de la technologie photonique sur silicium.
3. Présentation de l’architecture de l’OLUT
xiv
Les OLUTs sont inspirées directement de la LUTs électriques. Une LUTà n entrées interface n données d’entrée et 1 donnée de sortie à partir de la configuration stockée dans les 2n bits de mémoire statique SRAM. Le calcul est réalisé en récupérant le résultat de l’opération stockée dans la mémoire spécifique à laquelle on accède à partir de l’état des données d’entrée. La Fig.2(a) montre un layout du circuit associé à une 2-LUT électrique. Il est construit à partir de 4 bits de mémoire et d’un multiplexeur 4:1. Les LUTs sont utilisés dans les FPGA électriques, en raison de leur temps de calcul constant et de leur capacité à réaliser toutes les fonctions booléennes selon l'état de configuration des SRAM, ce qui conduit à la réalisation d’architectures hautement flexibles et reconfigurables.
Le schéma d’une 2-OLUT qui fonctionne comme l’équivalent d’une 2-LUT électrique, est présenté sur la Fig.2(b). La 2-OLUT utilise un signal optique à la longueur d’onde λ0,
comme l’équivalent d’une alimentation électrique. L’OLUT possède ses données d'entrée et de sortie sous forme électrique. De façon similaire à la LUT électrique, l’OLUT est composée de deux parties relativement indépendantes, qui sont dans le cas de la 2-OLUT :
1) La partie de routage : En fonction des données d’entrée électriques, un
ensemble de routeurs optiques interconnectés (pour une implémentation possible, cf. la section suivante) for un réseau 1:4 de démultiplexage de façon à acheminer le signal optique dans l’un des 4 guides d'ondes horizontaux.
2) La partie de mémorisation : elle est composée de 4 filtres « add-drop »
xv 0/1 y z0 λ0 λ0 λ0 λ0 D SRAM Multiplexer λ0 0/1 x y Z0 x
Input Data Input Data Output Data
Output Data
(b) Optical 2-LUT
SRAM
(a) Electrical 2-LUT
λ0 stage 0/1 0/1 0/1 Routing Memorization λ0 0/1 λ0 0/1 λ0 0/1 0/1 0/1 y z0 λ0 λ0 λ0 λ0 D SRAM Multiplexer λ0 0/1 λ0 0/1 x y Z0 x
Input Data Input Data Output Data
Output Data
(b) Optical 2-LUT
SRAM
(a) Electrical 2-LUT
λ0 stage 0/1 0/1 0/1 0/1 0/1 0/1 Routing Memorization λ0 0/1 λ0 0/1 λ0 0/1 λ0 0/1 λ0 0/1 λ0 0/1
Fig.2 Representation schematique d’une (a) 2-LUT electrique et (b) de l’OLUT équivalente.
Principe de base et l’opération du switch
Le composant clé de l’OLUT est le commutateur (ou filtre add-drop). Ces composants permettent de sélectionner et de rediriger un signal optique en fonction de sa longueur d'onde. Par souci de clarté, dans la figure 2, on utilise des symboles différents pour représenter les routeurs optiques et les commutateurs optiques dans la partie de routage et de mémorisation, respectivement, même si ces fonctions peuvent être physiquement implémentés par le même composant optique, par exemple un filtre « add-drop » exploitant un micro-résonateur en anneau (comme expliqué dans la section suivante). La pertinence de cette distinction deviendra plus explicite lors de l'introduction de l'utilisation du WDM dans les architectures OLUTs pour paralléliser les calculs.
Pour une géométrie et des paramètres matériaux donnés, le spectre de transmission d’un filtre add-drop à micro-anneau est typiquement un peigne de raies qui peut être modifié par un signal de contrôle, conduisant à la définition d’un état « Through » et d’un état « Drop » :
« Etat Through»: la résonance du filtre add-drop (i.e. associé à un pic de transmission) est désalignée spectralement avec la longueur d’onde du signal d’entrée, de sorte que le signal optique continue sur le même guide d’onde, sans être perturbé par le filtre add-drop qu’il croise.
«Etat Drop» : la résonance du filtre add-drop est alignée avec la longueur d’onde du signal d’entrée, de sorte que ce dernier est redirigé du guide d’onde d’entrée vers le second guide (dans l’exemple de la Fig.2, le guide orthogonal).
xvi
comme un interrupteur optique contrôlé statiquement qui peut changer la direction du signal optique d’entrée en fonction de l’état de donnée stockée dans la mémoire adjacent (i.e. la brique de base pour implémenter la partie de mémorisation). Noter que les cahiers des charges pour ces deux fonctions sont cependant assez différents: le commutateur de la partie routage doit pouvoir fonctionner en régime de modulation dynamique très rapide, pour être compatible avec un débit de données (signale de contrôle) élevé, tandis que le commutateur de la partie mémorisation n’impose aucune exigence sur la vitesse de modulation puisqu’il fonctionne à l'état statique et n’est modifié que de manière ponctuelle si l’OLUT est reconfigurée. Pour le reste du résumé, nous utilisons de manière équivalente le terme de filtre «add-drop » pour désigner ces deux composants. Enfin, bien que le symbole choisi pour représenter le commutateur optique ressemble à un micro-anneau, nous soulignons que cela ne représente qu’un choix d’implémentation possible (probablement la plus mature actuellement) pour construire les commutateurs composant l’architecture de l’OLUT.
1 0 0 0 0 1 0 AND 1 0 0 0 1 1 1 AND D 1 λ0 λ0 λ0 0 0 0 λ0 1 1 1 AND D 1 λ0 λ0 λ0 0 0 0 λ0 1 0 0 AND 1 0 0 0 0 0 0 AND D 1 λ0 λ0 λ0 0 0 0 λ0 0 0 0 AND 1 0 0 0 1 0 0 AND Electrical 2-LUT 2-1x2-OLUT a) b) c) d) e) f) g) D h) 1 λ0 λ0 λ0 0 0 0 λ0 0 1 0 AND 1 0 0 0 0 1 0 AND 1 0 0 0 0 1 0 AND 1 0 0 0 1 1 1 AND 1 0 0 0 1 1 1 AND D 1 1 λ0 λ0 λ0 00 0 0 0 λ0 λ0 λ0 1 1 1 AND D 1 λ0 λ0 λ0 00 0 0 0 λ0 1 0 0 AND 1 0 0 0 0 0 0 AND 1 0 0 0 0 0 0 AND D 1 1 λ0 λ0 λ0 0 0 0 λ0 0 0 0 AND 1 0 0 0 1 0 0 AND 1 0 0 0 1 0 0 AND Electrical 2-LUT 2-1x2-OLUT a) b) c) d) e) f) g) D h) 1 1 λ0 λ0 λ0 0 0 0 λ0 0 1 0 AND
Fig3. Example d’une fonction AND implementé par une 2-LUT et une 2-OLUT: (a-d) chemins d’entrée et sortie des données dans la 2-LUT pour différents scénarios de données d’entrée , (e-h) chemins
corréspondants suivis par le signal optique pour la 2-OLUT.
La figure 3 (a-d) illustre les chemins suivis par les données et les résultats obtenus en sortie quand la LUT est configurée pour implémenter une opération logique « AND », un signal de sortie associé à une logique « 1 » ou « 0 » est généré en fonction des signaux de contrôle électrique, i.e. les données d’entrée. La Fig.3 (g-j) représente les scenarios correspondants dans une 2-OLUT qui est configurée pour exécuter la même fonction logique en utilisant un faisceau lumineux à la longueur d’onde λ0. Dans l’OLUTs, l’état logique de
xvii
qui sont spectralement (des)alignés avec le signal optique incident par les contours des rings en trait plain (pointillé).
Principe de fonctionnement de la n-m-OLUTs
Comme mentionné précédemment, en tirant le meilleur parti de la technologie photonique silicium, l'utilisation du WDM est un vecteur fondamental pour la création d’architectures de calcul puissantes. Bien que l’OLUT décrite sur la figure 2 (b) utilise un signal optique à la longueur d'onde λ0 pour faire une seule opération, de manière équivalente à
une LUT traditionnelle, le WDM peut être avantageusement utilisé dans l’OLUT pour réaliser des opérations logiques simultanées sur les mêmes données d'entrée. De cette façon, l’OLUT permet potentiellement d'augmenter le rapport performance/consommation en puissance par rapport à la LUT électrique.
Une OLUT avec m opérations (désigne si après n-m-OLUT) interface n bits de donnée d’entrées électriques avec m bits de données de sortie, à l'aide de m signaux optiques aux longueurs d'onde distinctes (λ0, ..., λm-1). Dans la partie de routage, les m signaux optiques λi (i
xviii
Y
X
1
Routing part
Memorization part
1 1 1 1 1 0 0 1 0 0 0 1 0
λ
xλ
x D D D Dλ
0λ
0λ
0λ
0λ
1λ
1λ
1λ
1λ
2λ
2λ
2λ
2λ
3 0λ
3λ
3 0λ
3AND OR XOR Buffer
λ
0λ
1λ
2λ
3Z
0Z
1Z
2Z
3‘1’
‘1’
‘1’
‘1’
‘0’
‘1’
λ
xY
X
1Routing part
Memorization part
1 1 1 1 1 0 0 1 0 0 0 1 0
λ
xλ
x D D D Dλ
0λ
0λ
0λ
0λ
1λ
1λ
1λ
1λ
2λ
2λ
2λ
2λ
3 0λ
3 0λ
3λ
3 0λ
3 0λ
3AND OR XOR Buffer
λ
0λ
1λ
2λ
3Z
0Z
1Z
2Z
3‘1’
‘1’
‘1’
‘1’
‘0’
‘1’
λ
xFig.4 Représentation fonctionnelle d'une 2-4-OLUT configurée pour réaliser en parallèle 4 opérations logiques sur 4 longueurs d'onde distinctes.
Dans l'architecture de l’OLUT, le WDM est mis en œuvre à l'aide de deux schémas distincts de filtrage en longueur d'onde (i) dans la partie de routage, où tous les signaux optiques, indépendamment de leur longueur d'onde, se propagent le long du même chemin, et (ii) dans la partie de mémorisation, où chaque signal optique (qui est spectralement distincte des autres) est acheminé individuellement en fonction de la donnée de configuration. Pour l'exemple de la 2-4-OLUT (Fig.4):
La partie de routage: Le comportement du commutateur dans la partie de routage est
illustré sur la Fig.5 (a) selon qu’il est dans l’état Drop (trait plein) ou dans l’état Through (ligne pointillée). Les flèches représentent les quatre signaux optiques incidents pour lesquels les longueurs d'onde λ0, λ1, λ2 et λ3 sont soit idéalement alignées avec les longueurs d'onde de
résonance du filtre add-drop (représentés par des pics dans le spectre de transmission) dans l'état Drop, soit désaccordées avec un certain écart en longueur d'onde ∆λ dans l'état Through. Les longueurs d'onde des signaux optiques injectés sont régulièrement espacées d’un écart spectral correspondant au FSRx (« free spectral range ») du filtre add-drop. Ainsi, dans le cas
où le filtre « add-drop » est dans l'état DROP, tous les signaux sont redirigés vers un guide d'onde donné, alors que dans l'état Through, tous les signaux se propagent le long de l'autre guide d'onde.
La partie de mémorisation: Les Fig.5 (b) et (c) illustrent le fonctionnement des
filtres « add-drop » dans la partie de mémorisation ainsi que leur spectre de transmission. Par rapport à ceux de la partie de routage, leur FSR est légèrement plus large (notés FSRm0 et dans
xix
alignée avec l’une des longueurs d'onde des signaux optiques injectés: λ0 pour (b) et λ1 pour
(c), respectivement. En outre, les FSRs des filtres add-drop constituant les différents étages de mémorisations doivent être légèrement différents pour éviter le scénario indésirable où les résonances des filtres « add-drop » se retrouveraient alignées par erreur avec la longueur d'onde des autres signaux optiques après le processus de mise en accord/désaccord. Des FSR différents et de longueurs d'onde de résonance distinctes pour les filtres add-drop des différents étages de la partie de mémorisation peuvent être effectivement obtenus en modifiant la géométrie du filtre (par exemple le rayon du micro-anneau) ou en utilisant un contrôle thermique. Grâce à cette distinction, un seul signal est redirigé vers le guide d'onde vertical lorsque le filtre « add-drop » est dans l'état Drop (trait plein), les autres signaux continuant de se propager à travers le même guide d'onde, sans déviation. De manière similaire au filtre add-drop utilisé dans la partie de routage, tous les signaux se propagent le long du guide horizontal si le filtre « add-drop » est dans l'état Through (trait pointillé).
1 λ0 λ 1 λ 2 λ 3 λx 0 λx λ 0 λ 2 λ 3 λ 1 FSRx
λ
λ0 λ1 λ2 λ3ON Resonance OFF Resonance
1 0 λ 0 λ1 λ 2 λ3 λ0 1 λ0λ 1 λ2 λ3 λ0 0 FSRm0
λ
λ0 λ1 λ2 λ3 1 0 λ 1 λ 0λ 2 λ 3 λ1 1 λ0λ 1 λ 2 λ3 λ1 0 FSRm1λ
λ0 λ1 λ2 λ3 1 0 THROUGH a) Router b) λ0 λ1Transmission Spectrum at Drop port DROP DROP DROP THROUGH DROP THROUGH DROP THROUGH DROP THROUGH THROUGH Memorization Stage c) Memorization Stage 1 λ0 λ 1 λ 2 λ 3 λ0 λ 1 λ 2 λ 3 λx 0 λx λ 0 λ 2 λ 3 λ 1 FSRx
λ
λ0 λ1 λ2 λ3ON Resonance OFF Resonance
1 0 λ 0 λ1 λ 2 λ3 λ0 1 λ0λ 1 λ2 λ3 λ0 0 FSRm0
λ
λ0 λ1 λ2 λ3 1 0 λ 1 λ 0λ 2 λ 3 λ1 1 λ0λ 1 λ 2 λ3 λ1 0 FSRm1λ
λ0 λ1 λ2 λ3 1 0 THROUGH a) Router b) λ0 λ1Transmission Spectrum at Drop port DROP DROP DROP THROUGH DROP THROUGH DROP THROUGH DROP THROUGH THROUGH Memorization Stage c) Memorization Stage
Fig.5 Illustration du schéma de filtrage en longueur d’onde dans une 2-4-OLUT.
n-mx2-OLUT architecture
xx
sur la sortie Z0. La 2-1×2-OLUT possède également une seconde sortie Z0 .sur laquelle le
résultat complémentaire de l’opération est calculé. La performance de calcul d’une OLUT utilisant la sortie complémentaire est ainsi augmentée par rapport à l’OLUT présentée dans la section précédente, avec un minimum de hardware supplémentaire (sans filtre add-drop, mais simplement des virages et des fusions de guides d’onde supplémentaires dans ce cas simple).
De manière similaire à la n-m-OLUT, l’OLUT avec l’interface complémentaire utilise le format électrique pour les données d'entrée et de sortie. La partie complémentaire de la n-m×2-OLUT est ajoutée comme suit :
Partie complémentaire: Un guide d'onde vertical est utilisé pour acheminer les
signaux optiques des guides d'onde horizontaux de la partie de mémorisation vers les sorties complémentaires. Des filtres add-drop optiques passifs sont utilisés pour filtrer les signaux optiques en fonction de leurs longueurs d'onde, produisant ainsi le résultat complémentaire de la fonction Booléenne ciblée qui est stockée dans la mémoire. On note que le même codage de données des résultats est utilisé dans la partie complémentaire et la mémoire.
y x
0/1
Routing part Memorization part
0/1 0/1 0/1 λx λx λx λ0 0 z z0 D λ0 λ0 λ0 λ0 Complementary part
Input Data Output Data
Output Data
D y
x
0/1
Routing part Memorization part
0/1 0/1 0/1 λx λx λx λ0 0 z z0 D λ0 λ0 λ0 λ0 Complementary part
Input Data Output Data
Output Data
D
Fig.6 Illustration de l’architecture d’une 2-1×2-OLUT
xxi
add-drop. L’utilisation de filtres « add-drop » passifs fixe les longueurs d'onde résonantes pendant l’étape de conception, ce qui est suffisant puisque celles-ci n’ont pas besoin d'être changées, même lorsque l'OLUT est reconfigurée pour effectuer d'autres opérations logiques.
λ 2 λ 0λ 1
λ
λ
0λ
1λ
2λ
3 1 0 D λ 3λ
3FSR
i33
Z
DROP THROUGH a) b) λ 2 λ 0λ 1λ
λ
0λ
1λ
2λ
3 1 0 D λ 3λ
3FSR
i33
Z
DROP THROUGH a) b)Fig 7. L’opération de l’add-drop filtre dans un 2-4×2-OLUT: (a) Layout (b) spectre en longueur d’onde
L’architecture et le concept de l’OLUT présentés jusqu’ici pourraient être mises en œuvre physiquement en utilisant diverses approches. Le choix de l’implémentation a d’ailleurs certainement un impact sur la performance de l'architecture ainsi réalisée. Dans la section suivante, nous proposons une implémentation physique spécifique de l’OLUTs, qui n’est peut-être pas la solution optimale, mais qui tire avantage de la technologie photonique sur silicium aujourd’hui mature.
4. L’implémentation physique de l’architecture de l’OLUT
Le fonctionnement de l'architecture de l’OLUT qui a été présenté impose certaines contraintes physiques sur les caractéristiques des filtres « add-drop », tels que leur géométries et leur facteurs de qualités Q. Ici, nous étudions comment la dimension du système, c’est à dire le nombre d'entrées et de sorties, impacte la conception des filtres « add-drop » actifs pour la mise en œuvre de l'architecture de l’OLUT électro-optique.
xxii Electrical Input V OUT2 OUT1 IN1 λi λx P+
V
N+ IN1 OUT1 OUT2 Resonator λx (x=1…m) (a) (b) y x z x (c) ring waveguide: 450nm x220nm Slab height: 50nmSpacing electrode with ring: 0.6µm P+/N+ doping: 1019 cm-3
i-region doping: 1015 cm-3
Electrical Simulation parameters:
Si slab-P+ Ring Electrode +V Si slab-N+ Ground 0V Si-i type Electrical Input V OUT2 OUT1 IN1 λi λx P+
V
N+ IN1 OUT1 OUT2 Resonator λx (x=1…m) (a) (b) y x y x z x z x (c) ring waveguide: 450nm x220nm Slab height: 50nmSpacing electrode with ring: 0.6µm P+/N+ doping: 1019 cm-3
i-region doping: 1015 cm-3
Electrical Simulation parameters:
Si slab-P+ Ring Electrode +V
Si slab-N+
Ground 0V
Si-i type
Fig.8 Filtre « Add-drop »: (a) representation symbolique (b) layout (top-view), (c) layout simulé(cross-section) et des paramères du composant
Le nombre de canaux pouvant être traités par un tel dispositif, c'est-à-dire le nombre maximum, m, de bits de sortis fournis par l’OLUT, est directement lié au FSR (Free Spectral Range) du micro-résonateur. Pour une technologie laser basé sur les semiconducteurs III-V, on peut considérer une largeur spectrale du gain de l’ordre de 100nm à 1.5µm (puits quantiques InP). Le FSR doit donc être inférieur à 100/m nanomètres pour la réalisation d’une n-m-OLUT. Comme le FSR est inversement proportionnel au rayon r de micro-anneau par la relation FSR λx/2πrng
2
≈ (ou ng est l’indice de groupe), r doit être plus grand que ~800m (nm) (calculé pour λx ~1.55µm et ng ~4.3). En fait, un filtre add-drop avec un plus grand FSR peut accueillir moins de bits de sortie, puisque chacun d'eux est associé à une longueur d'onde dans la n-m-OLUT. Par exemple, les micro-anneaux comportant au moins 5 µm de rayon doivent être utilisés pour mettre en œuvre une 2-6-OLUT, et ce rayon peut être diminué jusqu'à 1.7µm pour une 2-2-OLUT. La dimension n-m de l’OLUT influe donc directement sur la taille du filtre add-drop.
Transmissions d’un filtre «Add-drop »
xxiii
Mode A : Fig.9 a) et b) illustrent comment un signal optique injecté dans le port IN1 est acheminé à travers le filtre add-drop actif lorsque ce dernier est dans l'un des deux états (Through et Drop), et la table de vérité indique les valeurs des transmissions qui sont ciblés pour les deux états contrôlés par la polarisation. Comme indiqué précédemment, lorsque la diode est polarisée en direct, la densité de porteurs injectés dans la région intrinsèque augmente fortement, ce qui conduit à un changement de l'indice de réfraction, cependant, accompagné d’une absorption optique supplémentaire qui tend à réduire le rapport QL to Qc et,
par conséquent, dégrada la transmission T21 sur le port Drop quand V=Vop
Mode B : Alternativement, si nous assurons que le filtre add-drop est à l'état DROP lorsqu’aucuns porteurs n’est injecté (nécessite un pré-calibrage), les signaux optiques peuvent se propager sur le port Drop sans obtenir la perte d'absorption supplémentaire dans le résonateur. Alors que l'add-drop est commuté dans l'état Through, les porteurs sont remplis dans la région intrinsèque du résonateur en anneau. Toutefois, pour ce cas, le signal d'entrée sera transmis directement au port Through, de sorte qu'il n’est pas couplé et ne subit donc aucune d’absorption. Il est donc énergétiquement plus favorable d’utiliser le mode B plutôt que le mode A. Si nous supposons que la résonance du filtre add-drop est configurée pour être initialement alignée avec la longueur d'onde du signal incident λi (i.e. ∆λ=0) en l'absence de
polarisation externe (V=0), on obtient 2 11(V 0) (1 2QL/Qc)
T = = − and 2
21(V 0) (2QL/Qc)
T = = . Dans
ce cas-la, l’expression QL est également différent de celui de la Mode A car il exclut le Qa
supplémentaire qui est apparu pour le Mode A quand V=Vop . Les colonnes c) et d) dans la
Fig.9 montre la propagation du signal optique et la table de vérité correspondant à cette configuration. En comparant avec les valeurs de T21 atteint pour le mode A (voir Fig.9 (b)),
nous voyons que le problème de la réduction de la transmission par absorption de porteurs dans le ring est évitée dans cette configuration.
Considération sur la vitesse pour les filtres add-drops électro-réfractifs
xxiv
régime nécessite l’implémentation de signaux électriques complexes et de tensions élevées, peu compatible avec un circuit de contrôle CMOS de faible consommation.
a) Mode A (V=0) b) Mode A (V=Vop) c) Mode B (V=0) d) Mode B (V=Vop)
Signal propagati on scenario THROUGH IN V=0 OUT2 OUT1 IN2 THROUGH IN V=0 OUT2 OUT1 IN2 DROP IN V≠0 OUT2 OUT1 IN2 DROP IN V≠0 OUT2 OUT1 IN2 DROP IN V=0 OUT2 OUT1 IN2 DROP IN V=0 OUT2 OUT1 IN2 THROUGH IN1 V≠0 OUT2 OUT1 IN2 THROUGH IN1 V≠0 OUT2 OUT1 IN2 Targeted Signal logic at OUT2 ‘0’ ‘1’ ‘1’ ‘0’ T11
[
]
1 / 2 ) / 2 1 ( 1 1 2 2 + ∆ − − − λ λ L c L Q Q Q 2 ) / / 2 / / ( a c i c a c i c Q Q Q Q Q Q Q Q + + + 2 ) / 2 / ( i c i c Q Q Q Q +[
2 /]
1 ) / 2 1 ( 1 1 2 2 + ∆ − − − λ λ L c L Q Q Q T21[
]
1 / 2 ) / 2 ( 2 2 + ∆λ λ L c L Q Q Q 2 ) / / 2 2 ( a c i c Q Q Q Q + + 2 ) / 2 2 ( i c Q Q +[
2 /]
1 ) / 2 ( 2 2 + ∆λ λ L c L Q Q Q Spectrum λ λi T21 λres λ λi T21 λres λ T21 λres λi λ T21 λres λi λ λi T21 λres λ λi T21 λres λ λi T21 λres λ λi T21 λresFig.9 Fonctionnement du filtre add-drop actif selon les 2 modes opératoires A et B.
5. Méthodologie pour l’évaluation de la performance
xxv
L'analyse est réalisée en s'appuyant sur un taux d'erreur par bit (« BER ») donné et le résultat est donné en termes d'énergie. Ceci permet d'élaborer l'espace de conception possible d'un OLUT, représenté par le facteur Q et le décalage de la longueur d'onde du filtre d’add-drop. L'efficacité énergétique optimale d'un OLUT est obtenue par une exploration automatisée de l'espace de conception des paramètres des dispositifs optiques (par exemple des facteurs Q et les décalages en longueur d'onde). Les autres caractéristiques de l’OLUT, tels que la performance, la latence ou l’encombrement, peuvent également être évaluées en fonction des paramètres physiques dans l'espace de conception. Après cela, nous montons de nouveau au niveau du système: nous évaluons la performance et l'efficacité énergétique de l'architecture selon diverses options de conception au niveau système tels que le nombre et la taille des OLUTs et la topologie d'interconnexion (par exemple le nombre de guides d'onde et le nombre des longueurs d'onde utilisées), ainsi que les caractéristiques de l'interface. Cependant, au niveau système, l'exploration de l'espace de conception est actuellement un processus manuel. Il a besoin d'être automatisé entre les résultats obtenus et les spécifications au niveau système pour explorer les architectures alternatives, susceptibles de donner de meilleurs résultats (par exemple, une meilleure efficacité énergétique) pour une application donnée. Une telle exploration de conception nécessite des outils benchmarks (par exemple MCNC [117]) en tenant compte de l'avantage principal de l’OLUT, c'est à dire le calcul parallèle sur un même ensemble de données. La mise en œuvre d'un tel outil fait partie des travails futurs.
Device level specification: r, ∆λ, Qc
System level specification: Numberof OLUTs, n, m, complementary, etc.
Input data, configuration
Input data, configuration
Application (e. ALU, full
adder)
Application (e. ALU, full
adder) PD, laser, waveguide losses, etc. PD, laser, waveguide losses, etc. Interconnect topology, interfaces Interconnect topology, interfaces Energy efficiency analysis BER<10-18 Result:
A functional and energy-efficient OLUT
Result:
A functional and energy-efficient reconfigurable computing architecture using silicon photonics technoloy
library library Test bench Test bench Design Space Exploration Design Space exploration
Device level specification: r, ∆λ, Qc
System level specification: Numberof OLUTs, n, m, complementary, etc.
Input data, configuration
Input data, configuration
Application (e. ALU, full
adder)
Application (e. ALU, full
adder) PD, laser, waveguide losses, etc. PD, laser, waveguide losses, etc. Interconnect topology, interfaces Interconnect topology, interfaces Energy efficiency analysis BER<10-18 Result:
A functional and energy-efficient OLUT
Result:
A functional and energy-efficient reconfigurable computing architecture using silicon photonics technoloy
library library Test bench Test bench Design Space Exploration Design Space exploration
Fig.11 Illustration d’une méthodologie de modélisation multi-niveau pour la conception d’une
xxvi Modèle d’énergie
Ici, nous examinons les principes de base pour re-clarifier la relation entre les paramètres décrivant les filtres add-drop, et la consommation d'énergie pour l’OLUT, basée sur l'effet électro-optique. Les équations et les valeurs constantes utilisées par le modèle sont présentées dans la Fig.12. Nous rappelons ici que la consommation globale d'énergie de l’OLUT EOLUT (i.e. energy-per-output-bit, donnée par l’équation (a) sur la figure) est la
somme des contributions suivantes:
i) Ed (cf. Equation (4.17)) représente l'énergie dynamique dissipée par les filtres
add-drop pour effectuer la transition d'état (Drop to Through), qui doit injecter des porteurs pour régler la longueur d'onde de résonance;
ii) Es (cf. Equation (4.18)) représente l'énergie statique consommée par les filtres
add-drop et est déterminée par la polarisation électrique et le courant obtenu selon la simulation électrique de la jonction PIN du résonateur micro-anneau en silicium; iii) Elaser (cf. Equation (4.19)) représente la puissance optique minimum d'entrée
délivrée par le laser pour distinguer le niveau logique « 1 » du niveau logique « 0 » (selon la dissipation de l'énergie laser dans la OLUT) pour atteindre un taux d'erreur par bit acceptable (BER=10-18 est choisie ici).
iv) Epd est une estimation de l'énergie dissipée par chaque photodétecteur et est
quantifiée à 10fJ/bit pour une fréquence de 1 GHz
Comme indiqué précédemment, les paramètres nécessaires pour décrire complètement l’opération d’un filtre add-drop sont : le facteur de qualité de couplage Qc ; le décalage en
longueur d’onde ∆λ entre la longueur d'onde de résonance et la longueur d’onde du signal d’entrée ; et le facteur de qualité intrinsèque Qi. Comme Qi est généralement fixé pour une
technologie donnée et pour un rayon d'anneau donné, les transmissions du filtre add-drop dans le régime actif sont ainsi exprimées selon les valeurs de Qc et ∆λ. De ce fait, on peut
construire l'espace de conception possible sur la base des valeurs du facteur de qualité de couplage Qc, ainsi que du décalage de longueur d'onde ∆λ. Pour un nombre de bits d'entrée
donné n, et un nombre de bits de sortie donné m:
• Des valeurs plus élevées de Ed et Es sont nécessaires pour le fonctionnement du
xxvii
• Cependant, Elaser est inversement proportionnelle à la différence minimale entre les
valeurs de transmission pire cas pour les niveaux logiques « 1 » et « 0 » (1min and 0max
dans l'équation (b) dans la Fig.12) et s’appuie donc sur les valeurs de Qc et de ∆λ.
D'une part, pour un plus grand décalage en longueur d'onde ∆λ, une valeur élevée de transmission sera généralement obtenue au port Through du filtre add-drop dans l'état Through, facilitant ainsi la distinction des niveaux logiques «1» et « 0 », ce qui devrait conduire à une valeur plus faible de Elaser , à utiliser pour les OLUTs. D'autre part,
comme indiqué par les expressions de transmission dans la Fig.12, pour une valeur plus grande de Qc (ou plus précisément du rapport Qc/Qi), il est plus difficile
d'atteindre l'état Drop lorsque le filtre add-drop est éteint (puisque T12 devient plus
faible), mais il n'aide pas à atteindre l'état Through (où T11 augmente) car une
augmentation Qc conduit à une réduction de la largeur spectrale de la résonance. Ceci
implique que l'impact de la valeur de Qc sur celle de Elaser n'est pas toujours le même et
dépend de l'état du filtre add-drop (Drop ou Through), car c'est celui-ci qui déterminera essentiellement la valeur de transmission dans le pire cas. Par exemple, si la transmission dans l'état Through est inférieure que dans l'état-Drop, une valeur inférieure de Elaser est nécessaire pour augmenter Qc. Inversement, Elaser augmente avec
Qc lorsque la transmission de l'état Through est plus élevée que celle de l'état Drop.
Pour résumer brièvement, pour une technologie donnée et un rayon d'anneau fixe (Qi
constant), l'énergie dissipée dans l'OLUT (EOLUT) repose essentiellement sur les valeurs du
facteur de qualité de couplage Qc et le décalage en longueur d'onde ∆λ. La valeur optimale de
Eolut peut être réalisée à partir d'un compromis entre la dissipation de l'énergie des lasers et les
filtres add-drop, pour différentes valeurs de Qc et ∆λ. Pour étudier les rapports entre la dissipation d'énergie et ces paramètres physiques et ainsi obtenir la valeur minimale de Eolut,
nous présentons le calcul de l'espace de conception possible du Qc et ∆λ pour l'architecture
xxviii pd laser s d c OLUT Q nm E E E E E (∆λ, , , )= + + + laser dd c Laser P B V m n Q E η λ = ∆ , , , ) ( a.
b. PLaser =∆Precv/(1min−0max)
c. q V tot 25 . 0 Ed(∆λ,n,m) ← Esw~ Es( ∆λ,n,m)← Ps~ IV ∆N ← ∆λ ← ← d. Constants: Energy-per-output-bit (fJ/bit): Data rate (B): 1Gb/s Bit error rate (BER): 10-18
Epd= 10fJ/bit e. (fJ/bit) Wavelength λ: 1.55µm Detector frequency : 1GHz
[
]
1 1 1 1 2 21 2 2 11 2 )) / 2 /( 2 ( ) 0 ( 1 / 2 ) / 2 1 ( 1 1 ) ( − − − − = + + + = = + ∆ − − − = = i a c L Q Q Q Q Q Q V T Q Q Q V V T i c L c L op λ λ Transmissions: pd laser s d c OLUT Q nm E E E E E (∆λ, , , )= + + + laser dd c Laser P B V m n Q E η λ = ∆ , , , ) ( a.b. PLaser =∆Precv/(1min−0max)
c. q V tot 25 . 0 Ed(∆λ,n,m) ← Esw~ Es( ∆λ,n,m)← Ps~ IV ∆N ← ∆λ ← ← d. Constants: Energy-per-output-bit (fJ/bit): Data rate (B): 1Gb/s Bit error rate (BER): 10-18
Epd= 10fJ/bit e. (fJ/bit) Wavelength λ: 1.55µm Detector frequency : 1GHz
[
]
1 1 1 1 2 21 2 2 11 2 )) / 2 /( 2 ( ) 0 ( 1 / 2 ) / 2 1 ( 1 1 ) ( − − − − = + + + = = + ∆ − − − = = i a c L Q Q Q Q Q Q V T Q Q Q V V T i c L c L op λ λ Transmissions:Fig.12 Les équations de base et les valeurs constants utilisé dans le model
6. Conclusions et perspectives
xxix
d’implémenter le filtre add-drop : par exemple le coupleur directionnel, les cristaux photoniques ou l'interféromètre Mach-Zehnder. En plus, en considérant les progrès de la technologie, des composants plus compacts et plus économes en énergie deviennent disponibles. Il est à noter que la frontière de la photonique sur silicium évolue extrêmement rapidement avec de nouveaux dispositifs intégrés reportés chaque année. Cependant, notre travail de modélisation ne repose pas sur des nouvelles contributions dans les performances du dispositif (vitesse, puissance ou efficacité). Au lieu de cela, nous nous sommes concentrés sur l'étude de la façon dont certains dispositifs photoniques sur silicium devraient être conçus pour l'architecture de calcul pour atteindre les exigences de performance au niveau du système. Dans ce contexte, nous avons également proposé une approche de modélisation multi-niveau basée sur l'exploration de l’espace de conception et des paramètres de composant pour estimer la performance du système. Cette méthode nous permet d'étudier la faisabilité de l'architecture OLUT et d'explorer l'espace de conception de dispositifs photoniques pour réaliser des calculs fiables et efficaces dans les architectures OLUTs. Cette méthode pourrait donc être étendue à l'évaluation de la performance des OLUTs s’appuyant sur différentes implémentations physiques, simplement en changeant le modèle physique utilisé au niveau de composant.
xxx
requise par les filtres add-drop de pré-calibration en temps réel et de réglage thermique. Ces points feront l'objet de sujets de travail futur.
xxxi
TABLE OF CONTENTS
REMERCIEMENTS ... I
ABSTRACT ... VII
RESUME FRANCAIS ... IX
CHAPTER 1
INTRODUCTION ... 1
1.1
Background ... 1
1.2
Lesson from the history of optical computing ... 6
1.2.1 Early days of optical computing ... 6 1.2.2 Golden Age of optical computing ... 7 1.2.3 Lessons and observations ... 81.3
Optics in computing: what next? ... 11
1.4
Objectives and thesis outline ... 14
CHAPTER 2
EMERGING TECHNOLOGIES FOR
RECONFIGURABLE COMPUTING ... 17
2.1
Emerging technologies for reconfigurable computing architectures ... 17
2.1.1 Introduction to computing architectures ... 17 2.1.2 FPGA Overview ... 19 2.1.3 FPGAs challenges and emerging technologies ... 21 2.1.3.1 Non-volatile nano-memory devices ... 22 2.1.3.2 3D technology ... 25 2.1.3.3 Optical technologies for reconfigurable computing ... 272.2
State-of-the-art: Silicon photonics based computing architectures ... 29
2.2.1 Background ... 29 2.2.2 Directed Logic ... 29 2.2.3 Reconfigurable Directed Logic ... 31
2.3
Conclusions ... 35
CHAPTER 3
OLUT ARCHITECTURE DESIGN AND
IMPLEMENTATION ... 37
3.1
Single-output OLUT Architecture ... 37
3.1.1 From electrical LUTs to optical LUTs ... 37 3.1.2 Basic principle and switching operation ... 383.2
n-m-OLUT architecture ... 40
3.2.1 Operation principles ... 40 3.2.2 Preliminary evaluation of n-m-OLUTs ... 43 3.2.2.1 Evaluation Metrics ... 43 3.2.2.2 Scalability of OLUT architecture ... 45 3.2.2.3 Case study: k-bit full adder with carry ... 46
3.3
n-m
×2-OLUT Architecture... 49
xxxii
3.4
Conclusions ... 52
CHAPTER 4
FROM ARCHITECTURE TO DEVICE: MULTI-LEVEL
MODELLING AND SIMULATION ... 55
4.1
Functional toolbox based on silicon photonics for implementing OLUT ... 56
4.1.1 Passive Add-Drop Filters (Microring resonator) ... 564.1.1.1 Basic Principles ... 56 4.1.1.2 Passive add-drop filter transmission and Coupled Mode Theory ... 58 4.1.2 Silicon waveguides, integrated photodetectors and micro-lasers ... 63
4.2
Design of active add-drop filters for OLUT architectures ... 65
4.2.1 Electrically-controlled modulation of an optical signal ... 65 4.2.1.1 Electro-optic effect ... 66 4.2.1.2 Thermo-optic effect ... 66 4.2.1.3 Free carrier dispersion and electro-refractive effect ... 68 4.2.2 Carrier electrical manipulation with PIN junction ... 70 4.2.3 From the OLUT system dimension to the device building block geometry ... 73 4.2.4 Transmission characteristics of the active Add-drop filter ... 74 4.2.5 Calculation of electrical control and power consumption ... 77 4.2.6 Speed consideration for electro-refractive add-drop filters ... 78
4.3
Multi-level modelling of OLUT and impact on the low level design of the
OLUT building blocks ... 78
4.3.1 Overview of the multi-level modeling methodology ... 79 4.3.2 Optical losses in OLUT architectures ... 80 4.3.3 OLUT energy model ... 83 4.3.3.1 Dynamic Energy Ed ... 84
4.3.3.2 Static Energy Es ... 85
4.3.3.3 Energy dissipated by the photodetectors Epd ... 86
4.3.3.4 Energy dissipated by the laser Elaser ... 86
4.4
Conclusions ... 88
CHAPTER 5
PERFORMANCE EVALUATION OF THE
ELECTRO-OPTIC OLUT IMPLEMENTATION ... 91
5.1
Case study and result analysis for n-m-OLUTs ... 91
5.1.1 A review of the energy model introduced in chapter 4 ... 91 5.1.2 Feasible design space for the 2-2-OLUT ... 93 5.1.3 From 2 to m output bits ... 99 5.1.3.1 Scalability and energy efficiency ... 99 5.1.3.2 Case study: 1-bit Arithmetic Logic Unit (ALU) ... 102 5.1.4 From 2 to n input bits ... 1025.2
Performance evaluation for the n-m
x2-OLUT Architecture ... 105
5.2.1 Feasible design space for the 2-2 x2-OLUT ... 105 5.2.2 Area and optical power overhead ... 106 5.2.3 Case study: a 1-bit ALU implemented by a n-mx2-OLUT ... 107
5.3
Conclusions ... 109
CHAPTER 6
CONCLUSIONS AND PERSPECTIVES ... 111
xxxiii
6.2
A possible all-optical implementation of OLUTs: towards all-optical FPGAs
116
6.2.1 Cascading of OLUTs ... 116 6.2.2 Interconnect network ... 119 6.2.2.1 ORNoC ... 119 6.2.2.2 λ-router ... 120 6.2.3 Case study: 4-bit full adder ... 121 6.2.4 Discussion ... 123
xxxv
LIST OF ACRONYMS
A
ALU Arithmetic Logic Unit
ASIC Application Specific Integrated Circuit
C
CLB Configurable Logic Block
CMOS Complementary Metal Oxide Semiconductor
CMT Coupled Mode Theory
CW Continuous Wave
E
EDA Electronic Design Automation
F
FDTD Finite Difference Time Domain
FSR Free Spectral Range
FPGA Fidel Programmable Gate Array
G
GPP General-Purpose processor
I
InP Indium Phosphide
L
xxxvi
O
OLUT Optical LookUp Table
ONoC Optical Network On Chip
R
RAM Random Access Memory
S
SOA Semiconductor Optical Amplifier
SOI Silicon On Insulator
T
TSV Through-Silicon-Via
V
VCSEL Vertical Cavity Surface-Emitting Laser
W
Chapter 1
INTRODUCTION
1.1
Background
Today’s era of high-performance computing and big data analysis promises to bring profound and far-reaching changes to society [1]. These changes are made at all levels of information systems – from data acquisition in distributed sensor networks to storage and processing in the cloud. Many computationally demanding applications, e.g. social network analysis, quantum physics simulation, weather forecasting, disaster prediction, oil and gas exploration, molecular simulation, increasingly require high-performance, cost-effective, energy-economic computing hardware [3]. However, these constraints are conflicting in conventional or incremental computing systems, and have also proved to be a major challenge in disruptive approaches. New computing paradigms are thus required to address the energy and performance challenges of computing in the data explosion era.
In the past, advances in semiconductor technology have been the main vehicle for expanding the boundaries of computing. The long-term trend in semiconductor technology was famously predicted in a paper by Gordon Moore in 1965 [4], in which he observed that the number of electronic transistors that could be fabricated in an integrated circuit (IC) would approximately double every year (later, the time between technology generations was extended to two years). Circuit miniaturization through down-scaling of the critical dimensions of transistors has thus been the primary driving force for the increase in the microprocessor computational power. Following Moore's law for almost five decades, today's microprocessors have already broken the billion transistor barrier. The ITRS Semiconductor roadmap [5] shows yet further reductions in transistor feature sizes from 22nm down to the sub-10nm regime in the next decade.
only does clock frequency appear to be limited, but also memory performance improvement has not kept pace with processor performance scaling. The mismatch between memory read/write speed and computational speed presents a wall to the scaling of overall computational performance in CMOS technology. To address these issues, the computing architecture has been shifted from a single microprocessor to multi-core (parallelism-driven) processor architectures. Computing parallelism has been exploited by using more CPUs and processing units, data/instruction parallel execution units, additional register sets, more cache and heterogeneous processors (e.g. Graphic Processing Units) [3,6] on the chip. Such a shift from sequential to parallel computer architecture would help to increase performance and robustness while keeping power consumption relatively constant. However, parallel computing architectures have to face new challenges compared to single processor architectures. A critical issue is the energy dissipated by the interconnect required to realize high-speed data communications between various computing resources in the multi-core computing system. Although its computing performance could scale with the growing number of cores, the electrical interconnects increasingly present a bottleneck due to their physical limitations in terms of loss, dispersion, cross-talk and bandwidth [1-3,7,12,13]. It therefore becomes very difficult to improve the computing performance when interconnect densities continue to rise. For instance, a total interconnect data rate of 50-100 TBit/s in future multi-core chips is expected by 2015 and more than the double of that by 2022, with a maximum average allowed data communication energy dissipated on a chip ranging from 0.1 to 1pJ/bit [13]. In high-density electrical interconnect, because the time constant of electrical wires increases as device dimensions are scaled down, the energy costs for transporting information electrically can be extremely high. From [8], the projected energy cost of off-chip electrical communication is expected to be 5.8 pJ/bit in 2017 while the current practice reaches about 20 pJ/bit. At this cost, therefore, most of the available power will be consumed to move data between processors and off-chip computing resources. Yet, as we demand more from the computing architectures, even such parallel computing systems will be increasingly energy- constrained. Therefore, producing computing systems that meet the performance, energy and communication demands of emerging applications will likely be impossible.
computing elements and systems, and can potentially help the intrinsic limitations of electrical interconnects to be overcome [16]. As witnessed from the telecommunication industry with mature optical fiber technology, optics has already proved to be the best technology for conveying information from one point to another over long distance. In 2013, US National Research Council published a report on the advantages of photonics [8], which wrote: “The remarkable growth of networks and the Internet over the past decade has been enabled by previous generations of optical technology. Optics is, furthermore, the only technology with the physical headroom to keep up with this exponentially growing demand for communicating information”. The fact that light can be easily transmitted in parallel in free space or in a guiding medium, with very low crosstalk, is of great importance.
Fig.1.Evolution of optical technology for interconnect (source from [9], 2012)
thus greatly reducing the manufacturing cost. Numerous research efforts have focused on optical interconnects based on silicon photonics (or optical network-on-chip, ONoC) to prove its feasibility and benefits over electrical interconnects (THz bandwidth, low power, low loss and low crosstalk). Several projects targeting high performance computing systems based on photonic interconnect have been launched by industrial companies such as Intel, IBM, Oracle, HP and Avago since 2009. However, the key challenges for on-chip optical interconnect are technological: CMOS compatible, low energy dissipation and high performance compact novel optical devices are required to be integrated at a large scale with low manufacturing cost, as pointed out by Miller[13] in 2009.