• Aucun résultat trouvé

Google TPU V2 couche de convolutions

TPU 3.0 annoncé en mai 2018…

Nous avons en reprenant le schéma ci-dessous de gauche à droite :

Xeon et Xeon Phi sont la gamme de processeurs généraliste dédiés aux serveurs. Intel fait des efforts pour optimiser les frameworks de deep learning (TensorFlow, Torch, Caffe) pour qu’ils s’exécutent plus rapidement sur des architectures Core et Xeon traditionnelles, alors qu’ils sont habituellement optimisés uniquement pour les GPUs type Nvidia. Cela aurait permis d’améliorer les performances d’un facteur x70 à x85 sur les processeurs Xeon239 qui équipent

les serveurs de data centers, rapprochant leurs performances des meilleurs GPU Nvidia de 2017. Bref, Intel aurait du mou sous la pédale dans ses processeurs serveurs !

Intel NNP-L issu de l’acquisition de la startup Nervana en 2016 est une gamme de chipsets ASIC dédiée à l’entraînement et à l’exécution de réseaux de neurones sur serveurs. C’est va- guement l’équivalent des TPU de Google et des GPU V100 de Nvidia. L’offre Nervana était initialement intégrée dans Lake Crest240 (2017) suivie dans la roadmap Intel par Knights Crest

(circa 2020). Le coprocesseur Nervana embarque une mémoire au standard HBM2 de 32 Go permettant un transfert interne de données à la vitesse de 1 To/s, voisine des 900 Go/s du GV100 Volta de Nvidia. Intel n’est pas très bavard sur l’archirecture interne des tenseurs (multi- plicateurs de matrices) de ses coprocesseurs !

FPGA Stratix 10 sont les FPGA en 14 nm d’Intel, issus de l’acquisition d’Altera en 2015241.

Ces FPGA sont programmés par les clients d’Intel comme Microsoft le fait pour ses chipsets BrainWave. Ils présentent l’avantage d’intégrer des blocs de mémoire de 20 Kbits, utiles pour l’accélération de l’entraînement ou l’inférence de réseaux de neurones. Les Stratix 10 tournent en théorie jusqu’à 1 GHz, avec une capacité de 9,8 Gflops, et une puissance de 80 Gflops par Watt. Intel fournit son SDK OpenVino pour le développement d’applications de deep learning, notamment dans la vision.

Movidius VPU correspond aux versions commerciales des chipsets Fathom de Intel Movidius annoncées mi 2017. Ces chipsets exploitant des processeurs vectoriels sont dédiés au traitement de l’image dans l’embarqué comme dans les caméras de surveillance. En août 2017, Intel an- nonçait une nouvelle génération de processeurs Myriad X, remplaçant les Myriad 2. Ces « Vi- sion Processing Unit » destinées à l'embarqué permettent de traiter un trillion d’opérations de réseaux de neurones par secondes, soit 10 fois plus que pour les Myriad 2, grâce à 16 proces- seurs vectoriels au lieu de 12 et surtout, au passage côté fabrication à une architecture 16 nm vs 28 nm (chez TSMC, en ASIC). Au passage, le chipset peut aussi faire de l’encodage vidéo en 4K et ne consomme que 2W. Tout cela est issu de l’acquisition de la startup Fathom en 2016. Pour compléter tout cela, Intel faisait l’acquisition en août 2018 de la startup Vertex.IA (USA), un petite équipe de 7 personnes à l’origine de PLAID.ML242, un framework open source de deep

learning pour l’embarqué. Le chipset Movidius Myriad 2 équipe les nouvelles caméras infra- rouges FLIR Firefly annoncées en octobre 2018. Ainsi, la détection d’intrusions est réalisée par interprétation directe des images dans la caméra. Il est aussi intégré dans les clés USB Neural Compute Stick 2 qui peuvent être intégrées dans des serveurs, des PC ou des objets connectés.

239 Voir TensorFlow Optimizations on Modern Intel Architecture, août 2017 et New Optimizations Improve Deep Learning Frame-

works For CPUs, octobre 2017. Ces optimisations s’appuient sur l’utilisation des instructions de traitements de vecteurs AVX2 des Xeon et AVX512 des Xeon Phi, ainsi que sur les versions 2017 des bibliothèques Intel Math Kernel Library (Intel MKL) et Intel Data Analytics Acceleration Library (Intel DAAL). Le jeu d’instruction AVX512 permet de réaliser des opérations matricielles voisines de celles des cœurs Tensor des TPU de Google et des GPU Nvidia GV100.

240 Voir Intel Shipping Nervana Neural Network Processor First Silicon Before Year End, Anandtech, octobre 2017. 241 Voir Machine Learning with Intel® FPGAs d’Adrian Macias, mai 2018 (32 slides).

242 Il est sur GitHub ici : https://github.com/plaidml/plaidml. Le framework est particulièrement adapté aux ordinateurs tournant sous MacOS et Windows avec cartes graphiques AMD, Nvidia et les GPU intégrés dans les processeurs Intel. C’est en fait une surcouche qui supporte les applications développées avec le framework Keras ainsi qu’avec ONNX, Open Neural Network Exchange, un fra- mework open source de bas niveau de réseaux de neurones, créé par Microsoft, Amazon et Facebook. Il supporte Caffe2, PyTorch, MXNet et le Microsoft CNTK. PLAID.ML est adapté aux réseaux de neurones convolutionnels (CNNs) et à mémoire (LSTM).

MobileEye est une filiale d’Intel, issue d’une acquisition en 2017, qui a mis sur le marché de- puis longtemps sont propre chipset embarqué pour la reconnaissance d’image pour les véhicules à conduite assistée et autonome exploitant une ou plusieurs caméras RGB classiques.

GNA est un chipset dédié au traitement du langage servant de coprocesseur pour les processeurs des séries Atom et Core. C’est évidemment dédié aux systèmes embarqués.

Loihi est un chipset annoncé en septembre 2017 et qui devait arriver à la mi-2018 sous forme d’un chipset de test pour la recherche. Devant être fabriqué en technologie 14 nm comme les Core i5/i7 de 2017/2018 et comprendre 130 000 neurones impulsionnels, comme dans les chip- sets TrueNorth d’IBM avec des neurones reliés entre eux par 130 millions de synapses.

 En juin 2018, Intel montait les enchères en annonçant 100 mil- liards de synapses pour 2019, soit le niveau du cerveau d’un rat, en racontant des salades sur l’atteinte ultime de l’intelligence humaine243. Le marketing d’Intel évoque un processeur imitant le

cerveau humain et doué de facultés d’apprentissage, en précisant qu’il supportera des réseaux de neurones récurrents, hiérar- chiques et parcimonieux (sparse) et donc en particulier à tout ce qui correspond au traitement du langage et à l’analyse de flux de données temporels divers comme des électro-cardiogrammes. Le tout, sans plus de détails techniques !

 Tandis que les chipsets TrueNorth d’IBM ne gèrent pas l’apprentissage et ne font qu’exécuter les modèles neuronaux déjà entraînés, ici, le processeur est capable d’apprentissage et dans les modes supervisés, non supervisés et par renforcement. Ce processeur comprend deux chipsets, l’un qui a l’air d’avoir une architecture de CPU (en haut) et l’autre qui ressemble bien à un ré- seau neuromorphique (en bas).

Quittons Intel et voyons qui d’autre s’active dans les chipsets pour serveurs :  Bitmain (2013, Chine, $450M), une unicorn chinoise bien connue,

à l’origine des chipsets de mining de Bitcoins, les AntMiner 9 qui dominent le marché. Elle a aussi développé un chipset d’IA, le So- phon BM1680 (ci-contre), qui sert à la fois à l’entraînement et à l’inférence de réseaux de neurones, voisin des TPU de Google. Il est destiné aux applications de traitement de l’image comme du langage, et notamment aux systèmes de vidéo surveillance dont la Chine rafole comme l’illustre le positionnement de nombreuses startups du pays.

Graphcore (2016, UK, $110M) qui conçoit son Intelligence processuing Units (IPU), un chip- set adapté à l’exécution d’applications de deep learning côté entraînement et inférence qui com- prendrait 1000 cœurs.

Cerebras Systems (2016, USA, $112M) est une étonnante startup ayant déjà atteint une valori- sation de $860M, lui donnant un statut envié de pré-licorne mais qui fonctionne en mode silen- cieux (“stealth mode”). On sait juste qu’elle conçoit un ASIC pour de l’entraînement de réseaux de neurones. La startup a été créé par des anciens de SeaMicro, une startup constructeur de ser- veurs à basse consommation acquise par AMD en 2012 pour $357M, complétée récemment par un dirigeant d’Intel, Dhiraj Mallick.

Groq (2017, USA, $10M), une startup créée par des anciens de Google qui avaient participé à la conception de leurs TPU. Leur chipset pour serveur est censé générer 400 Tflops avec 8 Tflops/s par Watt.

Gyrfalcon Technology Inc ou GTI (2017, USA) est sorti du bois en septembre 2017 avec deux chipsets d’inférences ASIC à basse consommation, l’un pour les serveurs et l’autre pour les ob- jets connectés.La version serveur (Lightspeeur 2803 AI Accelerator) est intégrée dans des cartes à 16 composants244.

Wave Computing (2010, USA) qui dé- veloppe ses Dataflow Processing Units avec 16 000 cœurs produits en ASIC chez TSMC en 16 nm, dédiés à l’entraînement de réseaux de neurones. Ces DPU sont assemblés dans des serveurs par paquets de 16, donnant 128 000 cœurs. Ils n’utilisent par contre que de la DRAM, bien moins performante que la mémoire HBM des GPU Nvidia et autres chipsets plus spécialisés245. La startup avait fait

l’acquisition de l’activité MIPS de l’Anglais Imagination Technologies.

ThinkForce Electronic Technology (2017, Chine, $68M) qui développe des chipsets de deep learning pour serveurs, également basés sur des architectures multicœurs.

Habana Labs (2016, Israël, $75M) commercialise une carte PCIe pour serveur comprenant leur processeur Goya HL-1000 qui peut traiter 15 000 images/second avec seulement 100 W. Le sys- tème supporte TensorFlow et le format d’échange ONNX.

244 Voir AI Accelerator Gyrfalcon Soars Post Stealth de Kevin Fogarty, novembre 2018.

SambaNova Systems (USA, $56M) développe aussi un chipset d’inférences pour serveurs qui cherche à dépasser la performance des Volta de Nvidia et cible le traitemet de données. La star- tup a aussi obtenu $8M de financement de la DARPA.

Baidu qui présentait en juillet 2018 son chipset serveur Kunlun réalisé en 14 nm chez Samsung qui semble être généraliste, étant adapté aussi bien à la reconnaissance d’images qu’au traite- ment du langage. C’est visblement dans un premier temps un FPGA. Il a une bande passante mémoire convenable de 512 Go/s et délivre 260 teraops pour une consommation de 100W.  Alibaba et Tencent ont aussi leurs chipsets serveurs de machine learning pour serveurs, aussi

réalisés en FPGA.

Nous allons maintenant passer aux processeurs adaptés à l’exécution d’applications de deep lear- ning dans l’embarqué, à la fois dans les smartphones et dans les objets connectés en général. On appelle cela l’Edge AI, ou l’IA appliquée aux objets. L’offre y est bien plus abondante que sur ser- veurs.

Sur smartphone, le pre- mier des chipsets d’IA en date est le Kirin 970 de HiSilicon, la filiale de semiconducteurs du chi- nois Huawei. Présentée à l’IFA 2017, il s’agissait d’un chipset mobile gravé en 10 nm par TSMC et comprenant 5,5 milliards de transistors.

Il comprend un NPU (Neural Processing Units) faite de multiplicateur de matrices 3x3 qui est dé- diée au traitement d’applications de deep learning comme la reconnaissance de la parole ou d’images qu’ils appellent une Neural Processing Unit (NPU).

On l’a retrouvé dans de nombreux smartphones lancés depuis comme les Huawei Mate 10, Pmate 20 et Honor 10. Le tout est complété de 8 cœurs CPU et 12 cœurs GPU MALI (design de GPU d’origine ARM). Le NPU peut traiter 1,92 TFlops en calculs flottants FP16. Dans le Kirin 980, la puissance est doublée à 4 Tflops/s. Le NPU supporte Tensorflow, Tensorflow Lite et Caffe/Caffe2. Ce chipset a été suivi en septembre 2018 du Kirin 980 qui double la puissance côté NPU, et est gra- vé en technologie 7 nm.

Les Kirin 970 et 980 utilisent une conception de circuit provenant de Cambricon Technology (2016, Chine, $200M246). HiSilicon n’a pas utilisé tel que, un bloc de processeur neuromorphique

de Cambricon Technology. Ils ont travaillé ensemble pour le personnaliser et l’intégrer dans le Kirin 970 puis dans le Kirin 980 et notamment pour l’adapter au processus de fabrication du chipset qui est en intégration à 10 nm puis en 7 nm, fabriqué par TSMC à Taïwan.

Une semaine après l’annonce du Kirin 970 par Huawei, Apple lançait sa nouvelle salve d’iPhones 8 et X. Ceux-ci intègrent aussi une fonction neuromorphique sous la fome d’un coprocesseur dénom- mé A11 Bionic Neural Engine. Il tourne à 900 MHz mais rien n’a encore filtré sur ses capacités techniques précises. On sait sans surprise qu’il est exploité par SIRI et par les fonctions de recon- naissance d’images comme le login exploitant une vue 3D du visage.

246 Ces $200 ont été levés auprès de SDIC, un investisseur public chinois qui ressemble à notre Bpifrance. Fin 2017, Cambricon annonçait lancer d’ici 2019 la fabrication de son propre chipset en 16 nm chez TSMC, les MLU100 et MLU200 (Machine Learning Units) dédiés aux serveurs.

Kirin 970 / 980 NPU 10/7 nm

3x3 matrix multipliers 2-4 Tops/s

in Huawei Mate 10, Pmate 20 et Honor 10 (K970) A11, A12 Neural engine 10/7 nm 5 Tops/s in iPhone XS, XS Max, XR, 8, X

Le chipset A12 équipant les iPhone XR lancés en septembre 2018 double la puissance du NPU à environ 3-4 TeraOps, sans que l’on ne sache ce qu’il contient.

Au CES2018, le Chinois Rockchip sortait son premier processeur embarqué RK3399Pro intégrant un NPU, atteignant 2,4 Tflops, au niveau du Kirin 970 de HiSilicon. Il comprend sinon huit cœurs ARM en architecture big.LITTLE Cortex-A72 et Cortex-A53 plus un GPU Mali-T860. Le NPU sert notamment à la reconnaissance d’images et de la parole. Il est supporté par les frameworks de ma- chine learning OpenVX (open source, pour la vision), TensorFlow (généraliste) et Caffe (également généraliste).

Le Taïwanais MediaTek faisait de même en annonçant sa plateforme NeuroPilot, une “AI proces- sing unit” (APU) associée à un SDK NeuroPilot qui supporte les habituels outils de l’IA tels que TensorFlow, Caffe et Amazon MXNet.

Les marchés visés sont les smartphones et l’automobile. L’annonce ne précisait pas les fonctions mathématiques mises en œuvre dans leur APU, ce qui est bien dommage mais risque d’être courant. Chez Qualcomm, l’approche vis-à-vis de l’IA est très différente247. Elle est gros basée sur la créa-

tion du Snapdragon Neural Processing Engine SDK qui supporte d’un côté les principaux frame- works de deep learning du marché (Tensorflow, Caffe, Caffe2, ONNX et les API Android Neural Networks) et de l’autre, qui exploite les différentes composantes des chipsets Snapdragon, les cœurs Kryo, le GPU maison Adreno et les DSP Hexagon qui contiennent des unités de traitement de vec- teurs.

On n’a donc pas à proprement parler de NPU. Le DSP Hexagon comprend toutefois des unités de manipulation de vecteurs qui optimisent le fonctionnement des réseaux de neurones, une archirec- ture voisine de ce que l’on trouve dans les processeurs serveur Intel Xeon Phi. La bibliothèque Hexagon Neural Network permet d’exécuter des logiciels de deep learning directement sur les pro- cesseurs vectoriels Hexagon, notamment pour des réseaux convolutionnels.

Qualcomm s’appuie notamment sur les compétences des équipes de Scyfer (2013, Pays-Bas), une startup issue de l’Université d’Amsterdam acquise en 2017 et spécialisée dans les développements logiciels en machine learning. Ils font aussi appel à Brain Corp (2009, USA, $125M) dans lequel Qualcomm Ventures a investi et pour de la R&D externalisée dans la vision artificielle.

Dans l’embarqué, nous avons aussi une belle brochette d’offres disponibles ou en cours de dévelop- pement :

Mythic (2012, USA, $55M) conçoit des chipsets pour micro-ordinateurs qui sont optimisés du côté de la gestion de la mémoire et avec une interface PCIe. Ils utiliseraient une méthode asso- ciant numérique et anologique pour accélérer les inférences dans les réseaux de neurones. Le chipset sera notamment supporté par TensorFlow248.

Prophesee (2013, France, $37M) est l’ex Chronocam, chez qui Intel est le plus gros investis- seur. Leur chipset est en fait un capteur vidéo qui intègre un réseau de neurones permettant l’interprétation immédiate des images.

SpiNNaker a été créé dans le cadre du projet

européen Human Brain Project par Steve Furber (Université de Manchester, UK). Il vise à simuler le fonctionnement d’un milliard de neurones. Il s’appuie sur une architecture matérielle avec 18 cœurs 32 bits ARM de 1000 neurones par chip- set. On est plus dans l’architecture massivement parallèle avec des milliers de processeurs de ce type que dans les processeurs véritablement sy- naptiques.

 L’architecture est suffisamment souple pour exécuter différents types de réseaux de neurones y compris des neurones à impulsions.

KnuEdge (2007, $100M) planche sur un chipset Knupath qui est basé sur la technologie Lam- baFabric qui permet l’alignement en parallèle de 512 000 unités assemblées dans des chipsets de 256 cœurs. L’offre comprend les chipsets KnuVerse dédié à la reconnaissance de la parole pour l’authentification ainsi que les services en cloud Knurld.io permettant d’intégrer l’authentification vocale dans une application.

Neurocore est un projet Stanford, aussi associé au HBP, un chipset intégrant 65536 neurones et fonctionnant à très basse consommation.

AnotherBrain (2017, France, $10M) est une startup lancée par Bruno Maisonnier, le fondateur d’Aldebaran Robotics. L’architecture de son chipset n’est pas documentée à ce stade. Le con- cept serait très différent de tous les autres chipsets neuromorphiques, avec comme avantage, un processus d’entraînement plus rapide et nécessitant moins de données. On attend maintenant de juger sur pièces !

Vathys (2015, USA, $120K) développe un chipset censé être 10 fois plus rapide que les concur- rents en optimisant le mouvement des données. Ils en sont pour l’instant à l’état du concept249.

248 Voir Mythic nets $40M to create a new breed of efficient AI-focused hardware de Matthew Lynley, mars 2018. 249 Voir les détails dans Vathys Petascale Deep Learning on a (Single) Chip, 2017 (28 slides).

Horizon Robotics (2015, Chine, $100M, provenant notamment d’Intel Capital), est une startup spécialisée dans les composants pour la robotique et la conduite autonome. Leur chipset Sunrise 1.0 sert à la reconnaissance de visages dans des vidéos, supportant une entrée en Full HD et la suivi simultané de 200 objets avec une consommation de seulement 1,5W. Un autre chipset, le Journey 1.0 suit les trajectoires de huit catégories de cibles comme les piétons, les vélo, les voi- tures et la signalisation routière. Cela cible les systèmes d’ADAS, pour la conduite assistée ou autonome.

Syntiant (2017, USA, $5,1M) développe le chipset Neural De- cision Processors (NDP) qui in- tègre une sorte de mémoire Flash analogique à côté de ses fonc- tions d’inférence de deep lear- ning organisées sous forme de multiplicateur de matrices par des vecteurs, le tout fonctionnant à basse consommation grâce à des synapses avec une basse pré- cision de 3 à 5 bits.

 Le chipset génère 20 teraops par Watt. Il vise bien entendu les applications mobiles en tant que coprocesseur250.

Novumind (2015, USA, $15,2M) développe ses chipsets NovuTensor, dédiés aux inférences de réseaux de neurones convolutionnels pour la reconnaissance d’images. Ils génèrent 15 Tflops/s pour 5 Watts et 3 Tflops par Watt, ce qui semble être maintenant la norme. Le NovuTensor est disponible sous la forme de composant ou dans une petite carte PCIe qui peut s’installer dans un serveur. L’ensemble était en bêta en date de septembre 2018.

DeePhi Tech (2016, Chine, $40M) prévoit de sortir des chipsets neuromorphiques en 2018, l’un pour le cloud et l’autre pour l’embarqué et spécialisés dans la reconnaissance d’images. Leur DPU (Deep Learning Processor Unit) est un FPGA complété par le SDK Deep Neural Network Development Kit (DNNDK). Cette spin-off issue d’un partenariat entre l’Université de Tsinghua et celle de Stanford vise le marché des caméras de surveillance et des robots. Elle a été acquise par l’Américain Xilinx en juillet 2018 qui propose par ailleurs son DNN Processor pour les FPGA Xilinx avec ses outils logiciels associés251. Xilink est le numéro un mondial des FPGA,

devant Intel.

GrAI Matter Labs (2016, France, $15M) conçoit un processeur sur une architecture origi- nale, a base de réseaux neuronaux, numérique mais asynchrone, utilisant des « spiking neu- rons » (neurones à impulsion). Ils ambitionnent d’intégrer un million de neurones sur un cem- tinmètre carré et consommant 1W, programmable en Python. Ils ont obtenu $1M de financement par la DARPA pour un démonstrateur FPGA qui tourne déjà. C’est rare pour une startup fran- çaise.

Kalray (2008, France, $39,7) est une startup spin-off du CEA qui développe des processeurs « multicore », à 256 cœurs, dédiés au marché de l’automobile et aux applications d’IA asso- ciées. La startup annonçait en mai 2018 l’entrée à son capital d’Alliance Ventures, le fonds de capital-risque de l’Alliance Renault-Nissan-Mitsubishi, et de Definvest, le fonds géré par Bpi- france pour le compte du Ministère des Armées.

250 Le schema provident de la presentation Analog Computers for Deep Machine Learning de Jeremy Holleman, le CTO de Syntiant