• Aucun résultat trouvé

entraînement du générateur pour qu'il

Applications génériques de l’IA

étape 2 entraînement du générateur pour qu'il

génère des images reconnues par le discriminateur

Coloriage

Il existe des GANs qui savent automatiquement colorier des images en noir et blanc. Cela peut ser- vir à moderniser des contenus anciens, souvent argentiques, aussi bien photo que cinéma.

Il faut évidemment de grandes bases d’entraînement pour que les couleurs soient les bonnes. Les exemples présentés dans les publications scientifiques sont toujours plausibles mais il doit sûrement y en avoir qui ne fonctionnent pas bien lorsqu’il peut y avoir ambiguité sur une couleur. Un ciel bleu est en fait peut-être gris, même si la couleur du ciel peut avoir un impact sur le reste d’une pho- to de paysage.

Plusieurs GANs ont été publiés pour la colorisation, comme Colorful Image Colorization de Ri- chard Zhang, Phillip Isola et Alexei A. Efros de Berkeley 2016 (29 pages). En mai 2018, Google annonçait l’intégration de cette fonctionnalité dans son logiciel mobile Google Photos lors de la conférence Google I/O, parmis d’autres qui font aussi appel au deep learning (vidéo) comme la co- lorisation sélective d’images !

Dans le même registre, les GANs peuvent aussi servir à transformer des photos en bande dessinée, sans les légendes humoristiques pour l’instant. En voici un exemple récent dans CartoonGAN: Ge- nerative Adversarial Networks for Photo Cartoonization, 2018 (10 pages), réalisé en Chine (ci-

dessous, avec les architectures en couche de son discriminateur et de son générateur).

Colorful Image Colorization, Zhang, Isola & Efros, 2016

Amélioration

Les GANS et/ou les stacked autoencoders permettent aussi d’améliorer des images, notamment celles qui sont bruités. C’est ce qu’a notamment démontré Nvidia en juillet en publiant

Noise2Noise: Learning Image Restoration without Clean Data, 2018 (12 pages), réalisé avec des chercheurs de l’Université de Aalto en Finlande et du MIT aux USA.

Leur solution utilise des GPU Nvidia Tesla P100 et un logiciel développé avec le framework de réseau de neu- rones cuDNN exploitant le jeu d’instruction CUDA des GPU Nvidia. Voir la vidéo associée qui contient diverses démonstrations. Le système a été entraîné avec 50 000 images de la base ImageNet.

Cela pourrait servir dans l’imagerie médicale et en astronomie. Mais comme l’indique un commen- taire dans un article de Dpreview334, les jeux de tests utilisés étaient à basse résolution et consom-

maient énormément de ressources machine. La généralisation d’un tel procédé sur des photos de reflex devra donc attendre quelques cycles de la loi de Moore !

Résolution

L’amélioration de la résolution d’images génère aussi des résultats étonnants335. L’idée aurait été

proposée la première fois par Ian Goodfellow en 2016. Elle est depuis déclinée dans de nom-

breuses productions de chercheurs qui veulent rendre leurs méthodes les plus génériques possibles. On en trouve dans

Photo-realistic single image super- resolution using a generative adversarial network, de Christian Ledig et son équipe, 2016 (19 pages) qui est cité dans

NIPS 2016 Tutorial: Generative Adver- sarial Networks, 2016 (57 pages).

Il en existe de nombreuses variantes avec A Fully Progressive Approach to Single-Image Super- Resolution (10 pages), EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis, 2017 (19 pages) qui améliore la texture des images et Learning to Super-Resolve Blurry Face and Text Images (10 pages) qui part d’une photo vraiment très floue pour générer un visage proche de la vérité (ci-dessous). Magique ? Non, ce sont juste des modèles probabilistes.

334 Sur NVIDIA researchers develop AI that removes noise from images with incredible accuracy, juillet 2018. 335 Voir Super resolution with Generative Adversarial Networks de Boris Kovalenk.

Cela rappelle par la même occasion le scénario de l’excellent film « Sens Unique » avec Kevin Costner, réalisé pendant les années 1980 et qui voit la NSA faire ce genre de reconstitution.

Dans Photorealistic Video Super Resolution, juillet 2018 (15 pages), on en apprend plus sur les mé- thodes et jeux de données d’apprentissage utilisés par ce genre de GAN. Ils utilisent des vidéos 4K récupérées sur YouTube et réduites en 720p (1280x729 pixels). Ils en extraient 300 000 carrés de 128 pixels de côté dont ils créent des versions réduites de 32x32 pixels qui servent à entraîner le système. Je simplifie ! La startup Let’s Enhance (2017, Estonie) propose en tout cas déjà d’upscaler des photos à la demande336.

Le plus étonnant est de retrouver cette technique au CES 2018 chez Samsung qui introduisait cette fonction dans un prototype de TV 8K, capable d’upscaler des contenus SD, HD et UHD en 8K. La méthode utilisée doit être voisine, utilisant un réseau de neurones entraîné à upscaler des morceaux d’images. Mais on attend de voir ce que cela donne à grande échelle. Cela doit bien entendu dépendre de la nature des bases d’entraînement.

Compléments

Le quatrième grand exercice de style des GANs est de compléter des images incomplètes. C’est une sorte d’exercice de prévision.

Les résultats sont intéressants mais impar- faits, surtout si l’on regarde de très près les images générées, qui par ailleurs sont à basse résolution.

Il ne faut pas oublier que ce sont des mo- dèles probabilistes ! Et lorsque l’effet est de petite taille, comme à droite, vous n’y voyez que du feu !337. Cela joue sur les

limites de notre cortex visuel qui lui aussi interprète les images générées par la rétine par approximation.

Des zones de formes arbitraires peuvent être également remplies avec des GANs, comme dans Glo- bally and Locally Consistent Image Completion, 2017 (14 pages), illustré ci-dessous.

Certains réseaux génératifs sont plus utiles comme WESPE: Weakly Supervised Photo Enhancer for Digital Cameras, d’une équipe de l’ETH Zurich 2017 (10 pages), qui améliore les photos prises par smartphone notamment au niveau contraste et basses lumières, ou celui du stabilisateur vidéo du Pixel 2 évoqué dans Fused Video Stabilization on the Pixel 2 and Pixel 2 XL, 2017 (vidéo).

336 Elle propose un test d’upscaling, permettant l’upload d’une photo, mais demande ensuite les coordonnées de l’utilisateur. Je ne l’ai donc pas testée. La génération de leads à la petite semaine me fatigue !

D’autres sont capables de modifier les yeux dans une photo, comme dans Eye In-Painting with Exemplar Generative Adversarial Networks, d’une équipe de Facebook, juin 2018 (10 pages). En 2018, Nvidia présentait une solution de ralenti vidéo réalisé à base de GPU et de réseau généra- tif. C’est impressionnant mais cela doit fonctionner seulement à basse résolution (vidéo). Une autre application consiste à prévoir la suite d’une vidéo, comme vu dans Generating Videos with Scene Dynamics, 2016.

Transfert de style

L’application d’un style à une photo ou une image est une autre application classique des GANs. Elle est souvent montée en épingle comme relevant de la créativité alors qu’il s’agit d’un automa- tisme déterministe. Ses applications commerciales sont d’ailleurs encore rares.

C’est une application directe des réseaux de neurones convolutionnels capables de détecter des fea- tures associés à des autoencodeurs, capables de réencoder ces features à partir d’autres bases. C’est un procédé très mécanique qui n’est pas aussi créatif que l’on pourrait le croire338 ! L’exemple en

bas provient de Li et Wand339.

Les cas connus relèvent de l’application du style graphique d’un peintre à une image ou à une pho- to340. C’est plus facile à réaliser avec une image de dessin animé car la plausibilité du résultat est

moins remise en question par l’œil humain341.

338 Voir Can AI make anyone an artists, septembre 2017. On y trouve aussi la vaste plaisanterie pour gogos de pix2code, une AI qui serait capable de créer un programme à partir d’une simple interface utilisateur, la demonstration étant faite avec une interface com- portant deux boutons.

339 Voir StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, 2016-2017. 340 Voir Painting like Van Gogh with Convolutional Neural Networks, novembre 2016.

Cela devient plus impression- nant avec Image-to-image tran- slation with conditional adver- sarial networks, 2016 (17 pages) qui génère une image plausible à partir d’un simple schéma (ci-

contre)342. A ceci près que les

schémas sont eux-mêmes géné- rés à partir de photos, ce qui facilite très probablement le travail du GAN.

Autre variante dans le transfert de style, la transformation d’une image d’extérieur prise en hiver en image d’été chez Nvidia dans Unsupervised Image-to-Image Translation Networks, 2018. Là en- core, le système a eu besoin d’exploiter une belle base d’entraînement pour générer ce résultat im- pressionnant.

Création ex-nihilo

Les autres formes intéressantes de réseaux génératifs sont ceux qui ont la capacité de générer une image plausible à partir d’un descriptif textuel plus ou moins précis. Il faut évidemment disposer d’une très bonne base d’entraînement pour ce faire avec plein d’images taggées avec de nombreux attributs.

Les images générées sont loin d’être parfaites, mais elles trompent facilement le cerveau dans les exemples fournis par les chercheurs343.

L’exemple ci-contre et ci-

dessous est issu de Stack- GAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adver- sarial Networks, 2017 (14 pages).

On est en plein réseau de neurones multimodal, asso- ciant textes et images !

341 Et puis aussi, cette tranformation d’un cheval en zèbre dans une vidéo (vidéo).

342 Voir aussi Image-to-Image Demo Interactive Image Translation with pix2pix-tensorflow de Christopher Hesse, février 2017. 343 Les publications scientifiques des réseaux génératifs négligent souvent un point clé : la proportion des images générées qui ne sont pas correctes et que le cerveau humain ne reconnaît pas alors que le discriminateur utilisé dans les GAN les a considéré comme des images plausibles.

Visages

Les GANs sont très employés pour modifier ou améliorer des visages. On trouve ce genre de fonc- tionnalités dans des applications mobiles comme avec l’application mobile FaceApp qui peut vous vieillir, vous rajeunir et même changer votre sexe344.

L’amélioration de selfies fait aussi partie des projets d’Adobe qui utilise son IA maison Sensei, ex- ploitant du deep learning pour améliorer de manière semi-automatique les selfies pris avec des smartphones (vidéo) comme pour corriger les perspectives et divers paramètres de prise de vue a postériori.

Le maquillage virtuel passe par une analyse du visage pour le décomposer en parties auxquelles sont appliquées ensuite divers produits de cosmétique345, qui peuvent ensuite être bien évidemment

commandés en ligne. Nombre de startups du secteur proposent maintenant cela. L’une d’entre elles, Modiface (2007, Canada) a été acquise par L’Oréal en mars 2018.

Mais une équipe de chercheurs chinois a voulu aller dans le sens inverse, créant une photo d’une femme sans maquillage à partir d’une photo avec maquillage, vu dans Anti-Makeup: Learning A Bi- Level Adversarial Network for Makeup-Invariant Face Verification 2018, (8 pages). Cela marche cependant moins bien que l’ajout de maquillage !

344 Seulement dans la photo !

345 Voir Makeup Like a Superstar: Deep Localized Makeup Transfer Network de Si Liu, Xinyu Ou, Ruihe Qian, WeiWang et Xiao- chun Cao, 2016.

La génération d’avatars 3D animés à partir d’une simple photo, utilisant une technique connue de réseau de neurones convolutionnels génératifs. Elle est notamment proposée par la startup améri- caine Loom.ai (2016, $1,35M), créée par des anciens de Dreamworks et LucasFilm (vidéo).

Dans Progressive Growing of GANs for Improved Quality, Stability, and Variation, 2017 (26 pages), une équipe de Nvidia a pu générer des photos de relativement aute résolution (1024 pixels de côté) d’acteurs qui n’existent pas, grâce à un entraînement progressif du générateur du GAN, avec ajout de couches étape par étape pour double la résolution spatiale.

Ce GAN a été entraîné avec le dataset Celeba, qui contient des photos de célébrités avec 203 000 photos de 10 177 personnes.

L’un des modèles génératifs les plus récents est GLOW346, créé en juillet 2018 par OpenAI. Ce ré-

seau réversible utilise des convolutions de 1x1 pixel. Il permet de générer des images à haute résolution et d’en modifier diverses propriétés comme le sourire, l’âge, la couleur des cheveux et la pilosité. Le mo- dèle permet aussi de mélanger deux visages. Dans le genre glauque, DeepFake peut générer des vidéos de porno avec des personnes qui y sont intégrées à l’insu de plein gré347.

Le buzz a été déclenché avec une démonstration plaquant le visage de l’actrice Gal Gadot sur le corps d’une actrice de porno, habillée pour le besoin du buzz, une fois n’est pas coutume, vu dans

AI-Assisted Fake Porn Is Here and We’re All Fucked, décembre 2017.

La menace est telle que le Sénateur du Nebraska, Ben Sasse, s’en est même ému en octobre 2018 en avertissant de l’impact potentiel de cette technologie sur les débats politiques aux USA, déjà bien mis à mal dans l’ère Trumpienne348.

Une technique voisine est utilisée à des fins moins répréhensibles, comme dans Everybody Dance Now de Berkeley, 2018 (9 pages) qui fait danser en vidéo une personne qui ne sait pas danser en imitant une autre personne qui danse. Et Google fait quasiment pareil en imitant vos mouvements avec une sacade de photos de personnes qui sont dans la même position, dans Move Mirror (vidéo)349.

Sont donc lancés des projets divers pour détecter et supprimer les DeepFake. C’est le cas du bizarre

In Ictu Oculi: Exposing AI Generated Fake Face Videos by Detecting Eye Blinking, 2018 (7 pages) qui vise à détecter les bizarreries de clignements d’oeils dans les vidéos pour identifier les fake. Jusqu’au jour où les fausses vidéos imiteront bien le clignement des yeux, ce qui ne devrait pas être trop difficile à faire !

Gfycat (2013, USA, $10M) un site de partage GIFs qui détecte les fake on ne sait pas trop comment puisqu’il s’agit d’une startup et pas d’un laboratoire de recherché qui publie ses travaux.

346 Voir https://blog.openai.com/glow/.

347 Les vidéos DerpFake déclinent la méthode en plaquant diverses personnalités sur des acteurs dans des extraits de films comme pour les James Bond (vidéo), le pire étant, à la fin, avec Rowan Atkinson qui remplace Daniel Craig dans Casino Royale.

348 Voir This new technology could send American politics into a tailspin, Ben Sasse dans le New York Times, octobre 2018. 349 Voir Move Mirror: You move and 80,000 images move with you, 2018.

Quant à Truepic (2016, USA, $10,5M), ils proposent d’éviter les fake dans les photos ! Comment ? Sans IA. Juste en integrant un watermark dans les photos générées.

Nous avons aussi un projet en cours de SRI International et de l’Université d’Amsterdam qui est financé par la DARPA dans le cadre du programme MediFor, pour Media Forensics. Il vise égale- ment à détecter des images et vidéos trafiquées350.

Il y a aussi le contraire, avec ce projet brésilien Seamless Nudity Censorship an Image-to-Image Translation Approach based on Adversarial Training, 2018 (8 pages) qui rajoute automatiquement des bikinis sur les photos de nues, un projet issu d’une Université Catholique financée par le dio- cèse local.

L’idée est de censurer les images sans que cela se voie trop. Mais ces petits malins démontrent aussi l’inverse, enlevant le bikini (virtuellement) à quelques femmes pour révéler leur tenue d’Eve.

Peinture

La peinture à base de réseaux génératifs donne lieu à des performances plus ou moins convain- cantes selon les cas.

Il y a eu par exemple cette génération de tableau artificiel de Rembrandt réalisée avec l’aide de Microsoft351.

En octobre 2018, le premier tableau réalisé à base d’IA générative représentant un personnage fictif, Edmond de Belamy, a été vendu aux enchères chez Christie’s pour $432K alors qu’il avait été initialement estimé entre $7K et $10K. De quoi faire jaser. L’auteur est le collectif d’artistes français, Obvious, qui regroupe Hugo Caselles- Dupré, Pierre Fautrel et Gauthier Vernier. Leur IA à base de GAN a été entraînée avec 15 000 portraits peints entre le 14e et le 20e siècle. Une fois encore, il faut rappeler que l’IA n’a pas réalisé toute seule cette peinture. Ce sont des peintres outillés par l’IA qui l’on créée352

! Il a fallut créer du code pour y arriver !

350 Voir DARPA is funding new tech that can identify manipulated videos and ‘deepfakes’, de Taylor Hatmaker, avril 2018. 351 Voir The Next Rembrandt.

352 Voir Is artificial intelligence set to become art’s next medium?, Christie’s, octobre 2018. A noter que le collectif Obvious a utilisé une partie du code provenant d’une autre artiste, Robbie Barrat, qui l'avait partagé sous une licence open source (certes, lisible, utili- sable et modifiable par tous).

Langage

Le traitement du langage est le second plus grand domaine d’applications de l’IA avec celui de l’image. Il comprend de nombreuses fonctions et notamment la reconnaissance de la parole, les ro- bots conversationnels, la traduction automatique, l’extraction de données, la création de résumés et la génération de textes.

Ces outils couvrent tout le spectre qui va de la compréhension du langage à son interprétation, son exploitation puis à la création de textes ou de paroles. Il comprend aussi les outils et méthodes de représentation des connaissances.

Ce domaine exploite surtout le deep learning et les réseaux récurrents et à mémoire. Ce champ de l’IA est cependant un peu moins mature que celui de l’image. Autant, par exemple, peut-on dire qu’une IA de diagnostic dans l’imagerie médicale équivaut à celle d’un spécialiste, autant un chat- bot est encore loin de passer avec succès le test de Turing et d’arriver à se faire passer pour un Hu- main353. Ou tout simplement, à conduire une discussion cohérente de bout en bout pour des de-

mandes élémentaires, même dans l’environnement calme de son logement.

Le deep learning appliqué au langage est aussi probabiliste que celui qui est appliqué aux images. Celui-ci a permis de générer d’énormes progrès dans tous les domaines du traitement du langage, en gros, entre 2012 et 2017354.

Ces avancées du deep learning sont parfois remises en cause par des chercheurs et entrepreneurs qui trouvent que ces approches probabilistes ont des limites. Ils remettent au gout du jour des méthodes qui réinjectent un peu de symbolisme dans les procédés employés355. Ce que l’on retrouve aussi

bien chez Google avec ses Universal Transformers ou des startups telles que le Français Go- lem.ai, spécialiste des chatbots.

353 Un agent conversationnel est censé avoir passé le test de Turing en 2014. Voir https://en.wikipedia.org/wiki/Eugene_Goostman. Mais en imitant un adolescent de 13 ans dans une discussion assez limitée. Donc, le véritable test de Turing n’est pas encore vérita- blement passé. Même Ray Kurzweil considère qu’il faudra patienter jusqu’à 2030 pour y arriver.

354 Voir cet excellent historique des avancées dans le traitement du langage : A Review of the Neural History of Natural Language

Processing, de Sebastian Ruder, octobre 2018.

355 Voir par exemple le champ des Memory Networks, 2014, qui gère la mémoire long terme pour les applications de ques- tions/réponses, et les Logic Tensor Networks proposés en 2016 qui combinent les réseaux de neurones avec de la logique symbolique et de la logique floue. What are “Logic Tensor Networks”? de Lucas Bechberger, novembre 2017, Logic Tensor Networks: Deep Learning and Logical Reasoning from Data and Knowledge, 2016 (12 pages) et la présentation associée Learning and Reasoning in Logic Tensor Networks, mai 2017 (38 slides).

Le champ du traitement du langage et de la représentation des connaissances est très riche et en évolution constante. Il est très difficile à suivre pour les néophytes. Les concepts se renouvèlent sans cesse356.

Ainsi en va-t-il par exemple des Knowledge Graph Embeddings et des Poincaré Embedding qui sont notamment utilisés par Facebook qui visent à représenter efficacement les liens entre expres- sions textuelles357.

Dans le schéma ci-dessous, je présente de manière synthétique une partie des éléments qui vont suivrent et qui positionnent le rôle des chatbotx textuels, de la traduction automatique, des as-