Origine des données - [PDF] Livre complet sur l’intelligence artificielle et python

Les données alimentant les systèmes d’IA proviennent de l’intérieur et/ou de l’extérieur de l’entreprise.

Elles sont issues de toutes sortes de capteurs divers : des objets connectés, du plus simple (thermo- mètre connecté) aux plus sophistiqués (machine outil, smartphone, ordinateur personnel). Comme pour les applications de big data habituelles, les sources de données doivent être fiables et les don- nées bien extraites et préparées avant d’être injectées dans les systèmes à base de machine comme de deep learning.

Les solutions les plus avancées exploitent conjointement des données ouvertes externes et les croi- sent aux données que l’entreprise est seule à maîtriser. C’est un bon moyen de créer des solutions différenciées.

Les données ouvertes sont issues de l’open data gouvernementale, des réseaux sociaux et de diffé- rents sites spécialisés dans la fourniture de données, soit ouvertes, soit payantes, comme des bases de prospects d’entreprises ou de particuliers, selon les pays et législations en vigueur. Côté images, il y a par exemple la base ImageNet déjà vue, la base LSUN qui contient des points de vues d’extérieur, CIFAR-10 et CIFAR-100, des bases d’images diverses basse résolution et Celeba, qui contient 200 000 photos de visages de célébrités. Dans le langage, il y a notamment la base lexicale WordNet (anglais) avec ses 117 000 expressions et MNIST (écriture manuscrite).

La labellisation est un des défis majeurs de l'adoption rapide du machine learning par les entre- prises195_{. Des sociétés spécialisées emploient des gens pour labelliser les données,}

Les données d’entraînement des systèmes d’IA doivent être bien labellisées, soit automatiquement, soit manuellement. De nombreuses bases de référence d’images taggées l’ont été via de la main

195_Voir_{This CEO is paying 600,000 strangers to help him build human-powered AI that's 'whole orders of magnitude better than}

d’œuvre recrutée en ligne via des services du type d’Amazon Mechanical Turk196_{ou de Figu-}

reEight (2007, USA, $58M, aussi appelé CrowdFlower). Ces petites mains sont en quelque sorte les ouvriers de l’IA ! D'autres comme thresher.io (2015, USA), OpenRefine (open source) et tri- facta (2012, USA, $124,3M) proposent des produits de collecte semi-automatique de labels afin de soulager les entreprises de la charge de labellisation. Cette labellisation peut cependant être de mauvaise qualité car pour des applications industrielles, une expertise métier est souvent nécessaire a une labellisation correcte. Le bon sens ne suffit souvent pas. Pour y pallier, Neuromation (2017, USA, $25M) et Deep Vision Data (USA) proposent de générer automatiquement des données d’entraînement numériques. C’est notamment utile pour créer des vues d’objets 3D en 2D sous plu- sieurs angles de vue pour entraîner des réseaux convolutionnels de vision197_{. Les cas d'usage sont}

cependant restreints198_{. Certains experts estiment que cette friction constitue une motivation sup-}

plémentaire à l'extension des usages du deep learning et de l’apprentissage par renforcement199_.

Là encore, les entreprises et les startups devront prendre en compte le règlement européen RGPD dans la collecte et le traitement des données personnelles. Leur portabilité d’un service à l’autre sera l’une des obligations les plus complexes à gérer. Le droit à l’oubli également200

Certaines études portant sur un seul type de réseau de neurones montrent qu’une IA avec plus de données est plus efficace qu’une IA avec un meilleur algorithme.

La performance des algorithmes joue cependant un rôle clé dans la qualité des résultats dans le deep learning, et surtout dans leur performance, notamment la rapidité de la phase d’entraînement des modèles. Pour ce qui est de la reconnaissance des images, il faut distinguer le temps d’entraînement et le pourcentage de bonnes reconnaissances. Les progrès des algorithmes visent à améliorer l’une comme l’autre. La taille des jeux de données est en effet critique pour bien entraîner un modèle. Si l’algorithme utilisé n’est meilleur que

dans la vitesse d’entraînement, ce qui est souvent le cas dans des variantes de ré- seaux de neurones convolutionnels, alors, la performance de la reconnaissance ne changera pas lors de l’exécution du mo- dèle entraîné. Par contre, avec plus de données d’entraînement, celui-ci sera plus long. Comme illustré dans mon petit schéma ci-dessus, il faut à la fois de meilleurs jeux de données et de meilleurs algorithmes pour que l’entraînement soit aussi rapide que possible.

196_Voir_{Inside Amazon's clickworker platform: How half a million people are being paid pennies to train AI}_{, de Hope Reese et Nick} Heath, 2016.

197_Voir_{Some startups use fake data to train AI}_{, de Tom Simonite, avril 2018 et}_{Deep learning with synthetic data will democratize}

the tech industry, de Evan Nisselson, mai 2018.

198_Voir_{Deep learning with synthetic data will democratize the tech industry}_{, mai 2018.}

199_Voir_{5 tips to overcome machine learning adoption barriers in the enterprise}_{, de Alison DeNisco Rayome, novembre 2017.} 200_{Lorsqu’un réseau de neurones aura été entraîné avec des données personnelles de millions d’utilisateurs, la suppression des don-} nées personnelles d’une base de données ne signifiera pas automatiquement qu’elles ont disparu du réseau de neurones entraîné avec. Mais les données utilisées dans l’entraînement sont normalement anonymisées puisqu’elles servent à déteminer des caractéristiques des utilisateurs à partir de paramètres divers (localisation, comportement, usages). Les données ont beau être anonymisées, elles figurent sous la forme d’influence probabiliste du réseau de neurones entraîné. Influence qui est normalement négligeable à l’échelle d’un seul utilisateur. A l’envers, un réseau de neurones bien entraîné peut deviner des caractéristiques cachées d’un client via son approche probabiliste. Ces informations déduites doivent donc probablement être aussi bien protégées que les informations d’origine sur l’utilisateur.

C’est notamment utile pour réduire la consommation énergétique de l’IA. Bref, pour faire de l’IA verte201

! Mais il est bon de tenir compte des délais du projet : l’optimisation d’un algorithme pourra prendre beaucoup plus de temps que son alimentation avec un jeu de données plus grand.

Où ces données sont-elles stockées ? Elles peuvent l’être sur les serveurs de l’entreprise ou dans le cloud et si possible dans un cloud bien privé de l’entreprise. Contrairement à une idée répandue, les services de cloud issus des GAFAMI n’exploitent pas les données des entreprises qui y sont stock- ées. Seules celles qui proviennent des services grand public (moteurs de recherche, réseaux sociaux, email personnels) peuvent l’être.

Par contre, les données qui circulent sur Internet peuvent être interceptées par certains services de renseignement qui ont installé des sondes sur les points d’accès des grandes liaisons intercontinen- tales. La DGSE le fait pour les fibres qui arrivent en France et la NSA pour celles qui arrivent aux USA, en général à des fins de renseignement sur le terrorisme mais cela peut déborder sur d’autres besoins !

Dans le document [PDF] Livre complet sur l’intelligence artificielle et python (Page 118-120)