• Aucun résultat trouvé

Ce qui a été décrit dans les sections précédentes est plutôt un programme de recherche.

Dans la suite on va aborder l’aspect algorithmique, optimisation, estimation. Quand on étudie un réseau à 1 couche cachée (dit à 2 couche) la théorie de l’approximation est bien comprise, mais au-delà il y a une explosion de la complexité, et on a beaucoup plus de mal à comprendre ce qu’il se passe.

4. D’où viennent les idées des réseaux de neurones?

4.1 La cybernétique

L’histoire commence avec le mathématicien américain Norbert Wiener (1894-1964) dont les idées sont exposées dans son livre Cybernetics or Control and Communication in the Animal and the Machine (1948) qui a eu un retentissement bien au-delà du monde scientifique. Le père de Wiener était un russe immigré aux Etats-Unis, et semble-t’il, avait une vision de l’enfant comme une pâte à modeler totalement malléable, et donc il avait comme projet de faire de son fils un génie. Avec un ami, également russe immigré qui partageait ses opinions éducatives, ils ont parcouru l’Europe pour donner à leurs enfants une éducation historique, littéraire, etc, tout en les abreuvant de sciences à la maison.

Il se trouve que Norbert a développé une mémoire prodigieuse suite à des problèmes de

vision qui le faisait se concentrer sur son audition. Et tout compte fait le petit Norbert et son ami sont devenus des petits génies. . . Les deux enfants ont eu leur doctorat vers 18 ans à Harvard, en logique mathématique pour Norbert. Cependant, son ami a craqué et a fini par se suicider.

Norbert quant à lui a créé et révolutionné: le domaine du traitement du signal (ex.

le filtrage éponyme), le domaine de l’automatique et du contrôle (ex. il a introduit les boucles de feedback lesquelles étaient motivées par la poursuite des avions par la DCA), le mouvement brownien est une “mesure de Wiener”, l’analyse de Fourier est revue par les analyses de Wiener. . . Donc, une créativité extraordinaire qui a largement dépassée le domaine des sciences.

La cybernétique est selon Wiener une « théorie entière de la commande et de la communication, aussi bien chez l’animal que dans la machine ». Dans ce cadre, l’ap-prentissage est vu comme un système dynamique. L’intelligence est vue quant à elle, comme une adaptation au réel, et cette adaptation ne peut pas être pensée sans penser au temps. Ainsi, on a un système qui évolue dans le temps et qui doit s’adapter. Une conséquence est que l’on ne modélise pas le monde, mais la façon de réagir par rapport à l’extérieur. Un exemple qui est devenu classique est celui du bateau qui rentre au port avec des conditions extérieures telles que: le vent, les courants, les vagues. Deux approches s’offrent alors: soit on modélise tout l’environnement extérieur et le fonctionnement du bateau lui-même, soit on se fixe uniquement sur le cap et la vitesse du bateau qu’il faut adapter pour remplir l’objectif. Sur la figure 36, les différentes phases d’une boucle d’as-servissement (contrôle) sont schématisées. La commande est à prendre au sens large, c’est sur quoi le marin peut agir sur son bateau (cap, vitesse), la boite noire est la partie “non modélisable” (l’environnement extérieur à très grand nombre de paramètres) ou plutôt que l’on ne veut pas modéliser, le/les senseur(s) mesure(nt) l’état de la position du bateau et la réinjecte dans un comparateur (+/-) pour mesurer l’écart à l’objectif et induire une nouvelle commande si besoin.

Ce système très général est celui de la rétroaction négativeoù l’on agit en fonction de l’erreur. Cette idée a été très développée non seulement en ingénierie mais aussi en science sociale et biologie. Il s’en est suivi le développement d’un projet de robot cognitif dont le fonctionnement (caricatural) est schématisé sur la figure 37. Le “but” ou “l’objectif” a réalisé est une entrée de la partie “Planificateur” du système cognitif (version primitive

Figure36 – Les différentes phases d’une boucle d’asservissement pour arriver à bon port.

du cerveau) qui comporte également une "Représentation" du Monde et un module de

"Perception" pour interagir avec lui. Les gens ont beaucoup discuté ce schéma et on essayait de voir comment cela pouvait être implémenté dans des systèmes informatiques (et mécaniques). Cela a été fondamental pour le domaine du “contrôle-commande”.

Les développements de la cybernétique ont été fait dans les années 1940-60. Il y a eu pas mal d’analyse du schéma (figure36) par rapport à ce que l’on pouvait rencontrer dans la nature. Un article deHerbert Simon"The Architecture of Complexity" (1962) met en évidence que l’apprentissage est effectif quand le monde est structuré et pas trop com-plexe. La complexité va définir par exemple le nombre d’échantillons d’apprentissage, mais d’une manière générale va donner une limite à apprendre le monde. H. Simon montre qu’il y a également une notion de hiérarchie omniprésente que l’on observe (réductionnisme) en Physique (particule, molécule, atome..), en Biologie (cellule, tissu, organe,. . . ), dans le domaine symbolique (ex. langage: lettre, phonème, mot, phrase, paragraphe, chapitre. . . ), mais aussi en Histoire avec l’évolution des états (tribus, village, ville, région, état, em-pire. . . ), et généralement des résolutions de problème de mathématique (hiérarchie de théorèmes..).

Une des questions qui émergent est: Pourquoi observe-t’on cette structuration hiérar-chique un peu partout? La thèse de H. Simon de l’existence de ces hiérarchies, c’est la nécessité d’avoir quelque chose qui soit stable tout en étant adaptatif dans le temps. Pour illustrer son propos, il prend l’image d’un horloger20 qui assemble une montre très

20. NDJE: La construction de structures gigantesques pour les challenges de type Domino Day illustre également le propos.

Figure 37 – Le projet de "Robot Cognitif".

complexe lors d’une étape où il tient toutes les pièces ensemble, et qui est continuellement interrompu par des appels de clients. Le résultat est que ce pauvre horloger devra recom-mencer son assemblage très très souvent, voire même qu’il n’arrivera jamais à assembler une montre! L’horloger va alors sans doute changer de mode opératoire pour assembler des morceaux, puis assembler des sous-ensembles de plus en plus gros et pour finir assembler les “gros morceaux” entres-eux. S’il est interrompu alors il aura moins de travail à refaire et convergera vers l’assemblage de la montre. Cette image est celle de l’évolution darwi-nienne qui structure par hiérarchie des éléments stables à toutes les échelles. H. Simon décrit la complexité à travers la hiérarchie des structures et cette hiérarchie permet de comprendre la complexité. Cette idée est très importante car elle est au cœur de tous les réseaux de neurones profonds dans lesquels la “profondeur” fait apparaitre les notions de structuration et de hiérarchie.

La conséquence de la hiérarchie est qu’il y a une organisation ensous-systèmesqui sont quasi-séparables et donc faiblement liés. Cette idée qualitative est assez naturelle et elle n’est pas nouvelle. Pourtant cette approche est un échec ! La véritable question est: com-ment représenter des interactions faibles sans pour autant les éliminer (voir la section3.7).

Comment représenter ces hiérarchies, comment représenter les différents états à toutes les

échelles tout en intégrant la notion de parcimonie pour que l’on puisse “apprendre cette structure”. C’est la question qui se retrouve dans tous les champs disciplinaires cités plus haut et à laquelle la communauté pendant très longtemps n’a pas été capable de répondre, rappeler-vous des grammaires de Chomsky. Et elle est au coeur de la compréhension du fonctionnement des réseaux de neurones profonds (RNp).

Donc les idées sous-jacentes des RNp ne sont pas nouvelles, on en est au stade “al-gorithmique”, c’est-à-dire que l’on sait les mettre en œuvre et leur faire apprendre des structures, mais “mathématiquement” on ne comprend pas leur fonctionnement.