Vers une approche constructiviste pour le contrôle des C-ITSC-ITS

Vers un contrôle décentralisé et adaptatif du trafic coopératif

4.1 Contrôle et régulation du trafic dans l’environnement du véhicule connecté

4.1.3 Vers une approche constructiviste pour le contrôle des C-ITSC-ITS

Les limitations mises en avant dans notre étude des approches de régulation classiques reposent essentiellement sur la dépendance du système à une représentation experte (souvent couplée avec une base de règles elle-même experte). L’utilisation de formes d’apprentissage semble être une alternative pour donner au système la capacité de construire et pourquoi pas faire évoluer sa représentation. Cette possibilité est en adéquation avec la dynamique de déploiement des systèmes coopératifs, qui nécessite à la fois de nouvelles stratégies de contrôle dès aujourd’hui, mais qui demandera aussi une adaptation future. L’application des stratégies (i.e. le type d’action du système) est aussi un axe d’amélioration des approches existantes, qui se limitent souvent à une seule forme de contrôle (VSL, routage) même si les consignes propagées sont de plus en plus personnalisées. Enfin, les stratégies décentralisées, qui permettent d’intégrer une dimension d’autorité (l’unité de contrôle) tout en garantissant de mener à bien des objectifs à grande échelle, semblent la forme de contrôle qui semble la plus adaptée aux systèmes coopératifs.

L’approche présentée dans cette thèse est vouée à être intégrée dans une Unité de Bord de Route, modélisée comme un agent autonome, et dont le processus de décision sera un système décentralisé de contrôle des C-ITS capable, par apprentissage, de construire sa représentation de l’état de trafic courant et d’optimiser les consignes à envoyer aux véhicules. Ces consignes ne se limiteront pas à un seul paramètre (la vitesse) mais permettront aussi aux véhicules d’adapter d’autres variables menant à leur comportement (inter-distance, et changement de voie).

UBR Véhicule connecté

Véhicule non connecté Message V2I

Message V2V (re-propagation)

Message de consigne I2V

Rayon de communication de l’UBR Boucle électromagnétique (double)

Fig. 4.1:Illustration d’un scénario de contrôle décentralisé des systèmes coopératifs

La figure 4.1 représente un scénario de contrôle des véhicules connectés par une UBR autonome. L’objectif de ce système de contrôle est d’améliorer l’écoulement du flux. Pour cela, il doit construire une représentation de l’état de trafic courant et apprendre quelles consignes sont les plus pertinentes dans ces différents contextes. Les interactions dans l’environnement sont rendues complexes par l’ajout de la communication entre les véhicules connectés. La proportion de véhicules équipés est une nouvelle variable à prendre en compte dans la décision de l’UBR pour obtenir une stratégie de contrôle robuste. Pour cela, l’UBR dispose de plusieurs capteurs (communication – vitesses – et boucles – débit et concentration) lui permettant de percevoir des variables de l’environnement. Les approches classiques ne suffisent plus à décrire précisément l’état de trafic courant : les

nou-veaux comportements des véhicules connectés et autonomes doivent être intégrés dynamiquement. L’impact de nouveaux systèmes (comme un nouveau véhicule autonome) à l’échelle du système ne sera pas évalué a priori mais observé lors de son déploiement. L’objectif de notre approche est de permettre au système de construire ces états et les actions associées, qui feront partie de sa représentation de l’environnement. La difficulté de cette tâche est fortement liée à l’environne-ment particulier du véhicule connecté. Cet environnel’environne-ment présente en effet les caractéristiques suivantes :

— continuité spatio-temporelle : l’environnement physique est continu et le réseau routier complexe, tout en étant le support de dynamiques à la fois court-terme (communication) et plus long-terme (congestion). Le système de contrôle doit être capable de gérer un flot continu de données, par exemple en isolant les plus pertinentes. Il doit aussi être capable de percevoir des événements récurrents ou non, quelle que soit leur dimension temporelle.

— indéterminisme et évolutivité : l’environnement physique, notamment l’ensemble des états accessibles, ne sont pas connus a priori. Le système de contrôle doit être capable de faire évoluer sa représentation pour s’adapter à cette contrainte. De la même manière, les objectifs du système peuvent être amenés à évoluer (cas des phases successives de déploiement où de nouveaux usages et besoins vont apparaître).

Ces caractéristiques de l’environnement visé dans notre travail définissent un type de problème particulier, qui est visé par les approches constructivistes.

4.2 Motivations

La construction de la représentation est un problème fondamental dans l’élaboration de toute stratégie de contrôle. Il s’agit d’un problème cognitif qui fait intervenir toute la chaîne d’interaction de l’agent. Les approches constructivistes, inspirées des sciences cognitives, visent à reproduire ce comportement itératif d’élaboration de la représentation. Dans cette partie, nous proposons de les décrire en étudiant leurs caractéristiques (section 4.2.1). Ces caractéristiques peuvent être intégrées dans une architecture de référence d’un système dont le processus d’apprentissage suit le paradigme constructiviste (section 4.2.2). Les phases successives de déploiement des C-ITS feront apparaître de nouveaux comportements au niveau des véhicules. La problématique principale relative au contrôle de ses systèmes passera alors par les capacités d’adaptation de l’infrastructure. Afin de couvrir le plus de situations possibles, la représentation du système de contrôle devra aussi faire preuve de suffisamment d’expressivité. Ces problématiques sont liés à des verrous scientifiques présentés en section 4.2.3.

4.2.1 Caractéristiques d’un système constructiviste

Reproduire le comportement d’apprentissage et d’adaptation d’un système autonome, tel est l’objectif du constructivisme. En effet, l’une des caractéristiques principales de l’autonomie d’un système réside dans ses capacités d’adaptation. Un tel système doit donc être capable de construire et faire évoluer sa représentation. Les approches constructivistes sont inspirées des travaux précurseurs de Piaget [161], en sciences cognitives. Il propose de décrire le processus d’acquisition de connaissance lors de la phase de développement chez l’enfant. Ces travaux ont orienté la réflexion portant sur les systèmes autonomes et plus particulièrement les conditions menant à l’autonomie [221] :

— le système doit être incarné (embodiement) ;

— il doit être situé dans un environnement physique et social ;

— il doit exhiber des mécanismes de développement épigénétiques à travers lesquels des structures plus complexes émergent du résultat des interactions avec l’environnement social et physique.

La notion d’épigénétique a été proposée par Piaget. Elle désigne le développement d’un individu grâce à ses interactions successives avec l’environnement. Cette théorie à donné lieu à la pro-position de méthodes permettant de construire une représentation sous la forme de schémas sensorimoteurs [54], qui représentent les interactions par des triplets contexte-action-résultat. Ce concept a été largement repris par la communauté IA (le lecteur intéressé est invité à consulter la revue de Guerin [84]). Les applications de ces concepts se focalisent sur l’intelligence ambiante [145, 131] ou plus majoritairement sur une variante de la robotique : la robotique développementale [124, 132, 7]. L’approche la plus prometteuse dans le domaine de l’IA développementale semble consister à reproduire le processus d’acquisition de la connaissance dans les différentes phases du développement de l’humain [139]. Ce type d’approche se heurte à une difficulté majeure qui est la complexité de l’environnement, car le système d’apprentissage doit être confronté à un monde physique raisonnablement réaliste [84].

Le fonctionnement interne d’un système constructiviste peut être décomposé en deux processus couplés : un processus d’identification du contexte, qui permet au système de discriminer les situations (ou l’état de l’environnement) et un processus de prise de décision, qui permet au système de choisir une action à entreprendre dans le contexte identifié. Ces deux processus sont liés et font partie du processus plus global d’apprentissage du système qui mène à l’élaboration d’une représentation de l’environnement du système.

4.2.1.1 Identification du contexte

Le processus d’identification du contexte permet à un système d’extraire les caractéristiques de sa perception de l’environnement utile à son interaction. Les approches expertes fournissent, grâce à des connaissances a priori, une discrétisation de l’environnement sous la forme d’un espace d’états finis. Ce type de partitionnement de l’espace de perception limite l’interaction du système à des environnements faiblement dynamiques, où l’ensemble des configurations peut être connu a priori. De même, l’ensemble des capteurs du système doit être connu. Dans le cas d’un système constructiviste, ce processus d’identification du contexte devient dynamique. Il peut reposer également sur une discrétisation de l’espace de la perception (variables des capteurs), mais cette discrétisation est cette fois-ci dynamique. Cela permet d’améliorer les capacités d’adaptation du système dans le cas où il fait face à un nouvel environnement, ou si ces capteurs évoluent dans le temps.

Les problèmes attendus de ce type de processus dynamique reposent essentiellement sur la quantité de données nécessaires, qui va de pair avec le temps nécessaire avant d’obtenir une discrétisation précise des contextes. En effet, dans le cas d’approches expertes, les connaissances nécessaires pour proposer une discrétisation sont issues de l’expérience du concepteur. Il y a donc un apport non négligeable de connaissances acquises a priori. Cela permet à un système autonome de disposer d’une discrétisation avant de se concentrer sur l’apprentissage de la politique d’action associée (processus de décision). En contrepartie, cette discrétisation est fixe, ce qui va à l’encontre d’une

forme d’adaptation face à un environnement dynamique, ce qui est un pré-requis à l’autonomie du système. Faire évoluer dynamiquement la discrétisation, comme proposé dans les approches constructivistes, semble permettre de pallier ce problème. Cependant, il est nécessaire de lier cette discrétisation à l’usage, c’est-à-dire la partie décision du processus d’apprentissage du système.

4.2.1.2 Prise de décision

L’objectif du processus de décision du système est de choisir dynamiquement une action à effectuer face au contexte identifié. L’ensemble des actions entreprises par le système forme une politique d’action. La représentation du système peut alors être modélisée comme le couplage de la politique d’action et de la discrétisation associée. Cette représentation peut être donnée au système à partir de connaissances expertes, ou construite itérativement, en suivant le paradigme constructiviste. Dans le cadre d’approches expertes, la politique d’action est souvent limitée à une base de règles pré-établies, ce qui rend la représentation du système statique. Ce type d’approche peut convenir pour des problèmes bien connus et au périmètre maîtrisable, mais devient rapidement inefficace face aux environnement ouverts, dynamiques et de grande dimension. Les approches classiques d’apprentissage ont pour objectif de générer, par essai erreur, une politique d’action associée à la discrétisation du système. Afin de représenter la performance du système et donc la qualité de la politique construite, il est possible d’attribuer une récompense au système (feedback) : on parle alors d’apprentissage par renforcement. Le choix du feedback contribue pour beaucoup au résultat de la construction de la politique d’action. Sa performance, ou plutôt sa précision, dépendent en plus de la qualité de la discrétisation associée dans la représentation. Les approches constructivistes proposent de lier les deux processus afin de s’assurer que l’apprentissage de la politique d’action soit lié au processus d’identification du contexte. De telles approches peuvent donc théoriquement permettre de modéliser un processus d’adaptation, où des connaissances acquises précédemment contribuent à l’élaboration d’une nouvelle (partie de la) représentation.

4.2.2 Une architecture de référence

Afin d’identifier les axes de travail permettant de proposer un modèle d’apprentissage constructi-viste, le plus simple est de représenter les processus mis en œuvre lors de la construction d’une représentation par un système autonome. La figure 4.2 reprend les deux grandes caractéristiques d’un système constructiviste : l’identification du contexte et la prise de décision.

Ces deux caractéristiques principales, qui, couplées, mènent à l’élaboration de la représentation du système, peuvent être décomposées en différents processus inter-liés. Chacun de ces processus, considéré individuellement, vise à traiter l’une des tâches de l’apprentissage. D’autres caractéris-tiques, comme la capacité d’abstraction du système, dépendante de la précision de la représentation, sont des propriétés qui émanent de la synergie au sein du système. Le schéma décrit une forme d’apprentissage par renforcement, qui exploite une récompense attribuée par le système. Cette récompense, ou feedback permet au système d’évaluer le résultat des actions exécutées dans l’environnement. Il s’agit d’une partie de la perception (ou d’une transformation). L’hypothèse est que les canaux (et/ou le processus de transformation) sont implicites pour le système. Dans la suite, les notions de feedback et de récompense sont analogues. Le problème d’attribution de la récom-pense se réfère alors au problème du feedback, critique dans l’apprentissage par renforcement,

Interface Agent-Environnement

Eff

ec

te

urs

Capteur

s

Données brutes

Environnement

Dans le document Systèmes multi-agents, auto-organisation et contrôle par apprentissage constructiviste pour la modélisation et la régulation dans les systèmes coopératifs de trafic (Page 104-108)