• Aucun résultat trouvé

1.2 Expériences en matière d’encadrement

1.2.2 Encadrement de doctorants

• Nicolas Jung (1er octobre 2011 – 03 décembre 2014) : thèse de doctorat en biologie des systèmes dirigée par le PU-PH Seiamak Bahram du centre de recherche d’immunologie et d’hématologie, directeur du LabEx Trans-plantex, également membre senior de l’IUF, intitulée « Modélisation de phénomènes biologiques complexes : application à l’étude de la réponse antigénique de lymphocytes B sains et tumoraux ». Pour la partie « Modéli-sation de phénomènes biologiques complexes », j’ai assuré l’encadrement de thèse de Nicolas Jung en me coordonnant avec Frédéric Bertrand qui travaillait en parallèle avec le MCU-PH Laurent Vallat sur le même jeu de données mais avec des approches différentes et des questions biologiques parfois différentes. La thèse a été soutenue le 03 décembre 2014 à l’institut d’hématologie de l’hôpital civil. Voici le résumé du sujet de thèse : la bio-logie des systèmes complexes est le cadre idéal pour l’interdisciplinarité. Dans cette thèse, les modèles et les théories statistiques répondent aux mo-dèles et aux expérimentations biologiques. Nous nous sommes intéressés au cas particulier de la leucémie lymphoïde chronique à cellules B, qui est une forme de cancer des cellules du sang. Nous avons commencé par mo-déliser le programme génique tumoral sous-jacent à cette maladie et nous l’avons comparé au programme génique d’individus sains. Pour ce faire, nous avons introduit la notion de réseau en cascade. Nous avons ensuite démontré notre capacité à contrôler ce système complexe, en prédisant mathématiquement les effets d’une expérience d’intervention consistant à inhiber l’expression d’un gène. Cette thèse s’achève sur la perspective d’une modulation orientée, c’est-à-dire le choix d’expériences d’interven-tion permettant de « reprogrammer » le programme génique tumoral vers un état normal. Pour résumer, dans cette thèse, nous nous sommes inté-ressés au problème de reconstruction de réseau de régulation génique. Les outils utilisés que nous avons utilisés pour résoudre ce problème sont des régressions pénalisées de type lasso (autrement dit, avec une norme L1). La thèse de Nicolas Jung était confidentielle jusqu’en décembre 2019 (de-dans y étaient mentionnés de nouveaux résultats biologiques sur le cancer qui étaient encore entrain d’être vérifiés au moment de la soutenance). La thèse a donné lieu à deux principales publications (Vallat et al. (2013) et Jung et al. (2014)). Nicolas Jung a également contribué à deux études sta-tistiques qui ont donné deux autres articles scientifiques.

Nicolas Jung nous a quitté, après une année de post-doctorat au sein de l’IRMA (que je développerai par la suite), pour rejoindre le monde ban-caire, le Crédit Agricole Alsace Vosges, en mars 206, comme data scientist.

• Emmanuelle Claeys (1er septembre 2016 – 12 novembre 2019) : thèse de doctorat en informatique financée par un dispositif comparable à celui du Cifre en collaboration avec l’entreprise AB Tasty, située à Paris, co-encadrée par le Professeur Pierre Gançarski, de l’équipe Science des données du la-boratoire I-Cube et moi-même intitulée « Clusterisation incrémentale, mul-ticritères de données hétérogènes pour la personnalisation d’expérience utilisateur ». La thèse a été soutenue le 12 novembre 2019. Voici le résumé du sujet de thèse : dans de nombreux domaines (santé, vente en ligne,...) concevoir ex nihilo une solution optimale répondant à un problème défini (trouver un protocole augmentant le taux de guérison, concevoir une page web favorisant l’achat d’un ou plusieurs produits,...) est souvent très diffi-cile voire impossible. Face à cette difficulté, les concepteurs (médecins, web

designers, ingénieurs de production,...) travaillent souvent de façon incré-mentale par des améliorations successives d’une solution existante. Néan-moins, définir les modifications les plus pertinentes restent un problème difficile. Pour tenter d’y répondre, une solution adoptée de plus en plus fré-quemment consiste à comparer concrètement différentes alternatives (ap-pelées aussi variations) afin d’en déterminer celle(s) répondant le mieux au problème via un test A/B. L’idée est de mettre en œuvre réellement ces alternatives et de comparer les résultats obtenus, c’est-à-dire les gains respectifs obtenus par chacune des variations. Pour identifier la variation optimale le plus rapidement possible, de nombreuses méthodes de test uti-lisent une stratégie d’allocation dynamique automatisée. Le principe est d’allouer le plus rapidement possible et automatiquement, les sujets testés à la variation la plus performante, par un apprentissage par renforcement. Parmi les méthodes possibles, il existe en théorie des probabilités les mé-thodes de bandit manchot. Ces mémé-thodes ont montré leur intérêt en pra-tique mais également des limites, dont en particulier un temps de latence (c’est-à-dire un délai entre l’arrivée d’un sujet à tester et son allocation) trop important, un déficit d’explicabilité des choix et la non-intégration d’un contexte évolutif décrivant le comportement du sujet avant d’être testé. L’objectif de cette thèse est de proposer une méthode générique d’un test A/B permettant une allocation dynamique en temps réel capable de prendre en compte les caractéristiques des sujets, qu’elles soient tempo-relles ou non, et interprétable a posteriori.

Depuis le 09 décembre 2019, Emmanuelle Claeys est post-doctorante à l’UTT et chez Your Data Consulting, start-up parisienne qui finance environs 75% du projet. L’autre partie du financement a été obtenu par un PEPS2 de l’AMIES. À l’heure où j’écris ce manuscrit, Emmanuelle Claeys a obtenu un poste de MCF à l’Université de Toulouse en 27ème section.

Figure 1.1 : Exemple de courbe de charge.

• Fatima Fahs (02 mai 2019 – mai 2022) : thèse de doctorat en mathématiques appliquées financée par un dispositif Cifre en collaboration avec l’entre-prise Électricité de Strasbourg (abrégée en ES), co-encadrée par Frédéric Bertrand, Professeur à l’Université Technologique de Troyes et moi-même intitulée « Analyse des courbes de charge d’électricité et prédiction à court terme dans les secteurs résidentiel et tertiaire ».

Le sujet de thèse a pour objectif principal de déployer des modèles statis-tiques ou à base de techniques d’intelligence artificielle qui permettraient de déterminer client par client (la majorité des clients de l’ES sont des par-ticuliers) la consommation électrique le jour j à court terme (j + 1 à j + 3) à partir des historiques de consommation de chacun d’entre eux, des don-nées météorologiques et d’autres paramètres qualitatifs pour les secteurs résidentiel et tertiaire. Pour cela, nous nous concentrons sur l’analyse des courbes de charge (voir Figure 1.1).

Les données étudiées sont ici des courbes journalières de charge des clients de l’ES, avec un pas de 30 minutes. Les saisonnalités observées sur les courbes de charge (voir Figure 1.2) sont liées à l’activité des clients de l’ES : 1. saisonnalité annuelle pour les changements de température (clients

thermo-sensibles),

2. saisonnalité hebdomadaire (différence de consommation entre la se-maine et le week-end),

3. saisonnalité journalière (consommation plus faible la nuit).

À ces courbes de charge sont traditionnellement ajoutées des variables exo-gènes comme par exemple la météorologie locale, et plus particulièrement la température extérieure, qui aura un impact chez les clients disposant de chauffage électrique individuel (thermo-sensibles, voir Figure 1.3).

Figure 1.2 : La décomposition d’une courbe de charge d’un client montre les deux

saisonnalités hebdomadaire (seasonal 336) et journalière (seasonal 48).

Figure 1.4 : Résultats préliminaires de prévision.

Cette approche, qui avait été validée à l’occasion de travaux préliminaires réalisés pendant le stage de six mois de Fatima Fahs pour valider son se-mestre 4 du master CSMI, doit permettre de procurer à chaque client une prévision à court terme (j + 1 à j + 3) de sa propre consommation (voir Figures 1.4 et 1.5), de détecter et de lui communiquer d’éventuelles ano-malies telles que des écarts anormaux de la consommation mesurée par rapport à la consommation prévue sur la base des historiques de consom-mation du client et des conditions météorologiques.

Afin de présenter aux clients de l’ES des analyses de leur consommation journalière dans un format pratique et une interface homme-machine qui leur sera accessible depuis leur téléphone mobile, il leur sera proposé non pas une analyse de leur courbe journalière de charge (Watt en fonction du temps), mais de leur consommation journalière d’énergie (kWh) (voir Figure 1.6) en fonction de l’heure pour chaque jour de l’année.

L’approche étudiée dans le cadre du stage de master CSMI de deuxième année a permis de valider le principe de remontée des anomalies au client basées sur une analyse des laps de temps pendant lesquels la consomma-tion d’énergie se situe en dehors d’intervalles de confiance de type BCa (bias corrected and accelerated) à 95% de confiance (voir Figure 1.7).

Avec de tels modèles il est également prévu de développer et de tester des algorithmes de détection d’anomalies dans les courbes de charge des clients afin de développer des services à valeur ajoutée personnalisés à destination de chaque client. Nous pouvons par exemple citer la détec-tion « passive » de pannes sur des équipements du client par recherche

Figure 1.5 : Les mesures d’erreur de prévision de deux modèles SARIMAX et

ARIMA-Fourrier pour 50 clients.

Figure 1.6 : Énergie journalière consommée en fonction du temps.

Figure 1.7 : En rouge les comportements sortant de l’IC et donnant lieu à une

de sous-consommation ou de sur-consommation (par exemple au niveau des chambres froides, des systèmes de chauffage-ventilation, des chauffe-eaux ou des pompes à chaleur dans le secteur tertiaire, artisanal ou dans les collectivités locales).

Les principaux verrous scientifiques sont le développement d’algorithmes de prévisions individuelles, leurs qualifications sur des segments de clients très disparates, la sélection de modèles adaptés par un sous-ensemble d’usa-gers (tertiaires, artisanat, client particulier, ...). L’optimisation de la perfor-mance de ces calculs sera également un point clé du travail envisagé. • Mélanie Piot (15 septembre 2020 – septembre 2023) : thèse de doctorat en

mathématiques appliquées soutenue par un co-financement région Grand Est et Université Technologique de Troyes, co-encadrée par Frédéric Ber-trand, Professeur à l’Université Technologique de Troyes et moi-même in-titulée « Exploitation des données cliniques en radiothérapie. Approches multicentriques et causales ». Voici le résumé du sujet de thèse : la radio-thérapie externe est une des techniques utilisées au Centre Paul Strauss de Strasbourg pour la prise en charge des patients atteints d’un cancer. Elle consiste à irradier la tumeur au moyen d’un faisceau de rayons X de quelques méga volts, ce qui est mis en œuvre à l’aide de données dosi-métriques en suivant un Treatment Planning Systems. L’évolution de la ra-diothérapie tend vers une personnalisation accrue des traitements, et donc une prise en compte massive des données disponibles. Il faudra pour cela enrichir les données dosimétriques par des données cliniques capturées lors des consultations médicales durant le traitement et au-delà.

Le département de radiothérapie du Centre Paul Strauss (Institut Régio-nal du Cancer) s’est engagé sur cette voie depuis trois ans, et a mis en place une méthode de saisie des données cliniques au moyen d’un

Onco-logy Information System. Environ 10 000 données cliniques structurées sont produites par mois et une base de données de plus de 1 600 000 données cliniques sont disponibles et exploitables à Strasbourg. Un déploiement multicentrique est en cours sur trois centres français. Cette base de don-nées permet actuellement de répondre à des questions médicales précises. Au moyen d’un modèle prédictif simple, elle permet également d’identifier les patients qui présentent une dynamique singulière d’apparition d’une complication lors de son traitement. La prochaine étape que nous envisa-geons de franchir est la recherche de liens multiples entre les effets secon-daires en utilisant et en développant des outils spécifiques d’extraction de connaissance. C’est ce travail qui sera mené dans un contexte d’interdisci-plinarité : deux mathématiciens, deux physiciens médicaux et deux

radio-Figure 1.8 : Cartographie des données disponibles.

thérapeutes. Ces derniers enrichiront l’analyse statistique par les relations entre les paramètres qui sont déjà connues dans la littérature médicale. La cartographie (voir Figure 1.8) donne le nombre de données disponibles par localisation anatomique et par complication clinique. Elle illustre la richesse de la base de données qui a été constituée par l’équipe de Chris-tophe Mazzara et son potentiel prédictif.

Ce travail permettra de construire les premiers modèles causaux qui se-ront d’un intérêt premier pour la compréhension des phénomènes. Un co-encadrement pour les aspects physique médicale et radiothérapie sera as-suré par Christophe Mazzara, responsable du service physique médicale et radioprotection, membre du laboratoire des sciences de l’ingénieur, de l’in-formatique et de l’imagerie (ICube), UMR 7357, de l’Université de Stras-bourg. Christophe Mazzara se fera accompagné par un physicien médical (Philippe Meyer) et par deux radiothérapeutes (Jean-Baptiste Clavier et Sébastien Guihard) comme mentionné auparavant.

Des premiers résultats ont été obtenus à l’aide des réseaux bayésiens lors du travail de stage de Mélanie Piot. Ils ont été accueillis très positivement par les médecins.