• Aucun résultat trouvé

1. Présentation de l’équipe

L'équipe MSDMA rassemble des enseignants chercheurs dont les thématiques de recherche sont l'analyse de données, la théorie des valeurs extrêmes, les biostatistiques et le contrôle de qualité multivarié. Elle est composée au 01/06/2017 de 2 PRCM, 2PU, 5 MCF.

L'équipe a connu une restructuration importante avec un changement de direction, anticipée, en 2014 faisant suite au départ à la retraite à la retraite de son responsable (G. Saporta).

Historiquement, la particularité de l'équipe MSDMA est la présence de membres de CNU 26 (Mathématiques appliquées) et de CNU 27 (Informatique). Cette double coloration a été réaffirmée sur la période avec le recrutement d'un PRCM (A. Bar-Hen, CNU 26, 2016), d’un PU (N. Thome, CNU 27, 2017) faisant suite au départ à la retraite de F. Badran , d'un MCF CNU26/27 (G. Russolillo, 2013) et d'un MCF en Science des données pour la rentrée 2017 (CNU 26). Ce renouvellement d'effectif a aussi coïncidé avec la livraison de nouveaux et vaste locaux propices à un travail d'équipe (Livraison Septembre 2016). Notre équipe accueille régulièrement des ATERs en Statistique, ce qui permet d’enrichir les thématiques de recherche et d’ouverture.

L'activité de recherche au sein des axes, souvent portée par un unique enseignant chercheur lors du contrat en cours, s'est structurée sur la période écoulée, notamment avec des collaborations inter-axes financés par des AAP nationaux pour les inter-axes Risques, Biostatistiques et Analyse de données. Ce mode de financement par AAP a l'avantage de construire une dynamique de recherche en partenariat avec d'autres institutions ou Universités ; améliorant la visibilité de l'équipe dans le paysage de la statistique.

Clairement identifiée, comme une équipe en analyse et fouille de données, le passage à l'échelle des données massives a été préparé avec des recrutements soutenant ce projet. Cette équipe est extrêmement investie dans la société française de Statistique (2 membres sont des anciens présidents) ainsi que la société française de biométrie (PrésidentTrésorier, Secrétaire). Les différents membres de l'équipe ont pu développer ou renforcer leurs collaborations à travers des invitations de collaborateurs lors de séjour d’un mois.

Les interactions avec les équipes du CEDRIC se sont structurées sur lors du contrat passé, à travers des stages inter- équipe financés par le CEDRIC permettant ainsi à des membres nouvellement recrutés de débuter des interactions (E. Di Bernardino avec VERTIGO, N. Niang avec ISID et VERTIGO). L’équipe VERTIGO est un partenaire privilégié, notamment à travers le certificat de spécialisations en données massives qui fédère les membres de deux équipes. Une collaboration de longue date en traitement du signal et architectures électroniques s’est poursuivit avec l’équipe LAETITIA. Une codirection de thèse CIFFRE (SNCF) avec l’équipe OC a débuté début 2017.

Au sein du Cnam, l’équipe MSDMA a collaboré avec de nombreuses autres laboratoires comme les équipes d’accueil M2N (Axe Contrôle Qualité), Génomique Bioinformatique et Applications (GBA, Axe Analyse de données et Biostatistique) et Modélisation, épidémiologie et surveillance des risques pour la sécurité sanitaire (MESuRS, Axe Analyse de données et Biostatistique).

Un séminaire mensuel de Statistiques Appliquées (responsable P.L. Gonzalez puis E. Di Bernardino et A. Bar-Hen) permet aux membres de se réunir. Un Journal Club mensuel a été mis en place notamment depuis mai 2017 par N. Thome.

2. Produits de la recherche et activités de recherche Bilan scientifique

Le volume et le niveau de publication a augmenté nettement sur la période (30% pour les revues internationales). Les soutenances de thèses ont été nombreuses (9) et provenant des axes Biostatistiques (3) et Fouilles de données (5) et Risques (1). Cette dynamique en recherche, s'est aussi traduite par l'obtention de financement institutionnelles (FUI, PIA) pour l''axe Risques (M. Béra), les axes Biostatistiques et analyses de données. Cette structuration de la recherche a notamment permis le financement de 3 postdoctorats (G. Russolilo, M. Ouattara, M. Saumard) et a ainsi amélioré l'attractivité de l'équipe. Ces projets ont aussi permis de développer des collaborations intra-équipe notamment

entre N. Niang et A. Latouche avec le financement de 2 post-doctorats qui illustrent la complémentarité des axes.

L’axe « analyse de données » a donc fédéré les projets applicatifs avec notamment le recrutement d’un post-doctorant en analyse de données pour contribuer au projet intitulé Notifications spontanées e détection précoce de signaux en pharmacovigilance : méthodes avec intégration de connaissances (Financement ANSM). Sa tâche consistait à obtenir une classification des médicaments commercialisés en France suivant leurs descripteurs physico-chimiques. Il a montré statistiquement d'une part à travers la classification des variables que les descripteurs d'un même bloc sont liés, d'autre part que certains groupes de blocs de descripteurs apportent des informations similaires pour la classification. Dans le cas de la problématique de classification multiblocs, la partition finale sera recherchée soit par une méthode de consensus dont le principe consiste à déterminer, par bloc de descripteurs, une partition des molécules puis à les agréger à l'aide des méthodes standard de recherche consensus de partition ; soit directement à l'aide des méthodes de type subspace clustering qui surmontent les difficultés liées à la dimension élevée des observations. Enfin, le développement de méthodes des moindres carrés partiels constitue une thématique forte de l’équipe [Rus12] qui s’est investie dans l’organisation d’un conférence international sur le sujet (conférence PLS 2014).

L’axe « Risque » a connu un essor important sur ce contrat à travers l’obtention de financements majeurs par M. Béra qui ont mobilisé des consortiums d’équipes académiques (hors Cnam) et industriels.

Les contributions méthodologiques nombreuses d’E. Di Bernadino recrutée en 2012, se concrétisent en une soutenance d’HDR le 13 septembre 2017 à l' Université Pierre et Marie Curie. La ligne directrice de ces travaux concerne la modélisation de la dépendance dans la gestion des risques en dimension plus grande que un. Ses travaux ont donc portés sur la définition et l’étude de nouvelles mesures de risques multivariées, la proposition et l'étude de modèles de distorsion/transformation de copules et l'analyse de modèles de dépassement de niveau dans un cadre multivarié. Les modèles pourraient être adaptés à un large éventail de situations [D16, DR16]. Plusieurs applications de la vie réelle sont en été possibles.

Ces travaux peuvent être utilisés notamment pour modéliser les risques multivariés en finance, en assurance, en neuroscience, en cosmologie, en hydrologie et en climatologie. A titre d'exemple, la connaissance de la distribution d'un phénomène multidimensionnel, en particulier la question de sa gaussianité est un problème historique et fondamental dans la littérature statistique [DEL17a]. Ces informations peuvent s'avérer cruciales dans de nombreux problèmes d'application: océanographie et comportement des vagues, neurologie et comportement des spikes, assurance et finance.

L'interaction avec les milieux professionnels, une force de l'équipe lors de la précédente évaluation , a été poursuivie lors de 5 thèses CIFFRE (voir annexe 4). En partenariat avec le laboratoire Servier, G. Saporta a notamment encadré un travail portant sur l’'étudie et développement de méthodologies permettant de gérer les problématiques liées aux données longitudinales (corrélation intra-sujet, gestion des données manquantes, choix d'un modèle sous-jacent) en tenant compte du fait que de multiples biomarqueurs (potentiellement corrélés entre eux) sont mesurés. L'intérêt de prendre en compte ces mesures longitudinales est de pouvoir utiliser l'ensemble de l'information mesurée au Henry Wallard, Directeur de Général d’IPSOS, qui a pu soutenir sa thèse sous la direction de G. Saporta afin de répondre à des problématiques soulevés par sa profession et notamment les problèmes de colinéarités de facteurs explicatifs dans des études de marchés. a colinéarité rend difficile l’utilisation de la régression linéaire pour estimer l’importance des variables dans les études de marché. La contribution de ce travail est la proposition d’un nouvelle méthode notée weifila (weighted first last, qui repose sur la décomposition de variance en une moyenne pondérée des corrélation simple et des corrélations partielles entre la réponse et les prédicteurs. Cette méthode fournit des résultats très cohérents avec les méthodes de référence, mais est nettement moins intensive.

L’axe « Contrôle de qualité » a développé ses travaux autour du data-mining et de l’amélioration continue des procédés de production ce qui offre un champ très vaste pour avoir des relations privilégiées avec les milieux professionnels. Les besoins de développements méthodologiques des industriels sont identifiés lors de stage d’ingénieurs dont l’enseignant chercheur est tuteur. Ces contacts privilégiés et soutenus permettent de participer à la conception des campagnes d’essais, l’analyse et l’interprétation des résultats. Ce processus interactif de partenariat assurer un degré de

compatibilité des recherches avec les besoins et permet que les connaissances scientifiques spécifiques issues de ces projets soient utilisées par un milieu de pratique.

Pour l’axe « Biostatistique », la majorité des contributions ont notamment porté sur l’estimation non-paramétrique de probabilités de transitions en l’absence d’hypothèse markovienne e[ABG14] et sur l’extension de modèles de régressions pour des données censurées dans le cas où les causes d'événements sont manquante [MRL15]. Cette situation est fréquente sur des données de registres médicaux et lors de suivi long de cohortes (Thèse de M. Moreno-Betancur). Nous avons eu l'opportunité de travailler sur un échantillon représentatif au 1/24ème de la population salariée suivie de 1976 à 2002. L'objectif de ce travail de thèse était la modélisation conjointe de la trajectoire professionnelle individuelle, qui correspond aux professions successives exercées par les individus, et de leur survie globale ou spécifique à une cause d'intérêt. Ce travail a nécessité de développer un modèle conjoint pour des données nominales répétées et la mortalité spécifique ainsi que son implémentation en parallèle (Thèse de M. Karimi).

Il semble fondamental de conserver des thématiques que l’on peut qualifier d'ouvertures afin de se familiariser et de découvrir des pans entiers de sujet de recherche. L'expertise développée sur la modélisation des événement récurrents à pu être appliquée pour la première fois à un essai clinique français de prévention des chutes chez les personnes âgées. Enfin, des collaborations fructueuses ont été conduites avec des chercheurs en (i) sciences cognitive souhaitant estimer la corrélation entre des réseaux (sociaux) longitudinaux (J. Fagot, CNRS, Rousset) et (ii) en Bio-informatique dans le contexte du criblage virtuel, qui permet de calculer des scores d'affinité de liaison entre de vastes bibliothèques de molécules et une cible d'intérêt thérapeutique (M. Montès, GBA, Cnam).

Une thèse CIFFRE vient de débuter avec une collaboration entre l'équipe MSDMA et l'équipe OC du laboratoire CEDRIC (G. Russollilo et C. Picouleau). Au sein du Cnam, plusieurs membres ont collaborés avec M. Hocine du laboratoire EA4628 MESuRS sur des thématiques d' Analyse de données (Stress au travail) et de Biostatistiques avec le développement d’un modèle pronostic du décès ou de la transplantation de patients atteints de la mucoviscidose.

La chaire de Statistique de G. Saporta a été renouvelée en chaire de Statistique et Données Massives portée A. Bar-Hen, précédemment PU à Paris Descartes (2016). Le rayonnement de cette chaire se manifeste aussi bien sur des projets industriels et des contributions méthodologiques [BDLB17, HJS16, NSC16, SAP15]. Le poste de Professeur des Universités (CNU 27) de F. Badran a été renouvelé par le recrutement de N. Thome, précédemment MCF au LIP6 et spécialiste d'apprentissage profond [DMTC17], en janvier 2017. Un nouveau poste de MCF en Statistique et Sciences des données a été recruté avec une prise de fonction en septembre 2017 (V. Audigier). La succession de direction a été anticipée et A. Bar-Hen a été élu en Mai 2017 responsable de l'équipe. Il sera à ce titre le porteur du projet pour le prochain contrat.

Faits marquants

Renouvellement de la chaire de Statistique en 2016 et du poste de PU vacant 2017 (CNU27).

• En 2016 : lauréat du premier appel à projet e-FRAN (Espaces de formation, de recherche et d'animation numérique) dans le cadre du projet « un territoire calculant en bourgogne ».

L’équipe est en charge de l’exploitation des données massives de e-learning du jeu de calcul mental Mathador. Les améliorations, telles que la personnalisation du niveau de difficulté, seront intégrées dans les futurs versions du jeu

http://www.mathador.fr/territoirecalculant.html

Ce projet réunit des équipes de didactiques de mathématiques, de cognitions et de statistique

• 9 thèses soutenues, 5 thèses en cours et soutenance d'une HDR (E. Di Bernardino. Contributions to multivariate risk models. Université Pierre et Marie Curie, 13 septembre 2017)

• Organisation d'une conférence internationale PLS 2014 (190 participants)

• 1 Prime d'Excellence Scientifique (A. Latouche, 2012) et 2 Primes d’Encadrement et de Recherche (E. Di Bernardino (2015) et A. Latouche (2016)

• 5 financements nationaux

• Gilbert Saporta a été nommé Président d’honneur de la Société Française de Statistique en Mai 2017.

3. Analyse SWOT Points forts

L’équipe a bénéficié d’un renouvellement important et a bien anticipé les changements de direction.

Les conditions d’exercice de la recherche ont permis de protéger les jeunes MCF qui le désiraient d’un sur service. Ceci se traduit par la soutenance d’une HDR pour la période. Les nouveaux locaux permettent des échanges plus fréquents entre les membres. Le renouvellement de la Chaire a été parfaitement anticipé, l’ équipe conservant une visibilité nationale académique et industriel. Les collaborations inter Cnam et intra CEDRIC ont été fructueuses.

Le financement de la recherche a été soutenu par des appels à projets nationaux.

Points à améliorer

Certains membres ont des services d’enseignement incompatibles avec une recherche sereine et la construction de projet à long terme.

Possibilités offertes par le contexte / l’environnement

Convergences des Axes de recherches pour développer des projets de plus grande ampleurs de type ANR, ERC Starting Grants. La nécessité d’analyser les parcours d’étudiants au sein du réseau du Cnam offre des perspectives de projets de recherche fondés sur des besoins de la tutelle.

Risques liées au contexte / environnement

Le milieu de la recherche en données massives est très concurrentiel. La faiblesse de nos effectifs ne nous permet pas de répondre à la demande de collaboration interne et externe.

4. Projet scientifique à cinq ans

Le thème principal de l'équipe est l’exploitation des données avec une gamme d'applications variés allant des sciences du vivant (biostatistique, sciences humaines et sociales, learning analytics) aux applications industriels. L’axe « Contrôle de qualité multivarié, robustesse, détection de rupture, valeurs aberrantes » poursuivra sur son créneau spécifique peu représenté en France.

Les grandes lignes selon les axes principaux sont alors les suivants :

« Analyse de donnée massives »

L'analyse de données multidimensionnelle avec des variables structurées en blocs est un thème fédérateur de l'équipe. Il est abordé tant d'un point de vue classification (supervisée ou non supervisée), que pour le clustering de variables, la prédiction en incorporant des structures causales ou pour les technique de régularisation.

Le champ de l'apprentissage statistique a été marqué récemment par le succès spectaculaire des méthodes d'apprentissage profond (deep learning) mais reste encore mal compris. Il est donc important d'analyser les mesures de confiance des modèles d'apprentissage profond, de mettre au point des méthodes efficaces d'apprentissage non supervisé faiblement ou semi-supervisé. Il est aussi important de pouvoir prédire des sorties complexes dont les variables sont corrélés (graphes, séquences, etc).

A. Latouche a créé une jeune équipe en Biostatistique Clinique dans l'unité Inserm U900 du centre de recherche de l’Institut Curie. Ses thématiques porteront principalement sur la validation de biomarqueurs prédictifs en présence de données censurées. La quantification de la capacité discriminante de ces biomarqueurs nécessiteront des méthodes d'estimation de l' aire sous la courbe ROC dépendante du temps pour des données de survie corrélées.

« Risque »

Cet axe a pour but de mettre en place des méthodes statistiques de modélisation des risques, en approche souvent pluridisciplinaire. Le thème majeur de recherche en matière financière et assurantielle est de développer des outils et des méthodes pour quantifier le risque dans des applications complexes où dans des modèles de dépendance spatio-temporelle multivariés. La recherche de fronts de Pareto en présence d’un nombre restreint d’observations, les quantiles extrêmes multivariés, l'estimation conjointe de la dépendance centrale d'une distribution multivariée et de la dépendance des queues ou l'estimation consistante du comportement de queues de lois multivariées seront des thèmes privilégiés pour cet axe.

« Contrôle qualité, robustesse »

Il s'agit d'un axe de recherche original de l'équipe avec des thématiques et des applications variées qui couvrent d’une part les méthodes robustes en analyses multidimensionnelles de données et d’autre part la maîtrise des processus complexes, la détection de rupture, et plus généralement de changements dans des distributions. Les objectifs scientifiques et technologiques principaux consistent à la création d’un cadre de travail innovant pour la conception, le développement, la production et l’assurance de la qualité de produits complexes. Plusieurs thèmes de recherches de cet axe sont effectués en collaboration avec l’ équipe LAETITIA et et le laboratoire M2N au Cnam.

Mise en œuvre du projet

L’équipe répondra également à des sollicitations internes et externes au Cnam, par le montage de contrats CIFRE et la réponse à des appels d’offre rentrant dans son domaine de compétence, mais sans rechercher systématiquement des financements : la pénurie de statisticiens pouvant facilement déboucher sur des demandes de développement plus que de recherches. Parmi les projets porteurs internes au Cnam mentionnons les travaux avec la chaire « techniques ferroviaires ». Sur le plan de la diffusion, outre les vecteurs classiques (revues à comité de lecture, colloques), l’accent sera mis sur le développement de packages R pour assurer une large diffusion dans la communauté scientifique. La notoriété passe également par l’organisation de manifestations scientifiques : l’équipe a déjà été sollicitée pour organiser en 2018 la conférence Agrostat.

La mixité 26-27 de l’équipe MSDMA en fait une de ses originalités. On peut espérer au moins une soutenance d'HDR pendant le prochain contrat quadriennal. Le réseau international de l’équipe sera bien sûr mis à profit avec des invitations pour un mois ou deux par an de collègues étrangers et l’accueil de post-docs (si les ressources financières le permettent).

Sélection des produits et des activités de recherche

Annexe 4