b.2 open data science

La science des données est un domaine interdisciplinaire émergent à l’ère numérique qui unit les statistiques, l’analyse des données et l’apprentissage automatique pour extraire des connaissances et des informations à partir des données. L’un des principaux contribu- teurs à l’adoption rapide de la science des données est le mouvement Open Source. La désignation “open source” est attribuée à quelque chose que des personnes, autres que l’auteur, peuvent modifier et partager parce que sa conception est accessible au public. Dans le contexte du développement de logiciel, il s’agit du méthode utilisé pour développer des programmes informatiques. La communauté de l’apprentissage automatique a été bénéficié d’un grand nombre de frameworks open source centrés sur de multiples sujets et plateformes (système d’exploitation et langage de programmation). Comme ex- emples des avantages de la recherche open source, nous pouvons identifier:

Recherche reproductible, une partie essentielle du processus scientifique.

Développement plus rapide, car les chercheurs peuvent se con- centrer sur les éléments essentiels de leur travail sans se laisser détourner des détails techniques.

Favorise la collaboration, en fournissant une plate-forme com- mune sur laquelle une communauté peut prospérer.

Démocratisationde l’apprentissage automatique en réduisant l’écart technique des individus non experts.

Maintenabilité basée sur la communauté et non sur des indi- vidus ou des groupes isolés.



Nous résumons ici les contributions de cette thèse.

Dans le contexte de la prévision de surendettement(Chapter3):

• Contrairement aux autres approches, nous considérons la prévi- sion de surendettement comme un problème de classification multidimensionnelle et fournissons une solution complète pi- lotée par les données.

• Nous nous concentrons sur le processus de sélection des carac- téristiques plutôt que sur des caractéristiques spécifiques sélec- tionnées à la main. Dans la littérature, plusieurs solutions re- posent sur des ensembles fixes de caractéristiques, en supposant que: i) Les données de différentes institutions bancaires ont des distributions similaires. ii) Les caractéristiques de données sont réplicables. Des suppositions difficiles à réaliser dans des applications réelles.

• Nous étudions l’impact du déséquilibre extrême de classe. Bien que l’objectif principal soit d’identifier les personnes à risque, l’impact de la classification erronée sur les deux classes est pris en compte. i) Nous appliquons un critère multi-métrique pour trouver le meilleur compromis entre la performance et l’équité d’un modèle. ii) Nous discutons des coûts associés à la classification erronée des instances.

• Pour autant que nous sachions, cette étude est la première à considérer la prédiction du surendettement comme un prob- lème d’apprentissage par flux de données. C’est une solution attrayante, car les modèles de flux s’adaptent aux changements des données, ce qui constitue un inconvénient de l’apprentissage par batch traditionnel, car de nouveaux modèles doivent être générés au fil du temps pour remplacer les modèles obsolètes. Concernant l’imputation de données manquantes (Chapter4):

• Nous proposons une nouvelle méthode d’imputation model- based, efficace et évolutive, qui jette le processus d’imputation comme un ensemble de tâches de classification ou de régression.

• Contrairement aux techniques d’imputation bien établies, la méthode proposée n’est pas restrictive en ce qui concerne le type de données manquantes, en soutenant: les mécanismes manquant au hasard et manquant complètement au hasard, données numériques et nominales, données petites à grande échelle, y compris les données de grande dimension.

• Nous fournissons une solution pour imputer plusieurs carac- téristiques de données à la fois via un apprentissage multi-label. Dans la mesure de nos connaissances, notre approche est la première à aborder l’apprentissage multi-étiquettes pour les types de données hybrides, c’est-à-dire qu’il impute les données numériques et nominales simultanément.

Les contributions de l’apprentissage rapide et lent (Chapter5) sont les suivantes:

• Nous proposons une stratégie unifiée d’apprentissage automa- tique basée sur les apprenants fast (par flux) et slow (par batch). En considérant l’apprentissage comme une tâche continue, nous montrons que les méthodes d’apprentissage par batch peuvent être efficacement adaptées à le cadre du flux dans des conditions spécifiques.

• Nous montrons l’applicabilité de ce nouveau paradigme en clas- sification. Les résultats des tests sur des données synthétiques et réelles confirment que Fast and Slow Classifier exploite les méthodes de flux et de traitement par batch en combinant leurs forces: un modèle rapide s’adapte aux modifications des données et fournit des prévisions basées sur les concepts actuels, tandis qu’un modèle lent génère des modèles complexes construits sur des distributions de données plus larges.

• Nous pensons que notre recherche donne un nouveau re- gard sur la possibilité de solutions hybrides dans lesquelles l’apprentissage par batch et par flux interagit positivement. Cela revêt une importance particulière dans les applications réelles liées aux solutions par batch et dont le passage au cadre de flux représente un gros compromis.

Pour notre travail sur boosting pour l’apprentissage en flux (Chap- ter6), nous listons les contributions suivantes:

• Nous proposons une adaptation de l’algorithme eXtreme Gra- dient Boosting (XGBoost) pour l’évolution des flux de don- nées. L’idée centrale est la création et mise-à-jour progressif de l’ensemble, c’est-à-dire que les apprenants faibles sont formés sur des mini-batches de données, puis ajoutés à l’ensemble.

• De plus, nous considérons une approche simple, incrémentielle par batches, dans laquelle les membres de l’ensemble sont des modèles XGBoost complets formés sur des mini-batches consé- cutifs. Si la consommation de ressources est une considération secondaire, cette approche (après le réglage des paramètres) peut constituer un candidat intéressant pour une application dans des scénarios pratiques d’extraction de flux de données.

• Nous effectuons une évaluation approfondie en termes de per- formances, de pertinence des hyper-paramètres, de mémoire et de temps d’entraînement. Bien que l’objectif principal soit d’apprendre des flux de données, nous pensons que notre méth- ode de flux constitue une alternative intéressante à la version batch pour certaines applications, en raison de sa gestion efficace des ressources et de son adaptabilité. De plus, notre évalua- tion sert de mise à jour des études trouvées dans la littérature qui comparent les méthodes instance-incrémentielles et batch- incrémentales.

Finalement, les contributions de notre framework de apprentissage par fluxopen source (Chapter7):

• Nous présentons scikit-multiflow, un framework open source pour l’apprentissage par flux de données et multi-output en Python. Le source-code est disponible publiquement et distribué sous la license BSD 3-Clause.

• scikit-multiflow fournit plusieurs méthodes d’apprentissage, générateurs de données et évaluateurs à la pointe de la tech- nologie, pour différents problèmes d’apprentissage par flux, notamment single-output, multi-output et multi-label.

• scikit-multiflowest conçu comme une plate-forme pour encour- ager la démocratisation de la recherche sur l’apprentissage par flux. Par exemple, les méthodes proposées dans Chapter 5 et Chapter6sont implémentées sur scikit-multiflow et l’évaluation correspondante est (dans la plupart des cas) effectuée sur cette plateforme.


