Analyse De Différents Algorithmes De Classification Par Apprentissage Automatique Sur Un Cas D'usage Du Domaine Nucléaire

(1)

HAL Id: hal-02063544

https://hal.archives-ouvertes.fr/hal-02063544

Submitted on 11 Mar 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Domaine Nucléaire

Coline Talon, Emilie Dautrême, Emmanuel Remy, Yannick Dirat, Christelle Dinse Le Strat

To cite this version:

Coline Talon, Emilie Dautrême, Emmanuel Remy, Yannick Dirat, Christelle Dinse Le Strat. Analyse

De Différents Algorithmes De Classification Par Apprentissage Automatique Sur Un Cas D’usage Du

Domaine Nucléaire. Congrès Lambda Mu 21 “ Maîtrise des risques et transformation numérique :

opportunités et menaces ”, Oct 2018, Reims, France. �hal-02063544�

(2)

ANALYSE DE DIFFÉRENTS ALGORITHMES DE CLASSIFICATION PAR APPRENTISSAGE AUTOMATIQUE SUR UN CAS D'USAGE DU DOMAINE

NUCLÉAIRE

ANALYSIS OF CLASSIFICATION MACHINE LEARNING ALGORITHMS ON A USE CASE FROM THE NUCLEAR INDUSTRY

Coline TALON, Emilie DAUTREME, Emmanuel REMY Yannick DIRAT, Christelle DINSE LE STRAT

EDF R&D EDF Direction Industrielle

Lab Chatou – 6 quai Watier, 78401 Chatou Cedex 2 rue Ampère, 93206 Saint-Denis emmanuel.remy@edf.fr

Résumé

Cette communication présente une comparaison de plusieurs algorithmes de classification par apprentissage automatique sur un cas d'usage réel du domaine de la production d'électricité nucléaire. Leurs performances sont examinées et une discussion est proposée sur leur intérêt pratique, leurs avantages et inconvénients, leur précaution d'usage et leur pertinence dans le cadre applicatif industriel concerné.

Summary

This paper presents a comparison of several classification machine learning techniques on a use case from the nuclear industry. Their performance on the real dataset are compared and a discussion is proposed on their practical use, advantages and disadvantages, precaution for use and relevance in an industrial context.

Introduction

1 Contexte industriel

Les centrales nucléaires sont régulièrement arrêtées pour recharger le combustible et réaliser des opérations de maintenance sur les matériels qui les constituent. L'état d'un réacteur lors de sa mise à l'arrêt, agissant sur les opérations de maintenance, est caractérisé par un indicateur pour lequel on dispose de mesures. Si cet indicateur dépasse une certaine valeur seuil, il est alors nécessaire de prolonger la phase de mise à l'arrêt, ce qui peut avoir des répercussions sur le planning d'arrêt global et occasionner une indisponibilité supplémentaire du réacteur, pénalisante en termes de performances.

En plus de cet indicateur d'état du réacteur pendant sa mise à l'arrêt, on dispose d'une trentaine de paramètres caractérisant le fonctionnement du réacteur juste avant sa mise à l'arrêt.

A ce jour, il n'existe aucun modèle physique ou code de simulation numérique permettant de prévoir si l'indicateur d'état sera supérieur ou inférieur au seuil fixé pendant la mise à l'arrêt. C'est pourquoi, de façon à maîtriser les risques de prolongation d'arrêt de la centrale et à anticiper au mieux la logistique nécessaire pour la réalisation des opérations de maintenance, il semble intéressant d'exploiter et de tirer bénéfice des données disponibles, caractéristiques du fonctionnement avant l'arrêt, pour essayer de prévoir l'état du réacteur pendant sa mise à l'arrêt.

L'utilisation d'algorithmes d'apprentissage automatique, de type "boîtes noires" et fondés uniquement sur les données, semble une piste prometteuse pour construire ce modèle de prévision de l'état du réacteur pendant sa mise à l'arrêt à partir des informations sur son état en fonctionnement.

En effet, avec l'augmentation des moyens de calcul, la transformation numérique en marche et l'essor du "Big Data", de nombreux algorithmes d'apprentissage automatique ("machine learning" en anglais) ont été développés ces vingt dernières années, alors que d'autres connaissent une seconde jeunesse, après avoir été délaissés plusieurs décennies faute de puissance de calcul suffisante. Il est indéniable que leur utilisation à des fins de prévision s'avère très efficace dans de nombreux domaines d'activités, comme la banque, la finance, l'assurance, le marketing, les médias, les technologies du web, la santé, les transports ou le sport… Toutefois, leur

utilisation dans le secteur industriel, comme par exemple celui de la production d'électricité nucléaire, semble moins répandue. Ainsi, la pertinence et l'efficacité de tels algorithmes sur les types de données manipulées dans ce contexte applicatif particulier (avec un volume d'information généralement assez restreint) restent à confirmer.

2 Objectifs

Différentes techniques d'apprentissage automatique ont été mises en œuvre sur les données disponibles et l'objectif principal de cet article est de présenter une comparaison des résultats obtenus. Le papier est organisé de la façon suivante. La Section 2 décrit les grands principes des différentes familles d'algorithmes qui ont été utilisées. La Section 3 présente comment évaluer et comparer les performances des modèles prédictifs ; elle donne également les principaux résultats obtenus sur le cas d'usage étudié. Une discussion générale est proposée en Section 4 : elle apporte des éléments d'analyse critique sur l'utilisabilité et l'intérêt pratique des techniques statistiques testées, sur leurs avantages et leurs inconvénients, sur les précautions d'usage et sur leur pertinence dans un contexte industriel qui présente quelques singularités par rapport au monde du "Big Data".

Présentation des différentes familles d'algorithmes d'apprentissage automatique

testées

3 Notations et hypothèses

Y désignera l'indicateur caractérisant l'état du réacteur lors de sa mise à l'arrêt. Y est une variable aléatoire qualitative (ou catégorielle) prenant deux modalités : AS (pour "Au- dessus du Seuil") et ES (pour "En-dessous du Seuil"). Pour plus de commodité, nous la représenterons de façon équivalente par deux variables numériques, Z et Z�, en utilisant des valeurs binaires : Z = 1 si Y =AS et Z = 0 si Y =ES, de sorte que Z =𝕀𝕀{Y=AS} avec 𝕀𝕀_{.} la fonction indicatrice, et Z�= 1 si Y =AS et Z�=−1 si Y =ES.

𝐗𝐗=�X⁽¹⁾, … , X^(p)� désignera le vecteur constitué des p paramètres décrivant les conditions de fonctionnement du réacteur avant sa mise à l'arrêt. Dans notre cas, p = 25.

Chaque variable X^(j), 1≤j≤p, est déterministe, et peut être soit qualitative, soit quantitative (ou continue). Si X^(j) est qualitative avec kj niveaux, nous considérerons sa version numérique, en introduisant de façon équivalente

(3)

kj−1 variables binaires, dont une seule à la fois peut valoir 1 : �𝕀𝕀_�X^(j)_=h��_1≤h≤k

j−1. Si X^(j) est quantitative, nous supposerons qu'il s'agit d'une variable normalisée (c'est-à- dire centrée et réduite).

n désignera le nombre d'observations conjointes de (Yi,𝐗𝐗i)1≤i≤n. Pour notre jeu de données, n = 89. Nous ferons l'hypothèse que (Yi,𝐗𝐗i)1≤i≤n sont des observations indépendantes de (Y,𝐗𝐗) et qu'elles ne sont pas sujettes à des incertitudes de mesure.

Disposant des données (Yi,𝐗𝐗i)1≤i≤n, nous cherchons à établir une fonction, notée f(𝐗𝐗) et que nous appellerons

"classifieur" (du fait que Y est une variable binaire définissant deux classes d'observations), qui permet de prédire Y connaissant les entrées 𝐗𝐗 (parfois appelées

"prédicteurs"). Dans la littérature, cette question est connue sous le nom d'apprentissage "supervisé", en raison de la présence des deux résultats possibles connus pour Y (ou de façon équivalente pour Z ou Z�) pour guider le processus d'apprentissage et construire la fonction de classification f(. ). Selon le type d'algorithme, f(. ) peut prédire, soit directement la valeur Y�_i= f(𝐗𝐗i)∈{AS;ET}, 1≤ i≤n, soit une probabilité estimée que Y_i soit égale à AS en fonction de 𝐗𝐗_i. Dans ce cas, notre règle de décision sera d'attribuer la modalité AS à Y_i si la probabilité estimée est supérieure à 0.35 (cette valeur pénalisante a été ajustée pour garantir une bonne prédiction des cas pour lesquels Y =AS et pour obtenir une robustesse correcte des indicateurs de performance des modèles - voir les Sections 3.1 et 3.2).

4 Régression logistique et variantes 4.1 Régression logistique standard

D'un point de vue général, le modèle de régression logistique peut être utilisé pour estimer la probabilité d'une réponse binaire basée sur un ou plusieurs prédicteurs.

Une paramétrisation standard utilise la fonction logit pour lier la probabilité cible ℙ(Y =AS|𝐗𝐗) =ℙ(Z = 1|𝐗𝐗) avec les prédicteurs 𝐗𝐗 :

logit�ℙ(Z = 1|𝐗𝐗)�= ln�1−ℙ(Z=1|𝐗𝐗)^{ℙ(Z=1|𝐗𝐗)} �=β0+∑ β^p_j=1 jX^(j) {1}

⇔ ℙ(Z = 1|𝐗𝐗) =_1+exp�β^exp�β⁰^+∑^p^j=1^β^j^X^(j)^�

0+∑^p_j=1βjX^(j)� {2}

avec β₀ une constante appelée intercept et �β1, … ,βp� un vecteur de coefficients de régression à estimer à partir des données. Nous noterons 𝛃𝛃=�β0, … ,βp�.

Un des intérêts de ce modèle paramétrique est sa facilité d'interprétation, puisque le facteur exp�βj�, 1≤j≤p, quantifie l'augmentation de ℙ(Z = 1|𝐗𝐗) lorsque la variable (supposée) continue X^(j) augmente de 1 unité.

Connaissant (Zi,𝐗𝐗i)1≤i≤n, le paramètre vectoriel 𝛃𝛃 peut être estimé par 𝛃𝛃�^MV en utilisant la méthode d'inférence statistique du maximum de vraisemblance (MV) :

𝛃𝛃�^MV= argmin_{𝛃𝛃∈ℝ}^p+1�−2ℓ(𝛃𝛃)�=

argmin_{𝛃𝛃∈ℝ}^{𝐩𝐩+𝟏𝟏}�−2∑ⁿ_i=1Ziln�ℙ(Zi= 1|𝐗𝐗𝐢𝐢)�+ (1− Zi)ln�ℙ(Zi= 0|𝐗𝐗𝐢𝐢)�� {3}

ce qui est équivalent à :

𝛃𝛃�^MV= argminβ0,…,βp∈ℝ�−2∑ⁿi=1Zi�β0+∑ β^p_j=1 jX^(j)� − ln�1 + exp�β0+∑ β^p_j=1 jX^(j)��

{4}

où ℓ(𝛃𝛃) désigne la fonction de log-vraisemblance.

4.2 Régression logistique stepwise

Afin d'améliorer la précision des prévisions et l'intelligibilité des modèles de régression, il est intéressant de modifier le processus d'ajustement du modèle pour ne sélectionner et ne retenir dans le modèle final qu'un sous-ensemble des prédicteurs 𝐗𝐗, plutôt que d'utiliser tous les X^(j), 1≤j≤p.

Il existe différentes stratégies pour la sélection de sous- ensembles de prédicteurs. La procédure "forward"

(ascendante) commence par introduire dans le modèle l'intercept β₀, puis ajoute séquentiellement le prédicteur qui "améliore le plus" l'ajustement du modèle. La sélection

"backward" (descendante), elle, commence par le modèle complet avec tous les prédicteurs 𝐗𝐗, puis supprime séquentiellement du modèle le prédicteur qui a "le moins d'impact" sur l'estimation. Avec la stratégie hybride

"stepwise" (pas-à-pas), que nous avons utilisée, un prédicteur est soit ajouté, soit retiré, à chaque itération, en fonction du "gain" apporté au modèle. Pour juger de

"l'amélioration" de l'ajustement d'un modèle, nous avons utilisé le critère d'information d'Akaike (AIC), qui tient compte du nombre de paramètres à estimer. Ainsi, à chaque étape, on ajoutera ou on supprimera un prédicteur du modèle de façon à minimiser le score AIC :

AIC = 2(p^∗+ 1)− 2ℓ�𝛃𝛃�^MV� {5}

avec 1≤p^∗≤p le nombre de prédicteurs inclus dans le modèle et 𝛃𝛃�^MV l'estimateur du maximum de vraisemblance de 𝛃𝛃 associé (de taille p^∗+ 1).

4.3 Régression logistique LASSO

Comme il s'agit d'un processus discret (les variables sont soit conservées, soit rejetées), la procédure stepwise peut ne pas réduire l'erreur de prévision du modèle complet.

Les méthodes de contraction ("shrinkage" en anglais) sont plus continues et ne souffrent pas autant d'une grande variabilité. Plusieurs variantes de contraction de la régression logistique standard sont disponibles.

La technique LASSO (pour "Least Absolute Shrinkage and Selection Operator") réduit les coefficients de régression 𝛃𝛃 en imposant une pénalité en norme 𝕃𝕃1 sur leur taille. Elle force la somme de la valeur absolue des coefficients de régression à être inférieure à une valeur fixe, ce qui contraint certains coefficients à être fixés à zéro, en choisissant effectivement un modèle plus simple qui n'inclut pas ces coefficients :

𝛃𝛃�^LASSO= argmin𝛃𝛃∈ℝ^p+1�−2ℓ(𝛃𝛃)� sous la contrainte ∑ �β^p_j=1 j�≤t {6}

Plus la valeur du paramètre de réglage t est faible, plus il y a de composantes nulles dans le vecteur de paramètres estimés 𝛃𝛃�^LASSO, ce qui conduit à ce qu'on appelle des modèles "parcimonieux ("sparse" en anglais). Ainsi, la technique LASSO fait une sorte de sélection continue de sous-ensembles des prédicteurs. Si t est choisi plus grand que ∑ �β�^p_j=1 jMV�, les estimations fournies par LASSO sont les mêmes que celles du maximum de vraisemblance standard. Pour t =^∑^p^j=1^�β�₂^j^MV^�, les coefficients obtenus par MV seront réduits d'environ 50% en moyenne. Le paramètre t doit être soigneusement choisi afin de minimiser une estimation de l'erreur de prévision moyenne du modèle.

Une "bonne" valeur de t peut être obtenue par validation croisée. La validation croisée est un processus général qui peut s'appliquer à de nombreux types de problèmes. Elle consiste à diviser le jeu de données (Yi,𝐗𝐗i)1≤i≤n de manière aléatoire en un certain nombre de sous- ensembles de taille égale, disons 10. La régression LASSO avec une valeur donnée de t est ajustée avec les neuf dixièmes des données (ce sous-ensemble de données est appelé "ensemble de données d'apprentissage"), et l'erreur de prévision est calculée sur

(4)

le dixième restant (appelé "observations de test"). Ce processus est renouvelé successivement pour chaque dixième des données, et on calcule finalement la moyenne des dix estimations de l'erreur de prévision. On peut ainsi obtenir une courbe de l'erreur de prévision moyenne estimée en fonction du paramètre de réglage t, ce qui permet d'identifier la valeur "optimale" de t qui la minimise.

4.4 Régression logistique Ridge

La technique Ridge est une autre méthode de contraction, mais elle réduit les coefficients de régression 𝛃𝛃 en imposant une pénalité en norme 𝕃𝕃₂ sur leur taille : 𝛃𝛃�^Ridge= argmin𝛃𝛃∈ℝ^p+1�−2ℓ(𝛃𝛃)� sous la contrainte ∑ βp j2

j=1 ≤

t {7}

Contrairement à LASSO et à cause de la pénalité 𝕃𝕃2, Ridge réduit la taille des coefficients, mais il n'en fixe aucun à zéro.

4.5 Régression logistique PLS

Lorsqu'il existe de nombreux prédicteurs corrélés dans un modèle de régression (problème aussi appelé de multicolinéarité de 𝐗𝐗), leurs coefficients 𝛃𝛃 peuvent être mal déterminés. Dans cette situation, les estimations 𝛃𝛃� des coefficients de la régression peuvent changer de façon erratique en réponse à de petites modifications dans le modèle ou dans les données et peuvent donc souffrir d'instabilité. En imposant une contrainte de taille sur les coefficients à estimer, comme dans {6} ou {7}, ce problème est atténué.

Cependant, une autre solution consiste à prendre en compte m nouvelles entrées, 1≤m≤p, notées T^(j), 1≤ j≤m, dérivées des prédicteurs originaux 𝐗𝐗 et utilisées en lieu et place des X^(j), 1≤j≤p, dans le modèle de régression logistique :

logit�ℙ(Z = 1|𝐓𝐓)�= ln�1−ℙ(Z=1|𝐓𝐓)^{ℙ(Z=1|𝐓𝐓)}�=β0+∑ β^m_j=1 jT^(j) {8}

Généralement, m est choisi petit et les T^(j), 1≤j≤m, sont des combinaisons linéaires orthogonales des X^(j), 1≤j≤ p, afin d'éviter les phénomènes d'instabilité.

C'est ainsi que la régression PLS (pour "Partial Least Squares") repose sur un ensemble 𝐓𝐓 de combinaisons linéaires des entrées, construites de façon à maximiser la variance des prédicteurs 𝐗𝐗 tout en maximisant la corrélation entre 𝐗𝐗 et Z. Une description mathématique détaillée de la définition des T^(j), 1≤j≤m, peut être trouvée dans (Wold et al., 1983).

4.6 Régression logistique sparse PLS

Sparse PLS est une méthode hybride, qui peut être considérée comme une combinaison de LASSO et PLS.

Des détails sur cette approche sont disponibles dans (Chun et al., 2010).

Stepwise, LASSO, Ridge, PLS et sparse PLS sont toutes des variantes de la régression logistique et elles partagent le même avantage d'être des modèles facilement interprétables, avec des expressions entièrement explicites pour la probabilité cible estimée en fonction des prédicteurs 𝐗𝐗.

5 Arbre de classification, bagging et boosting 5.1 Arbre de classification binaire

Un arbre de classification est un graphe acyclique composé de nœuds et d'arcs (ou branches) dirigés. Il a trois types de nœuds : un nœud racine qui n'a pas d'arc entrant et zéro ou plus arcs sortants ; des nœuds internes, dont chacun a exactement un arc entrant et deux ou plus arcs sortants ; des nœuds feuilles (ou terminaux), dont chacun a exactement un arc entrant et aucune branche

sortante. Le jeu de données complet se trouve au nœud racine en haut de l'arbre. Chaque nœud feuille se voit attribuer une étiquette de classe correspondant à une des deux modalités de la variable cible (Y dans notre cas). Les nœuds non terminaux, qui comprennent les nœuds racine et les autres nœuds internes, contiennent des conditions de test d'attributs basées sur les prédicteurs 𝐗𝐗 qui séparent les observations ayant des caractéristiques différentes, comme le montre la Figure 1. On appelle taille d'un nœud le nombre d'observations de la base de données qui satisfont l'ensemble des conditions définissant le nœud. Les arbres "stumps" (souches en français) sont des arbres avec un seul niveau de profondeur (la racine est directement reliée aux feuilles).

Les algorithmes de construction d'arbres de classification procèdent habituellement de haut en bas et de façon récursive, en choisissant à chaque étape un prédicteur parmi les p et une valeur de séparation de ce prédicteur qui divisent "le mieux" l'ensemble des observations en deux sous-ensembles de données. Le processus se poursuit jusqu'à ce qu'une condition d'arrêt soit satisfaite.

Un avantage majeur de l'arbre récursif binaire (c'est-à-dire avec seulement 2 arcs sortants pour chaque noeud) est sa capacité d'interprétation, puisqu'il donne finalement un ensemble de règles de décision parfaitement intelligibles, comme l'illustre la Figure 1.

Figure 1. Illustration d'un arbre de classification binaire Les algorithmes utilisent des métriques différentes pour caractériser la qualité d'une séparation en deux nouveaux nœuds. Elles mesurent généralement l'homogénéité de la variable cible au sein des sous-ensembles. Ces mesures sont appliquées à chaque sous-ensemble candidat, et les valeurs résultantes sont combinées pour fournir une mesure de la qualité du fractionnement.

Quelle taille retenir pour l'arbre ? Il est clair qu'un arbre très profond peut sur-ajuster les données, alors qu'un arbre avec peu de niveaux risque de ne capturer que partiellement la structure sous-jacente aux données (Yi,𝐗𝐗i)1≤i≤n. La taille de l'arbre est donc un paramètre de réglage qui régit la complexité du modèle et une "bonne"

taille d'arbre peut être choisie de manière adaptative à partir des données. Une stratégie consiste à faire croître complètement l'arbre, en arrêtant le processus de fractionnement uniquement lorsqu'une taille minimale choisie pour les nœuds est atteinte (dans notre cas, on a retenu 6). On désignera par T0 cet arbre de grande taille.

Ensuite, celui-ci est taillé selon un procédé dit d'élagage avec coût-complexité minimum. Nous définissons un sous- arbre T⊂T0 comme étant n'importe quel arbre qui peut être obtenu en élaguant T0, c'est-à-dire en réduisant un nombre quelconque de ses nœuds internes (non terminaux). Nous indexons les feuilles par m, le nœud m représentant le sous-ensemble de données noté Sm. Soit

|T| le nombre de nœuds terminaux de l'arbre T, n_m, 1≤ nm≤n, le nombre d'observations dans le sous-ensemble Sm et ℙ�_m la proportion d'observations avec la modalité AS

pour Y dans le nœud m , donnée par

Y = ES

Y = AS

Y = AS Y = ES

Y = ES X⁽³⁾< 2384

X⁽¹²⁾< 84

X^{(8 )}≥ 2306

X⁽²⁵⁾= FDC

X⁽²⁴⁾≥ 214

X⁽⁷⁾< 168 oui oui

oui

oui non

non

(5)

ℙ�m=_n¹

m∑𝐗𝐗i∈Sm𝕀𝕀{Yi=AS}. Nous définissons le critère de coût- complexité par :

Cα(T) =∑^|T|_m=1nmQm(T)+α|T|

{9}

où Qm(T) est une "mesure d'impureté", dans notre cas l'indice de Gini défini par Q_m(T) = 2ℙ�m�1− ℙ�m�. On affecte les observations du nœud m à la classe AS si ℙ�m> 0.5 (c'est-à-dire si la modalité AS de Y est majoritaire dans le nœud m), et à la classe ES sinon. L'idée est de trouver, pour chaque α> 0, le sous-arbre Tα⊆T0 qui minimise Cα(T). Le paramètre de réglage α pilote le compromis entre la taille de l'arbre et sa qualité d'adaptation aux données. De grandes valeurs de α se traduisent par des arbres T_α plus petits et inversement pour des valeurs plus petites de α. Avec α= 0, la solution est l'arbre complet T₀. La détermination d'une valeur

"bonne" pour α peut être menée par validation croisée (voir la Section 2.2.3).

5.2 Bagging

Afin d'éviter tout sur-apprentissage (voir la Section 3.2 pour une discussion détaillée à ce sujet), le "bagging"

(pour "bootstrap aggregation") peut être utilisé. Cette technique consiste à tirer aléatoirement avec remise à partir de l'ensemble des données d'origine (Yi,𝐗𝐗i)1≤i≤n un grand nombre B > 1 de nouveaux jeux de données de même taille n. Pour chaque nouvel ensemble de données généré, un arbre de classification est construit. Le classifieur final est obtenu en sélectionnant parmi les modalités Y =AS ou Y =ES celle avec le plus grand nombre de "votes" sur les B arbres. Une introduction plus approfondie au bagging peut être trouvée dans (Breiman, 1996).

5.3 Boosting

Dans les problèmes de grande dimension (valeur de p élevée), la performance des arbres de classification peut être améliorée à l'aide d'une procédure appelée

"boosting". Si l'on considère la variable cible numérique Z� introduite en Section 2.1, étant donné les prédicteurs 𝐗𝐗, un classifieur f(𝐗𝐗) produit une prévision prenant l'une des deux valeurs −1 (Y =ES) ou 1 (Y =AS). Le taux d'erreur (ou de mauvaise classification) de f(. ) sur l'ensemble des données est : errn=¹_n∑ 𝕀𝕀n {Y_i≠f(𝐗𝐗_𝐢𝐢)}

i=1 . Un classifieur est dit

"faible" si son taux d'erreur est à peine meilleur que celui que fournirait le pur hasard. Le but du boosting est d'appliquer séquentiellement un algorithme de classification faible à des versions modifiées à plusieurs reprises des données, produisant ainsi une séquence de classifieurs faibles fm(𝐗𝐗), 1≤m≤M. Les prévisions de chacun d'entre eux sont ensuite combinées par un vote à la majorité pondérée pour produire la règle de classification finale :

f(𝐗𝐗) = signe(∑^M_m=1αmfm(𝐗𝐗)) {10}

où α1, … ,αm pondèrent la contribution respective de chaque f_m(𝐗𝐗). L'effet de ces pondérations est de donner dans la séquence une plus grande influence aux classifieurs les plus précis. Les modifications apportées aux données à chaque étape du boosting consistent à appliquer des poids ω₁, … ,ωn à chacune des observations (Yi,𝐗𝐗i)1≤i≤n. Initialement, tous les poids sont réglés égaux à ωi=_n¹, de sorte que la première étape consiste simplement à former le classifieur sur les données de la manière standard. Pour chaque itération successive m = 2, … , M , les poids sont modifiés individuellement et l'algorithme de classification est réappliqué aux observations pondérées. A l'étape m, les observations qui ont été mal prédites par le classifieur f_m−1(𝐗𝐗), construit à

l'étape précédente, voient leur poids augmenté. A contrario, les poids sont diminués pour les données qui ont été classées correctement. Ainsi, au fur et à mesure des itérations, les observations difficiles à prévoir correctement reçoivent une importance de plus en plus grande dans le processus d'apprentissage. Chaque classifieur successif est ainsi forcé à se concentrer sur les données qui sont mal reproduites par les précédents classifieurs.

Dans notre étude, nous avons utilisé des arbres stumps comme classifieurs faibles, αm= ln�^1−err_err ^m

m � avecerrm=

∑n ωi𝕀𝕀�Yi≠fm�𝐗𝐗i��

i=1

∑n ωi

i=1 et pour chaque itération successive m = 2, … , M, les poids ont été modifiés de la sorte : ω_i← ωiexp�αm𝕀𝕀{Y_i≠fm(𝐗𝐗_i)}�, 1≤i≤n.

Contrairement aux arbres binaires standard, les techniques de bagging et de boosting conduisent à des règles de classification qui ne sont pas faciles à interpréter. En effet, puisqu'elles agrègent les résultats obtenus à partir d'arbres différents, il est difficile d'identifier comment les prédicteurs affectent concrètement la variable de sortie.

6 Réseau de neurones

Le nom "réseaux de neurones" vient du fait qu'ils ont d'abord été développés comme modèles pour le cerveau humain. Chaque unité du modèle représente un neurone et les connexions entre unité (les liens, ou connexions, qui apparaissent dans la Figure 2) représentent les synapses.

Le terme réseau neuronal englobe une grande classe de modèles. Nous décrivons ici le réseau de neurones le plus utilisé, souvent appelé "réseau à couche cachée unique avec apprentissage par rétropropagation" ou "perceptron simple couche".

Figure 2. Illustration d'un réseau de neurones L'idée centrale d'un réseau de neurones est d'extraire des descripteurs ("features" en anglais) basés sur des combinaisons linéaires des variables d'entrée, puis de modéliser la variable de sortie du réseau comme une fonction non linéaire des descripteurs.

Plus formellement, dans notre cas, un réseau neuronal est un modèle de classification en deux étapes. Les descripteurs σ�∑nejωj� et σ�∑nejγj� sont construits à partir d'une combinaison linéaire des entrées

�X⁽¹⁾, … , X^(p)�=�ne1, … , nep� et ensuite la sortie Z est modélisée en fonction de combinaisons linéaires des descripteurs : g�Θσ�∑nejωj�+Ψσ�∑nejγj��.

σ(. ) est appelée fonction d'activation et on choisit communément la fonction tangente hyperbolique (aussi appelée sigmoïde ou logistique) : σ(v) =_1+exp(−v)¹ . La fonction g(. ) intervient pour la transformation finale et on prend habituellement la fonction logistique. 𝛃𝛃=

��ωj,γj�_1≤j≤p,Θ,Ψ� regroupe l'ensemble des paramètres inconnus, souvent appelés "poids", et nous recherchons leurs valeurs qui rendent le modèle "bien adapté" aux données, par exemple en minimisant deux fois l'opposé de la fonction de log-vraisemblance ℓ(𝛃𝛃) définie dans l'équation {3}.

L'approche générique pour résoudre ce problème d'optimisation est la descente de gradient, appelée rétropropagation dans ce contexte précis. En raison de la forme composée du modèle, le gradient peut être évalué à

Données

Couche d'entrée Couche cachée Couche de sortie

(6)

l'aide de la règle de différenciation en chaîne. Il peut être calculé par un balayage d'avant en arrière du réseau, en ne gardant trace que des quantités locales au niveau de chaque unité. Des détails sur l'algorithme de rétropagation sont disponibles dans (Rumelhart et al., 1986).

Dans notre cas particulier, un réseau neuronal peut être considéré comme une généralisation non linéaire du modèle de régression logistique présenté en Section 2.2.1.

Cependant, il fournit des résultats difficilement interprétables et est souvent perçu comme un modèle

"boîte noire" par excellence.

7 Machine à vecteurs de support

Dans notre contexte de classification, une machine à vecteurs de support (SVM pour "Support Vector Machine"

en anglais) consiste à construire un hyperplan qui sépare les données en deux classes correspondant aux modalités possibles de Y. Intuitivement, si nous supposons que les deux classes sont linéairement séparables, une "bonne"

séparation est obtenue par l'hyperplan qui est le plus éloigné des points les plus proches de chacune des deux classes, comme illustré en Figure 3.

Plus formellement, un hyperplan est défini par l'ensemble :

�𝐗𝐗 ∈ ℝ^p: h(𝐗𝐗) =β0+∑ β^p_j=1 jX^(j)=β0+𝐗𝐗^T𝛃𝛃= 0�

{11}

avec 𝛃𝛃 un vecteur unitaire : ‖𝛃𝛃‖= 1. Si on considère la variable cible Z� introduite en Section 2.1, la règle de classification induite par h(. ) est donnée par f(𝐗𝐗) = signe(β0+𝐗𝐗^T𝛃𝛃).

Si les deux classes sont séparables, nous souhaitons déterminer la fonction h(𝐗𝐗) =β0+𝐗𝐗^T𝛃𝛃 avec Z�_ih(𝐗𝐗i) >

0,∀i = 1, … , n, qui engendre la plus grande marge M entre les données des deux classes −1 et 1. Le problème d'optimisation suivant formalise cette idée :

maxβ₀∈ℝ,𝛃𝛃∈ℝ^p(M) satisfaisant Z�_i(β0+𝐗𝐗_i^T𝛃𝛃) > M, 1≤i≤n {12}

Figure 3. Illustration d'un hyperplan séparateur optimal (en vert) et d'un hyperplan non optimal (en violet) Si les deux classes se chevauchent, une façon de traiter ce recouvrement est de toujours chercher à maximiser la marge M, mais en autorisant que certains points soient du mauvais côté de la marge. Définissons les variables d'écart 𝝃𝝃= (𝜉𝜉1, … ,𝜉𝜉𝑛𝑛).

Une façon de modifier la contrainte dans l'équation {12}

est d'imposer :

Z�_i(β0+𝐗𝐗_i^T𝛃𝛃) > M(1− ξi),∀i = 1, … , n {13}

avec ξi≥0,1≤i≤n, et ∑ ξn i

i=1 ≤constante. ξi dans la contrainte {13} est la proportion par laquelle la prévision h(𝐗𝐗i) est du mauvais côté de sa marge. Par conséquent,

en bornant la somme ∑ ξn i

i=1 , nous restreignons la proportion totale de prévisions tombant du mauvais côté de leur marge. Les erreurs de classification se produisant lorsque ξ_i> 1, borner ∑ ξn i

i=1 par une valeur constante C revient à limiter le nombre total d'erreurs de classification à C. Alors que le problème initial est énoncé dans l'espace d'origine de dimension p, il arrive souvent que les deux ensembles à discriminer ne soient pas linéairement séparables dans cet espace. Pour cette raison, il est proposé de transformer l'espace initial de représentation des données d'entrée en un espace de plus grande dimension (appelé espace de redescription), ce qui favorise la séparabilité linéaire dans ce nouvel espace, comme l'illustre la Figure 4. Cette transformation d'espace est appelée "astuce du noyau".

Figure 4. Illustration de la transformation de l'espace initial Pour conserver une charge de calcul raisonnable, les transformations d'espace utilisées dans les SVM sont conçues pour s'assurer que les produits scalaires peuvent être calculés facilement en termes de variables dans l'espace original. Elles sont définies à partir d'une fonction noyau ϕ(𝐗𝐗,𝐔𝐔) judicieusement choisie. Les hyperplans dans l'espace de redescription (qui peuvent être non linéaires dans l'espace initial) sont définis comme l'ensemble des points dont le produit scalaire avec un vecteur dans cet espace est constant. Les vecteurs définissant les hyperplans peuvent être choisis pour être des combinaisons linéaires avec des paramètres αi de descripteurs des vecteurs initiaux 𝐗𝐗i, 1≤i≤n. Avec ce choix, les points 𝐗𝐗 dans l'espace original qui sont transformés en hyperplan sont définis par la relation : ∑ α_i iϕ(𝐗𝐗_i,𝐗𝐗)= constante. Si ϕ(𝐗𝐗,𝐔𝐔) diminue à mesure que 𝐔𝐔 s'éloigne de 𝐗𝐗, chaque terme dans la somme mesure le degré de proximité du point 𝐗𝐗 au point 𝐗𝐗_i de la base de données initiale. De cette façon, la somme des noyaux ci-dessus peut être utilisée pour mesurer la proximité relative de chaque point de test par rapport aux points initiaux provenant de l'un ou l'autre des ensembles à discriminer.

Dans notre cas, nous avons testé quatre fonctions différentes de noyau : linéaire ϕ(𝐗𝐗,𝐔𝐔) =𝐗𝐗^T𝐔𝐔, Gaussien radial ϕ(𝐗𝐗,𝐔𝐔) = exp(−σ‖𝐗𝐗 − 𝐔𝐔‖²),σ ∈ ℝ, polynômial non homogène (d'ordre d∈ ℕ - nous avons choisi d = 2), ϕ(𝐗𝐗,𝐔𝐔) = (γ𝐗𝐗^T𝐔𝐔+ r)^d,γ, r∈ ℝ, et tangente hyperbolique ϕ(𝐗𝐗,𝐔𝐔) = tanh(κ𝐗𝐗^T𝐔𝐔+θ) ,κ,θ ∈ ℝ. De "bonnes" valeurs des paramètres de réglage σ,γ, r,κ et θ minimisant l'erreur de prévision moyenne estimée ont été déterminées par validation croisée, comme présenté en Section 2.2.3. Des informations plus détaillées sur les SVM sont disponibles dans (Burges, 1998).

Comme pour les réseaux de neurones, les SVM fournissent un modèle de type "boîte noire" qui ne permet aucune description facilement interprétable de la manière dont les variables d'entrée affectent la variable de sortie.

Résultats

8 Indicateurs de performance d'un classifieur

Avant de présenter les résultats obtenus avec les différentes familles d'algorithmes d'apprentissage automatique introduites dans les sections précédentes, il

Transformation de l'espace initial pour favoriser la séparabilité linéaire

S

(7)

faut définir des indicateurs qui permettront d'évaluer et de comparer la performance des techniques mises en œuvre.

Ces indicateurs sont basés sur la "matrice de confusion"

(aussi appelée "matrice d'erreur") présentée dans la Table 1. Une fois la fonction de prévision f(. ) construite en utilisant l'un des algorithmes, il est facile de comparer pour chaque observation (Yi,𝐗𝐗i)1≤i≤n si la valeur prédite Y�_i= f(𝐗𝐗i) est la même que la valeur réelle Yi observée dans la base de données. Chaque ligne de la matrice représente les instances d'une modalité prédite par le modèle tandis que chaque colonne représente les instances d'une modalité réelle issue des données.

Table 1. Illustration d'une matrice de confusion Modalité observée dans les

données

Y =AS Y =ES

Modalité prédite par

le modèle

Y�=AS Vrai Positif

(VP) Faux Positif (FP) Y�=ES Faux Négatif

(FN) Vrai Négatif (VN) avec VP + FP + FN + VN = n.

Le taux d'erreur (ou le taux de mauvaise classification) sur l'ensemble de données est défini comme suit :

errn=¹_n∑ 𝕀𝕀n {Yi≠f(𝐗𝐗i)}

i=1 =_n¹∑ 𝕀𝕀n �Yi≠Y�i�

i=1 =VP+FP+FN+VN^FP+FN =^FP+FN_n {14}

errn est compris entre 0 et 100%. Plus il est faible, plus le classifieur f(. ) parvient à prévoir convenablement ("sans se tromper") les données au global. Puisque le cas où l'indicateur caractérisant l'état du réacteur lors de sa mise à l'arrêt dépasse le seuil fixé est plus critique que l'autre cas de figure, le problème est dissymétrique et nous préférons reproduire correctement la modalité Y =AS par rapport à l'autre. C'est pourquoi nous introduisons également la sensibilité, définie comme :

sen=_VP+FN^VP {15}

sen est comprise entre 0 et 100%. Plus elle est élevée, plus le modèle de classification f(. ) est capable de prévoir convenablement les observations du jeu de données pour lesquelles Y =AS.

9 Sur-apprentissage et bootstrap

Un modèle de prévision f(. ) est construit à partir d'un ensemble de données d'apprentissage, c'est-à-dire des situations qui servent d'exemples et pour lesquelles le résultat souhaité est connu. Bien sûr, l'objectif est que le classifieur f(. ) présente de bonnes performances sur l'ensemble d'apprentissage, mais aussi pour prévoir la sortie lorsqu'il est alimenté par des "données de validation"

(ou "données de test") qui n'ont pas été rencontrées pendant la phase de construction. Le "sur-apprentissage"

(parfois appelé "sur-entraînement" ou "sur-ajustement") est le fait de construire un modèle de prévision trop spécifique, qui correspond trop étroitement ou exactement à un ensemble particulier de données, et qui n'est pas en mesure de s'adapter facilement à de nouvelles données d'entrée ou de prédire des observations futures de manière fiable. Il y a sur-ajustement lorsqu'un modèle commence à "mémoriser" les données d'apprentissage plutôt qu'à "apprendre" à généraliser une tendance observée dans les données d'apprentissage. Le risque de sur-ajustement dépend non seulement du nombre de paramètres du modèle et du nombre de données, mais aussi de la conformité de la structure du modèle avec celle des données et de l'ampleur de l'erreur du modèle par rapport au niveau de bruit ou d'erreur contenu dans les données.

Pour déceler un risque de sur-apprentissage, plusieurs techniques sont disponibles, parmi lesquelles la validation croisée, telle qu'introduite en Section 2.2.3, ou le bootstrap. Ces procédures consistent à tester la capacité du modèle à généraliser ce qu'il a appris, en évaluant sa performance sur un ensemble de données non utilisées pour sa construction, supposé approcher les données typiques que le modèle rencontrera par la suite lorsqu'il sera utilisé.

L'idée de base d'une itération bootstrap, indexée par b, 1≤b≤B, est de tirer aléatoirement sans remise à partir des données originales (Yi,𝐗𝐗i)1≤i≤n deux sous-ensembles complémentaires : un sous-ensemble d'apprentissage, de taille N, 1 < N < n (dans notre cas N =³₄n), qui sera utilisé pour construire le modèle de classification f(. ), et un sous- ensemble de validation, de taille n−N, sur lequel f(. ) sera appliqué pour évaluer sa performance sur des données qui n'ont pas été utilisées pour l'ajuster. Sur ce sous- ensemble de test, on peut évaluer le taux d'erreur errb et la sensibilité seb en utilisant les formules {14} et {15}

appliquées aux n−N données de validation. Ceci est fait B fois (dans notre cas B = 1000), produisant B sous- ensembles d'apprentissage et de validation bootstrap.

Nous construisons le modèle à partir de chacun des B sous-ensembles d'apprentissage bootstrap et le testons systématiquement sur les B ensembles de données test bootstrap, ce qui conduit à B valeurs pour le taux d'erreur et la sensibilité (errb, seb)1≤b≤B. A partir de ces B valeurs, on peut évaluer le taux d'erreur moyen bootstrap et la sensibilité moyenne bootstrap :

err�Boot=_B¹∑B errb

b=1 et se�Boot=_B¹∑B seb

b=1 {16}

Ces deux grandeurs estiment mieux la performance

"réelle" du classifieur f(. ) que err_n et sen et permettent d'identifier facilement un problème potentiel de sur- apprentissage si (err�Boot, se�Boot) est éloigné de (errn, sen).

10 Résultats

Pour mettre en œuvre les différents algorithmes, nous avons utilisé R, un langage open source et un environnement logiciel pour le calcul statistique (https://www.r-project.org/). Plus précisément, les packages suivants ont été utilisés : "stats" pour la régression logistique stepwise, "glmnet" pour Ridge et LASSO, "plsRglm" pour PLS, "spls" pour sparse PLS,

"rpart" pour les arbres de classification, "adabag" pour le bagging, "ada" pour le boosting, "nnet" pour le réseau de neurones et "e1071" pour les différentes versions de SVM.

La Table 2 donne les indicateurs de performance (err�Boot, se�Boot) pour chacun des algorithmes d'apprentissage automatique qui ont été appliqués à notre jeu de données.

Table 2. Résultats obtenus par les différents algorithmes Algorithme err�Boot (%) se�Boot (%)

Stepwise 4.49 92.59

Ridge 13.48 66.67

LASSO 10.11 74.07

PLS 3.38 93.24

Sparse PLS 14.61 93.87

Arbre de classification 5.72 96.15

Bagging 5.61 95.71

Boosting 𝟑𝟑.𝟑𝟑𝟑𝟑 𝟗𝟗𝟗𝟗.𝟑𝟑𝟑𝟑 Réseau de neurones 4.69 96.17

SVM linéaire 4.39 90.86

SVM Gaussien radial 3.46 91.03 SVM polynômial non

homogène 5.62 88.89

SVM tangente

hyperbolique 7.86 85.11

(8)

Discussion

Le boosting est l'algorithme le plus efficace, avec à la fois le taux d'erreur bootstrap err�Boot le plus faible et la sensibilité bootstrap se�Boot la plus élevée. La régression logistique PLS et le réseau de neurones arrivent en seconde position. L'arbre de classification et le bagging ont une sensibilité intéressante, mais un taux d'erreur quelque peu décevant. Les différents noyaux de SVM donnent des résultats moyens assez proches. Les deux variantes de contraction de la régression logistique, Ridge et LASSO, donnent les modèles les moins performants, assez loin derrière toutes les autres techniques.

Sur la base de cette seule étude, il est bien sûr impossible de tirer des conclusions générales quant à la supériorité potentielle d'un algorithme par rapport aux autres. De nombreux autres tests numériques devraient être effectués sur des données simulées (et non industrielles réelles) pour répondre à cette question ambitieuse. Il est néanmoins intéressant de souligner que les indicateurs de performance sont plutôt bons, voire excellents, par rapport à la taille de la base de données. En effet, dans notre cas, nous sommes loin de ce qu'on appelle le "Big Data", puisque nous n'avons que n = 89 observations et p = 25 prédicteurs pour prévoir notre variable de sortie binaire.

Cette constatation va à l'encontre de la croyance populaire selon laquelle les algorithmes d'apprentissage automatique nécessitent forcément une grande quantité de données. Néanmoins, il ne faut pas se leurrer : il est illusoire de penser que ces approches peuvent résoudre tous les problèmes et qu'elles sont toujours efficaces, même avec peu de données.

Du point de vue du décideur, même si le boosting est l'algorithme le plus efficace pour notre cas d'usage, il peut préférer un modèle plus facilement interprétable, comme la régression logistique PLS. En effet, cette approche a une performance prédictive tout à fait honorable et fournit en même temps une description interprétable de la façon dont les variables d'entrée jouent sur la sortie (voir l'équation {8}). Si l'intelligibilité et l'explication des fondements du modèle ne sont pas nécessaires dans différents secteurs d'activités, ils deviennent des arguments majeurs lorsque la traçabilité, le caractère auditable, la transparence ou la justification physique sont exigés, comme dans l'industrie nucléaire.

Par ailleurs, il est souvent mis en avant que les algorithmes d'apprentissage automatique nécessitent des temps de calcul et/ou une place mémoire importants pour construire les modèles ou prévoir les résultats. Avec notre jeu de données de taille réduite et les familles de techniques employées, ce n'est pas apparu comme un problème sur un ordinateur standard, même lors de l'exécution des procédures bootstrap. Il convient également de mentionner que des logiciels statistiques open source, tels que R, rendent ces méthodes d'apprentissage automatique financièrement accessibles à toute entreprise, même si leur utilisation nécessite une certaine expertise, afin de paramétrer correctement les algorithmes et d'éviter les pièges potentiels (par exemple le sur-apprentissage). Le transfert de ces modèles prévisionnels de type "boîte noire" hors des unités de R&D peut également présenter une difficulté. En effet, de façon très pragmatique, ces divisions ne disposent généralement que de logiciels de type "tableur", qui ne sont pas des

outils informatiques bien adaptés à l'intégration de ce genre de techniques numériques évoluées.

Enfin, avant d'appliquer un algorithme d'apprentissage automatique quel qu'il soit, il faut s'assurer de la qualité des données d'entrée. De plus, il ne peut être que profitable que le data scientist, qui conçoit et manipule ces boîtes noires, travaille étroitement avec les experts métier du domaine d'application technique.

Conclusion et perspectives

Treize techniques d'apprentissage automatique supervisé, issues de quatre grandes familles d'algorithmes de classification, ont été testées sur un jeu de données réelles issu de l'industrie nucléaire. Les grands principes de ces algorithmes ont été présentés et leur performance en termes de capacité prédictive a été évaluée sur la base du cas d'usage.

Les méthodes les plus efficaces donnent des résultats prometteurs, surtout en regard de la taille réduite des données disponibles. Néanmoins, il convient de ne pas tirer de conclusions trop hâtives sur l'efficacité générale de ces techniques ou sur la supériorité de l'une par rapport à l'autre.

On peut envisager plusieurs perspectives et extensions de cette étude. D'autres algorithmes d'apprentissage automatique, comme l'analyse discriminante, les forêts aléatoires, des variantes des réseaux de neurones ou l'apprentissage par renforcement, pourraient être testés sur le même jeu de données, afin d'en évaluer leur performance. Une étude intensive basée sur des données simulées pourrait également être menée pour tenter d'identifier si certains algorithmes seraient plus efficaces que d'autres sur des jeux de données ayant des caractéristiques proches de celles rencontrées dans l'industrie nucléaire.

Références

L. Breiman, 1996, Bagging predictors, Machine Learning 26: 123–140.

C. Burges, 1998, A tutorial on support vector machines for pattern recognition, Knowledge Discovery and Data Mining 2(2): 121–167.

H. Chun & S. Keles, 2010, Sparse partial least squares regression for simultaneous dimension reduction and variable selection, Journal of the Royal Statistical Society - Series B 72(1): 3–25.

T. Hastie, R. Tibshirani & J. Friedman, 2009, The elements of statistical learning: Data mining, inference, and prediction - 2nd edition, Verlag New York: Springer Series in Statistics.

D. Rumelhart, G. Hinton & R. Williams, 1986, Learning internal representations by error propagation, in D.

Rumelhart & J. McClelland (eds), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, MIT Press, Cambridge, MA., 318–362.

S. Wold, H. Martens & H. Wold, 1983, The multivariate calibration problem in chemistry solved by the PLS method, In B. Kagstrom & A. Ruhe (eds), Matrix Pencils, Lecture Notes in Mathematics, vol. 973. Springer, Berlin, Heidelber.