• Aucun résultat trouvé

Modélisation statistique d'un procédé de centrifugation

N/A
N/A
Protected

Academic year: 2021

Partager "Modélisation statistique d'un procédé de centrifugation"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-02273932

https://hal.archives-ouvertes.fr/hal-02273932

Submitted on 29 Aug 2019

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Modélisation statistique d’un procédé de centrifugation

Zhanhao Liu, Marion Perrodin, Thomas Chambrion, Radu Stoica

To cite this version:

Zhanhao Liu, Marion Perrodin, Thomas Chambrion, Radu Stoica. Modélisation statistique d’un

procédé de centrifugation. Journées de Statistique, Jun 2019, Nancy, France. �hal-02273932�

(2)

Mod´ elisation statistique d’un proc´ ed´ e de centrifugation

Zhanhao Liu

†,‡,1

, Marion Perrodin

, Thomas Chambrion

, Radu S. Stoica

,

Universit´ e de Lorraine, CNRS, IECL, F-54000 Nancy, France

Saint-Gobain Research Paris, 39 Quai Lucien Lefranc, 93300 Aubervilliers

R´ esum´ e. Cet article pr´ esente une analyse statistique des donn´ ees issues d’un proc´ ed´ e de centrifugation utilis´ e ` a Saint-Gobain. Les diff´ erentes corr´ elations entre les variables enregistr´ ees ont ´ et´ e analys´ ees via une ACP, et sur cette base plusieurs mod` eles statistiques ont ´ et´ e propos´ es. L’objectif final est de proposer un processus de contrˆ ole de proc´ ed´ e de centrifugation ` a travers cette analyse statistique. Ce travail est actuellement en cours mais les r´ esultats obtenus indiquent d´ ej` a quelles ´ etapes du proc´ ed´ e industriel pourraient jouer de mani` ere pr´ epond´ erante sur la qualit´ e du produit final.

Mots-cl´ es. Analyse en Composantes Principales, mod´ elisation lin´ eaire, validation crois´ ee, Industrie 4.0

Abstract. This article describes a statistical analysis applied on a centrifugation process of Saint-Gobain. The correlations within data were analysed by PCA, and some statistical models were built using information from the previous step. The final purpose is to build a control law for the centrifugation process through this statistical analysis.

The work is still ongoing, but the first results already show which process steps play an important role in the final product’s quality.

Keywords. Principal Component Analysis, linear model, cross-validation, Indus- try 4.0

1 Introduction

Les lignes de production de Saint-Gobain sont intrins` equement complexes car compos´ ees de multiples machines effectuant chacune une ´ etape du processus. Ces machines doivent interagir et collaborer afin d’atteindre le cahier des charges demand´ e. La complexit´ e de chaque ´ etape, les nombreuses interd´ ependances et tous les facteurs d´ eterminant le fonctionnement de la ligne font que la construction d’un mod` ele physique d’une telle ligne de production est extrˆ emement compliqu´ ee. Dans ce contexte, l’analyse statistique nous semble un outil prometteur pour l’apport d’informations mettant en ´ evidence les ´ el´ ements clefs dans le processus industriel ´ etudi´ e, d’autant plus que les lignes de production sont

1

Email de contact : [email protected]

(3)

de plus en plus instrument´ ees, et remontent de grandes quantit´ es de donn´ ees. En plus de l’´ etude et de la compr´ ehension d’un ph´ enom` ene physique difficilement mod´ elisable, nous souhaitons utiliser l’analyse statistique pour alimenter l’approche Industrie 4.0. Celle- ci consiste en la mise en place d’outils, issus principalement du traitement des donn´ ees remont´ ees sur la ligne de production, aidant les op´ erateurs humains ` a prendre des d´ ecisions tout en optimisant ´ energ´ etiquement et qualitativement la production.

Nous d´ eveloppons ici une telle approche pour un proc´ ed´ e de fabrication de tuyaux en fonte utilis´ e par Saint-Gobain Pont-` a-Mousson, dont voici les principales ´ etapes :

• le basculement : de la fonte en fusion est vers´ ee dans un r´ ecipient, que nous appelons un “basket”, contenant l’´ equivalent en fonte de plusieurs tuyaux. Le moule est ensuite aliment´ e en fonte par des inclinaisons successives du basket.

• la translation : un chariot porte le moule rempli de fonte, en faisant des aller-retour sur une rampe entre un point haut et un point bas. Au point bas, qui est aussi le point de repos, la fonte est d´ ej` a transform´ ee en tuyau, et le tuyau est livr´ e. Le chariot remonte ` a vide pour ˆ etre rempli ` a nouveau.

• la rotation : la rotation du moule permet la formation des tuyaux par force cen- trifuge. La rotation d´ emarre en mˆ eme temps que le versement de la fonte, et elle continue pendant la translation.

• l’extraction : quand le chariot est au point bas, un bras m´ ecanique fait sortir le tuyau du moule.

Une mesure d’efficacit´ e de ce proc´ ed´ e de fabrication de tuyaux est la diff´ erence, not´ ee y, entre la masse du tuyau r´ ealis´ ee et la masse demand´ ee par le cahier des charges. L’objectif de cette ´ etude est de comprendre le rˆ ole de chaque ´ etape dans l’obtention d’une production de qualit´ e, soit minimiser y sous la contrainte y ≥ 0. Nous allons ´ etudier les diff´ erentes corr´ elations existantes entre les donn´ ees enregistr´ ees lors du proc´ ed´ e de fabrication, puis nous proposerons des mod` eles statistiques pour l’estimation de l’´ ecart de masse y. Dans la suite de cet article, nous allons tout d’abord pr´ esenter les donn´ ees enregistr´ ees lors du proc´ ed´ e de fabrication, puis les r´ esultats d’une analyse en composantes principales.

Ensuite, plusieurs mod` eles seront propos´ es et ´ etudi´ es, parmi lesquels des mod` eles lin´ eaires et des mod` eles de convolution avec des d´ ependances “spatio-temporelles”. Enfin, nous pr´ esenterons les conclusions tir´ ees de ces premiers r´ esultats et les perspectives qui en d´ ecoulent.

2 Donn´ ees

Les donn´ ees sont r´ eparties dans plusieurs fichiers, chaque fichier contenant les informations

des tuyaux fabriqu´ es durant un poste de 8 heures.

(4)

2.1 Variables

Diff´ erentes variables sont mesur´ ees pendant les ´ etapes de fabrication. Notamment, sont mesur´ es durant le basculement, les mouvements angulaires du basket, les dur´ ees d’action et les vitesses de basculement ; durant la translation, les distances parcourues par le chariot et les dur´ ees ; durant la rotation, les vitesses de rotation du moule et les dur´ ees des “r´ egimes” ; et enfin durant l’extraction, les dur´ ees de l’action.

Des variables quadratiques sont cr´ e´ ees directement dans la base pour caract´ eriser la quantit´ e de fonte vers´ ee : ce sont les vitesses de basculement multipli´ ees par les dur´ ees ap- pliqu´ ees. Quant aux variables qualitatives, il y a par exemple des indicateurs d’anomalies ou la num´ erotation des tuyaux. Au total, nous avons initialement 61 variables quantita- tives et 28 variables qualitatives, qui ont ´ et´ e standardis´ ees avant leur utilisation.

2.2 Individus

Nous d´ esignerons d´ esormais un tuyau fabriqu´ e par le terme “individu”. Le terme “basket”

d´ esigne ` a la fois l’outil de versement de fonte et les tuyaux r´ ealis´ es avec la fonte contenue par celui-ci entre deux remplissages. Par exemple, ce que nous appellerons le 4i` eme basket correspondra aux tuyaux r´ ealis´ es entre le 4i` eme et le 5i` eme remplissage du basket proprement-dit au cours d’un mˆ eme poste. Le num´ ero de tranche est quant ` a lui d´ efini par rapport au niveau de fonte restante dans le basket lorsque la fabrication du tuyau concern´ e commence. Le nombre de tuyaux r´ ealis´ es avec un basket n’est cependant pas constant car le remplissage de celui-ci peut fluctuer et certaines tranches peuvent ne pas ˆ etre pr´ esentes pour certains baskets.

Les individus sont caract´ eris´ es par 3 facteurs : le poste, le basket et le num´ ero de tranche. On note le tuyau du ii` eme basket, de la ji` eme tranche et du ki` eme poste comme

T

i,j,k

. A chaque T

i,j,k

correspondent donc des mesures ou des param` etres X

i,j,k

et une

cible y

i,j,k

.

Nous avions initialement 50225 individus dans notre base de donn´ ees. Nous avons s´ electionn´ e al´ eatoirement 50% des postes pour le training set, 25% pour le cross-validation set, et 25% pour le test set.

Nous avons consid´ er´ e les individus ayant une variable dont la valeur standardis´ ee absolue ´ etait sup´ erieure ` a 5 comme des outliers. Les outliers et les individus avec un indicateur d’anomalie actif ont ´ et´ e supprim´ es de nos diff´ erents data sets. Apr` es filtrage, nous avons 21149 individus dans le training set, 14562 dans le cross-validation set et 9611 dans le test set.

3 Analyse exploratoire

Les donn´ ees sont trait´ ees via une analyse en composantes principales (F. Husson et al.

(2017)), qui nous indique qu’en gardant 19 composantes, on pr´ eserve 90% de variation

(5)

globale des donn´ ees, tout en r´ eduisant la dimension du probl` eme.

Les cercles de corr´ elation nous montrent des corr´ elations significatives entre certaines variables caract´ erisant la mˆ eme ´ etape du processus. Cela indique que ces variables pour- raient ˆ etre regroup´ ees pour la construction d’un mod` ele. Toutefois, le fait que la variation de la cible soit faiblement caract´ eris´ ee par cette nouvelle repr´ esentation des donn´ ees, nous donne de faibles espoirs pour qu’un mod` ele simple puisse expliquer nos donn´ ees. Cette hypoth` ese sera d’ailleurs rejet´ ee dans la section suivante.

(a) plan factoriel (b) plan des composantes 3 et 4

Figure 1: Projection des individus. (a) : chaque couleur correspond ` a un poste. (b) : chaque couleur correspond ` a une tranche de basket. Plus la couleur est claire, plus le num´ ero de tranche est grand.

Les projections des individus dans les plans des quatre premi` eres composantes sont

pr´ esent´ ees dans la Figure 1. Nous observons que les individus forment des agr´ egats en

fonction de leur appartenance ` a une tranche et/ou ` a un poste. Un test statistique boot-

strap valide d’ailleurs cette affirmation. Cela sugg` ere une d´ ependance temporelle (dans

un poste) et spatiale (entre les mˆ emes tranches) entre les individus. La d´ ependance tem-

porelle est due aux diff´ erentes conditions de travail : la temp´ erature ambiante, la com-

position de la fonte, le type de basket utilis´ e, les habitudes des op´ erateurs ; tandis que la

d´ ependance spatiale est li´ ee ` a l’angle de versement du d´ ebut cycle. Bien que l’information

concernant le type de basket ne soit pas disponible sur notre base de donn´ ees, nous avons

pu mettre en ´ evidence son importance ` a travers des m´ ethodes de classification. Il nous

apparaˆıt important que notre mod` ele final puisse aussi expliquer la r´ epartition en agr´ egats

des individus.

(6)

4 Mod´ elisation

Cette section pr´ esente plusieurs ´ etapes, de la plus simple ` a la plus ´ elabor´ ee, pour la construction des mod` eles qui pourraient expliquer nos donn´ ees. Ce travail est en cours.

Suite ` a nos observations pr´ ec´ edentes, les premi` eres tranches ont ´ et´ e supprim´ ees des trois sets du fait de leur comportement sp´ ecifique, qui aurait pu interf´ erer dans nos mod´ elisations.

4.1 R´ egression simple

L’hypoth` ese la plus simple ` a v´ erifier concernant la variation de la cible est la suivante : peut-on l’expliquer par la combinaison lin´ eaire des donn´ ees observ´ ees lors de son processus de fabrication, du basculement jusqu’` a l’extraction ? Avec les notations introduites, un tel mod` ele peut s’´ ecrire comme :

ˆ

y

i,j,k

= θ

0

+

p

X

l=1

θ

l

x

i,j,k,l

(1)

avec le vecteur des param` etres Θ = (θ

0

, ..., θ

p

), les variables explicatives x

i,j,k,l

avec l = 1, ..., p et ˆ y

i,j,k

la cible du tuyau T

i,j,k

.

Suite ` a l’ACP, un regroupement des variables est effectu´ e. Ceci nous permet de r´ ealiser sur ces donn´ ees une r´ egression lin´ eaire avec p = 76 param` etres. Apr` es plusieurs exp´ eriences, la m´ ethode d’estimation Lasso (Tibshirani (1996)) nous indiquait 28 param` e- tres significativement diff´ erents de z´ ero, alors que le meilleur score R

2

obtenu ´ etait seule- ment de 0.1. Ce faible score ´ etait attendu suite ` a l’analyse ACP. Il nous a permis d’´ ecarter l’hypoth` ese la plus simple. Dans ce contexte, nous avons d´ ecid´ e d’introduire plus de d´ ependances dans le mod` ele (T. Hastie et al. (2017)).

4.2 Introduction de d´ ependances suppl´ ementaires

La significativit´ e de certains coefficients dans le mod` ele de r´ egression lin´ eaire simple in- dique que la variation de y du tuyau T

i,j

n’est pas ind´ ependante des ´ etapes de fabrication du tuyau lui-mˆ eme. Le mod` ele que l’on propose ici introduit, en plus, des d´ ependances relatives ` a la fabrication des autres tuyaux sur le mˆ eme poste T

i,j−1

, T

i,j−1

.

Dans ce contexte nous proposons d’estimer la variation du y du tuyau T

i,j

par : ˆ

y

i,j

= θ

0

+

p

X

l=1

l

x

i,j,l

+ θ

l+p

x

i−1,j,l

+ θ

l+2p

x

i,j−1,l

) (2)

avec Θ = (θ

0

, ...θ

3p

) les param` etres du mod` ele et x les mesures associ´ ees pour chaque

tuyau consid´ er´ e. Le mod` ele estim´ e par Lasso a un meilleur score R

2

de 0.196 avec 78

(7)

variables actives. Cela indique un meilleur comportement de ce mod` ele par rapport au mod` ele lin´ eaire simple, et valide l’id´ ee d’´ etude des d´ ependances entre tuyaux.

Clairement, le mod` ele doit encore ˆ etre am´ elior´ e. Nous envisageons des mod` eles “spa- tiaux” de la forme :

ˆ

y

i,j

= θ

0

+ θ

1

y

i−1,j

+ θ

2

y

i,j−1

+

p

X

l=1

l+2

x

i,j,l

+ θ

l+2+p

x

i−1,j,l

+ θ

l+2+2p

x

i,j−1,l

) (3) comparables ` a ceux de (Antoniadis et al., 1992), (Gaetan et Guyon, 2009) et (Cressie, 2015).

5 Conclusion

Nous avons appliqu´ e une analyse statistique des donn´ ees sur le proc´ ed´ e de centrifugation de Saint-Gobain. Les r´ esultats de l’analyse en composantes principales montrent que l’´ ecart entre la masse r´ ealis´ ee du tuyau et sa consigne est peu corr´ el´ e avec les variables enregistr´ ees dans chaque ´ etape de fabrication. Le meilleur mod` ele lin´ eaire obtenu a un score R

2

de 0.196 avec 78 variables actives. Ce mod` ele est lin´ eaire avec quelques variables quadratiques.

Nous avons constat´ e une d´ ependance temporelle et spatiale entre les tuyaux r´ ealis´ es, et en cons´ equence, une m´ ethode prenant en compte les tuyaux r´ ealis´ es pr´ ec´ edemment sera

´ etudi´ ee. A partir du meilleur mod` ele obtenu, une loi de contrˆ ole sera construite afin de minimiser l’´ ecart entre la masse r´ ealis´ ee du tuyau et sa consigne.

Bibliographie

A. Antoniadis, J. Berruyeur et R. Carmona (1992), Regression non lineaire et applications.

N. Cressie (2015), Statistics for Spatial Data.

C. Gaetan et X. Guyon (2009), Spatial Statistics and Modeling.

F. Husson, S. Lˆ e et J. Pag` es (2017), Exploratory Multivariate Analysis by Example Using R.

T. Hastie, R. Tibshirani et J. Friedman (2017), The Elements of Statistical Learning

R. Tibshirani (1996), Regression shrinkage and selection via the Lasso, Journal of the

Royal Statistical Society.

Références

Documents relatifs

Nous proposons une ´ etude par simulation pour ´ etudier l’impact de visites non effectu´ ees sur les estimateurs obtenus par GEE sous divers sch´ ema de donn´ ees manquantes..

Ce chapitre nous a permis de comprendre l’anatomie du muscle, la phy- siologie musculaire et les diff´ erentes ´ etapes de la contraction du muscle d’une part ; et d’´ etudier

– Repr´ esentation bay´ esienne du registre de services probabiliste : nous proposons de repr´ esenter les corr´ elations entre les vues s´ emantiques probabilistes des services

nous pouvons voir le module d’Young moyen, les bornes `a 95% et 5% de la fonction de r´epartition, cela pour diff´erentes valeurs du facteur de forme (α). Nous voyons bien ici,

Afin de rester coh´ erent avec la mise en œuvre de l’ACM, les sept analyses de donn´ ees mixtes qui sont r´ ealis´ ees suivent le mˆ eme sch´ ema d’´ etude des diff´

Ces cat´egories peuvent repr´esenter soit les diff´erentes valeurs d’une variable qualitative issue des donn´ees initiales, soit le croisement de cat´egories (valeurs de

Après avoir dressé une analyse critique des approches existantes pour classer des données de grande dimension, nous proposerons au chapitre 3 une re-paramétrisation du modèle de

Comme le syst`eme FUCCI offre la possibilit´e d’´etudier la dynamique du cycle cellule `a cellule, en condition de prolif´eration, nous avons pu coupler les donn´ees de