Dans une premi`ere partie, nous avons d´ecrit la station d’´epuration ainsi que l’ensemble des
mesures disponibles. La seconde partie est consacr´ee `a une phase de pr´e-traitement des
donn´ees n´ecessaire pour ensuite appliquer l’ACP. Le but de cette phase de pr´e-traitement
est de mieux comprendre les r´eactions biologiques d’un bassin `a boues activ´ees et de
d´eterminer les diff´erents d´ecalages temporels et transformations non-lin´eaires utiles pour la
construction de la matrice de donn´ees. Afin de mieux comprendre les relations biologiques,
le mod`ele ASM1 (mod`ele biologique de la d´egradation des pollutions par boues activ´ees)
est utilis´e. Cependant, dans ce mod`ele de nombreuses variables ne sont pas mesur´ees sur
la station consid´er´ee. Ce mod`ele est alors r´eduit afin de prendre en compte les mesures
disponibles dans la station de traitement des eaux us´ees. Ensuite, afin de d´eterminer
les d´ecalages temporels et les transformations non-lin´eaires `a prendre en compte afin
d’appliquer l’ACP, une premi`ere ´etape de mod´elisation `a l’aide de mod`eles lin´eaires a
´et´e effectu´ee. A travers cette ´etape de mod´elisation, on ne recherche pas les param`etres
exacts des mod`eles mais seulement les variables utilis´ees ainsi que les ordres des mod`eles.
Afin de r´eduire la taille de la matrice de donn´ees `a consid´erer, les donn´ees de la station
sont partag´ees en deux parties, la partie hydraulique qui prend en compte les diff´erentes
mesures de d´ebit et de hauteurs et la partie biologique qui contient l’ensemble des mesures
relatives aux biologies. Dans une troisi`eme partie la m´ethode MMRPCA a ´et´e appliqu´ee,
afin de construire un mod`ele robuste aux valeurs aberrantes, sur les donn´ees issues de la
partie hydraulique. Puis l’approche de localisation bas´ee sur le principe de reconstruction
avec la distance de Mahalanobis a ´et´e utilis´ee avec succ`es pour d´eterminer les variables en
d´efauts. Cette localisation des valeurs aberrantes permet de soit d´eterminer des d´efauts
de capteurs simultan´es, soit un d´efaut de syst`eme dont la signature correspond `a plusieurs
erreurs sur des signaux issus de capteurs. Les suites des travaux de recherche porte sur
l’application de la m´ethode d´evelopp´ee sur la partie biologique de la station.
500 1000 1500 2000 2500
0
5
D
1500 1000 1500 2000 2500
0
5
D
2500 1000 1500 2000 2500
0
5
D
3500 1000 1500 2000 2500
0
5
D
4500 1000 1500 2000 2500
0
5
D
1,2500 1000 1500 2000 2500
0
5
D
1,4500 1000 1500 2000 2500
0
5
D
1,7500 1000 1500 2000 2500
0
5
D
3,7500 1000 1500 2000 2500
0
5
D
3,9500 1000 1500 2000 2500
0
5
D
4,5500 1000 1500 2000 2500
0
5
D
1,3,9500 1000 1500 2000 2500
0
5
D
2,4,6500 1000 1500 2000 2500
0
5
D
3,4,9500 1000 1500 2000 2500
0
5
D
3,5,8500 1000 1500 2000 2500
0
5
D
3,6,7500 1000 1500 2000 2500
0
5
D
3,7,9500 1000 1500 2000 2500
0
5
D
3,8,9500 1000 1500 2000 2500
0
5
D
4,5,8500 1000 1500 2000 2500
0
5
D
1,2,3,9500 1000 1500 2000 2500
0
5
D
2,4,5,6Les normes europ´eennes sur les rejets des stations de traitement des eaux us´ees deviennent
de plus en plus strictes. La maˆıtrise des impacts sur le milieu naturel et des coˆuts de
fonc-tionnement ne passe pas uniquement par une am´elioration du contrˆole de ce type
d’ins-tallation pour en optimiser le fonctionnement. En effet, pour fonctionner correctement,
ce syst`eme de contrˆole a besoin de connaˆıtre, en permanence, l’´etat du processus. Toute
d´efaillance conduit `a la g´en´eration de commandes qui ne correspondent pas `a l’´etat r´eel
du proc´ed´e, d’o`u une diminution des performances, de la fiabilit´e et parfois mˆeme, une
mise en cause de la s´ecurit´e et de la qualit´e de l’environnement. Le diagnostic de
fonc-tionnement constitue donc un ´el´ement essentiel de toute proc´edure d’automatisation d’un
processus. L’objectif de cette th`ese ´etait de valider l’ensemble des informations d´elivr´ees
par les capteurs utiles `a la commande d’une station de traitement des eaux us´ees.
L’analyse en composantes principales a alors ´et´e utilis´ee pour effectuer la d´etection et
loca-lisation de d´efauts capteurs de la station de traitement des eaux us´ees. Afin de construire
un mod`ele ACP, nous avons eu recours `a une matrice de donn´ees constitu´ee de l’ensemble
des mesures disponibles (obtenues lors du fonctionnement normal de la de traitement
des eaux us´ees) dans l’installation. Cependant, afin d’appliquer l’analyse en composantes
principales sur un syst`eme nous avons rencontr´e plusieurs difficult´es :
1. Pr´esence dans les donn´ees de valeurs aberrantes (valeurs obtenues durant des
p´e-riodes de d´emarrage, d’arrˆet, de fonctionnement d´egrad´e, erreurs de mesure, ...)
perturbant la construction d’un mod`ele ACP.
2. Pr´esence de d´efauts multiples, ce qui entraˆıne une explosion combinatoire des
sc´e-narii de d´efauts `a consid´erer.
Le premier chapitre pr´esente l’utilisation de l’ACP pour effectuer le diagnostic de
fonction-nement d’un processus. L’ACP peut ˆetre ´etendue au cas dynamique en prenant en compte
des d´ecalages temporels entre les variables dans la construction de la matrice de donn´ees.
Le mod`ele ACP est obtenu en d´ecomposant en valeurs/vecteurs propres la matrice de
variance-covariance des donn´ees. Le jeu de donn´ees est alors projet´e dans deux espaces,
l’espace principal qui est associ´e auxℓvecteurs propres correspondant aux valeurs propres
les plus ´elev´ees et l’espace r´esiduel qui est associ´e aux vecteurs propres restants. Le rˆole
de l’ACP ´etant d’extraire les relations de redondance, le choix du nombre de composantes
principales ℓ est d´eterminant pour la d´etection et la localisation de d´efauts. Le nombre ℓ
est d´etermin´e `a partir d’un crit`ere propre au diagnostic : “la minimisation de la variance
d’erreur de reconstruction”. En effet ce crit`ere permet de d´eterminer `a la fois le nombre
de composantes principales ℓ et les variables poss´edant une projection significative dans
l’espace r´esiduel. Une fois le mod`ele construit, les d´efauts peuvent ˆetre mis en ´evidence, en
utilisant des indicateurs de d´etection, dans l’espace r´esiduel avec les indices SP E et T
H2
,
l’espace principal avec l’indice T
2et l’espace global avec les indicesϕetD. Sur un exemple
de synth`ese, les performances des diff´erents indicateurs de d´etection sont compar´ees. Sur
cet exemple, diff´erents choix du nombre de composantes ont ´et´e effectu´es afin de simuler
des erreurs de mod´elisation. Si le nombre de composantes principales est correctement
choisi, alors les diff´erents indicateurs donnent des r´esultats comparables. Mais dans le cas
o`u le nombre de composantes principales est incorrect, les indicateurs prenant en compte
les valeurs propres (SW E, T
2H
et D) fournissent de meilleurs r´esultats pour la d´etection
de d´efauts que les autres indices. Ces indicateurs sont donc plus robustes aux erreurs de
mod´elisation que les indices SP E etϕ.
Cependant l’hypoth`ese majeure pour construire un mod`ele `a partir de l’analyse en
com-posantes principales, est la n´ecessit´e d’un jeu de donn´ees sain. Un jeu de donn´ees sain est
constitu´e de donn´ees obtenues lors du fonctionnement normal du syst`eme ´etudi´e.
Cepen-dant, le majorit´e des jeux de donn´ees r´eels poss`ede des valeurs aberrantes. Pour tol´erer
la pr´esence de valeurs aberrantes, une analyse en composantes principales robuste doit
ˆetre conduite. Le chapitre deux est ainsi consacr´e aux m´ethodes d’ACP robuste.
L’esti-mateur MCD, m´ethode de r´ef´erence pour ses performances, a alors ´et´e pr´esent´e en d´etail.
Cependant, cet estimateur n´ecessite un temps de calcul important et une connaissance a
priori de la quantit´e de valeurs aberrantes pr´esente dans les donn´ees (quantit´e inconnue).
C’est la raison pour laquelle nous avons propos´e une nouvelle m´ethode robuste nomm´ee
MMRPCA. Ainsi, un MM-estimateur est utilis´e pour d´eterminer un mod`ele robuste. Cet
estimateur est une combinaison de deux M-estimateurs, un M-estimateur afin d’estimer le
mod`ele ACP et un second M-estimateur utilis´e afin d’estimer le param`etre de dispersion
des poids attribu´es `a chaque observation. Cet estimateur, calcul´e avec un algorithme
it´era-tif, est initialis´e avec un estimateur robuste de la matrice de variance-covariance qui tend
`a privil´egier la contribution d’observations proches au d´etriment d’observations ´eloign´ees
dues `a la pr´esence de valeurs aberrantes. Ensuite les outils de d´etection de d´efauts sont
utilis´es, `a partir du mod`ele robuste, pour trouver les valeurs aberrantes pr´esentes dans les
donn´ees. La d´etermination des valeurs aberrantes permet alors d’´eliminer leurs influences
et ainsi d’estimer un mod`ele ACP non biais´e. De plus, la dimension de l’espace r´esiduel
´etant inconnue, une proc´edure robuste pour d´eterminer le nombre de composantes
princi-pales est alors n´ecessaire. Les deux m´ethodes ont ´et´e compar´ees par le biais d’un exemple
de simulation ; on remarque alors que la m´ethode MMRPCA permet de mieux d´etecter
les faibles et les forts pourcentages de valeurs aberrantes que la m´ethode MCD et elle
est comparable `a la m´ethode MCD dans les autres situations. La m´ethode MMRPCA est
donc moins sensible `a la quantit´e de valeurs aberrantes pr´esente dans les donn´ees et elle
poss`ede un domaine d’utilisation plus large que la m´ethode MCD. La m´ethode robuste
pr´esent´ee dans ce chapitre doit ˆetre test´ee sur des jeux de grandes dimensions afin de
compl´eter les performances de la m´ethode.
Apr`es avoir d´etermin´e un mod`ele robuste, le troisi`eme chapitre a trait´e de la localisation
de d´efauts multiples. Afin de diminuer le nombre de sc´enarii de d´efauts `a envisager dans
le cas de d´efauts multiples, une analyse des propri´et´es du mod`ele en termes de d´etection
et de localisation de d´efauts est effectu´ee. Dans une premi`ere partie, les faiblesses de la
localisation par calcul des contributions sont mises en avant sur un exemple de simulation.
SRAMS, OSR), permettant de localiser un d´efaut dans l’espace r´esiduel, ont ´et´e
pr´esen-t´ees. Puis le principe de reconstruction d’une observation est rappel´e de mani`ere g´en´erale
ind´ependamment de l’indicateur de d´etection utilis´e, c’est-`a-dire pour la localisation de
d´efauts uniquement dans l’espace r´esiduel, uniquement dans l’espace principal et dans
l’espace global (espace r´esiduel et espace principal). Ensuite `a partir des conditions de
construction des diff´erents r´esidus, la strat´egie de localisation de d´efauts afin de r´eduire
le nombre de sc´enarii de d´efauts envisageables est expos´ee. Un exemple de synth`ese a
permis de comparer les diff´erentes proc´edures de localisation. Dans la suite des travaux
de recherche, les m´ethodesSRAM S etOSRde localisation dans l’espace r´esiduel peuvent
ˆetre ´etendues pour la localisation de d´efauts dans l’espace principal.
Le quatri`eme et dernier chapitre d´ecrit la station d’´epuration des eaux us´ees puis
l’appli-cation de la m´ethode robuste MMRPCA pour valider les mesures des diff´erents capteurs.
Dans une premi`ere partie, nous avons d´ecrit la station d’´epuration ainsi que l’ensemble des
mesures disponibles. La seconde partie est consacr´ee `a une phase de pr´e-traitement des
donn´ees n´ecessaire pour ensuite appliquer l’ACP. Le but de cette phase de pr´e-traitement
est de mieux comprendre les r´eactions biologiques d’un bassin `a boues activ´ees et de
d´eterminer les diff´erents d´ecalages temporels et transformations non-lin´eaires utiles pour
la construction de la matrice de donn´ees. Afin de mieux comprendre les relations
biolo-giques, le mod`ele ASM1 (mod`ele biologique de la d´egradation des pollutions par boues
activ´ees) est utilis´e. Cependant, dans ce mod`ele de nombreuses variables ne sont pas
me-sur´ees sur la station consid´er´ee. Ce mod`ele est alors r´eduit afin de prendre en compte les
mesures disponibles dans la station de traitement des eaux us´ees. Ensuite, afin de
d´eter-miner les d´ecalages temporels et les transformations non-lin´eaires `a prendre en compte
afin d’appliquer l’ACP, une premi`ere ´etape de mod´elisation `a l’aide de mod`ele lin´eaire
est effectu´ee. A travers cette ´etape de mod´elisation, on ne recherche pas les param`etres
exacts des mod`eles mais seulement les variables utilis´ees ainsi que les ordres des mod`eles.
Afin de r´eduire la taille de la matrice de donn´ees `a consid´erer, les donn´ees de la station
sont partag´ees en deux parties, la partie hydraulique qui prend en compte les diff´erentes
mesures de d´ebit et de hauteurs et la partie biologique qui contient l’ensemble des mesures
relatives aux biologies. Dans une troisi`eme partie la m´ethode MMRPCA est appliqu´ee,
afin de construire un mod`ele robuste aux valeurs aberrantes, sur les donn´ees issues de la
partie hydraulique. Puis l’approche de localisation bas´ee sur le principe de reconstruction
avec la distance de Mahalanobis est utilis´ee avec succ`es pour d´eterminer les variables en
d´efauts. Cette localisation des valeurs aberrantes permet de soit d´eterminer des d´efauts
de capteurs simultan´es, soit un d´efaut de syst`eme dont la signature correspond `a plusieurs
erreurs sur des signaux issus de capteurs. Les suites des travaux de recherche porte sur
l’application de la m´ethode d´evelopp´ee sur la partie biologique de la station.
A
Dans le document
Diagnostic de fonctionnement par analyse en composantes principales : application à une station de traitement des eaux usées
(Page 154-163)