• Aucun résultat trouvé

Contributions à la détection et au diagnostic de fautes dans les systèmes par réseaux Bayésiens

N/A
N/A
Protected

Academic year: 2021

Partager "Contributions à la détection et au diagnostic de fautes dans les systèmes par réseaux Bayésiens"

Copied!
209
0
0

Texte intégral

(1)

HAL Id: tel-01266666

https://tel.archives-ouvertes.fr/tel-01266666

Submitted on 3 Feb 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

dans les systèmes par réseaux Bayésiens

Mohamed Amine Atoui

To cite this version:

Mohamed Amine Atoui. Contributions à la détection et au diagnostic de fautes dans les systèmes

par réseaux Bayésiens. Automatique / Robotique. Université d’Angers, 2015. Français. �NNT :

2015ANGE0003�. �tel-01266666�

(2)

Thèse de Doctorat

Mohamed Amine A TOUI

Mémoire présenté en vue de l’obtention du grade de Docteur de l’Université d’Angers

sous le label de l’Université de Nantes Angers Le Mans

Discipline : Sciences de l’ingénieur

Laboratoire : Laboratoire Angevin de Recherche en Ingénierie des Systèmes (LARIS)

Soutenue le 29.09.2015 École doctorale : 503 (STIM) Thèse n° : 77514

Contributions à la détection et au diagnostic de fautes dans les systèmes par réseaux Bayésiens

JURY

Rapporteurs : M. Didier T HEILLIOL , Professeur, Université de Lorraine

M. François P ÉRÈS , Professeur, École Nationale d’Ingénieurs de Tarbes Examinateurs : M. Jean-Marc T HIRIET , Professeur, Université Joseph Fourier de Grenoble

M. Teodor T IPLICA , Maître de conférences, HDR, Université d’Angers Directeur de thèse : M. Abdessamad K OBI , Professeur, Université d’Angers

Co-encadreur de thèse : M. Sylvain V ERRON , Maitre de conférences, Université d’Angers

(3)
(4)

Remerciements

Le travail pr´ esent´ e dans ce m´ emoire a ´ et´ e pr´ epar´ e au sein du Laboratoire Angevin de Recherche en Ing´ enierie des Syst` emes (LARIS) de l’´ ecole d’ing´ e- nieur ISTIA, Universit´ e d’Angers.

Je tiens d’abord ` a exprimer ma gratitude ` a mon directeur de th` ese, le Pro- fesseur Abdessamad Kobi, de m’avoir permis d’effectuer cette th` ese. Son sou- tien, sa confiance et sa disponibilit´ e m’ont permis de m’´ epanouir sereinement tout au long de mes travaux.

Mes remerciements vont ´ egalement ` a mon co-encadreur Sylvain Verron pour sa gentillesse, sa disponibilit´ e, sa patiente et ses judicieux conseils durant cette th` ese.

Merci ` a Monsieur Jean-Marc Thiriet, Professeur ` a l’Universit´ e Joseph Fou- rier de Grenoble, pour avoir accept´ e d’assurer la pr´ esidence du jury.

Je remercie Monsieur Didier Theilliol, Professeur ` a l’Universit´ e de Lor- raine, ainsi que Monsieur Fran¸cois P´ er` es, Professeur ` a l’Universit´ e de Lorraine, d’avoir accept´ e de rapporter mon m´ emoire et pour l’int´ erˆ et qu’ils ont bien voulu porter ` a ce travail.

Je tiens ´ egalement ` a remercier Monsieur Teodor Tiplica, Maˆıtre de conf´ e- rence, HDR ` a l’Universit´ e d’Angers d’avoir accept´ e de prendre part au jury.

Mes remerciements s’adressent ´ egalement ` a tous les doctorants et docteurs, membres ou anciens membres du LARIS, LASQUO et LISA (Une d´ edicace sp´ eciale ` a Achraf, Alejandro, Fally, Julien, Khadim, Khanh, R´ emy, Ulmiah) pour tous les bons moments.

J’adresse ´ evidemment mes remerciements ` a mes parents, ma famille et mes

amis qui m’ont soutenu et encourag´ e r´ eguli` erement.

(5)
(6)

Table des mati` eres

Table des figures 7

1 Introduction g´ en´ erale 13

2 R´ eseaux Bay´ esiens 17

I Introduction . . . 17

II D´ efinition . . . 19

III Propri´ et´ es des r´ eseaux Bay´ esiens . . . 26

IV Noeuds, relations et structures . . . 31

IV.1 Relations entre noeuds . . . 31

IV.2 Analyse discriminante : le cas g´ en´ eral . . . 34

IV.3 Classification Bay´ esienne : structures usuelles . . . 37

IV.4 Classification Bay´ esienne : m´ elange de Gaussiennes . . . 38

V Inf´ erence . . . 40

V.1 Notions sur la th´ eorie des graphes . . . 41

V.2 Algorithme de Lauritzen : premi` ere version . . . 44

V.3 Algorithme de Lauritzen : seconde version . . . 50

VI Conclusion . . . 57

3 Surveillance des syst` emes 59 I Introduction . . . 59

II M´ ethodes ` a base de mod` ele . . . 61

II.1 G´ en´ eration des r´ esidus . . . 63

II.2 D´ etection . . . 67

II.3 Isolation . . . 68

III M´ ethodes data-driven . . . 69

III.1 D´ etection . . . 69

III.2 Diagnostic . . . 79

5

(7)

III.3 Combinaison des m´ ethodes ` a base de donn´ ees et des m´ e-

thodes ` a base de mod` ele . . . 80

IV Conclusion . . . 82

4 D´ etection par r´ eseau Bay´ esien 85 I Contexte et objectifs . . . 85

II D´ etection par calculs des limites de surveillance . . . 89

III Sch´ emas de d´ etection . . . 93

III.1 Sch´ ema de d´ etection par analyse en composantes princi- pales sous r´ eseau Bay´ esien . . . 93

III.2 D’autres sch´ emas de d´ etection sous r´ eseaux Bay´ esiens . . 103

IV Applications . . . 113

IV.1 Tennessee Eastman Process . . . 114

IV.2 Hot Forming Process . . . 118

V Conclusion . . . 120

5 Diagnostic par r´ eseau Bay´ esien 121 I Contexte et objectifs . . . 121

II Limites sp´ ecifiques de surveillance . . . 124

II.1 D´ emonstration du calcul de LP . . . 126

II.2 D´ etection de fautes . . . 132

II.3 D´ etection et diagnostic simultan´ es de fautes . . . 139

II.4 Diagnostic de fautes augment´ e par un rejet de distance . 144 III Propositions de structures de r´ eseau Bay´ esien . . . 146

III.1 Mod` eles Gaussiens pour le diagnostic de fautes . . . 147

III.2 Combinaison de m´ ethodes pour le diagnostic de fautes sous r´ eseau Bay´ esien . . . 154

IV Conclusion . . . 164

A Comparaison des r´ esultats 169

Bibliographie . . . 191

(8)

Table des figures

2.1 La couverture de Markov . . . 27 2.2 Noeud queue-` a-queue : bloquant lorsque x

3

est observ´ ee, et non

bloquant lorsque on marginalise sur celle-ci . . . 28 2.3 Noeuds tˆ ete-` a-queue : le noeud x

3

est bloquant dans les deux

r´ eseaux Bay´ esiens lorsqu’il est observ´ e, et il ne l’est plus lorsque l’on marginalise sur lui sachant qu’il n’est pas observ´ e. . . . 29 2.4 Noeud tˆ ete-` a-tˆ ete . . . 30 2.5 La table de probabilit´ es conditionnelles de D ´ etant donn´ es ses

noeuds parents . . . 32 2.6 La table de probabilit´ es conditionnelles de x ´ etant donn´ es ses

noeuds parents discrets . . . 32 2.7 Un r´ eseau Bay´ esien pour l’analyse discriminante (forme multi-

vari´ ee) . . . 37 2.8 Un r´ eseau Bay´ esien classifieur na¨ıf . . . 38 2.9 Un m´ elange d’analyse discriminante, o` u θ

M1|ipa(E)

correspond ` a

p(M

1

|i

pa(E)

) . . . 40 2.10 (a) : R´ eseau Bay´ esien et (b) :L’arbre de jonction lui correspon-

dant . . . 42 2.11 Graphe moral . . . 43 2.12 Graphe triangul´ e dit graphe joint . . . 44 4.1 Un r´ eseau Bay´ esien classifieur pour la d´ etection de fautes . . . . 90 4.2 Un exemple d’un r´ eseau Bay´ esien pour la d´ etection de fautes . . 90 4.3 Analyse en composantes principales sur r´ eseau Bay´ esien, pro-

jection de x dans l’espace principal, forme multivari´ ee . . . 95 4.4 Analyse en composantes principales sous un r´ eseau Bay´ esien,

projection de x dans l’espace principal et r´ esiduel, forme multi- vari´ ee . . . 95

7

(9)

4.5 Analyse en composantes principales sous un r´ eseau Bay´ esien,

forme univari´ ee . . . 98

4.6 Sch´ ema de d´ etection par analyse en composantes principales sous r´ eseau Bay´ esien, forme multivari´ ee . . . 99

4.7 Sch´ ema de d´ etection par analyse en composantes principales sous r´ eseau Bay´ esien : forme univari´ ee . . . 100

4.8 R´ eseau Bay´ esien Gaussien repr´ esentant un mod` ele lin´ eaire Gaus- sien avec un noeud continu cach´ e : forme multivari´ ee . . . 105

4.9 Sch´ ema de d´ etection par mod` ele lin´ eaire Gaussien sous r´ eseau Bay´ esien : forme multivari´ ee . . . 107

4.10 Un r´ eseau Bay´ esien repr´ esentant une carte MEWMA . . . 109

4.11 Un r´ eseau Bay´ esien repr´ esentant un g´ en´ erateur de r´ esidus : es- pace de parit´ e, avec une fenˆ etre h donn´ ee et o` u O

+p

correspond ` a la ligne p dans la matrice O

+

. . . 111

4.12 Un r´ eseau Bay´ esien repr´ esentant un g´ en´ erateur de r´ esidus : es- pace de parit´ e, o` u h = 1 . . . 112

4.13 Tennessee Eastman Process . . . 114

4.14 La liste des variables mesurables en continu du TEP . . . 116

4.15 La liste des variables mesurables ´ echantillonn´ ees du TEP . . . . 117

4.16 La liste des variables manipul´ ees du TEP . . . 117

4.17 La liste des diff´ erentes fautes impliqu´ ees dans le TEP . . . 118

4.18 La liste des variables du HFP . . . 119

4.19 Hot Forming Process . . . 119

4.20 Un exemple illustratif lorsque une faute est apparue dans x

1

(avec ms=5) avec ζ

TF2

= 88.5% et ζ

SPEF

= 47.9%. (a). Sch´ ema de d´ etection de fautes par analyse en composantes principales sous un r´ eseau Bay´ esien lorsque toutes les variables sont disponibles. (b). Sch´ ema de d´ etection de fautes par analyse en composantes principales sous un r´ eseau Bay´ esien lorsque la variable x

2

est manquante. . . . 120

5.1 Classification entre les classes de fautes . . . 125

5.2 Classification entre les classes de fautes et la classe de fonction- nement normal : exemple de fausse alarme . . . 126

5.3 Classification entre les classes de fautes et la classe de fonction-

nement normal : exemple d’un rejet de distance . . . 127

(10)

5.4 Un exemple d’un r´ eseau Bay´ esien pour la d´ etection et le diag-

nostic de fautes (forme multivari´ ee) . . . 128

5.5 D´ etection dans un r´ eseau Bay´ esien ayant un noeud softmax . . . 138

5.6 Un r´ eseau Bay´ esien combinant une carte MEWMA et d’autres statistiques quadratiques . . . 138

5.7 D´ etection et diagnostic classique . . . 140

5.8 D´ etection et diagnostic de fautes int´ egrant la limite probabiliste de CF N . . . 141

5.9 Description de l’ensemble de donn´ ees . . . 141

5.10 Matrice de confusion du r´ eseau Bay´ esien classifieur . . . 142

5.11 Matrice de confusion de r´ eseau Bay´ esien classifieur avec une limite probabiliste . . . 143

5.12 Erreurs de classification pour les diff´ erentes combinaisons du CF N + 3 fautes . . . 143

5.13 Moyennes et ´ ecart-types des erreurs du classifieur . . . 143

5.14 D´ etection et diagnostic de fautes augment´ es par le rejet de distance146 5.15 Un r´ eseau Bay´ esien classifieur consid´ erant le noeud observ´ e x comme ´ etant fonction d’une variable Gaussienne cach´ ee z, et un bruit Gaussien pour chaque classe C

k

. . . 150

5.16 Un r´ eseau Bay´ esien classifieur traitant le noeud observ´ e x et le noeud z . . . 153

5.17 Cadre propos´ e pour la surveillance des syst` emes . . . 155

5.18 Le r´ eseau Bay´ esien ` a base de donn´ ees pour le diagnostic de fautes156 5.19 La table de probabilit´ es conditionnelles de S

m

. . . 157

5.20 La table de probabilit´ es conditionnelles du noeud x . . . 157

5.21 Un exemple d’une matrice d’incidence . . . 158

5.22 Le r´ eseau Bay´ esien ` a base de mod` ele pour le diagnostic de fautes 158 5.23 La table de probabilit´ es conditionnelles du noeud S

r

. . . 159

5.24 La table de probabilit´ es conditionnelles des noeuds F

j

. . . 159

5.25 Heating water system . . . 160

5.26 Matrice d’incidence du chauffe-eau . . . 161

5.27 Les diff´ erentes couches d’inf´ erence pour la combinaison de deux m´ ethodes pour l’isolation de fautes . . . 162

5.28 La table de probabilit´ es conditionnelles du noeud S

r&m

. . . 162

5.29 Sc´ enarios simul´ es . . . 163

(11)

5.30 Matrices de confusion pour chaque approche propos´ ee sur les donn´ ees simul´ ees ` a titre d’exemple . . . 163 A.1 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe CF N (avec c

= 10) : repr´ esentation graphique + TFAs . . . 170 A.2 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

1

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 171 A.3 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

2

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 172 A.4 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

3

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 173 A.5 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

4

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 174 A.6 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

5

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 175 A.7 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

6

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 176 A.8 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

7

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 177 A.9 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

8

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 178 A.10 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

9

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 179 A.11 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

10

(avec c

= 10) :

repr´ esentation graphique + TMDs . . . 180

(12)

A.12 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau Bay´ esien propos´ e par rapport ` a la classe F

11

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 181 A.13 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

12

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 182 A.14 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

13

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 183 A.15 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

14

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 184 A.16 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

15

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 185 A.17 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

16

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 186 A.18 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

17

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 187 A.19 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

18

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 188 A.20 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

19

(avec c

= 10) : repr´ esentation graphique + TMDs . . . 189 A.21 Comparaison entre le sch´ ema de d´ etection par ACP et le r´ eseau

Bay´ esien propos´ e par rapport ` a la classe F

20

(avec c

= 10) :

repr´ esentation graphique + TMDs . . . 190

(13)
(14)

1

Introduction g´ en´ erale

La n´ ecessit´ e permanente des entreprises et industries d’assurer des produits et/ou des services de qualit´ e tout en garantissant la disponibilit´ e de leurs outils et survivre face ` a la concurrence les ont conduits ` a employer de plus en plus de syst` emes automatis´ es et/ou informatis´ es. De nos jours, ces syst` emes sont devenus de plus en plus complexes et difficiles ` a g´ erer dˆ u au nombre ´ enorme de retour de donn´ ees, d’interaction et d’interconnexion entre les diff´ erents com- posants.

Un d´ er´ eglage ou un dysfonctionnement dans le comportement nominal de ces syst` emes peut conduire ` a des cons´ equences s´ erieuses pouvant ˆ etre n´ efastes pour l’humain et l’environnement. De plus, essayer de rem´ edier ` a ces probl` emes peut s’av´ erer coˆ uteux.

Afin d’´ eviter ces situations ind´ esirables, on s’int´ eresse d´ esormais ` a l’utilisa- tion de m´ ethodes de surveillance en imaginant l’int´ erˆ et qu’elles peuvent appor- ter ` a leurs utilisateurs en terme de s´ ecurit´ e, d’augmentation de productivit´ e et de viabilit´ e du syst` eme. Une m´ ethode de surveillance ` a caract` ere universel n’a pas encore vu le jour. En effet, surveiller efficacement un syst` eme n’est pas une tˆ ache ais´ ee. Ceci d´ epend fortement de sa nature et de son domaine mais aussi de la qualit´ e, de la quantit´ e et du type d’information disponible le concernant.

De fa¸con g´ en´ erale, deux cas de figures peuvent ˆ etre distingu´ es afin d’´ etablir une strat´ egie de surveillance :

13

(15)

— la conception d’une m´ ethode de surveillance pour un syst` eme d´ ej` a exis- tant, une situation non ´ evidente qu’on essaie de rendre de plus en plus rare de nos jours. Elle n´ ecessite un effort d’adaptation afin de pouvoir surveiller correctement le syst` eme.

— la conception d’une m´ ethode de surveillance pour un syst` eme qui est en cours de conception, une situation favorable ` a une surveillance optimale du syst` eme si une ´ etude tr` es approfondie est ´ etablie (analyse de suret´ e de fonctionnement, placement des capteurs, etc.). Toutefois, ´ etant don- n´ es les investissements temporels et financiers qu’elles repr´ esentent, ces

´

etudes ne sont pas toujours approfondies suffisamment.

Les m´ ethodes de surveillances utilis´ ees ou propos´ ees dans la litt´ erature peuvent ` a leur tour ˆ etre d´ ecompos´ ees en deux familles : les m´ ethodes ` a base de donn´ ees et les m´ ethodes ` a base de mod` ele. Les m´ ethodes ` a base de mo- d` ele utilisent une repr´ esentation analytique du syst` eme alors que les m´ ethodes

`

a base de donn´ ees ne se basent que sur les mesures prises sur le syst` eme ou leurs transform´ ees. Ces deux familles de m´ ethodes n’emploient donc pas des informations de mˆ eme type. Ainsi, il serait judicieux de pouvoir associer ces m´ ethodes, qu’elles soient ou non de la mˆ eme famille. Ceci pourrait permettre d’am´ eliorer la surveillance, d’augmenter le nombre de sc´ enarios pris en compte et de b´ en´ eficier des avantages de chacune. L’objectif de cette th` ese est d’ap- porter des contributions permettant de mod´ eliser certaines de ces m´ ethodes, afin de les associer et de les exploiter simultan´ ement en se basant sur un seul outil : un R´ eseau Bay´ esien (RB).

Le premier chapitre pr´ esente les r´ eseaux Bay´ esiens. Dans un premier temps, nous les d´ efinissons et pr´ esentons quelques-unes de leurs propri´ et´ es. Par la suite, nous pr´ esentons les diff´ erents noeuds pouvant composer un r´ eseau Bay´ e- sien et qui seront utilis´ es pour la surveillance. Enfin, nous pr´ esentons deux algorithmes d’inf´ erence utilis´ es pour faire du calcul dans les r´ eseaux condition- nels Gaussiens, cas particulier de r´ eseau Bay´ esien.

Le second chapitre est consacr´ e ` a un ´ etat de l’art se voulant non-exhaustif des m´ ethodes propos´ ees dans le contexte de la d´ etection et du diagnostic de fautes. Dans un premier temps, nous pr´ esentons la famille des m´ ethodes ` a base de mod` ele et donnons quelques m´ ethodes propos´ ees dans la litt´ erature pour la d´ etection et l’isolation de fautes. Dans un second temps, nous faisons de mˆ eme pour les m´ ethodes statistiques ou ` a base de donn´ ees.

Les troisi` eme et quatri` eme chapitres sont consacr´ es aux contributions ap-

(16)

port´ ees au domaine de la surveillance des syst` emes par r´ eseau Bay´ esien. Le chapitre 3 porte sur la d´ etection de fautes. Nous commen¸cons par pr´ esenter l’´ etat de l’art de ce concept par r´ eseau Bay´ esien, puis nous pr´ esentons nos propositions suivies par des cas d’applications. Le chapitre 4 pr´ esente quant

`

a lui diverses contributions pour le diagnostic de fautes et la surveillance des syst` emes. Tout d’abord, nous exposons les diff´ erents r´ eseaux Bay´ esiens pro- pos´ es dans la litt´ erature permettant de faire du diagnostic de fautes et de la surveillance des syst` emes. Ensuite, nous pr´ esentons une g´ en´ eralisation des statistiques quadratiques sous r´ eseau Bay´ esien. Cette g´ en´ eralisation nous per- met de faire de la d´ etection et du diagnostic de fa¸con simultan´ ee sous r´ eseaux Bay´ esiens tout en tenant compte d’un rejet de distance. Apr` es la pr´ esenta- tion de quelques r´ eseaux Bay´ esiens pouvant ˆ etre utilis´ es pour la surveillance des syst` emes suivies par des cas d’applications, un cadre probabiliste est pro- pos´ e permettant d’unifier des r´ eseaux Bay´ esiens d´ edi´ es ` a la d´ etection ou au diagnostic de fautes.

Finalement, dans le dernier chapitre, les conclusions et perspectives des

travaux r´ ealis´ es durant cette th` ese sont illustr´ es.

(17)
(18)

2

R´ eseaux Bay´ esiens

I Introduction

L’utilisation des probabilit´ es peut ˆ etre d’un apport consid´ erable pour la prise de d´ ecision et particuli` erement pour assister l’ing´ enieur dans ses choix.

Les probabilit´ es peuvent ˆ etre vues de deux fa¸cons diff´ erentes (Bishop, 2006).

La premi` ere consid` ere la probabilit´ e comme ´ etant le nombre de r´ ep´ etition d’un

´ ev´ enement parmi d’autres (taux, fr´ equences). La seconde d´ efinit la probabilit´ e comme une quantification r´ evisable de l’incertitude (e.g. pour les ´ ev´ enements se r´ ep´ etant rarement et ne pouvant donc pas ˆ etre d´ efinis par un taux). L’utili- sation de l’interpr´ etation Bay´ esienne des probabilit´ es permet l’emploi des deux d´ efinitions.

Prenons un exemple de deux variables continues non-ind´ ependantes x et z, avec z influant sur x. Soit une observation x de x. ´ Etant donn´ ee la non- ind´ ependance de ces deux variables x et z, x agit sur z et de ce fait z doit ˆ etre mise ` a jour. Cela se traduit, dans le domaine probabiliste, par le calcul de la probabilit´ e a posteriori de z ´ etant donn´ ee l’observation x. Ce calcul peut se faire en utilisant le th´ eor` eme de Bayes :

p(z|x = x) = p(x = x|z)p(z)

p(x = x) (2.1)

17

(19)

o` u p(x = x|z) est la fonction de vraisemblance fonction de z. Cette fonction peut ˆ etre apprise, si elle n’est pas connue, ` a partir d’un ensemble d’apprentis- sage disponible (historique d’observations de x et z).

L’´ equation (2.1) permettant de calculer la probabilit´ e a posteriori de z,

´ etant donn´ ee une observation de x, peut ˆ etre ´ ecrite comme suit sans perte de g´ en´ eralit´ e :

p(z|x = x) ∝ p(x = x|z)p(z) (2.2) o` u ∝ indique que p(x = x|z)p(z) est proportionnelle ` a p(z|x = x). Cette ´ ecri- ture peut ˆ etre expliqu´ ee par le fait que le terme p(x = x) dans l’´ equation (2.1) repr´ esente une constante de normalisation assurant la validit´ e de la distribu- tion a posteriori. En effet, celle-ci doit ˆ etre une densit´ e de probabilit´ e et doit donc v´ erifier la condition suivante :

Z

+∞

−∞

p(z|x = x)dz = 1 (2.3)

Un outil permettant de manipuler et de calculer, selon le th´ eor` eme de Bayes, les probabilit´ es de diff´ erentes variables ´ etant donn´ ees leurs nouvelles observa- tions est le r´ eseau Bay´ esien. Sous un r´ eseau Bay´ esien, il est possible de g´ erer les deux r` egles primordiales pour la manipulation des probabilit´ es, la r` egle des sommes et la r` egle du produit. Ces r` egles sont n´ ecessaires pour tout calcul probabiliste, inf´ erence ou apprentissage, impliquant des distributions de proba- bilit´ es. De plus, les r´ eseaux Bay´ esiens permettent une repr´ esentation graphique offrant :

— une vue simple de la structure et des propri´ et´ es du mod` ele probabiliste,

— une illustration visuelle des ind´ ependances conditionnelles,

— un cadre pour les distributions discr` etes et continues,

— des manipulations graphiques alternatives aux manipulations complexes n´ ecessaires pour l’inf´ erence et l’apprentissage dans des mod` eles proba- bilistes.

Dans ce qui suit, nous allons d´ efinir ce qu’est un r´ eseau Bay´ esien, ses pro-

pri´ et´ es et les diff´ erents noeuds pouvant le composer. Ensuite, nous d´ etaillerons

deux algorithmes d’inf´ erence exacte bas´ es sur l’arbre de jonction et propos´ es

dans le cadre des r´ eseaux Bay´ esiens hybrides (r´ eseaux Bay´ esiens compos´ es de

noeuds discrets et/ou Gaussiens).

(20)

II D´ efinition

Un r´ eseau Bay´ esien est une repr´ esentation graphique permettant de mod´ eli- ser des relations incertaines entre variables d´ ecrivant l’influence qu’une variable peut avoir sur une autre. Un r´ eseau Bay´ esien (Jensen and Nielsen, 2007) est compos´ e de ce qui suit :

— un graphe acyclique dirig´ e G, G=(V, E ), o` u V est l’ensemble des som- mets de G (noeuds) pouvant ˆ etre d´ ecompos´ e en deux sous-ensembles : Υ l’ensemble des noeuds discrets et Γ l’ensemble des noeuds continus.

Ainsi, un noeud repr´ esente une variable al´ eatoire pouvant ˆ etre discr` ete ou continue, univari´ ee ou multivari´ ee. E correspond ` a l’ensemble des arˆ etes (arcs) de G. Un arc lie un noeud ”p` ere” ` a un noeud ”enfant”

expliquant ainsi la relation causale (relation de cause ` a effet) ou la r´ e- gression pouvant exister entre eux deux.

— un espace probabiliste fini (Ω, Z , p), avec Ω un espace non-vide, Z un sous espace de Ω et, p une mesure de probabilit´ e dans Z avec p(Ω) = 1.

Nous utilisons la mˆ eme notation pour la distribution de probabilit´ es (cas discret) et la fonction de densit´ e de probabilit´ e (cas continu). Il n’y aura pas d’ambigu¨ıt´e selon le contexte.

— un ensemble de variables al´ eatoires x = x

1

, . . . , x

m

associ´ ees aux som- mets du graphe G et d´ efinies dans (Ω, Z , p), de fa¸con ` a capturer la d´ e- composition de leur distribution de probabilit´ e jointe sous forme d’un produit de distributions conditionnelles, comme suit :

p(x

1

, x

2

, . . . , x

m

) =

m

Y

i=1

p(x

i

|pa(x

i

)) (2.4) o` u pa(x

i

) est l’ensemble des noeuds parents de x

i

dans le graphe G.

Notons qu’un r´ eseau Bay´ esien caract´ erise une et une seule distribution jointe, alors que cette derni` ere peut ˆ etre repr´ esent´ ee par plusieurs r´ e- seaux Bay´ esiens.

— une Table de Probabilit´ es Conditionnelles (TPC) associ´ ee ` a chaque

noeud. Une table de probabilit´ es conditionnelles d´ efinit et d´ ecrit pour

chaque variable les relations causales/d´ ependances probabilistes que

cette derni` ere peut avoir avec ses noeuds parents. Les probabilit´ es ou

distributions de probabilit´ e associ´ ees ` a une table de probabilit´ es condi-

tionnelles peuvent ˆ etre connues (` a l’aide d’experts) ou estim´ ees selon les

(21)

donn´ ees disponibles en utilisant des m´ ethodes statistiques d’´ echantillon- nage (cas non-supervis´ es) ou des m´ ethodes statistiques supervis´ ees.

— des calculs nomm´ es inf´ erence, utilis´ es ´ etant donn´ ee la disponibilit´ e d’une ou plusieurs nouvelle(s) observation(s) (´ evidences) concernant une ou plusieurs variable(s) de G, afin de mettre ` a jour le r´ eseau (e.g. calculer les probabilit´ es a posteriori des noeuds non observ´ es ´ etant donn´ ee(s) la ou les nouvelle(s) information(s) disponible(s)) ainsi que la distribution de probabilit´ e jointe (et celle de chaque variable). Ces calculs sont ´ ega- lement n´ ecessaires dans le cas o` u l’on recherche uniquement (sans avoir d’´ evidence) la distribution d’une seule ou plusieurs variables de G. Ceci correspond ` a ce que l’on appelle une op´ eration de marginalisation. Elle correspond ` a sommer (cas des variables discr` etes) ou int´ egrer (cas des variables continues) sur les variables de G diff´ erentes des variables re- cherch´ ees. Par exemple, soit x

1

, x

2

et x

3

des variables continues. La distribution de probabilit´ e marginale de x

3

revient ` a calculer ceci :

p(x

3

) = Z

p(x

1

, x

2

, x

3

)d(x

1

, x

2

) (2.5) Parmi les diff´ erentes distributions de probabilit´ es continues uni/multivari´ ees, nous nous int´ eressons et concentrons sur l’une des plus importantes et ´ egale- ment la plus utilis´ ee (Bishop, 2006) : la distribution de probabilit´ e normale uni/multivari´ ee. En effet, dans le cadre de la d´ etection et du diagnostic de fautes dans les syst` emes, nous consid´ ererons tout au long du manuscrit que les observations ou mesures prises sur le syst` eme suivent une distribution Gaus- sienne (si ce n’est pas le cas, nous le mentionnerons). Cela est dˆ u et se justi- fie par plusieurs de ses propri´ et´ es analytiques (Bishop, 2006; Ahrendt, 2005) ainsi qu’` a nos perspectives envisag´ ees. Les propri´ et´ es int´ eressantes sont les suivantes :

— une distribution Gaussienne d’une variable x de dimension m est une distribution exponentielle sym´ etrique d´ efinie comme ci-dessous :

N (x|µ; Σ) = 1

m2

|Σ|

12

e

−(x−µ)

TΣ1(x−µ)

2

> 0 (2.6)

(22)

avec, pour tout x :

Z

+∞

−∞

N (x|µ; Σ)dx = 1 (2.7)

o` u la probabilit´ e que x appartienne ` a un intervalle (−∞, v) est donn´ ee par la fonction de distribution cumulative d´ efinit comme suit :

p(v) = Z

v

−∞

N (x|µ; Σ)dx (2.8)

— une distribution Gaussienne est gouvern´ ee, que ce soit une distribution pour une variable x multivari´ ee ou univari´ ee, par uniquement deux para- m` etres ind´ ependants (µ : moyenne, Σ : matrice de variance-covariance (variance σ

2

dans le cas univari´ ee, o` u σ est son ´ ecart-type)), corres- pondant ` a ses moments d’ordre 0 et 1. Ces param` etres peuvent ˆ etre facilement estim´ es ` a partir d’un nombre suffisamment ´ elev´ e de N ob- servations x

i

ind´ ependantes et identiquement distribu´ ees, en utilisant par exemple l’estimation par maximum de vraisemblance (voir (Duda et al., 2001)). Ceci correspond ` a calculer la fonction du logarithme de vraisemblance, donn´ ee ci-dessous :

ln(p(x

1

, . . . , x

N

|µ; Σ)) =

N

X

i=1

ln(N (x

i

|µ; Σ)) (2.9) et d’en d´ eduire les solutions la maximisant, permettant ainsi d’estimer la moyenne et la matrice de variance-covariance. Deux solutions ind´ e- pendantes en d´ ecoulent (dont l’une intervient dans le calcul de l’autre) pr´ esent´ ees ci-dessous :

µ

M V

= 1 N

N

X

i=1

x

i

, (2.10)

Σ

M V

= 1 N

N

X

i=1

(x

i

− µ

M V

)(x

i

− µ

M V

)

T

(2.11) L’esp´ erance de la premi` ere donne µ, alors que celle de la deuxi` eme donne lieu ` a la matrice de variance-covariance biais´ ee, pouvant ˆ etre corrig´ ee en ajustant Σ

M V

.

— une distribution Gaussienne peut ˆ etre ´ ecrite sous la repr´ esentation stan-

(23)

dard fonction de ses moments (moyenne et matrice de variance-covariance) mais ´ egalement sous la repr´ esentation canonique. Ces deux repr´ esenta- tions sont ´ equivalentes, ` a partir de l’une on peut en d´ eduire l’autre.

Cependant, comme on le verra par la suite, la transformation d’´ ecriture peut engendrer une approximation voire mˆ eme ˆ etre impossible dans certains cas.

La repr´ esentation canonique d’une distribution de probabilit´ es Gaus- sienne p(x) d’une variable x, de param` etres µ et Σ, peut ˆ etre d´ efinie comme suit :

p(x) = e

g+xTh−12xTKx

(2.12) o` u

g = ln(cst) − 1

2 µ

T

Σ

−1

µ, (2.13)

h = Σ

−1

µ, (2.14)

K = Σ

−1

(2.15)

et cst est la constante de normalisation.

— une distribution Gaussienne peut s’´ ecrire, ´ etant donn´ ee la matrice de variance-covariance Σ et sa d´ ecomposition en vecteurs propres, comme le produit de m distributions Gaussiennes univari´ ees en projetant x (variable multivari´ ee de m dimensions) dans un nouvel espace z, z = P

T

(x − µ) comme ci-dessous :

p(z) =

m

Y

j=1

1

2π(λ

j

)

1

/2 e

z2 j

2λj

, (2.16)

Σ = P

T

ΛP, P

T

P = I (2.17)

o` u λ

j

est la j

`eme

valeur propre de Σ, P est la matrice des vecteurs propres de Σ et I est la matrice identit´ e.

— la somme de deux variables Gaussiennes ind´ ependantes est une variable Gaussienne. Autrement dit, la convolution de deux Gaussiennes est une Gaussienne.

— une distribution Gaussienne est associ´ ee ` a une variable li´ ee lin´ eairement

`

a une autre variable qui suit une loi de distribution Gaussienne.

(24)

Soit z = Ax + e avec x une variable Gaussienne et e un bruit Gaus- sien, alors p(z) = R

x

p(z|x)p(x) suit une distribution Gaussienne. Cette propri´ et´ e peut ˆ etre primordiale pour les syst` emes dynamiques lin´ eaires Gaussiens respectant la propri´ et´ e de Markov. Elle leurs permet, ´ etant donn´ e l’´ etat initial, de pr´ edire et d’estimer les diff´ erents ´ etats et sorties pass´ e(e)s ou futur(e)s.

— une distribution Gaussienne poss` ede une forme g´ eom´ etrique d´ ependant d’une forme quadratique repr´ esentant la distance de Mahalanobis :

T

2

= (x − µ)

T

Σ

−1

(x − µ) (2.18)

— une distribution Gaussienne jointe de deux ensembles de variables im- plique que la distribution conditionnelle de l’une conditionn´ ee par l’autre, ainsi que leurs distributions marginales, sont ´ egalement Gaussiennes.

— la multiplication de deux distributions Gaussiennes donne lieu ` a une distribution Gaussienne non normalis´ ee (une Gaussienne multipli´ ee par un facteur, voir Ahrendt (2005)).

Soit une variable multivari´ ee x, o` u pour chaque composante k (k ∈ 1, . . . , K ), elle suit une distribution Gaussienne :

x

k

∼ N (µ

k

, Σ

k

) (2.19)

Le produit de ces Gaussiennes donne lieu ` a ceci :

K

Y

k=1

N (µ

k

, Σ

k

) = vN (µ, Σ) (2.20)

o` u :

(25)

µ = Σ

K

X

k=1

Σ

−1k

µ

k

, (2.21)

Σ =

K

X

k=1

Σ

−1k

−1

, (2.22)

v = 1

Q

K

k=1

2π| P

k

|

12

Y

i<j

e

12i−µj)TΣiji−µj)

, (2.23) Σ

ij

= Σ

−1i

ΣΣ

−1j

(2.24)

— ` a partir de la forme quadratique faisant partie du terme de l’exponen- tielle de la distribution jointe d’une variable Gaussienne x = [x

1

x

2

]

T

, avec une moyenne :

µ = µ

1

µ

2

!

(2.25) et une matrice de variance-covariance, partitionn´ ee comme-ceci :

Σ = Σ

11

Σ

12

Σ

21

Σ

22

!

, Σ

12

= Σ

T21

(2.26) dont la matrice inverse Λ = Σ

−1

, nomm´ ee matrice de pr´ ecision, corres- pond ` a :

Σ

−1

= Λ

11

Λ

12

Λ

21

Λ

22

!

(2.27) avec :

Λ

11

= (Σ

11

− Σ

12

Σ

−122

Σ

21

)

−1

, (2.28)

Λ

12

= Λ

11

Σ

12

Σ

−122

, (2.29)

Λ

21

= −Σ

−122

Σ

21

Λ

11

, (2.30)

Λ

22

= Σ

−122

+ Σ

−122

Λ

12

(2.31)

il est facile de d´ eterminer les param` etres de la distribution conditionnelle

Gaussienne p(x

1

|x

2

) de la variable x

1

ou bien la distribution marginale

p(x

2

) de x

2

en utilisant une technique dite ”completing the square” utile

(26)

pour la manipulation des distributions Gaussiennes. Elle se base sur la d´ ecomposition suivante du terme quadratique :

− 1

2 (x−µ)

T

Σ

−1

(x − µ) = − 1

2 (x

1

− µ

1

)

T

Λ

11

(x

1

− µ

1

)

− 1

2 (x

1

− µ

1

)

T

Λ

12

(x

2

− µ

2

) − 1

2 (x

2

− µ

2

)

T

Λ

21

(x

1

− µ

1

)

− 1

2 (x

2

− µ

2

)

T

Λ

22

(x

2

− µ

2

) (2.32) et regroupe les termes selon leur ordre comme ceci :

− 1

2 (x − µ)

T

Σ

−1

(x − µ) = − 1

2 x

T

Σ

−1

x + x

T

Σ

−1

µ + const (2.33) o` u const est une constante ind´ ependante de x. Ensuite, elle vient consi- d´ erer les termes impliquant une variable z, z ∈ (x

1

, x

2

), et les r´ e´ ecrire

´

etant donn´ ee la formule suivante :

− 1

2 (z

T

Az + b

T

z) = − 1

2 (z − A

−1

b)

T

A(z − A

−1

b) − 1

2 b

T

A

−1

b (2.34) o` u A et b sont respectivement une matrice et un vecteur n’incluant pas la variable z. Ceci afin de pouvoir marginaliser facilement sur z (sachant les propri´ et´ es d’une densit´ e de probabilit´ e) et d´ eduire ses param` etres.

— une variable repr´ esentant une somme de m autres variables al´ eatoires,

´

etant donn´ e le th´ eor` eme central limite, suit une distribution de probabi- lit´ e qui tend vers une distribution Gaussienne. En d’autres termes, plus le nombre m est grand, plus la distribution de leur somme suit une dis- tribution Gaussienne. De plus, du fait qu’une seule Gaussienne permet d’approximer des distributions de probabilit´ es, la somme de plusieurs d’entre elles le permet d’autant plus. En effet, dans le cas de distri- butions multimodales, l’utilisation d’une Gaussienne pose probl` eme car elle ne contient qu’un seul maximum. Ainsi, l’utilisation de cette somme de Gaussiennes, dite m´ elange ou mixture de Gaussienne, peut ˆ etre une solution ` a consid´ erer.

— ´ etant donn´ ee sa forme exponentielle et sa souplesse analytique, la dis-

tribution Gaussienne permet, contrairement ` a d’autres distributions

continues, de b´ en´ eficier d’algorithmes d’inf´ erence exacte au sein de r´ e-

seaux Bay´ esiens comportant des noeuds Gaussiens (r´ eseaux condition-

nels Gaussiens).

(27)

III Propri´ et´ es des r´ eseaux Bay´ esiens

Les r´ eseaux Bay´ esiens sont issus de l’hybridation de deux domaines diff´ e- rents : la th´ eorie des graphes et la th´ eorie des probabilit´ es. Un r´ eseau Bay´ esien est une repr´ esentation graphique d’un mod` ele probabiliste exposant les diff´ e- rentes relations que peuvent avoir les variables du mod` ele. Sa structure permet des calculs locaux de probabilit´ es en utilisant toute l’information de la distri- bution jointe. N´ eanmoins, sur un r´ eseau Bay´ esien on ne peut pas exprimer toutes les relations possibles. Cependant, il reste un cadre id´ eal et naturel pour repr´ esenter les relations causales et les hypoth` eses d’ind´ ependance entre variables. En d’autres termes, un r´ eseau Bay´ esien exprime et factorise la pro- babilit´ e jointe de m variables en m ind´ ependances conditionnelles.

Ces ind´ ependances conditionnelles permettent de r´ eduire les calculs n´ eces- saires pour l’inf´ erence et l’apprentissage d’un mod` ele probabiliste en r´ eduisant tout simplement sa structure. Par exemple, une probabilit´ e jointe de m va- riables s’´ ecrivant en utilisant la r` egle de chaˆıne (general product rule) comme ceci :

p(x

1

, x

2

, . . . , x

m

) = p(x

m

|x

m−1

, . . . , x

1

) . . . p(x

2

|x

1

)p(x

1

) (2.35) Cette ´ equation peut ˆ etre r´ eduite en introduisant ou en d´ efinissant les ind´ e- pendances conditionnelles entre ses variables. De plus, en illustrant ces ind´ e- pendances sous un r´ eseau Bay´ esien, il suffit de multiplier les distributions de probabilit´ e conditionnelle de chaque variable en fonction de ses parents, pour r´ e´ ecrire la distribution jointe comme ceci :

p(x

1

, x

2

, . . . , x

m

) =

m

Y

i=1

p(x

i

|pa(x

i

)) (2.36)

Toutefois, le fait que la distribution conditionnelle de chaque variable dans cette ´ ecriture soit d´ efinie en fonction de ses parents ne signifie pas que d’autres variables n’influent pas sur elle. En d’autres termes, un noeud peut ˆ etre in- fluenc´ e par d’autres noeuds que ses parents dans le r´ eseau Bay´ esien. Ces noeuds respectent la condition de Markov qui stipule que chaque variable est isol´ ee par un sous-ensemble de variables de l’ensemble V appel´ e couverture de Markov.

Une variable est donc conditionnellement ind´ ependante des autres variables en

dehors de sa couverture. Celle-ci inclut ses noeuds parents, enfants et les co-

(28)

parents de ses enfants (e.g. figure 2.1). Ses noeuds, une fois observ´ es, bloquent le noeud en question des autres noeuds hors du p´ erim` etre.

. . .

. . . Noeuds enfants Noeuds parents

Co-paC ren ts s Co-paC ren tss

Figure 2.1 – La couverture de Markov

Cette notion de noeuds bloquants est une fa¸con de d´ ecrire ou de reconnaitre dans un r´ eseau Bay´ esien qu’un ensemble de variables est conditionnellement ind´ ependant ´ etant donn´ ee(s) une ou plusieurs autres variables. Cette propri´ et´ e qu’offrent les r´ eseaux Bay´ esiens est utile et primordiale pour tout calcul d’inf´ e- rence, mais de plus elle permet de d´ eterminer visuellement et imm´ ediatement si un ensemble de variables est conditionnellement ind´ ependant d’un autre en- semble de variables (Barber, 2012). Elle permet ainsi d’´ eviter le recours ` a des tests r´ ep´ etitifs impliquant la sommation et la multiplication de probabilit´ es, et une perte de temps pour d´ eterminer la validit´ e ou non de la d´ ecomposition de la distribution jointe. Des algorithmes (Nielsen and Jensen, 2009; Jensen and Nielsen, 2007) se basant sur cette notion de noeuds bloquants et chemins blo- qu´ es ont ´ et´ e mis en place afin de permettre d’interpr´ eter directement ` a partir du graphe l’ind´ ependance conditionnelle d’une variable sur une ou plusieurs autres variable(s).

Soit une distribution jointe p(x

1

, x

2

, x

3

) de trois variables x

1

, x

2

, x

3

. Cette distribution jointe peut ˆ etre factoris´ ee de diff´ erentes fa¸cons, donnant ainsi lieu

`

a diff´ erents graphes acycliques dirig´ es. Ces graphes peuvent ˆ etre class´ es selon

les directions des fl` eches pr´ esentes sur le noeud correspondant ` a la variable x

3

.

Ainsi, on peut distinguer trois r´ eseaux Bay´ esiens ayant des chemins diff´ erents.

(29)

Le premier est un r´ eseau Bay´ esien avec un chemin contenant un noeud avec une connexion divergente (noeud queue-` a-queue), comme montr´ e dans la figure 2.2.

x

3

x

1

x

2

Figure 2.2 – Noeud queue-` a-queue : bloquant lorsque x

3

est observ´ ee, et non bloquant lorsque on marginalise sur celle-ci

La distribution lui correspondant est donn´ ee ci-dessous :

p(x

1

, x

2

, x

3

) = p(x

1

|x

3

)p(x

2

|x

3

)p(x

3

) (2.37) Lorsque x

3

est observ´ ee, il est facile de constater que les variables x

1

et x

2

sont conditionnellement ind´ ependantes. Cela peut s’´ ecrire comme ceci :

p(x

1

, x

2

|x

3

) = p(x

1

|x

3

)p(x

2

|x

3

) (2.38) Ainsi, on peut dire que x

3

bloque le chemin entre x

1

et x

2

. Cependant, lorsqu’aucune des variables n’est observ´ ee, la marginalisation de p(x

1

, x

2

, x

3

) sur x

3

, ne permet g´ en´ eralement pas d’obtenir deux termes ind´ ependants.

Deux autres r´ eseaux Bay´ esiens donnant lieu ` a deux distributions ´ equiva- lentes ` a celle du premier graphe sont ceux avec un noeud x

3

pr´ esentant une connexion en s´ erie (tˆ ete-` a-queue), comme montr´ e sur la figure 2.3. Leurs dis- tributions jointes sont ´ equivalentes et peuvent s’´ ecrire comme ci-dessous :

p(x

1

, x

2

, x

3

) = p(x

2

)p(x

3

|x

2

)p(x

1

|x

3

) (2.39)

= p(x

1

)p(x

3

|x

1

)p(x

2

|x

3

) (2.40)

Lorsqu’aucune des variables les composant sont observ´ ees alors les variables

x

1

et x

2

ne sont pas conditionnellement ind´ ependantes ´ etant donn´ ee la variable

(30)

x

3

, comme on peut le voir ci-dessous : p(x

1

, x

2

) = X

x3

p(x

1

, x

2

, x

3

) = p(x

2

)p(x

1

|x

2

) (2.41)

= p(x

1

)p(x

2

|x

1

) (2.42)

x

3

x

1

x

2

x

3

x

4

x

5

(a) (b)

Figure 2.3 – Noeuds tˆ ete-` a-queue : le noeud x

3

est bloquant dans les deux r´ e- seaux Bay´ esiens lorsqu’il est observ´ e, et il ne l’est plus lorsque l’on marginalise sur lui sachant qu’il n’est pas observ´ e.

Finalement, le dernier r´ eseau Bay´ esien donnant lieu ` a une autre factorisa- tion de la distribution jointe inclue un chemin avec un noeud x

3

convergeant (tˆ ete-` a-tˆ ete), tel qu’illustr´ e sur la figure 2.4.

La distribution jointe lui correspondant est donn´ ee ci-dessous :

p(x

1

, x

2

, x

3

) = p(x

1

)p(x

2

)p(x

3

|x

1

, x

2

) (2.43) Dans ce cas de figure, lorsqu’aucune des variables n’est observ´ ee, la margi- nalisation de la probabilit´ e jointe en fonction de x

3

permet aux deux variables x

1

et x

2

d’ˆ etre ind´ ependantes, p(x

1

, x

2

) = p(x

1

)p(x

2

). Cependant, si les va- riables x

1

et x

2

sont conditionn´ ees par x

3

(x

3

est observ´ ee) alors elles sont d´ ependantes graphiquement. En d’autres termes, x

3

ne bloque pas le chemin entre x

1

et x

2

et ne permet donc pas ` a x

1

et x

2

d’ˆ etre ind´ ependants. Il faut noter que si le noeud x

3

poss` ede des noeuds enfants, alors observer ceux-ci n’induit pas une ind´ ependance entre x

1

et x

2

. Toutefois, dans le cas o` u x

3

poss` ede des noeuds enfants observ´ es x

1

et x

2

se retrouvent conditionnellement ind´ ependants.

Les diff´ erents exemples vus pr´ ec´ edemment nous permettent de voir les effets engendr´ es par une marginalisation ou un conditionnement sur une variable

´ etant donn´ ee la structure d’un mod` ele probabiliste et son ´ equivalent en r´ eseau

(31)

x

3

x

1

x

2

Figure 2.4 – Noeud tˆ ete-` a-tˆ ete

Bay´ esien. Pour pouvoir g´ en´ eraliser ces conclusions sur d’autres structures de r´ eseaux Bay´ esiens plus complexes et en consid´ erant cette fois des ensembles de variables, un concept essentiel est introduit, nomm´ e la s´ eparation directe (D- separation), permettant de d´ eterminer les ind´ ependances conditionnelles entre ces ensembles. Ce concept peut ˆ etre d´ efini comme ceci :

Soit A, B, C trois ensembles de variables faisant partie d’un r´ eseau Bay´ e- sien, A, B, C ⊆ V , d´ efinis de la sorte

A ∩ B = ∅ , (2.44)

B ∩ C = ∅ , (2.45)

A ∩ C = ∅ (2.46)

On peut dire que les noeuds de A et B sont conditionnellement ind´ epen- dants de C (A est directement s´ epar´ e de B ´ etant donn´ e C) uniquement si tous les chemins possibles d’un noeud de A ` a un noeud de B passant par un noeud de C sont bloquant. Un chemin est dit bloquant si celui-ci comporte un noeud respectant au moins l’une des deux conditions suivantes :

— un noeud appartenant ` a l’ensemble C avec une connexion en s´ erie ou une connexion divergente,

— un noeud ayant une connexion convergente et ne faisant pas parti (ni lui, ni ses noeuds enfants) de l’ensemble C.

Une autre prori´ et´ e int´ eressante des r´ eseaux Bay´ esiens est leur capacit´ e ` a

int´ egrer la notion de temps. Cette notion est exprim´ ee par le biais d’arcs dits

temporels. Ces arcs viennent lier deux noeuds appartenant ` a deux couches

successives selon la propri´ et´ e de Markov (le futur est conditionnelement ind´ e-

pendant du pass´ e ´ etant donn´ e le pr´ esent). Ces couches repr´ esentent chacune

un r´ eseau Bay´ esien. Chaque r´ eseau repr´ esente un instant du temps. L’ensemble

(32)

de ces r´ eseaux li´ es par des arcs temporels repr´ esente un intervalle born´ e dans le temps. Cet ensemble est dit r´ eseau Bay´ esien dynamique. Plusieurs algo- rithmes de calculs dans ce type de r´ eseau ont ´ et´ e propos´ es dans la litt´ erature (voir (Murphy, 2002)).

IV Noeuds, relations et structures

+ Dans le cadre de ces travaux de recherche, nous nous int´ eressons ` a des sys- t` emes impliquant des variables continues. Afin de pouvoir les manipuler dans le contexte des r´ eseaux Bay´ esiens, nous allons utiliser le r´ eseau Conditionnel Gaussien (RCG). Le r´ eseau conditionnel Gaussien est une forme particuli` ere de r´ eseau Bay´ esien. Dans ce type de r´ eseau, chaque noeud repr´ esente une va- riable al´ eatoire pouvant ˆ etre discr` ete (suivant une loi de probabilit´ e discr` ete) ou continue (univari´ ee/ multivari´ ee, sous l’hypoth` ese Gaussienne). Les diff´ e- rents noeuds peuvent ˆ etre reli´ es entre eux, cependant pour assurer des calculs exacts (voir (Cowell, 2005; Lauritzen and Jensen, 2001; Lauritzen, 1992)), les noeuds discrets ne sont pas autoris´ es ` a avoir des noeuds continus comme pa- rents. Ainsi, chaque noeud Gaussien, ´ etant donn´ es ses parents Gaussiens, suit un mod` ele Gaussien de r´ egression lin´ eaire (une combinaison lin´ eaire des obser- vations de ses parents continus) dont les param` etres d´ ependent ´ egalement de ses parents discrets. Contrairement aux noeuds discrets, les noeuds Gaussiens peuvent avoir des noeuds Gaussiens et/ou discrets comme parents. Nous allons d´ etailler plus pr´ ecis´ ement toutes ces relations. Par la suite, les noeuds continus seront repr´ esent´ es graphiquement par des cercles, alors que les noeuds discrets seront repr´ esent´ es par des carr´ es.

IV.1 Relations entre noeuds

Noeud discret avec parents discrets

Consid´ erons un noeud discret D avec K valeurs k, k = 1, · · · , K, et d pa- rents pa(D) o` u, par exemple, chacun d’entre eux prend aussi K valeurs (soit K

d

combinaisons diff´ erentes). Chaque noeud discret, ´ etant donn´ es ses parents, suit une loi de distribution g´ en´ eralement repr´ esent´ ee sous une table de probabi- lit´ es conditionnelles. La table de probabilit´ es conditionnelles de D est pr´ esent´ ee dans la figure 2.5, o` u p(k|k

pa(D)

) est la probabilit´ e de la valeur k correspondant

`

a la k

`emepa(D)

valeur de ses parents. Cette table augmente exponentiellement ´ etant

(33)

donn´ es le nombre de variables al´ eatoires prises en compte et le nombre de leurs valeurs.

k

pa(D)

D

1 · · · K

1 p(k = 1|k

pa(D)

= 1) · · · p(k = K|k

pa(D)

= 1)

.. . .. . .. . .. .

K p(k = 1|k

pa(D)

= K) · · · p(k = K |k

pa(D)

= K)

.. . .. . .. .

K

d

p(k = 1|k

pa(D)

= K

d

) · · · p(k = K|k

pa(D)

= K

d

)

Figure 2.5 – La table de probabilit´ es conditionnelles de D ´ etant donn´ es ses noeuds parents

Noeud Gaussien avec parents discrets

Soit un noeud Gaussien x ayant seulement des noeuds discrets comme parents, pa(x), o` u nous assumons ` a titre d’exemple que chaque parent poss` ede K valeurs. Ce noeud est lin´ eaire et Gaussien pour chaque valeur k

pa(x)

de ses d parents pa(x). Sa distribution conditionnelle peut s’´ ecrire :

p(x|k

pa(x)

) = N (µ

kpa(x)

; Σ

kpa(x)

), k

pa(x)

∈ I

pa(x)

(2.47) o` u µ

kpa(x)

et Σ

kpa(x)

sont respectivement la moyenne de x et sa matrice de variance-covariance pour chaque valeur k

pa(x)

de l’ensemble des configurations possibles I

pa(x)

de ses d parents. Cette distribution pour chaque valeur des parents de x peut ˆ etre repr´ esent´ ee par une table de probabilit´ es conditionnelles comme le montre la figure 2.6.

i

pa(x)

x

1 x ∼ N (µ

kpa(x)=1

; Σ

kP a(x)=1

)

.. . .. .

K x ∼ N (µ

kpa(x)=K

; Σ

kpa(x)=K

)

.. . .. .

K

d

x ∼ N (µ

kpa(x)=Kd

; Σ

kpa(x)=Kd

)

Figure 2.6 – La table de probabilit´ es conditionnelles de x ´ etant donn´ es ses

noeuds parents discrets

(34)

Noeud Gaussien avec parents Gaussiens

Soit un noeud Gaussien x avec c noeuds Gaussiens Φ

1

, . . . , Φ

c

comme pa- rents. Ce type de noeud est appel´ e noeud lin´ eaire Gaussien. Sa distribution conditionnelle est donn´ ee par :

p(x|Φ

1

, . . . , Φ

c

) = N (µ

x

+ W

1

Φ

1

+ . . . (2.48) +W

c

Φ

c

; Σ

x

)

o` u µ

x

est un param` etre qui gouverne la moyenne de x, Σ

x

est la matrice de variance-covariance de x, et W

1

, . . . , W

c

sont les coefficients de r´ egression.

La distribution de probabilit´ e jointe p(x, pa(x)) est aussi Gaussienne. Dans le cas o` u Σ

x

est nulle alors (2.48) repr´ esente une relation lin´ eaire d´ eterministe entre x et ses parents.

Noeud Gaussien avec parents Gaussiens et discrets

Soit un noeud Gaussien x avec c noeuds parents Gaussiens Γ

x

= pa(x) ∩ Γ, Γ

x

= Φ

1

, . . . , Φ

c

, et d autres discrets Υ

x

= pa(x) ∩ Υ. Ce type de noeud est appel´ e noeud lin´ eaire conditionnel Gaussien. Sa distribution est donn´ ee par :

p(x|pa(x)) = N (µ

xkΥx

+ W

k1Υx

Φ

1

+ . . . (2.49) + W

kc

Υx

Φ

c

; Σ

xk

Υx

), k

Υx

∈ [1, . . . , K

d

]

o` u k

Υx

est une configuration parmi les K

d

configurations possibles que peuvent avoir les parents discrets de x. µ

xk

Υx

est un param` etre qui gouverne la moyenne de x , Σ

xk

Υx

est la matrice de variance-covariance de x, et W

k1

Υx

, . . . , W

kc

Υx

sont les coefficients de r´ egression.

La distribution de probabilit´ e jointe p(x, pa(x)) correspond ` a une somme (mixture) de Gaussiennes et peut s’´ ecrire comme ceci :

p(x) =

KD

X

kΥx=1

p(k

pa(x)

)p(x, Γ

x

|k

Υx

) (2.50)

(35)

Noeud discret avec parents Gaussiens

Le noeud discret avec parents Gaussiens est rarement utilis´ e dans la litt´ e- rature. D’ailleurs, il n’est pas pris en compte par la plupart des algorithmes d’inf´ erence et non impl´ ement´ e dans la plupart des logiciels et boites ` a ou- tils d´ edi´ es aux r´ eseaux Bay´ esiens (e.g. BNT, Hugin, etc.). Par exemple dans (Lauritzen and Jensen, 2001; Lauritzen, 1992), deux algorithmes fr´ equemment utilis´ es pour les calculs dans les r´ eseaux Bay´ esiens hybrides, un noeud Gaussien est assum´ e n’avoir que des enfants Gaussiens. Toutefois, ces deux algorithmes ont ´ et´ e ´ etendus pour tenir compte du fait qu’un noeud Gaussien peut ˆ etre parent d’un noeud discret. Dans (Murphy, 1998), un algorithme non exact bas´ e sur un rapprochement variationnel a ´ et´ e propos´ e. Quelques ann´ ees plus tard, (Lerner et al., 2001) sugg` ere un algorithme exact g´ erant ces noeuds dis- crets (´ egalement appel´ es noeuds softmax) d´ ependant d’un ou plusieurs noeuds continus.

L’utilisation de ces diff´ erents types de noeuds dans un r´ eseau Bay´ esien pourrait permettre, par exemple, de mod´ eliser des techniques statistiques per- mettant la d´ etection et le diagnostic de fautes. Une m´ ethode classique parmi ces techniques est l’analyse discriminante, ayant pour but de r´ ealiser de la classification supervis´ ee.

IV.2 Analyse discriminante : le cas g´ en´ eral

Afin de mod´ eliser ou de pr´ edire la nature des donn´ ees, des outils statistiques

sont utilis´ es. Parmi ces outils, on peut distinguer les m´ ethodes de classifica-

tion. Ces m´ ethodes peuvent ˆ etre discrimin´ ees de fa¸con g´ en´ erale en deux classes :

les m´ ethodes supervis´ ees et les m´ ethodes non-supervis´ ees. Les m´ ethodes non-

supervis´ ees manipulent un ensemble de donn´ ees brut sans l’aide d’aucun a

priori. Ces m´ ethodes, dites m´ ethodes de clustering, essayent de discriminer cet

ensemble en K classes (non connues a priori). Les m´ ethodes de classification

supervis´ ees, contrairement au cas non-supervis´ e, disposent d’un ensemble d’ap-

prentissage complet, c’est ` a dire qu’une classe (parmi les diff´ erentes K classes

connues) est attribu´ ee ` a chaque observation appartenant ` a l’ensemble d’ap-

prentissage. Parmi les outils pouvant ˆ etre utilis´ es pour la classification nous

pouvons citer : KPPV : K-Plus Proche Voisin (Cover and Hart, 1967), RNA :

R´ eseaux de Neurones Artificiels (Zhang, 2000), SVM : S´ eparateurs ` a Vaste

Marge (Byun and Lee, 2002), etc.

(36)

Les r´ eseaux Bay´ esiens peuvent ˆ etre ´ egalement utilis´ es pour la classifica- tion supervis´ ee de donn´ ees multidimensionnelles. Ces r´ eseaux sont dits r´ eseaux Bay´ esiens classifieurs (Friedman et al., 1997). L’ensemble de leurs noeuds V in- clus toujours un noeud discret indexant les diff´ erentes classes. Certaines struc- tures prises par ces r´ eseaux donnent lieu ` a une Analyse Discriminante (AD) ou ` a une mixture d’analyse discriminante.

L’analyse discriminante (McLachlan, 2004; Fukunaga, 1990) est une tech- nique statistique supervis´ ee (un apprentissage supervis´ e pour la classification) utilis´ ee pour pr´ edire la classe d’une nouvelle observation en discriminant entre m, m > 1, classes ou ensembles (voir (Duda et al., 2001)), g´ en´ eralement distri- bu´ e(e)s sous l’hypoth` ese de normalit´ e.

Soit x un nouveau vecteur d’observation ind´ ependant et identiquement dis- tribu´ e (i.i.d.) d’une variable continue x ∈ R

m

, et un ensemble de donn´ ees d’apprentissage o` u chaque observation de x est associ´ ee ` a sa classe d’apparte- nance (une des valeurs ou ´ etats de la variable discr` ete D ayant comme valeurs C

k,k∈1,...,K

). Contrairement ` a d’autres m´ ethodes (multi-class logistic r´ egression, SVM, RN, etc.) mod´ elisant directement la relation entre les deux variables d’entr´ ee (x) et de sortie (la classe d’appartenance), l’analyse discriminante (Jebara, 2001) calcule la probabilit´ e a posteriori (voir ´ equation (2.52)) don- n´ ee par p(C

k

|x) apr` es avoir d´ efini la fonction de densit´ e conditionnelle et ses param` etres ainsi que la probabilit´ e a priori de D, p(D = C

k

), de chaque classe.

p(D = C

k

|x) ∝ p(D = C

k

)p(x|D = C

k

) (2.51)

= p(D = C

k

)p(x|D = C

k

)

p(x) , p(x) > 0 (2.52) o` u p(x) = P

K

k=1

p(D = C

k

)p(x|D = C

k

) est un facteur de normalisation pouvant ˆ etre omis comme mentionn´ e pr´ ec´ edemment (voir ´ equation (2.2)).

Selon l’hypoth` ese ´ emise (distribution consid´ er´ ee) et la mani` ere dont les donn´ ees se pr´ esentent, la probabilit´ e a priori de la classe C

k

peut ˆ etre d´ efinie de plusieurs fa¸cons. Cependant, la mani` ere la plus r´ epandue et naturelle est de prendre en compte la proportion de chaque classe dans l’ensemble d’appren- tissage. Ainsi, on peut ´ ecrire :

p(D = C

k

) = N

Ck

P

K

j=1

N

Cj

(2.53)

Références

Documents relatifs

– Il ne peut y avoir plus d’un processus dans sa section critique en mˆeme temps – Un processus en dehors de sa section critique ne peut bloquer un autre

Jacques Gangloff (ENSPS) Syst `emes temps r ´eel et syst `emes embarqu ´es Ann ´ee scolaire 2007-2008 1 /

I ´ ex´ ecution : permet de lancer le prg contenu ds le fichier ss forme de code binaire ex´ ecutable ou de script shell ; pour un r´ ep, permet de traverser le r´ ep

but it is not sure all the social network is small... R´ eseaux homog` enes R´ eseaux petit monde R´ eseaux sans ´ echelle caract´ eristique. The small world

Lorsqu’une personne se rend compte qu’elle n’est pas de la mˆ eme opinion qu’une personne voisine, elle peut d´ ecider soit de changer d’opinion et donc adopter l’opinion de

Lorsqu’une personne se rend compte qu’elle n’est pas de la mˆ eme opinion qu’une personne voisine, elle peut d´ ecider soit de changer d’opinion et donc adopter l’opinion de

Etude du courant en r´ egime sinuso¨ıdal forc´ e dans le circuit RLC s´ erie.. Etude de l’amplitude en fonction de la pulsation du g´ en´ erateur, recherche du maximum

– Identification des services r´ eseaux utilisant ces ports de communications Les syst` emes utilis´ es pour les exp´ erimentations sont du type Windows 2000, version serveur et