• Aucun résultat trouvé

Simulation de pannes souterraines

L’idée maintenant est de simuler des pannes souterraines pour chaque départ HTA et ainsi nous pourrons calculer le critère B pour plusieurs années d’affilée et les comparer au critère B que nous venons de calculer ci-dessus.

Pour cela, il faut savoir quelle loi serait convenable pour réaliser ces simulations. Pour trouver cette loi, nous nous basons sur nos données de 2008 à 2011.

Ici, nous souhaitons modéliser les incidents uniquement souterrains et pris cellule par cellule. Les temps inter-incidents sont donc plus espacés et il est très rare qu’il y ait deux ou plusieurs incidents la même journée pour un même départ HTA. Cela laisse supposer que nous pouvons tenter de modéliser ces incidents par un processus de Poisson homogène cette fois-ci.

Nous allons donc tester sur nos données de 2008 à 2011, s’il est possible de modéliser les incidents souterrains pris cellule par cellule par un processus de Poisson homogène. Il nous faut alors tester si les temps inter-incidents suivent une loi exponentielle de paramètre λ > 0.

Comme les données que nous avons ne portent que sur quatre années, il n’est pas évident d’avoir un échantillon assez large pour un départ donné. Nous allons donc réaliser nos tests sur le départ qui a subi le plus d’incidents souterrains durant ces quatre dernières années. Il s’agit du départ no14 du poste source Port du Rhin. Il s’est produit 13 incidents souterrains de 2008 à 2011 sur ce départ avec les temps d’arrivées Tn et les temps inter-arrivées Xn suivants :

T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12 T13

164 356 578 603 626 647 741 866 874 956 1049 1057 1173

X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13

164 192 222 25 23 21 94 125 8 82 93 8 116

Nous testons si les Xn sont distribuées suivant une loi exponentielle avec la fonction ks.test

de R. Nous obtenons la statistique de test de Kolmogorov-Smirnov : D13 = 0, 2124.

Nous comparons D13 à la valeur critique d13 = √c1313 = 1,035413 = 0, 2871683. D13 ≤ d13 et donc nous décidons de ne pas rejeter l’hypothèse nulle.

Utilisons également la librairie « fitdistrplus » et ses fonctions fitdist et gofstat. Nous obte- nons :

– Statistique de Kolmogorov-Smirnov : D13 = 0, 2124 – Statistique de Cramer-Von Mises : W2 = 0, 0866 – Statistique d’Anderson-Darling : A2 = 0, 4697

La décision du test de Kolmogorov-Smirnov n’est pas calculée. Dans l’aide de la fonction gofstat, il est dit que le résultat du test de Kolmogorov-Smirnov n’est donné seulement si le jeu de données est supérieur à 30 observations, or ce n’est pas le cas de notre échantillon. Ce test n’est donc pas recommandé pour notre échantillon même si nous pouvons comparer D13 à d13 comme nous l’avons fait précédemment.

Les deux autres tests donnent leur décision pour des jeux de données supérieurs à cinq observations. Notre jeu de données est composé de 13 observations donc les décisions des tests sont données et ils ne rejettent pas l’hypothèse nulle.

Nous pouvons ainsi conclure que les temps inter-incidents souterrains pour le départ no14 du poste source du Port du Rhin peuvent être modéliser par un processus de Poisson homogène d’intensité λ > 0.

Il n’est pas possible de tester sur tous les autres départ HTA des autres postes sources car nous n’aurions à chaque fois que des échantillons avec un nombre d’observations très faible, mais dans la suite nous supposerons que nous pouvons modéliser les incidents souterrains pour chaque cellule par un processus de Poisson homogène.

Simulations des pannes.

Si pour un départ donné, les pannes peuvent se modéliser par un processus de Poisson homogène λ > 0, nous pouvons simuler les temps inter-incidents par la loi exponentielle de paramètre λ d’après la proposition 1, page 19.

Nous allons donc simuler des temps inter-incidents grâce à la loi exponentielle pour chacun des départs HTA. Le paramètre λ de la loi exponentielle sera pour chaque départ l’espérance

Epanne que nous avons calculé plus haut. Puis, nous cumulons les temps inter-incidents simulés

pour chaque départ HTA pour obtenir les dates d’arrivées des incidents souterrains de chaque départ. Le programme R de ces simulations est donnée en annexe 6, page 50.

Ensuite, nous décidons d’observer ce qu’il se passe sur 100 années. Nous comptabilisons ainsi le nombre d’incidents qui se trouvent dans l’intervalle [0 ;365], ]365 ;730], . . ., ]36 135 ;36 500] pour chaque cellule de chaque poste source.

Nous obtenons donc un grand tableau avec beaucoup de 0, de 1 et de 2, qui correspondent au nombre d’incidents qui ont eu lieu telle ou telle année pour un départ donné. Il y a également quelques 3 et 4 qui se trouvent dans le tableau. Cela arrive très rarement et s’explique par le fait que certains départs HTA sont très long et donc nous ne pouvons pas exclure que sur un même départ, il arrive parfois trois ou quatre incidents dans la même année.

Une fois ce travail effectué, nous avons toutes les données à disposition pour calculer le critère B pour 100 ans d’affilée par la formule que nous rappelons :

Critère B = X Incidents i de l’année

Durée de l’incident i * Nb de clients coupés dans l’incident i Nombre total de client ÉS

Nous pouvons alors maintenant comparer le moyenne des critères B obtenus avec le critère B que nous avons calculé avec les espérance de panne :

• Critère B attendu par an = 10,17 minutes.

• Moyenne des critères B sur 100 années de simulations de pannes = 9,56 minutes.

Les deux résultats sont très proches.

4.4

Quelques représentations graphiques.

La figure 23, page 40, est très intéressante car elle nous permet de remarquer que les quatre dernières années ont été atypiques au niveau du critère B, et cela est plus particulièrement vrai pour l’année 2010 et 2011 avec un critère B de 3 minutes. Nous observons également la

La figure 24 nous montre aussi une grande dispersion au niveau du nombre d’incidents. D’une année à l’autre nous pouvons avoir de 50 à 100 incidents. 2008 et 2009 ont été des années avec un nombre d’incidents plutôt élevé au contraire de 2010 et 2011 qui sont en dessous de la moyenne sur les 100 années de simulations.

Figure 23 – Boîtes à moustaches du critère B sur 100 ans

Figure 24 – Boîtes à moustaches du nombre d’incidents sur 100 ans

Nous pouvons également observer les distributions associées au critère B et au nombre d’incidents :

Figure 25 – Distribution du critère B sur 100 ans

Figure 26 – Distribution du nombre d’inci- dents sur 100 ans

Nous observons à la figure 25 qu’un quart des critères B se situent entre 9 et 10 minutes, et quasiment la moitié entre 8 et 10 minutes.

Concernant le nombre d’incidents, la figure 26 montre que plus d’un quart des nombres d’incidents sont entre 70 et 75 incidents, et près de 60% des nombres d’incidents sont entre 60 et 75 incidents.

Nombre de clients en fonction de la durée de coupure.

Nous pouvons afficher une fonction de lissage « loess » basée sur une régression non para- métrique grâce à la fonction scatterplot de R.

Nous avons représenté ici la 5eannée des simulations, mais nous pourrions le faire pour les 100 années. L’allure de la courbe est souvent la même pour toute les années mais il pourrait être intéressant de voir la dispersion du nombre de clients pour les différentes classes de durées sur les 100 ans. C’est ce que nous affichons à la page suivante.

Nous pouvons afficher également le nombre de clients en fonction du nombre de coupures :

L’allure des graphes est toujours le même suivant les années : environ 350 000 clients qui n’ont aucune coupure à l’année, entre 50 000 et 100 000 clients qui ont une coupure à l’année et entre 5 000 et 15 000 clients qui ont deux coupures la même année.

Comme nous l’avons déjà dit précédemment, il est rare que des clients subissent trois à quatre pannes dans la même année, mais cela peut arriver parfois. Cela arrive sur des départs HTA avec une grande longueur de câbles et concerne généralement moins de 10 000 clients.

Conclusion – Perspectives.

Ce stage en entreprise au sein du Groupe Électricité de Strasbourg a été très intéressant. Ce stage m’a permis de découvrir le monde de l’entreprise et le mode de fonctionnement d’un grand groupe comme celui d’Électricité de Strasbourg.

Ce stage m’a permis également d’approfondir mes compétences au niveau du logiciel R et du tableur Excel. Il m’a permis de faire de nombreuses recherches sur différents points mathématiques et statistiques et ainsi approfondir mes connaissances, notamment au sujet des processus de Poisson.

Je me suis également rendu compte des difficultés auxquelles un statisticien peut être confrontées, et notamment le recueil des données et la mise en équation d’un problème réel.

Ce stage a été un grand enrichissement personnel que ce soit au niveau humain ou au niveau des compétences développées et je remercie encore une fois toutes les personnes qui par leurs accueils, leurs aides et leurs conseils ont participé au bon déroulement de mon stage.

Au niveau des perspectives, les résultats du chapitre 4 sont très intéressants car ils per- mettent de situer le critère B d’une année dans la distribution obtenue par les simulations et ainsi de vérifier si une dérive « technique » liée à un vieillissement accéléré des câbles papiers devait survenir.

Ces résultats portent sur les incidents souterrains, il serait peut être intéressant également de porter cette analyse au cas des incidents aériens.

Annexes.

3

Statistiques descriptives – Résultats de la console R.

> summary(statdescript)

Type Secteur Classe.commune Poste.source Postes.coupés

HTA:548 GEC:309 1. < 1000 :144 PORT DU RHIN: 48 Min. : 0.00

HTB: 61 GEN:175 2. [1000;3000[ :138 MEINAU : 32 1st Qu.: 9.00

GES:125 3. [3000;21000[:147 BRUMATH : 28 Median : 18.00

4. > 21000 :180 GRAFFENST : 28 Mean : 27.97 OBERNAI : 26 3rd Qu.: 29.00 HOLZMATT : 25 Max. :319.00 (Other) :422 Clients.coupés Critère.B Min. : 0 Min. : 0.000 1st Qu.: 691 1st Qu.: 0.390 Median : 1365 Median : 2.070 Mean : 1952 Mean : 2.837 3rd Qu.: 2145 3rd Qu.: 3.980 Max. :22164 Max. :28.710 Défaut Cause Souterrain :296 Vétusté :164

Aérien :117 Cause inconnue : 99

Poste : 87 Défaillance matériel: 68

Sans dégats : 46 Terrassement : 61

Réseau HTA : 22 Non renseignée : 52

Réseau AMONT définitif (reprise manuelle): 20 Coup de foudre : 43

(Other) : 21 (Other) :122

Cause.2 Puissance.coupée

Cause inconnue : 99 Min. : 0

Distributeur :259 1st Qu.: 3360

Eléments Naturels:115 Median : 7100

Non renseignée : 52 Mean : 10155

Tiers : 84 3rd Qu.: 11100

4

Seuil critique c

n

=

n ∗ d

n

du test de Kolmogorov-

Smirnov pour une distribution exponentielle de moyenne

inconnue.

n cn n cn 2 0,8673 22 1,0511 3 0,9540 24 1,0531 4 0,9687 26 1,0549 5 0,9884 28 1,0565 6 1,0007 30 1,0580 7 1,0084 35 1,0609 8 1,0153 40 1,0633 9 1,0212 45 1,0652 10 1,0258 50 1,0668 12 1,0327 60 1,0694 14 1,0381 70 1,0714 16 1,0424 80 1,0729 18 1,0458 90 1,0742 20 1,0486 100 1,0753

5

Programme R utilisé pour obtenir la figure 17, page 25.

> bootstrap <- function(i, I) { + taille <- 1:i + quant <- 1:i + par <- runif(1, 0.1, 10) + M_sim <- NULL + for (n in 1:i) { + N_res <- NULL + x_sim <- 1:I

+ x_sim <- rexp(I, par)

+ M_sim <- rbind(M_sim, x_sim) + for (j in 1:I) {

+ stat <- sqrt(n) * ks.test(M_sim[, j], "pexp", 1/mean(M_sim[,

+ j]))$statistic

+ N_res <- c(N_res, stat)

+ }

+ quant[n] <- quantile(N_res, 0.95)

+ }

+ plot(taille, quant, xlab = "n", ylab = "n^(1/2)*d_n", type = "l") + }

6

Programme R utilisé pour obtenir les simulations des

pannes souterraines.

> lambda <- read.csv("lambda.csv", sep = ";", dec = ",", header = TRUE) > delta_t <- matrix(rep(NA, 25000), ncol = 40)

> delta_j <- matrix(rep(NA, 25000), ncol = 40) > d_j <- matrix(rep(NA, 25000), ncol = 40) > for (i in 1:625) {

+ delta_t[i, ] <- rexp(40, lambda[i, ]) + delta_j[i, ] <- delta_t[i, ] * 365 + d_j[i, ] <- cumsum(delta_j[i, ]) + }

7

Analyse Factorielle de Données Mixtes.

Lorsque nous souhaitons réaliser une analyse factorielle sur des données qualitatives, nous utilisons l’Analyse des Correspondances Multiples (ACM). Pour une analyse factorielle sur des données quantitatives, nous avons à notre disposition l’Analyse en Composantes Principales (ACP). Mais ici nous avons à la fois des variables qualitatives et quantitatives. Nous devons donc utiliser une méthodologie factorielle qui permet d’inclure les deux types de variables en tant qu’éléments actifs : l’Analyse Factorielle de Données Mixtes (AFDM).

L’AFDM est un problème fréquent. À partir d’anciens travaux d’Escofier (1979) et Saporta (1990), proposant d’inclure des données mixtes dans le cadre de l’ACM (pour Escofier) et dans le cadre de l’ACP (pour Saporta), Jérôme PAGÈS a proposé une méthode qui prend en compte les variables quantitatives comme une ACP normée et les variables qualitatives comme une ACM. Elle fournit une représentation simultanée des deux types de variables en plus des représentations usuelles de l’ACP et de l’ACM. Pour plus de détails, nous nous reporterons à l’article [6].

L’AFDM est implémentée dans le package « Factominer » du logiciel R et c’est ce que nous utilisons dans la suite.

Les variables sur lesquelles nous réalisons l’AFDM sont les mêmes que celles de la section 2.1, page 12. Nous présentons ici l’AFDM réalisée avec comme seules variables actives : le nombre de postes coupés, le nombre de clients coupés, le critère B, la puissance coupée (4 variables quantitatives) et le nombre de clients de la commune coupée (variable qualitative nommée « Classe.commune »).

L’AFDM avec les 10 variables regroupées n’est pas intéressante car elle n’explique que 12% de l’inertie totale et n’est pas visuellement interprétable car il y a beaucoup de modalités pour chaque variable.

Valeurs propres.

Les valeurs propres, pourcentages de variance expliquée et cumul des pourcentages de va- riance expliquée sont donnés ci-dessous :

Nous constatons que le plan factoriel (1,2) explique quasiment 60% de l’inertie totale. Nous pouvons représenter par un histogramme la décroissance de l’inertie expliquée et éga- lement le cumul de l’inertie expliquée.

Nous pouvons sélectionner un nombre d’axes à garder suivant le critère de Kaiser ou le

critère du « coude » :

– Critère de Kaiser : retenir les axes dont l’inertie est supérieure à l’inertie moyenne. Valeur propre moyenne= 78 = 0, 875. Nous retenons donc 5 axes d’après les valeurs propres de la page précédente.

– Critère du « coude » : déceler un changement de pente sur le diagramme en bâtons de la décroissance de l’inertie des axes. Nous sélectionnons les axes avant le « coude » : 5 axes. Néanmoins, nous ne donnerons les représentations graphiques uniquement pour les axes 1 et 2 pour ne pas surcharger l’analyse.

• Lg : Les coefficients Lg de liaison permettent de mesurer à quel point les variables sont liées deux à deux.

• RV : Les coefficients RV de liaison correspondent à une normalisation des coefficients Lg. La valeur des RV est donc comprise entre 0 et 1, ce qui en facilite l’interprétation. Nous pouvons observer ici que les variables les plus liées sont les postes coupés, les clients coupés et la puissance coupée.

• Coordonnées : Les coordonnées des variables sur un axe sont des mesures de liaison entre l’axe et les variables. Ces coordonnées sont utilisées pour créer le graphe des variables.

• Contributions : Décrit l’importance que prend une variable dans la construction d’un axe.

• Qualités de représentation : La qualité de représentation est mesuré par le « cos2 ». C’est une mesure de proximité entre un point et le plan (mesure de l’angle formé avec le plan).

• Corrélations : Pour les variables quantitatives, cela correspond aux corrélations avec un axe. Concernant les variables qualitatives, il s’agit du rapport de corrélation qui est une mesure de liaison entre un axe et une variable. Si le rapport de corrélation est élevé, cela veut dire que les modalités de la variable forment autant de sous-population homogènes et bien séparées le long de l’axe. C’est le cas, ici, nous nous attendons à ce que la variable « Classe.commune » ait des modalités bien séparées le long de l’axe 2.

Représentations graphiques.

Nous pouvons voir sur le graphe des variables que le premier axe factoriel est fortement lié aux variables « Postes.coupés », « Clients.coupés » et « Puissance.coupée ». Quant au second

Le graphe des variables quantitatives nous confirme que les trois variables « Postes.coupés », « Clients.coupés » et « Puissance.coupée » sont liées entre elles et nous informe sur le fait que la variable « Critère.B » n’est pas bien représentée car elle n’est pas à proximité du bord du cercle des corrélations.

Sur le graphe des individus, les incidents survenus dans les communes de plus de 3 000 clients sont dans la partie négative du second axe, alors que les incidents dans les plus petites communes sont dans la partie positive du second axe.

De plus, nous observons que la variable « Classe.commune » a des modalités qui forment bien des sous-populations homogènes puisqu’elles sont bien séparées le long du deuxième axe factoriel.

Références.

[1] « Analyses statistiques des évènements de coupures sur les réseaux électriques », Adrien BARRET.

Rapport de stage, ENSAI Rennes, 2011.

[2] « Processus de Poisson », Christel RUWET. Mémoire, Université de Liège, 2007.

[3] « Kolmogorov-Smirnov tests when parameters are estimated with applications to tests of

exponentiality and tests on spacing », J. DURBIN.

Biometrika, Vol 62, No. 1 (Apr., 1975), pp. 5-22.

[4] « Monte Carlo Exact Goodness-of-fit Tests for Nonhomogeneous Poisson Processes », BO H. LINDQVIST et BJARTE RANNESTAD.

Norwegian University of Science and Technology, Department of Mathematical Sciences.

[5] « Méthode de détermination du nombre de clients d’Électricité de Strasbourg mal alimentés

en tension. », Mélanie CHOULET.

Rapport de Stage, Université de Strasbourg, 2009.

[6] « Analyse Factorielle de Données Mixtes. », J. PAGÈS.

Documents relatifs