1
Modélisation et analyse de données Modélisation et analyse de données
n
nAnalyse des données existantesAnalyse des données existantes
n
nModélisation par les distributionsModélisation par les distributions
nnTests dTests d’hypothèses et d’hypothèses et d’ajustements’ajustements
Chapitre 6 Modélisation des données
Disponibilité des données Disponibilité des données
nn Beaucoup de données disponiblesBeaucoup de données disponibles –– historiques papierhistoriques papier
–– fichiers (GPAO, compta…)fichiers (GPAO, compta…) –
– supervisionsupervision n
n …ou potentiellement disponibles…ou potentiellement disponibles –
– observation du système existantobservation du système existant –– observation dobservation d’un système ’un système
analogue analogue
nn Peu de donnéesPeu de données
–– caractéristiques commercialescaractéristiques commerciales –– considérations théoriquesconsidérations théoriques –
– système dsystème d’information incomplet’information incomplet
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.3
1- 1 - cas d cas d ’une seule valeur ’une seule valeur
n
n LL’utiliser comme constante sans aléas’utiliser comme constante sans aléas
n
n LL’utiliser comme moyenne d’utiliser comme moyenne d’une distribution expo si :’une distribution expo si : –
– une très grande dispersionune très grande dispersion –– une indépendance des observationsune indépendance des observations –
– une moyenne peu élvéeune moyenne peu élvée n
n LL’utiliser comme centre d’utiliser comme centre d’un intervalle (par ex. ±’un intervalle (par ex. ±20 %) et voir le cas 20 %) et voir le cas suivant
suivant
Chapitre 6 Modélisation des données
2 2- - cas de 2 valeurs cas de 2 valeurs
n
n Les utiliser comme Les utiliser comme maxmaxet min det min d’une distribution uniforme’une distribution uniforme –
– pas très réaliste car représentative de peu de phénomènes physiquespas très réaliste car représentative de peu de phénomènes physiques n
n Les utiliser comme les Les utiliser comme les extrêmaextrêmadd’une loi triangulaire’une loi triangulaire
3 3- - cas de 3 valeurs cas de 3 valeurs
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.5
Nombreuses valeurs Nombreuses valeurs
nn Utilisation directe:Utilisation directe:
–
– reproduction exacte du passé reproduction exacte du passé (mais pas d
(mais pas d’info sur le futur)’info sur le futur) –– possible si:possible si:
»
» distribution non connuedistribution non connue
»
» peu de données (< 100)peu de données (< 100)
nn Modélisation par des lois de Modélisation par des lois de distribution:
distribution:
–
– valeurs générées de toute la valeurs générées de toute la distribution
distribution –
– à utiliser chaque fois quand cà utiliser chaque fois quand c’est ’est possible
possible
Chapitre 6 Modélisation des données
Utilisation directe des données par l
Utilisation directe des données par l ’outil de ’outil de simulation
simulation
n
n Utiliser des modules dUtiliser des modules d’interface entre l’interface entre l’outil de simulation et la base ’outil de simulation et la base des données ou le fichier données
des données ou le fichier données
n
n ex: bloc READ/WRITE dans ARENAex: bloc READ/WRITE dans ARENA
n
n ex: lecture des données par VBAex: lecture des données par VBA
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.7
Utilisation directe des données par une loi de dist.
Utilisation directe des données par une loi de dist.
n
n déterminer ldéterminer l’intervalle des observations (la + petite et la + grande val)’intervalle des observations (la + petite et la + grande val)
n
n diviser ldiviser l’intervalle en classes’intervalle en classes –
– (5 -(5 -20) classes20) classes
–– au moins 3 valeurs pas classeau moins 3 valeurs pas classe n
n choisir une valeur représentative de la classechoisir une valeur représentative de la classe –– imposée par la distribution si discrèteimposée par la distribution si discrète –– moyenne des bornes si continuemoyenne des bornes si continue
nn calculer le calculer le nbnbdd’observation par classe, déduire la fréquence et la ’observation par classe, déduire la fréquence et la fréquence cumulée
fréquence cumulée
n
n estimer la estimer la probaprobacumulée dcumulée d’appartenance à une ’appartenance à une claseeclaseepar la fréquence par la fréquence cumulée correspondante
cumulée correspondante
n
n choisir selon la nature du phénomène, la loi appropriée et la pachoisir selon la nature du phénomène, la loi appropriée et la paramétrerramétrer
Chapitre 6 Modélisation des données
Modélisation par une distribution Modélisation par une distribution
n
n Choisir une loi de de distribution de référenceChoisir une loi de de distribution de référence
nn estimer à partir des estimer à partir des observaationsobservaations, le(s) paramètre(s) de la distribution, le(s) paramètre(s) de la distribution
n
n faire un test dfaire un test d’adéquation (test d’adéquation (test d’hypothèse)’hypothèse)
ATTENTION AU CHOIX DES DISTRIBUTIONS ET A
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.9
Choix d
Choix d ’une distribution ’une distribution
n
n Construire un histogramme des valeursConstruire un histogramme des valeurs
n
n si les valeurs sont continues, les regrouper en classes dsi les valeurs sont continues, les regrouper en classes d’égale largeur ’égale largeur (voir
(voir précedemmentprécedemment))
n
n Choisir une distribution:Choisir une distribution:
–
– en fcten fctde lde l’allure de l’allure de l’ histogramme’ histogramme –– à partir de tests statistiquesà partir de tests statistiques
Chapitre 6 Modélisation des données
Tests d
Tests d ’hypothèse ’hypothèse
nn Prendre une décision sur une réalité inconnuePrendre une décision sur une réalité inconnue
n
n prendre un risque dprendre un risque d’erreur alpha (typiquement 5 %)’erreur alpha (typiquement 5 %)
Rejet
Risque de première espèce
Acceptation
Risque de seconde espèce
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.11
Tests paramétriques Tests paramétriques
n
n tests sur les moyennestests sur les moyennes
n
n tests sur les variancestests sur les variances
nn tests de corrélation entre variables aléatoirestests de corrélation entre variables aléatoires
Chapitre 6 Modélisation des données
Tests non
Tests non paramètriques paramètriques
n
n Tests dTests d’ajustement (Khi-’ajustement (Khi-2, 2, KolmogorofKolmogorof--SmirnovSmirnov)) –
– Un échantillon peut-Un échantillon peut-il être considéré comme tiré dil être considéré comme tiré d’une population de ’une population de distribution donnée?
distribution donnée?
nn Tests de concordance (MannTests de concordance (Mann--Whitney)Whitney)
–– Deux échantillons peuvent-Deux échantillons peuvent-ils être considérés comme tirés de la même ils être considérés comme tirés de la même
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.13
Test du Khi Test du Khi- -2 2
Episode Episode I I
n
n Disposer dDisposer d’une distribution observée dans un échantillon aléatoire de ’une distribution observée dans un échantillon aléatoire de N individus
N individus
n
n construire le tableau des congruences : le nombre de modalités construire le tableau des congruences : le nombre de modalités (classes) quantitatives ou qualitatives en fonction de leurs fré (classes) quantitatives ou qualitatives en fonction de leurs fréquencesquences
n
n faire une hypothèse sur la distribution théorique permettant de faire une hypothèse sur la distribution théorique permettant de déterminer les effectifs théoriques pour chacune des modalités déterminer les effectifs théoriques pour chacune des modalités
n
n ex: lancer de déex: lancer de dé Face
Face 11 22 33 44 55 66
Eff
Eff. Observés. Observés 2525 1717 1515 2323 2424 1616 Eff
Eff. Théoriques. Théoriques 2020 2020 2020 2020 2020 2020
Chapitre 6 Modélisation des données
Test du Khi Test du Khi- -2 2
Episode Episode II II
n
n Déterminer la distance d (dite du KhiDéterminer la distance d (dite du Khi--2) totale entre les effectifs 2) totale entre les effectifs observés et théoriques
observés et théoriques
Oi
Oi: effectifs observés: effectifs observés TiTi:effectifs théoriques:effectifs théoriques k : nombre de modalités k : nombre de modalités
nn d est distribuée selon une loi Khid est distribuée selon une loi Khi--2 (somme des carrés de variables 2 (somme des carrés de variables aléatoires indépendantes)
aléatoires indépendantes)
n n ex.ex.
∑
== k −
i i
i i
T T d O
1
)2
(
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.15
Test du Khi Test du Khi- -2 2
Episode Episode III III
n
n Définir le nombre de degré de liberté : Définir le nombre de degré de liberté : nbnbde modalités retenues pour de modalités retenues pour calculer d, diminué du nombre de relations entre les observation calculer d, diminué du nombre de relations entre les observations.s.
n
n n= k n= k --1 1 --rr
k : le nombre de modalités du caractère k : le nombre de modalités du caractère r : le
r : le nbnbde paramètres estimés de la loi th.de paramètres estimés de la loi th.
n
n Pour notre exemple : n= 6Pour notre exemple : n= 6--11--0 = 50 = 5
Chapitre 6 Modélisation des données
Test du Khi Test du Khi- -2 2
Episode Episode IV IV
n
n Déterminer le seuil de décision de la table numérique du KhiDéterminer le seuil de décision de la table numérique du Khi--2 (table 2 (table de Pearson) en fonction :
de Pearson) en fonction :
–– du risque à prendre (1 -du risque à prendre (1 -10 % d10 % d’erreur)’erreur) –
– du degré de liberté ndu degré de liberté n
nn pour notre exemple, avec risque = 5% et n = 5, on trouve 11.1pour notre exemple, avec risque = 5% et n = 5, on trouve 11.1
Dr-Ing. Naoufel Cheikhrouhou Laboratoire de Gestion et Procédés de Production
6.17
Autre exemple…de temps de service Autre exemple…de temps de service
n
n Moyenne m = 100.265Moyenne m = 100.265
n
n Variance = 62.3Variance = 62.3
nn Tester Ho: «Tester Ho: «pas de différence pas de différence entre ces données et une loi entre ces données et une loi normale N(100, 7.89) normale N(100, 7.89)»» Limite de classe Nombres observés
++
115 112 109 106 103 100 97 94 91 88
4 5 6 7 7 10 22 17 14 13 3
Total 117
Chapitre 6 Modélisation des données
Exemple…suite Exemple…suite
n
n Z centrée = (xZ centrée = (x--m)/s (m: moyenne et s: écartm)/s (m: moyenne et s: écart--type)type)
classe Z P(x<Z) Prob. Occ. Nb attendu Nb. Obs Khi-2
++
115 112 109 106 103 100 97
- 1.87 1.49 1.11 0.73 0.35 -0.03 -0.41
1.0000 0.9693 0.9319 0.8665
…
0.0307 0.0374 0.0654
….
3.59 4.38 7.65 11.61
…
4 5 6 7 7 10 22 17
0.719 0.356 1.830
…
7.97 9