• Aucun résultat trouvé

Visual Spatial Data mining (VSDM) appliqué à l’épidémiologie

N/A
N/A
Protected

Academic year: 2021

Partager "Visual Spatial Data mining (VSDM) appliqué à l’épidémiologie"

Copied!
102
0
0

Texte intégral

(1)
(2)

Ministère de l’enseignement supérieur et de la recherche scientifique Université Abdelhamid Ibn Badis Mostaganem

Faculté des Sciences Exactes et d’Informatique

Département de Mathématiques et d’Informatique Filière Informatique

Informatique

Mémoire de Fin d’études pour l’obtention de Master en Informatique Option : Systèmes d’Information géographique

Thème : Visual Spatial Data mining (VSDM) appliqué à l’épidémiologie

Etudiants :

• Belhandouz Abdelhak • Bensahli Belkacem

Encadrant : Mr.Midoun Mohamed

(3)

Plan de la présentation:

1. Spatial data mining 2. Visuel data mining

3. VSDM et épidémiologie 4. Méthodologie

5. Application 6. Conclusion

(4)
(5)
(6)
(7)

Spatial data mining

BDS DM classique

(8)

Les méthodes principales du spatial data mining

Clustering

Classification

Prédiction

Règles d’association

Hotspot

outlier

(9)

Clustering

Groupage d’objets similaires / séparation dissimilaires

Méthode non supervisé

Utilisé moins pour classer que pour découvrir des concentrations ou

des points chauds

(10)

Classification

La classification est la tâche de trouver un modèle qui classe chaque

cas dans l'une des nombreuses classes prédéfinies.

Méthode supervisé

(11)

Prédiction

modélise des données numériques pour prédire des valeurs

inconnues ou manquantes et pas nécessairement des événements futurs

Tâche d'apprentissage supervisée

Exemple: prédire les risques engendrés par les changements

(12)

Règle d’association

Identifie les relation entre les données spatiales

idem + Rel° spatiales => idem + Rel° spatiales Avec (S,C) avec S comme support et C la confiance.

Exemple :

Exemple:

station_service ^ dans (zone_rurale) -> proche (autoroute)

station_service ^ dans (zone_rurale) -> proche (autoroute)

(13)

Hotspot

HotSpot apprend un ensemble de règles qui maximisent (point chaud) ou minimisent (les point froid) une variable ou une valeur par rapport a une cible d'intérêt

Méthode non supervisé

(14)

outlier

identifie des clusters de valeurs élevées ou faibles ainsi que des

(15)

Approche pour le SDM

Il existe deux approches pour l’analyse et l’extraction de

connaissances d’une base de données spatiales :

o Une approche statistique

(16)

L’approche Base de données

(17)

L’approche Statistiques spatiales

Consiste a dégager des structures, des caractères, des invariants, des lois de comportement, en mettant en évidence :

o des distributions de lieux ou des structures spatiales (linéaires,

ponctuelles), des structures temporelles et spatio-temporelles, des relations fonctionnelles (y=f(x1,x2,…., xn) ) permettant d’élaborer des modèles et des lois de comportement

(18)

Analyse globale

Analyse globale - Mesure d’autocorrélation spatiale d’une

Analyse globale

spatiale

variable

mesure les relation entre la variable et les autre variable

(19)

Analyse globale

o Autocorrélation spatial (Moran I) : permet de calculer l’ indice de

l’autocorrélation spatial et représenter le résultat du test sous forme schématique

o l’outil identifie l’emplacement où les valeurs élevées ou faibles sont

regroupées dans l’espace, ainsi que les entités ayant des valeurs qui sont très différentes des valeurs d’entités environnantes

(20)

Analyse global

Clustering (Getis Ord G)

o Mesure le degré d'agrégation des valeurs élevées ou des valeurs

(21)

Analyse local

Analyse locale - Indice local d’associations spatiales Analyse locale Indice local d’associations spatiales

o met en évidence les données atypiques

(22)

Analyse local

Hot Spot (Getis-Ord Gi*)

o A partir d'un ensemble d'entités pondérées, identifie les points

chauds et les points froids statistiquement significatifs à l'aide de la statistique Getis-Ord Gi*.

(23)

Analyse local

Outlier ( Anseline Moran LISA)

o Mesure l'auto-corrélation spatiale selon l'emplacement des entités

et leurs valeurs attributaires à l'aide de la statistique de l'indice global de Moran.

(24)
(25)

Visuel data mining

Visuel data mining : c’est la combinaison des techniques usuelles

(26)

Processus du visuel data mining

Recueil des données brutes

Normalisation des données

Codage des données sous forme de signes visuels

Application des Algorithme de calculs

Rendu graphique et interaction

(27)
(28)

Approches du VSDM

Preceding Visualization (PV)

Subsequent Vizualisation (SV)

Tightly Integrated Visualization (TIV)

(29)
(30)
(31)

L’utilisation du VSDM en épidémiologie :

L’utilisation des méthodes du Data Mining en épidémiologie et santé

publique est en forte croissance. C’est la disponibilité de vastes bases de données historiques qui incite à les valoriser, et a les étudié afin de mieux comprendre les modèles et les tendances de la propagation des maladies et à explorer les relations entre les maladie et l’environnement , le climat et autre facteur de risque.

(32)
(33)
(34)

Objective de l’étude :

Appliqué les méthode du SDM (méthode statistique) sur une base de données spatiales épidémiologique(cancer du sein) et interpréter les résultats visuellement

(35)

Zone d’étude

(36)
(37)

Facteur de risques

(38)
(39)
(40)

Environnement de développement

ArcGIS

(41)

Méthodes SDM utilisé

On as utilisé une approche basé sur les statistiques spatiales

o Analyse global :

• Autocorrélation spatial (Morane I) • Clustering (Getis ORD G)

o Analyse local :

• Hotsopt (Getis Ord G*)

(42)

Analyse Globale

(43)

Analyse Globale

(44)

Analyse locale

(45)

Analyse Locale

(46)
(47)
(48)

6.Conclusion

SDM dérive du data mining classique et prend en compte

les relation spatiales.

En intégrant la visualisation dans ce processus on as facilité

le processus du SDM pour avoir une meilleure extraction

des connaissance des relation spatial complexe.

Notre travail a u pour but l’application du VSDM et

certaines connaissances concernant les techniques d’analyse

certaines connaissances concernant les techniques d’analyse

de données dans le domaine de l’étude des épidémiologies.

(49)
(50)
(51)
(52)
(53)
(54)
(55)
(56)
(57)
(58)
(59)
(60)
(61)
(62)
(63)
(64)
(65)
(66)
(67)
(68)
(69)
(70)
(71)
(72)
(73)
(74)
(75)
(76)
(77)
(78)
(79)
(80)
(81)
(82)
(83)
(84)
(85)
(86)
(87)
(88)
(89)
(90)
(91)
(92)
(93)
(94)
(95)
(96)
(97)
(98)
(99)
(100)
(101)
(102)

Références

Documents relatifs

L’algorithme BACON-EEM pour la détection de valeurs aberrantes adapte l’algorithme BACON aux valeurs manquantes et au plan de sondage à l’aide d’une version de l’algorithme EM

I How do multivariate outliers in the income components affect the estimates of poverty and income-inequality measures.. I How can we successfully invoke Multivariate Outlier

Par: Mélodie Achodian et Mégane Fatal.. 28) Tu désires développer une application «jeu» pour les téléphones intelligents qui fait appel au raisonnement logique des

On se propose de démontrer que, sous les hypothèses formulées au §2, le critère atteint effectivement son minimum en au moins un point du domaine; et que, plus précisément,

ƒ Nombre de noeuds en entrée : correspond à la dimension des données du problème (attributs ou leurs codages).. Construction

La probabilité qu’une donnée soit manquante ne dépend pas des données observées et non observée(s) de l’individu.. • Données manquantes de façon aléatoire : MAR (Missing

F IGURE 8 – CHD - Erreurs de complétion sur un échantillon test par LOCF (noir), KNN (rouge) et missForest (vert) quand la quantité de valeurs man- quantes augmente, pour une

La méthode la plus typique du data mining est certainement celle des arbres de décision : pour prédire une réponse Y, qu’elle soit numérique ou qualitative, on