• Aucun résultat trouvé

La informaci´ on y el proceso KDD

N/A
N/A
Protected

Academic year: 2022

Partager "La informaci´ on y el proceso KDD"

Copied!
71
0
0

Texte intégral

(1)

Hugo Alatrista-SALAS PUCP, GRPIAA Labs.

halatrista@pucp.pe http://hugo.alatristasalas.free.fr/

17 de noviembre de 2014

(2)

Outline

1

La informaci´ on y el proceso KDD

2

Pre-tratamiento

3

Miner´ıa de datos

M´ etodos supervisados y no supervisados Busqueda de patrones

Patrones complejos Miner´ıa de texto

4

Validaci´ on y visualizaci´ on

(3)

El poder de la informaci´ on

(4)

Internet y la informaci´ on: Algunas cifras

∼3000 millones de usuarios de Internet a finales del 2014 (la mayor´ıa en Asia)

∼325 millones en Am´ erica Latina y el Caribe

∼120,000 nuevos blogs creados cada d´ıa

6 de los websites TOP son redes sociales (YouTube: 1 bill´ on, Facebook: 1,32 billones, Twitter: 271 millones)

∼2.300 millones de abonados a la banda ancha m´ ovil

(5)

Qu´ e hacer con tanta informaci´ on?

Google, Microsoft, MySpace, AOL y Yahoo! mas de 336 billones de

datos personales y Facebook 58 millones (Dic. 2007)

(6)

Qu´ e hacer con tanta informaci´ on?

(7)

Qu´ e hacer con tanta informaci´ on?

Recolectarla Almacenarla Analizarla

Extraer informaci´ on interesante

Validar la informaci´ on

extra´ıda

(8)

Qu´ e hacer con tanta informaci´ on?

Recolectarla Almacenarla Analizarla

Extraer informaci´ on interesante

Validar la informaci´ on

extra´ıda

(9)

Informaci´ on heterog´ enea

(10)

Fuerte temporalidad

(11)

Representan fen´ omenos complejos

(12)

Encontrar informaci´ on interesante

(13)

Proceso KDD

Proceso multi-etapas iterativo e interactivo

Permite transformar grandes bases de datos en conocimiento 1 :

(14)

Pre-tratamiento

Eliminar los valores at´ıpicos

Recopilar de la informaci´ on necesaria para modelar o representan el ruido

Plantear estrategias para manejar los campos donde faltan datos

Identificar la informaci´ on temporal y reconocer los posibles

cambios (si existen)

(15)

Transformaci´ on

Encontrar caracter´ısticas ´ utiles para representar los datos en funci´ on del objetivo de la tarea

Usar t´ ecnicas de reducci´ on de dimensionalidad o m´ etodos de transformaci´ on para reducir el n´ umero efectivo de las variables a estudiar o para encontrar representaciones invariantes de los datos

Presencia de un experto

Decidir si el objetivo del proceso de KDD es la clasificaci´ on,

regresi´ on, clustering, extracci´ on de patrones, etc.

(16)

Miner´ıa de datos

Seleccionar el (los) m´ etodo(s) que se utilizar´ a para la b´ usqueda de patrones en los datos

Decidir qu´ e modelos y par´ ametros pueden ser los m´ as apropiados

Buscar de un m´ etodo de miner´ıa de datos particular que

coincida con los criterios generales del proceso KDD

(17)

Restituci´ on de patrones obtenidos

Interpretaci´ on de los patrones extra´ıdos

Presentar los patrones extra´ıdos a los expertos y/o comunidad cient´ıfica (visualmente)

Consolidar el conocimiento descubierto gracias a la ayuda de

los exepertos

(18)

WEKA

Gallirallus australis : Endemic bird (New Zeland)

WEKA → Waikato Environment for Knowledge Analysis

(19)

WEKA

Universidad de Waikato (New Zeland)

Weka es una colecci´ on de algoritmos de aprendizaje autom´ atico para tareas de miner´ıa de datos

Weka contiene herramientas de pre-procesamiento, clasificaci´ on, regresi´ on, clustering, reglas de asociaci´ on, y visualizaci´ on

Concebido bajo la licencia GNU

(20)

WEKA - Representaci´ on de datos

CSV ARFF

JSON (javascript)

C4.5 (.data y .names)

Conexi´ on a un DBMS

etc.

(21)

WEKA - Representaci´ on de datos

(22)

WEKA - Representaci´ on de datos

Formato CSV

Distrito, Fecha, Temperatura, Humedad, Viento, Alerta San Miguel, 14/03/2012, 14.4, 68, 57, Si

San Miguel, 15/03/2012, 18.4, 60, , No

Pueblo Libre, 14/03/2012, 20.3, 72, 45, Si

Pueblo Libre, 01/04/2012, 15.6, 68, 11, No

Comas, 18/04/2012, 28.0, 71, , No

(23)

WEKA - Representaci´ on de datos

Formato ARFF

@relation Meteo

@attribute Distrito STRING

@attribute Fecha DATE

@attribute Temperatura REAL

@attribute Humedad REAL

@attribute Viento INTEGER

@attribute Alerta si, no

@data

San Miguel, 14/03/2012, 14.4, 68, 57, Si

San Miguel, 15/03/2012, 18.4, 60, , No

Pueblo Libre, 14/03/2012, 20.3, 72, 45, Si

Pueblo Libre, 01/04/2012, 15.6, 68, 11, No

(24)

Normalizaci´ on

Estandarizar todos los valores num´ ericos en valores pertenecientes

al intervalo [0, 1]

(25)

Discretizaci´ on

Convertir los datos num´ ericos en valores nominales (clases)

(26)

Corpus a Vector de caracter´ısticas

Representar un corpus de forma vectorial utilizando, p.e., una

representaci´ on TF-IDF (Term Frequency - Inverted Document

Frequency)

(27)

Corpus a Vector de caracter´ısticas

(28)

Corpus a Vector de caracter´ısticas

(29)

Miner´ıa de datos

Objetivo: transformar los datos en estructuras mas complejas:

Arboles Clusters

Reglas de asociaci´ on Secuencias

Trayectorias Grafos

Colocalizaciones

(30)

Clasificaci´ on

Aprendizaje Supervisado: el conjunto de posibles clases se conoce de antemano

Cu´ ales son los mejores descriptores?

Cu´ al es el atributo m´ as representativo de una clase?

Reducci´ on de las dimensiones

Clases desbalanceadas

(31)

Clasificaci´ on

Clasificar los datos (construir un modelo) en base a un conjunto de entrenamiento etiquetado y utilizarlo en la clasificaci´ on de nuevos datos

Los datos de entrada o conjunto de entrenamiento, se compone de varios registros que tienen cada uno varios atributos o caracter´ısticas

Cada registro se marca con una etiqueta de clase

Analizar los datos de entrada y desarrollar un modelo para

cada clase con las caracter´ısticas presentes en los datos

(32)

Clasificaci´ on

(33)

Clasificaci´ on

(34)

Clasificaci´ on

(35)

Clustering

Encontrar grupos de objetos de tal manera que los objetos de un

grupo sean similares (o relacionados) entre s´ı y diferentes (o no

relacionados con) a los objetos de otros grupos (m´ etodo no

supervisado).

(36)

Clustering

El resultado depende de la definici´ on de similitud La elecci´ on de la medida de (des)-similaridad es un paso cr´ıtico, a menudo, m´ as importante que el algoritmo de clustering

Los resultados son dif´ıciles de evaluar: a menudo no hay un

´

unico resultado correcto

No existe una medida de similitud obvia: depende de lo que queremos encontrar

Los algoritmos pueden encontrar grupos incluso cuando no

(37)

Clustering

(38)

Reglas de Asociaci´ on

Buscar relaciones entre objetos RA: Itemset1 → Itemset2

Itemset1, itemset2 son dos conjuntos disjuntos y no vac´ıos de items,

Si la transacci´ on incluye el Itemset1 entonces tambi´ en contiene el Itemset2

P.e. si los clientes compran Pisco, tambi´ en tienden a comprar

lim´ on

(39)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(40)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(41)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(42)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(43)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(44)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(45)

Reglas de Asociaci´ on

Items: A,B,C,D,E,F

4 transacciones (sub-conjunto de items) T1: {A,D}

Soporte de un itemset (Supp) Supp ({A,D})=1/4 Supp ({A,C})=2/4

Itemsets frecuentes (minSupp=50 %) {A,C} es un itemset frecuente Reglas (minSupp and minConf = 50 %)

ID Items

1 A, D

2 A, C

3 A, B, C

4 A, B, F, E

(46)

Reglas de Asociaci´ on

El espacio de b´ usqueda (trellis)

(47)

Reglas de Asociaci´ on

(48)

Reglas de Asociaci´ on

(49)

Reglas de Asociaci´ on

(50)

Patrones secuenciales

Entender el comportamiento de fen´ omenos que cambian en el tiempo

Item → valor literal

Itemset → conjunto no vac´ıo de items Secuencia → lista ordenada de itemsets

P.e. generalmente, los clientes compran Pisco y lim´ on el

viernes y Dolipran al d´ıa siguiente

(51)

Patrones secuenciales

Items: A,B,C,D,E,F

4 secuencias (lista de itemsets) S1: {(A) (D)}

Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4

Secuencias frecuentes (minSupp=50 %) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente

ID Secuencias

1 (A) (D)

2 (A) (C)

3 (A, E) (C)

4 (A) (B) (C D F)

(52)

Patrones secuenciales

Items: A,B,C,D,E,F

4 secuencias (lista de itemsets) S1: {(A) (D)}

Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4

Secuencias frecuentes (minSupp=50 %) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente

ID Secuencias

1 (A) (D)

2 (A) (C)

3 (A, E) (C)

4 (A) (B) (C D F)

(53)

Patrones secuenciales

Items: A,B,C,D,E,F

4 secuencias (lista de itemsets) S1: {(A) (D)}

Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4

Secuencias frecuentes (minSupp=50 %) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente

ID Secuencias

1 (A) (D)

2 (A) (C)

3 (A, E) (C)

4 (A) (B) (C D F)

(54)

Patrones secuenciales

Items: A,B,C,D,E,F

4 secuencias (lista de itemsets) S1: {(A) (D)}

Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4

Secuencias frecuentes (minSupp=50 %) {(A) (C)} es un itemset frecuente {(A) (D)} es un itemset frecuente

ID Secuencias

1 (A) (D)

2 (A) (C)

3 (A, E) (C)

4 (A) (B) (C D F)

(55)

Patrones secuenciales

Items: A,B,C,D,E,F

4 secuencias (lista de itemsets) S1: {(A) (D)}

Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4

Secuencias frecuentes (minSupp=50 %) {(A) (C)} es una secuencia frecuente {(A) (D)} es una secuencia frecuente

ID Secuencias

1 (A) (D)

2 (A) (C)

3 (A, E) (C)

4 (A) (B) (C D F)

(56)

Patrones secuenciales

Items: A,B,C,D,E,F

4 secuencias (lista de itemsets) S1: {(A) (D)}

Soporte de una secuencia (Supp) Supp ({(A, E) (C)})=1/4 Supp ({(A) (C)})=3/4

Secuencias frecuentes (minSupp=50 %) {(A) (C)} es una secuencia frecuente {(A) (D)} es una secuencia frecuente

ID Secuencias 1 (A) (D)

2 (A) (C)

3 (A, E) (C)

4 (A) (B) (C, D F)

(57)

Patrones secuenciales

El espacio de b´ usqueda (trellis)

(58)

Trayectorias

Representa un objeto o conjunto de objetos del mismo tipo que se

desplazan en el espacio y en el tiempo 2

(59)

Colocalizaciones

Conjunto de caracter´ısticas que aparecen frecuentemente en el

espacio y en el tiempo 3

(60)

Miner´ıa de texto

An´ alisis de una base de datos textual (corpus) y detectar patrones lexicales o ling¨ u´ısticos que se puedan considerar (probablemente) como informaci´ on interesante

/!\ text mining 6= information retrieval 6= TALN

(61)

Miner´ıa de texto

(62)

Miner´ıa de texto

Miner´ıa de opiniones

An´ alisis de sentimientos

Trayectoria de Tweets

Detecci´ on de comunidades

etc.

(63)

Validaci´ on de patrones

Los algoritmos de miner´ıa de datos pueden generar muchos

patrones entre los cuales solo algunos pueden ser interesantes

Analizar los patrones manualmente puede ser una tarea dif´ıcil

Lo ideal es filtrar, ordenar, ponderar, etc. los patrones mas

interesantes para el experto

(64)

Validaci´ on de patrones

(65)

Visualizaci´ on de patrones

Los algoritmos de miner´ıa de datos generan patrones dif´ıciles a interpretar

Los patrones (secuenciales, trayectorias, etc) no son precisamente intuitivos

Los expertos necesitan herramientas que les permitan

aprender de los patrones extra´ıdos

(66)

Visualizaci´ on de patrones

(67)

Visualizaci´ on de patrones

(68)

Visualizaci´ on de patrones

(69)

La nueva tendencia

Big Data: is an all-encompassing term for any collection of data sets so large and complex that it becomes difficult to process using on-hand data management tools or traditional data processing applications (source wikipedia).

Streaming: how to compute new pattern knowing oldest ones that come in real-time

Mining in social network

Sentiment analysis

(70)

Alguna duda sobre la importancia del curso?

Pi π, el orden del caos...

(71)

Thank you for your attention!

Références

Documents relatifs

En el contexto de la formación inicial de maestros estudiamos las concepciones de los estudiantes de Magisterio sobre los fenómenos que pueden ocurrir al poner dos sustancias

Este trabajo pretende mostrar la capacidad de los alumnos del curso de General Chemistry de la Universidad de Suffolk en su campus de Madrid para resolver problemas de

La aplicación del cuestionario con los estudiantes se llevó a cabo en un salón de clases, y antes de que lo contestaran se les comentó que la intención de este no era que

OBJETIVOS: Identificar hasta qué punto los alumnos reconocen un tipo de partículas submicroscó- picas, las moléculas, y hasta qué punto relacionan algunas propiedades macroscópicas

Este capítulo propone un estado del periodismo de datos y permite extraer los componentes prácticos de un perfil del periodista de datos en los seis países

Este trabajo ha analizado comparativamente cinco bots de conversación muy bien valorados en los Tests de Turing y ha llegado a la conclusión de que los sistemas

Los puntos muestran las respuestas a cada ítem (1=respuesta correcta y 0=respuesta incorrecta). La línea roja señala el valor del Índice de Precaución Modificado de la

Establecer el plan de gestión de datos. Ciclo de los datos