• Aucun résultat trouvé

d'expériences sur les thèmes du burn out et du suicide au travail Stéphane Trébucq, Jean Moscarola, Anne Goujon-Belghit *

3. Approfondissements à partir du logiciel Sphinx Quali

O processo de descobrir padrões e tendências em conjunto de dados envolve o uso de diversas tarefas e técnicas. Cada tipo de tarefa corresponde aos diferentes objetivos de quem está analisando os dados (HAND et al., 2001). Pode-se entender tarefa como a classe do problema. As técnicas são os algoritmos para solucionar o problema proposto nas tarefas.

Apesar da mineração de dados ser utilizada para uma grande variedade de tarefas, a partir de uma visão mais global, pode-se dizer que os objetivos das tarefas de mineração de dados podem ser a predição ou a descrição (FAYYAD e SIMOUDIS, 1997). A predição consiste em usar um conjunto de dados (exemplos ou experiências passadas com repostas conhecidas) para prognosticar valores futuros (desconhecidos) de outra variável. A descrição consiste em encontrar modelos humanamente interpretáveis para expor os dados e se obter informação destes.

Os principais tipos de tarefas de predição são classificação e regressão e os principais tipos de tarefas de descrição são segmentação, sumarização e associação, as quais são descritas a seguir.

1) Classificação

A classificação consiste em construir um modelo que possa ser aplicado a dados não-classificados, de modo a classificá-los (BERRY e LINOFF, 1997). Segundo os autores, a classificação consiste em analisar as características dos dados recém apresentados e atribuí-los a uma classe predeterminada. Cada dado é examinado e classificado segundo uma classe predefinida, ou seja, usa-se um conjunto de exemplos pré-classificados para desenvolver um modelo que pode classificar a base de dados empregada.

Existem diversas técnicas utilizadas para classificação: árvores de decisão, regressão logística, raciocínio baseado em casos, redes neurais artificiais e algoritmos genéticos.

2) Estimativa ou Regressão

O objetivo da estimativa é a construção de um modelo que permitirá que o valor de uma variável seja estimado a partir de valores conhecidos de outras variáveis. Na regressão, a variável a ser estimada é quantitativa (valores contínuos) e, na classificação, ela é categórica (valores discretos) (HAND et al., 2001).

Estimativa é aprender a função que mapeia um item de dado para uma variável de predição real estimada (FAYYAD et al., 1996).

As técnicas de mineração utilizadas para regressão são: árvores de decisão, regressão linear, análise de discriminante e redes neurais artificiais.

3) Segmentação ou clustering

A segmentação é um processo que consiste em agrupar dados similares baseado em valores de alguns de seus atributos. O objetivo é dividir os dados em grupos homogêneos, de modo que dados semelhantes sejam postos em um mesmo grupo (HAND et al., 2001).

Berry e Linoff (1997) afirmam que a segmentação dividirá um conjunto de dados heterogêneo em um número de subgrupos mais homogêneos ou clusters.

De acordo com Fayyad et al. (1996), estes subgrupos ou clusters devem ser determinados a partir dos dados, contrariamente ao que ocorre na classificação

quando as classes são predefinidas. Clusters são definidos a partir do encontro de agrupamentos naturais de dados baseado em similaridades métricas ou modelos de probabilidade.

As técnicas utilizadas nesta tarefa são: análise multivariada (estatística), raciocínio baseado em casos, redes neurais artificiais e algoritmos genéticos.

4) Sumarização

Segundo Fayyad et al. (1996), a sumarização proporciona uma descrição compacta para um subconjunto de dados. Métodos mais sofisticados envolvem regras de sumarização, técnicas de visualização multivariada e relacionamento funcional entre variáveis. A sumarização é freqüentemente utilizada na análise exploratória interativa de dados e na geração de relatórios automatizados.

5) Associação

A tarefa de associação identifica quais eventos ocorrem conjuntamente. O exemplo típico é a determinação de quais produtos são colocados juntos em um carrinho de supermercado (BERRY e LINOFF, 1997). O objetivo é identificar associação entre registros de dados que estão relacionados. Para este tipo de tarefa se utiliza a técnica de descoberta de regras de associação.

As tarefas de mineração de dados, descritas anteriormente, e alguns exemplos de sua aplicação são apresentadas de forma resumida no Quadro 4.

Como neste trabalho, na tarefa de classificação para mineração dos dados, será usada a técnica de árvore de decisão, sobre a qual são tecidas algumas considerações a seguir.

2.4.2.1.1 Árvores de decisão

As árvores de decisão são usadas na mineração direta, particularmente para classificação. Elas dividem o conjunto de dados em subconjuntos, de modo que cada um deles passe a ser descrito por uma regra (BERRY e LINOFF, 1997).

Tarefa Descrição Exemplos • Classificar pedidos de crédito • Esclarecer pedidos de seguros

fraudulentos Classificação

Constrói um modelo que possa ser aplicado a dados não-classificados

a fim de categorizá-los em classes. • Identificar a melhor forma de tratamento de um paciente

• Estimar o número de filhos ou a renda total de uma família

• Estimar o valor em tempo de vida de um cliente

• Estimar a probabilidade de que um paciente morrerá baseando-se nos resultados de diagnósticos médicos Estimativa

(ou Regressão)

Usada para definir um valor para alguma variável contínua

desconhecida.

• Prever a demanda de um consumidor por um novo produto

Associação

Usada para determinar quais itens tendem a coocorrerem (serem adquiridos juntos) em uma mesma transação.

• Determinar quais os produtos que costumam ser colocados juntos em um carrinho de supermercado

• Agrupar clientes por região do país • Agrupar clientes com comportamento de

compra similar Classificação

Constrói um modelo de algum tipo que possa ser aplicado a dados não-classificados a fim de

categorizá-los em classes. • Agrupar seções de usuários Web para prever comportamento futuro de usuários • Tabular o significado e desvios padrão

para todos os itens dados Sumarização

Envolve métodos para encontrar uma descrição compacta para um

subconjunto de dados. • Derivar regras de síntese

Quadro 4 - Tarefas realizadas por técnicas de mineração de dados Fonte: Dias (2001)

Uma árvore de decisão é composta por nó raiz, nós de decisão internos e nós folhas terminais, cujas associações geram regras, conforme pode ser observado na Figura 19.

A elaboração de uma árvore de decisão se inicia pela seleção de um atributo para a colocação na posição raiz, abrindo-se um ramo para cada valor possível que este atributo possa receber. Cada nó de decisão implementa um teste com saídas que indicam o ramo. Desse modo, divide-se o conjunto de exemplos em subconjuntos, um para cada valor do atributo. Para cada entrada, em cada nó, um teste é aplicado e um dos ramos é selecionado em função da saída. Este processo se inicia no nó

Figura 19 - Componentes de uma árvore de decisão

raiz e é repetido recursivamente até alcançar o nó folha, o qual indica o valor da saída ou classe. Existe apenas um caminho do nó raiz ao nó folha (ALPAYDIN, 2004; WITTEN e FRANK, 2005). A Figura 20 exemplifica o processo de construção de uma árvore de decisão a partir de um conjunto de dados.

Figura 20 - Conjunto de dados e a respectiva árvore de decisão Fonte: Alpaydin (2004)

Existem diferentes algoritmos para se fazer a seleção do atributo que será o nó raiz, mas a meta de todos eles é sempre a de escolher o atributo que melhor discriminará as classes (BERRY e LINOFF, 1997).

Regra Nós folhas Nó de decisão Nó raiz x1 Sim C1 C2 C2 w10 C1 Sim Não Não C1 x1 > w10 x2 > w20 x2 w20

Uma das formas de seleção do atributo raiz é realizada a partir do ganho de informação. Associada com o nó de uma árvore, o ganho de informação representa a expectativa sobre a informação necessária para especificar a classificação do exemplo que chega ao nó. Calcula-se o ganho de informação para cada um dos atributos e escolhe-se o atributo que ganha mais informação para fazer a divisão, ou seja, ser o nó raiz (WITTEN e FRANK, 2005).

Uma vantagem da árvore de decisão é a interpretabilidade, ou seja, a árvore pode ser convertida em um conjunto de afirmações SE-ENTÃO que são facilmente entendidas (ALPAYDIN, 2004). Elas tomam a forma de regras explícitas e isto auxilia as pessoas a avaliarem os resultados, identificando os atributos-chave do processo (BERRY e LINOFF, 1997). Por esta razão ela é muito popular (BERRY e LINOFF, 1997; ALPAYDIN, 2004).

Existe uma variedade de algoritmos para construção de uma árvore de decisão. Os mais populares são o CART, CHAID e o C4.5 (BERRY e LINOFF, 1997), descritos a seguir.

• CART (Classification and Regression Trees) foi publicado por Brimen et al. (1984) apud Berry e Linoff (1997). É o método mais popular de se construir árvores de decisões binárias. O algoritmo se baseia em um arquivo de treinamento com dados previamente classificados. Em cada nó, os casos são separados em função de apenas um atributo. O atributo a ser testado num nó é aquele que gera grupos com a menor diversidade, ou seja, no qual somente uma classe é predominante.

• CHAID (Chi-squared Automatic Induction), publicado por Hartigan (1975) apud Berry e Linoff (1997), é o mais antigo dos algoritmos populares e também é o mais usado nos pacotes estatísticos, como, por exemplo, SPSS e SAS.

• C 4.5, publicado por Quinlan (1993) apud Berry e Linoff (1997), este algoritmo produz árvores com número de ramos variável. Cada valor do atributo gera um ramo. A entropia ou ganho de informação tem prevalecido como forma de escolha do atributo a ser testado em um nó. A partição do espaço de características se inicia pelo nó raiz e continua para os nós subseqüentes da mesma maneira, ou seja, escolhendo-se em cada nó o melhor atributo para a

divisão, até que um atributo assuma um único valor. Neste caso, ele será rotulado como nó folha (WITTEN e FRANK, 2005).