d'expériences sur les thèmes du burn out et du suicide au travail Stéphane Trébucq, Jean Moscarola, Anne Goujon-Belghit *
3. Approfondissements à partir du logiciel Sphinx Quali
O processo de descobrir padrões e tendências em conjunto de dados envolve o uso de diversas tarefas e técnicas. Cada tipo de tarefa corresponde aos diferentes objetivos de quem está analisando os dados (HAND et al., 2001). Pode-se entender tarefa como a classe do problema. As técnicas são os algoritmos para solucionar o problema proposto nas tarefas.
Apesar da mineração de dados ser utilizada para uma grande variedade de tarefas, a partir de uma visão mais global, pode-se dizer que os objetivos das tarefas de mineração de dados podem ser a predição ou a descrição (FAYYAD e SIMOUDIS, 1997). A predição consiste em usar um conjunto de dados (exemplos ou experiências passadas com repostas conhecidas) para prognosticar valores futuros (desconhecidos) de outra variável. A descrição consiste em encontrar modelos humanamente interpretáveis para expor os dados e se obter informação destes.
Os principais tipos de tarefas de predição são classificação e regressão e os principais tipos de tarefas de descrição são segmentação, sumarização e associação, as quais são descritas a seguir.
1) Classificação
A classificação consiste em construir um modelo que possa ser aplicado a dados não-classificados, de modo a classificá-los (BERRY e LINOFF, 1997). Segundo os autores, a classificação consiste em analisar as características dos dados recém apresentados e atribuí-los a uma classe predeterminada. Cada dado é examinado e classificado segundo uma classe predefinida, ou seja, usa-se um conjunto de exemplos pré-classificados para desenvolver um modelo que pode classificar a base de dados empregada.
Existem diversas técnicas utilizadas para classificação: árvores de decisão, regressão logística, raciocínio baseado em casos, redes neurais artificiais e algoritmos genéticos.
2) Estimativa ou Regressão
O objetivo da estimativa é a construção de um modelo que permitirá que o valor de uma variável seja estimado a partir de valores conhecidos de outras variáveis. Na regressão, a variável a ser estimada é quantitativa (valores contínuos) e, na classificação, ela é categórica (valores discretos) (HAND et al., 2001).
Estimativa é aprender a função que mapeia um item de dado para uma variável de predição real estimada (FAYYAD et al., 1996).
As técnicas de mineração utilizadas para regressão são: árvores de decisão, regressão linear, análise de discriminante e redes neurais artificiais.
3) Segmentação ou clustering
A segmentação é um processo que consiste em agrupar dados similares baseado em valores de alguns de seus atributos. O objetivo é dividir os dados em grupos homogêneos, de modo que dados semelhantes sejam postos em um mesmo grupo (HAND et al., 2001).
Berry e Linoff (1997) afirmam que a segmentação dividirá um conjunto de dados heterogêneo em um número de subgrupos mais homogêneos ou clusters.
De acordo com Fayyad et al. (1996), estes subgrupos ou clusters devem ser determinados a partir dos dados, contrariamente ao que ocorre na classificação
quando as classes são predefinidas. Clusters são definidos a partir do encontro de agrupamentos naturais de dados baseado em similaridades métricas ou modelos de probabilidade.
As técnicas utilizadas nesta tarefa são: análise multivariada (estatística), raciocínio baseado em casos, redes neurais artificiais e algoritmos genéticos.
4) Sumarização
Segundo Fayyad et al. (1996), a sumarização proporciona uma descrição compacta para um subconjunto de dados. Métodos mais sofisticados envolvem regras de sumarização, técnicas de visualização multivariada e relacionamento funcional entre variáveis. A sumarização é freqüentemente utilizada na análise exploratória interativa de dados e na geração de relatórios automatizados.
5) Associação
A tarefa de associação identifica quais eventos ocorrem conjuntamente. O exemplo típico é a determinação de quais produtos são colocados juntos em um carrinho de supermercado (BERRY e LINOFF, 1997). O objetivo é identificar associação entre registros de dados que estão relacionados. Para este tipo de tarefa se utiliza a técnica de descoberta de regras de associação.
As tarefas de mineração de dados, descritas anteriormente, e alguns exemplos de sua aplicação são apresentadas de forma resumida no Quadro 4.
Como neste trabalho, na tarefa de classificação para mineração dos dados, será usada a técnica de árvore de decisão, sobre a qual são tecidas algumas considerações a seguir.
2.4.2.1.1 Árvores de decisão
As árvores de decisão são usadas na mineração direta, particularmente para classificação. Elas dividem o conjunto de dados em subconjuntos, de modo que cada um deles passe a ser descrito por uma regra (BERRY e LINOFF, 1997).
Tarefa Descrição Exemplos • Classificar pedidos de crédito • Esclarecer pedidos de seguros
fraudulentos Classificação
Constrói um modelo que possa ser aplicado a dados não-classificados
a fim de categorizá-los em classes. • Identificar a melhor forma de tratamento de um paciente
• Estimar o número de filhos ou a renda total de uma família
• Estimar o valor em tempo de vida de um cliente
• Estimar a probabilidade de que um paciente morrerá baseando-se nos resultados de diagnósticos médicos Estimativa
(ou Regressão)
Usada para definir um valor para alguma variável contínua
desconhecida.
• Prever a demanda de um consumidor por um novo produto
Associação
Usada para determinar quais itens tendem a coocorrerem (serem adquiridos juntos) em uma mesma transação.
• Determinar quais os produtos que costumam ser colocados juntos em um carrinho de supermercado
• Agrupar clientes por região do país • Agrupar clientes com comportamento de
compra similar Classificação
Constrói um modelo de algum tipo que possa ser aplicado a dados não-classificados a fim de
categorizá-los em classes. • Agrupar seções de usuários Web para prever comportamento futuro de usuários • Tabular o significado e desvios padrão
para todos os itens dados Sumarização
Envolve métodos para encontrar uma descrição compacta para um
subconjunto de dados. • Derivar regras de síntese
Quadro 4 - Tarefas realizadas por técnicas de mineração de dados Fonte: Dias (2001)
Uma árvore de decisão é composta por nó raiz, nós de decisão internos e nós folhas terminais, cujas associações geram regras, conforme pode ser observado na Figura 19.
A elaboração de uma árvore de decisão se inicia pela seleção de um atributo para a colocação na posição raiz, abrindo-se um ramo para cada valor possível que este atributo possa receber. Cada nó de decisão implementa um teste com saídas que indicam o ramo. Desse modo, divide-se o conjunto de exemplos em subconjuntos, um para cada valor do atributo. Para cada entrada, em cada nó, um teste é aplicado e um dos ramos é selecionado em função da saída. Este processo se inicia no nó
Figura 19 - Componentes de uma árvore de decisão
raiz e é repetido recursivamente até alcançar o nó folha, o qual indica o valor da saída ou classe. Existe apenas um caminho do nó raiz ao nó folha (ALPAYDIN, 2004; WITTEN e FRANK, 2005). A Figura 20 exemplifica o processo de construção de uma árvore de decisão a partir de um conjunto de dados.
Figura 20 - Conjunto de dados e a respectiva árvore de decisão Fonte: Alpaydin (2004)
Existem diferentes algoritmos para se fazer a seleção do atributo que será o nó raiz, mas a meta de todos eles é sempre a de escolher o atributo que melhor discriminará as classes (BERRY e LINOFF, 1997).
Regra Nós folhas Nó de decisão Nó raiz x1 Sim C1 C2 C2 w10 C1 Sim Não Não C1 x1 > w10 x2 > w20 x2 w20
Uma das formas de seleção do atributo raiz é realizada a partir do ganho de informação. Associada com o nó de uma árvore, o ganho de informação representa a expectativa sobre a informação necessária para especificar a classificação do exemplo que chega ao nó. Calcula-se o ganho de informação para cada um dos atributos e escolhe-se o atributo que ganha mais informação para fazer a divisão, ou seja, ser o nó raiz (WITTEN e FRANK, 2005).
Uma vantagem da árvore de decisão é a interpretabilidade, ou seja, a árvore pode ser convertida em um conjunto de afirmações SE-ENTÃO que são facilmente entendidas (ALPAYDIN, 2004). Elas tomam a forma de regras explícitas e isto auxilia as pessoas a avaliarem os resultados, identificando os atributos-chave do processo (BERRY e LINOFF, 1997). Por esta razão ela é muito popular (BERRY e LINOFF, 1997; ALPAYDIN, 2004).
Existe uma variedade de algoritmos para construção de uma árvore de decisão. Os mais populares são o CART, CHAID e o C4.5 (BERRY e LINOFF, 1997), descritos a seguir.
• CART (Classification and Regression Trees) foi publicado por Brimen et al. (1984) apud Berry e Linoff (1997). É o método mais popular de se construir árvores de decisões binárias. O algoritmo se baseia em um arquivo de treinamento com dados previamente classificados. Em cada nó, os casos são separados em função de apenas um atributo. O atributo a ser testado num nó é aquele que gera grupos com a menor diversidade, ou seja, no qual somente uma classe é predominante.
• CHAID (Chi-squared Automatic Induction), publicado por Hartigan (1975) apud Berry e Linoff (1997), é o mais antigo dos algoritmos populares e também é o mais usado nos pacotes estatísticos, como, por exemplo, SPSS e SAS.
• C 4.5, publicado por Quinlan (1993) apud Berry e Linoff (1997), este algoritmo produz árvores com número de ramos variável. Cada valor do atributo gera um ramo. A entropia ou ganho de informação tem prevalecido como forma de escolha do atributo a ser testado em um nó. A partição do espaço de características se inicia pelo nó raiz e continua para os nós subseqüentes da mesma maneira, ou seja, escolhendo-se em cada nó o melhor atributo para a
divisão, até que um atributo assuma um único valor. Neste caso, ele será rotulado como nó folha (WITTEN e FRANK, 2005).