Monitoring and institutional control - SUMMARIES AND CONCLUSIONS OF THE SPECIALISTS MEETING

2. SUMMARIES AND CONCLUSIONS OF THE SPECIALISTS MEETING

2.7. Monitoring and institutional control

A analise de agrupamento ou cluster, compõe-se de algoritmos que pressupõe agrupar ou separar um conjunto de indivíduos, em um número restrito de classes homogêneas, de modo que exista heterogeneidade, inclusive entre os elementos de grupamentos ordenados distintamente. As variáveis devem ser altamente associadas, uma após as outras, em diferentes agrupamentos e relativamente distintas uma das outras. Em síntese, este processamento facilita a análise, a legibilidade, as comparações, a concentração e as transformações das estatísticas.

O método de análise de agrupamento considera os dados brutos ou relativos, mediante tratamento que facilite a identificação de caracteristicas distintas. H edges & Olkin (1985) e Bussab et al. (1990) consideram que diferentes critérios, conduzem a grupos homogêneos distintos e que a homogeneidade depende dos objetivos do pesquisador, permite inclusive estimar o efeito da magnitude, dentro de cada cluster.

JOLLIFFE (1975), Resurreccion (1988) e SiLVA & Ma c h a d o (1997), relatam as vantagens do método sobre os convencionais, por causa da facilidade de interpretar os elementos que formam os grupos ou acabam dispondo-se de modo mais ou menos aleatórios no espaço das variáveis.

Os passos para proceder a análise de dados, valendo-se da AA segue uma seqüência lógica. Primeiro, opta-se, entre dados oriundos de variáveis ou elementos. Segundo, escolhe-se o tipo de classificação, entre o critério hierárquico ou não hierárquico, e por úhimo, deve-se defiunir o método de junção a ser utilizado e a medida de parecença.

O método hierárquico foi escolhido neste estudo e tem como característica, as seqüências de divisão em classes como na taxionomia. Conforme Bourcx;he & Saporta (1982), cada classe é incluída numa classe de partição seguinte e a seqüência das partições obtidas, representa-se na forma de árvore hierárquica ou dendrograma. A sua análise permite definir os grupos em ftinção da parecença entre as variáveis.

A seqüência de partições de um determinado conjunto de dados (a,b,c,d,e) está representada na Figura 3.4, em que cada partição corresponde a um valor numérico e representa o nivel no qual têm lugar os agrupamentos. Portanto, quanto maior for o índice numérico, ou nível de agregação, mais heterogêneo as partes agrupadas. Em contrapartida, quanto menor o índice, mais homogêneo as partes agrupadas. Permite ainda unificar grupos de elementos distintos a um grupo já formado, não é a forma alongada da partição que a distingue. Assim, pode ser obtida como no exemplo, uma partição em três classes de acordo com as linhas tracejadas, na cor vermelha: (a,b), (c,d) e (e).

A escolha do ponto de corte, permeia inúmeros critérios de subjetividade. Iadiray

& Horber (1997) e Callenbach et al. (1993), afirmam que o ponto de vista do observador, aliado a constatação visual, determinam a melhor classificação das classes. Entretanto, na maioria dos impactos ambientais, não é possível quantificar precisamente os aspectos que afetam a qualidade de vida, normalmente determinada por juízo de valor.

Quando a massa de variáveis é grande são utilizados métodos de partição que possibilitam manter partições com um número fixo de k classes. O processo ocorre de forma iterativa, considerando um reagrupamento próximo dos k pontos e que foram escolhidos ao acaso. Uma boa partição é aquela em que a inércia interclasse é grande

CAPÍTULO III - AAETODOLOeiA ₄₄

(inércia intraclasse pequena). Iniciando com uma partição em k+1 classes para outra de k classes, agrupa-se duas classes em uma e a inércia interclasse diminui, representada pela média das distâncias, entre os centros de gravidade de cada classe e o centro de gravidade total. (a,b),(c,d,e) _ 4 (c,d),e _3 (c,d) 2 (a,b) _1 0

FIGURA 3.4 Exemplo da seqüência de partições dos elementos a, b, c, d, e.

Nas ocasiões em que os atributos classificatórios inviabilizam a inspeção gráfica, existe a possibilidade de criar coeficientes de parecença (semelhança ou proximidade) do conjunto de elementos (indivíduos ou variáveis), usando a medida de proximidade, no caso a distância euclidiana (menor distância entre dois pontos).

Métodos distintos utilizam caminhos próprios para determinar a parecença (similaridade ou dissimilaridade) e a união dos elementos, pode ser o hierárquico no qual a cada passo diminui a dimensão da matriz de parecença. Portanto, à medida que aumenta o valor absoluto da distância cresce a dissimilaridade, por conseguinte, diminui a similaridade. Ocorre o oposto quando diminui a distância, cresce a similaridade e por sua vez diminui a dissimilaridade. Crivisqui (1997) considera que o ordenamento da similaridade e da dissimilaridade entre os elementos de uma tabela de dados, conduz a uma mensagem da quantidade de informações elementares contidas na tabela.

O principal obstáculo dos métodos hierárquicos é definir o critério de agrupamento entre duas classes. Os algoritmos identificam em cada etapa as duas classes mais próximas, até uma única classe. Pereira (1993) e Bourcx:he & Saporta (1982) recomendam

empregar diferentes técnicas de AA, quando for constatada observação discrepante ou atípica. Neste caso, propõe-se o método de Word que utiliza a variância para medir as distâncias entre os agrupamentos.

CAPÍTULO m - AAFrODOLQglA_______________________________________________ 45

3.3.2 Analise fatoriai de correspondência

A AFC constitui a técnica mais comumente utilizada, para simplificar dados multidimensionais qualitativos, e permite reduzir o número de variáveis, para outras, denominadas fatores. Castro (1977) considera que um conjunto de variáveis, pode parecer excessivo ou de difícil tratamento estatístico, no entanto, á medida que são identificadas àquelas mais importantes, estas, por sua vez, sintetizam o conjunto de informações originais, as outras variáveis, passam a ser abandonadas. Deste modo não ocorre um procedimento de inferências causais, mas, um processo considerado algebricamente complexo e ao mesmo tempo, epistemologjcamente simples de eliminação de variáveis redundantes.

Bouroche & Saporta (1982) e Escofier & Pag ès (1992) consideram a AFC, um método privilegiado para descrever dados qualitativos, em que o resultado é único. Entretanto, as possíveis análises são numerosas, o que assegura flexibilidade e facilidade de adaptação. Existem várias referências sobre a utilização do método, em diferentes áreas;

Verdinelli(1980), na analise inercial em ecologia; Carroll et al. (1986), na comparação de distâncias entre dois pontos; Ho fm an & Franke (1986), na representação gráfica das categorias de dados de pesquisa de marketing; Sblva & VERDINELLI (1997), na avaliação massal de terrenos e Venturim (1998) em um sistema de gestão ambiental de resíduos orgânicos no meio rural.

A análise de correspondência de natureza multivariada, segundo Verdinelli,

(1980); Ho fm a n & Franke (1986), Resurreccion, (1988) e Silva & Machado, (1997) explicita as relações que não são detectadas nas pcãrwise de comparações de variáveis. Entretanto, permite inferir as relações recíprocas, associações e oposições que existe entre as variáveis e as amostras. Os fetores, são independoites uns após o outro. O método fatorial considou a variação expressa por um coi^unto de variáveis, pelo uso de um coiqunto menor, de índices ou â to res, na esperança sintetizem a variação rdevante do

conjunto original.

Verdinelli (1980) e Criv isq u i (1997) consideram que um dos propósitos da analise fatorial é reduzir a dimensionalidade do sistema, conservando a configuração inicial da melhor forma possível, ou seja, procura-se determinar as melhores representações gráficas da estrutura multidimensional, preservando os aspectos originais.

Para trabalhar com análise fatorial de correspondência todos os valores devem ser inteiros e positivos, caso exista valores negativos, estes devem ser convertidos. O processo exige a transformação da matriz de dados, em uma grande matriz de probabilidade dos produtos marginais. Todavia, as variáveis devem possuir dependência. VERDINELLI (op. cit.) relata sobre a aplicação em dados qualitativos e quantitativos discretos ou previamente discretizados.

Dans le document Issues Relating to Safety Standards on the Geological Disposal of Radioactive Waste | IAEA (Page 15-0)