• Aucun résultat trouvé

CHAPITRE 4 : MÉTHODES DE RECONSTRUCTION : PROBLÈME INVERSE

4.3 Méthodes itératives stochastiques

4.3.2 Estimateurs au sens du maximum a posteriori (MAP)

Este estudo de caso seguiu as etapas de arranjo do ambiente e dos artefatos, plane- jamento do procedimento de trabalho, prepara¸c˜ao do participante, execu¸c˜ao do estudo de caso para cada unidade de estudo e an´alise final. Conclu´ıda a etapa de arranjo, um estudo de caso piloto foi realizado para refinar e estabelecer o procedimento de trabalho observado

Defeito: Granularidade Heterogˆenea Rela¸c˜ao Utilizada: Empregado 1a Variante:

Sal´arios representados em granularidades di´aria e anual Atributo Alvo da Avalia¸c˜ao:

Salario. Distribui¸c˜ao unimodal e assimetria positiva. Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 0.8% de tuplas por amostragem randˆomica sem reposi¸c˜ao. A amostra resultante foi novamente amostrada - propor¸c˜ao 50% − 50% - para determinar os casos com

granularidade di´aria e anual. Os sal´arios di´arios e anuais foram calculados a partir da aplica¸c˜ao dos fatores de heterogeneidade iguais a1/30e 12, nessa ordem, sobre os sal´arios mensais amostrados.

2a Variante:

Sal´arios representados em granularidade quinzenal Atributo Alvo da Avalia¸c˜ao:

Salario. Distribui¸c˜ao bimodal, com modas sim´etrica e assimetria positiva. Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 0.9% de tuplas por amostragem randˆomica sem reposi¸c˜ao. Sal´arios quinzenais calculados com a aplica¸c˜ao do fator de heterogeneidade igual a 1/2sobre os

sal´arios amostrados. Defeito: Referˆencia Ausente Rela¸c˜ao Utilizada: Cliente Variante ´Unica:

Clientes casados, mas sem a representa¸c˜ao dos respectivos relacionamentos. Atributo Alvo da Avalia¸c˜ao:

Relacionamento denotado pelos identificadores de cliente e cˆonjuge. Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 0.8% de tuplas por amostragem randˆomica sem reposi¸c˜ao no estrato de clientes com estado civil igual a “casado”. As instˆancias do relacionamento “cˆonjuge” foram eliminadas para todas as tuplas amostras.

Defeito: Referˆencia Incorreta Rela¸c˜ao Utilizada: Cliente Variante ´Unica :

Clientes n˜ao casados, mas com a representa¸c˜ao dos respectivos relacionamentos. Atributo Alvo da Avalia¸c˜ao:

Relacionamento denotado pelos identificadores de cliente e cˆonjuge. Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 1% de tuplas por amostragem randˆomica sem reposi¸c˜ao nos estratos de clientes com estado civil igual a “solteiro” ou “casado”. A partir dessa amostra, novas

amostragens permitiram produzir os relacionamentos uni (→) e bidirecionais (↔) a seguir: ClienteX

Solteiro↔ ClienteYSolteiro, ClienteXSolteiro→ ClienteYSolteiro→ ClienteZSolteiro,

ClienteX Casado→ Cliente Y Casado→ Cliente Z Casado, Cliente X Casado↔ Cliente X Casado e ClienteX Casado↔ Cliente Y

Casado marcados como sendo inexistentes no UdD.

Quadro 5.2: Caracter´ısticas e crit´erios de gera¸c˜ao dos dados defeituosos por Defeito e Variante - Parte I (Fonte: Elaborado pelo autor)

Defeito: Tupla At´ıpica

Rela¸c˜ao Utilizada: Empregado 1a Variante:

Ano de experiˆencia at´ıpico Atributo Alvo da Avalia¸c˜ao:

Anos.experiencia. Distribui¸c˜ao unimodal e assimetria positiva. Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 0.1% de tuplas por amostragem randˆomica sem reposi¸c˜ao e dirigida a um cargo previamente amostrado. Valor at´ıpico calculado por percentil95−percentil52 + percentil95 e percentil95−percentil5

2 − percentil5 (resolu¸c˜oes acima de 10 5

). 2a Variante:

Idades at´ıpicas

Atributo Alvo da Avalia¸c˜ao:

Idade. Distribui¸c˜ao unimodal e assimetria positiva. Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 0.8% de tuplas por amostragem randˆomica sem reposi¸c˜ao e dirigida a dois cargos previamente amostrados. Valor at´ıpico calculado por percentil95−percentil5

2 + percentil95.

3a Variante:

Sal´arios at´ıpicos por cargos Atributo Alvo da Avalia¸c˜ao:

Salario. Distribui¸c˜ao bimodal e modas assim´etricas positivas. Crit´erio de Gera¸c˜ao dos Dados:

Resolu¸c˜oes com cerca de 0.5% de tuplas selecionadas por amostragem randˆomica e sem repeti¸c˜ao dirigida a certos cargos previamente amostrados. Valor at´ıpico calculado por

percentil95−percentil5

2 + percentil95 e

percentil95−percentil5

2 − percentil5 (resolu¸c˜oes acima de 10 4

). 4a Variante:

Empregados com composi¸c˜ao n˜ao usual de anos de experiˆencia, idade e sal´ario ou anos de experiˆencia, idade e estado civil para diferentes cargos.

Atributo Alvo da Avalia¸c˜ao:

Anos.experiencia, idade, salario, situacao.civil, cargo Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 1% de tuplas por amostragem randˆomica sem reposi¸c˜ao e dirigidas

a certos cargos previamente amostrados. Cada resolu¸c˜ao utilizou uma das composi¸c˜oes supracitadas alternando valores altos e baixos dos atributos quantitativos - obtidos dentro do cargo amostrado. Os atributos categ´oricos foram modificados para outros valores do respectivo dom´ınio.

Defeito: Tupla Falsa

Rela¸c˜oes Utilizadas: Produto, PCP Produto Variante ´Unica:

Produtos sem plano de produ¸c˜ao nos ´ultimos 15 meses Atributos Alvo da Avalia¸c˜ao:

Prodid, plan.periodo, plan.volume Crit´erio de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 2% a 3% de produtos por amostragem randˆomica sem reposi¸c˜ao. As quantidades de unidades a serem produtivas dos produtos amostrados foram zeradas.

Quadro 5.3: Caracter´ısticas e crit´erios de gera¸c˜ao dos dados defeituosos por Defeito e Variante - Parte II (Fonte: Elaborado pelo autor)

Defeito: Unidade Medida Heterogˆenea Rela¸c˜ao Utilizada: Empregado

Variante ´Unica:

Sal´arios representados em D´olar Canadense, D´olar Australiano e Euro Atributo Alvo da Avalia¸c˜ao:

Sal´ario. Distribui¸c˜ao bimodal e modas com assimetria positiva. Crit´erios de Gera¸c˜ao dos Dados:

Sele¸c˜ao aproximada de 0.8% de tuplas por amostragem randˆomica e sem reposi¸c˜ao

dirigida a cargos e filiais previamente amostrados. Sal´arios heterogˆeneos calculados a partir da taxa de cˆambio real - de certa data - entre o D´olar Americano e as moedas supracitadas. Tais taxas produziram um fator de heterogeneidade aproximado de1/5em m´edia.

Quadro 5.4: Caracter´ısticas e crit´erios de gera¸c˜ao dos dados defeituosos por Defeito e Variante - Parte III (Fonte: Elaborado pelo autor)

na Figura 5.3. Na etapa de prepara¸c˜ao, o participante recebeu as informa¸c˜oes relativas ao estudo de caso e seus procedimentos, as estruturas dos defeitos, as atividades de avalia¸c˜ao e a semˆantica dos artefatos de dados. Ainda, houve um treinamento de trinta minutos para familiarizar o participante quanto as caracter´ısticas do V is4DD - Se¸c˜ao 5.3.4.

Figura 5.3: Esquema em BPMN do procedimento de trabalho do estudo de caso com m´ultiplas unidades de estudo (Fonte: Elaborado pelo autor)

Na etapa de execu¸c˜ao de cada unidade de estudo - defeito -, a atividade de avalia¸c˜ao de cada defeito ocorreu em sess˜oes de cerca de sessenta minutos. Contudo, certos defei- tos como tupla at´ıpica e granularidade heterogˆenea demandaram duas sess˜oes. Em cada sess˜ao, uma rela¸c˜ao em particular era submetida a um conjunto de representa¸c˜oes visuais previamente ordenadas pelo V is4DD. Em cada representa¸c˜ao visual isolada5, o partici-

pante desempenhou a an´alise dos dados balizado pela atividade de avalia¸c˜ao, assinalava o espa¸co - ou espa¸cos - onde acredita existir a estrutura do defeito avaliado, determinava

5

O participante foi instru´ıdo a somente utilizar a representa¸c˜ao visual corrente para avaliar a qualidade dos dados.

o n´umero de defeitos e persistia a representa¸c˜ao visual corrente. Em contraste, aquelas representa¸c˜oes visuais que n˜ao favoreceram a detec¸c˜ao dos defeitos foram marcadas como inadequadas. N˜ao houve restri¸c˜ao de tempo para cada atividade. Ao t´ermino de todas as sess˜oes, as notas e observa¸c˜oes relativas a unidade de estudo foram reunidas, organizadas e sintetizadas - Se¸c˜ao A.2.

Com o t´ermino de todas as unidades de estudo, a etapa da an´alise final utilizou os ciclos de avalia¸c˜ao da qualidade dos dados como unidade de an´alise qualitativa. Um ciclo denota a ocasi˜ao durante a qual o participante organiza os atributos, detecta e quantifica cada variante de um defeito espec´ıfico em dada resolu¸c˜ao de dados. Esse ciclo tamb´em representa a ocasi˜ao na qual a representa¸c˜ao visual n˜ao possibilita detectar certo defeito. Cada ciclo est´a associado a um conjunto de notas, observa¸c˜oes e registros de intera¸c˜ao utilizados na an´alise final. Este estudo de caso apresentou cerca de 400 ciclos.

Baseada nesses ciclos, a an´alise final realizou dois passos em sequˆencia. O primeiro passo desenvolveu o conceito de configura¸c˜ao que re´une todas as propriedades do V is4DD com participa¸c˜ao causal na detec¸c˜ao ou quantifica¸c˜ao dos defeitos nos dados. Essas con- figura¸c˜oes foram agrupadas pela propriedade visual base de codifica¸c˜ao do atributo alvo da avalia¸c˜ao. Assim, certas representa¸c˜oes visuais denotam mais do que uma configura¸c˜ao em acordˆancia ao n´umero de propriedades bases fornecidas. A Tabela 5.2 destaca as con- figura¸c˜oes e as respectivas propriedades visuais e interativas - Se¸c˜oes 2.3.4.2.1 e 2.3.4.1.

Neste estudo, o termo “detec¸c˜ao” denota a capacidade de revelar a estrutura do defeito e propiciar sua an´alise frente aos demais dados. O crit´erio de capacidade considerou: i) a identifica¸c˜ao completa ou parcial da estrutura de, ao menos, um caso defeituoso, ii) o custo computacional de renderiza¸c˜ao entre intera¸c˜oes n˜ao superior a 60 segundos, iii) a viabilidade da an´alise visual em representa¸c˜oes de dados de alta densidade. Por sua vez, o termo “quantifica¸c˜ao” representa o grau de acuracidade na contagem do n´umero de tuplas envolvidas no defeito identificado, sendo definido como: superior a 80%, entre 30% e 80% inclusos, inferior a 30% ou n˜ao quantific´avel 0%.

Por fim, o segundo passo analisou o relacionamento das diferentes propriedades e caracter´ısticas dos dados que proporcionaram a detec¸c˜ao e quantifica¸c˜ao observados na avalia¸c˜ao de todos os defeitos. T´ecnicas de estat´ıstica descritiva, de contraste e de cons- tru¸c˜ao de cadeia de evidˆencias [Miles e Huberman, 1994] foram as principais t´ecnicas utilizadas pelo procedimento anal´ıtico para descrever os resultados finais discutidos na se¸c˜ao a seguir.