• Aucun résultat trouvé

idêntica a solução alvo. Por meio destas modificações é esperado que uma solução de melhor qualidade seja encontrada.

De acordo com Resende e Ribeiro (2005) existem várias classificações para as estratégias de path-relinking:

 periodical relinking: o path-relinking não é aplicado de forma sistemática, sendo apenas realizado periodicamente.

 forward relinking: o path-relinking é aplicado utilizando a pior solução (de acordo com a função de custo) como a solução inicial e a melhor solução como alvo.

 backward relinking: o path-relinking é aplicado utilizando a melhor solução como a solução inicial e a pior como a alvo.

 back and forward relinking: o path-relinking é realizado em ambos os sentidos, da melhor para o pior solução e da pior para a melhor solução.

 mixed relinking: São avaliados dois caminhos, começando da solução inicial e da solução alvo até que estes se encontrem em uma solução intermediária. .

 truncated relinking: o path-relinking é executado parcialmente, não sendo explorado todo o caminho da solução inicial até a solução alvo.

A utilização desta estratégia mostrou diversos avanços em várias aplicações no que diz respeito ao tempo de execução do GRASP bem como na qualidade das soluções geradas (AIEX et al., 2000; CANUTO; RESENDE; RIBEIRO, 2001; RIBEIRO; UCHOA; WERNECK, 2001; RESENDE; WERNECK, 2004; WITKOWSKI; ANTCZAK; ANTCZAK, 2010; SAV- SANI; JHALA; SAVSANI, 2014; ARAÚJO et al., 2015). De forma mais geral, o GRASP tem sido aplicado em diversos domínios como roteamento (ARGELLO; BARD; YU, 1997; CAR- RETO; BAKER, 2002), localização (KLINCEWICZ, 1993; URBAN; CHIANG; RUSSELL, 2000), transporte (FEO; RESENDE, 1989) e telecomunicações (RESENDE, 1998; ABELLO; PARDALOS; RESENDE, 1999; PRAIS; RIBEIRO, 2000; RESENDE; RIBEIRO, 2003).

2.4 Minimum description length

Dado um conjunto finito de modelos e uma quantidade limitada de observações, como decidir qual modelo é o melhor para explicar dados de um determinado domínio? Esse problema é conhecido na literatura como problema de seleção de modelos (do inglês, model selection), sendo bastante explorado no domínio da inferência estatística.

O princípio MDL (Minimum Description Length) (RISSANEN, 1978) propõe uma solução geral para resolver o problema de seleção de modelos, baseada na seguinte observação: qualquer regularidade nos dados pode ser usada para comprimir estes dados. Em outras palavras, a descrição dos dados deve usar a menor quantidade de símbolos (e.g. números, letras ou

2.4. Minimum description length 40

qualquer estrutura de dados) possíveis. Desta forma, é possível fazer uma associação entre os termos regularidade e aprendizagem, já que quanto mais os dados forem comprimidos de acordo com a teoria MDL, mais foi aprendido sobre estes dados.

Um método de descrição de dados consiste no mapeamento de uma descrição D0 de forma única a um conjunto de dados D. Um programa escrito em uma linguagem de programação, por exemplo, pode ser visto como uma maneira de descrever dados. Desta forma, um programa de computador cuja saída é a escrita de um conjunto de dados D e em seguida este programa pare de ser executado, pode ser visto como um método de descrição de D (GRUNWALD; MYUNG; PITT, 2005). Suponha que a sequência de bits 100110011001...10011001 seja uma repetição de 1000 ocorrências da sequência 1001. Um programa escrito em uma linguagem de programação

capaz de descrever esta sequência de bits pode ser visto no Algoritmo 6.

Algorithm 6 Algorithm to print 1000 times the sequence 1001 1: for i = 1; to i = 1000 do

2: print(’1001’); 3: end for

De forma diferente, o lançamento de uma moeda não viciada as mesmas 1000 vezes, deverá produzir um algoritmo completamente diferente do Algoritmo 6, pois não existe qualquer padrão determinístico neste caso. Sequências que apresentam algum tipo de regularidade, podem ser comprimidas por meio de uma descrição menor que a sequência original, enquanto sequências aleatórias são incompreensíveis (GRUNWALD; MYUNG; PITT, 2005).

A formalização do princípio MDL tem seus fundamentos explicados pela complexidade de Kolmogorov de uma sequência (LI; VITNYI, 2008). A complexidade de Kolmogorov de um objeto (e.g. texto, conjunto de bits etc) é definida como uma métrica que mede a quantidade de recursos computacionais necessários para especificar este objeto (KOLMOGOROV, 1968). Desta forma, quanto menos recursos computacionais utilizados por um programa, menor é a complexidade de Kolmogorov deste programa. Historicamente, a complexidade de Kolmogorov foi desenvolvida de forma independente nos trabalhos de Kolmogorov (1968), Solomonoff (1964a,b) e Chaitin (1966). As ideias principais de Solomonoff foram estendidas posteriormente por vários autores, culminando em uma versão idealizada da teoria MDL (SOLOMONOFF, 1978). Entretanto, esta versão idealizada de MDL não é prática pois ela é não-computável e

dependente de detalhes arbitrários das linguagens de programação (GRUNWALD; MYUNG; PITT, 2005).

Nesta tese, nos concentramos então nos trabalhos em que a teoria MDL pode ser aplicada na prática. A ideia básica dos trabalhos que usam MDL na prática é a de diminuir a escala da abordagem de Solomonoff para que esta possa ser utilizada. Isso pode ser atingido ao fazer uso de métodos de descrição que são menos expressivos que as linguagens de programação (GRUNWALD; MYUNG; PITT, 2005). Assim, se faz necessário restringir os métodos descriti- vos, tornando-os menos expressivos que as linguagens de programação. Métodos de descrição C

2.4. Minimum description length 41

devem ser gerais o suficiente para que muitas regularidades sejam comprimidas em dados D e ao mesmo tempo restritos o suficiente para que sempre seja possível computar o tamanho da menor descrição dos dados D ao se usar um método de C (GRUNWALD; MYUNG; PITT, 2005). Esta abordagem faz com que o MDL prático sempre deixe de comprimir algumas sequências regulares. Entretanto, não existe qualquer método de descrição capaz de produzir toda e qualquer regularidade em um conjunto de dados, pois não existe qualquer método automático que dada uma sequência de dados D, encontre o menor programa de computador que imprima D e pare (GRUNWALD; MYUNG; PITT, 2005).

A ideia da teoria MDL é encontrar um modelo que seja capaz de descrever esse conjunto de dados da menor maneira possível. Assim, aplicar o princípio MDL para resolver um pro- blema de seleção de modelos é o mesmo que projetar uma função de custo capaz de capturar regularidades nos dados do domínio de estudo.

A seguir, o problema de seleção de modelos em um determinado domínio é apresentado por meio do princípio MDL. Dado um conjunto D de dados e uma lista de hipóteses Hk (e.g.

modelos que capturem regularidade) sobre estes dados, uma função de custo baseada no princípio MDL possui duas componentes: (i) L(H) determinando o custo em bits de se utilizar uma hipótese H; e (ii) L(D|H) determinando o custo em bits de aplicar a hipótese H para capturar regularidades em um conjunto de dados D. Assim, o modelo que melhor captura similaridades no domínio estudado será aquele que minimize a Equação 2.7.

MDLprinciple= L(H) + L(D|H) 2.7 Um dos requisitos para o projeto de uma função de custo usando o princípio MDL é o de que L(H) e L(D|H) sejam conflitantes. Por exemplo, ao se tomar um modelo complexo capaz de descrever regularidades nos dados com precisão, o custo L(H) deste modelo deve refletir um valor alto. Entretanto, devido a sua complexidade é esperado que este modelo consiga comprimir melhor dados, ou seja, L(D|H) deverá ter um custo mais baixo. Já quando um modelo mais simples é utilizado, o custo de codificar este modelo L(H) tende a ser mais baixo quando comparado a um modelo complexo. Entretanto, seu custo para comprimir o conjunto de dados D L(D|H) tende a ser mais alto, já que o modelo não é capaz de descrever as regularidades com tanta precisão. Desta forma, a Equação 2.7 procura encontrar um tradeoff entre a complexidade de uma hipótese e o seu desempenho quando aplicada em um conjunto de dados. Este tradeoff garante que o modelo fique protegido contra sobreajustamento (do inglês, overfitting), pois um modelo extremamente simples não representará bem os dados e um modelo altamente complexo se ajustará perfeitamente aos dados, mas não será capaz de generalizá-lo.

O princípio MDL tem várias propriedades interessantes (BARRON; RISSANEN; YU, 1998; GRUNWALD; MYUNG; PITT, 2005):

 o modelo selecionado pelo princípio MDL tende a equilibrar a generalização dos dados observados com a complexidade intrínseca a estes dados;