Dualité entre les approches - Multidimensional martingale optimal transport.

O controle baseado em comportamentos apresenta várias linhas diferentes. Cada uma das abordagens varia principalmente em fun¸cão dos métodos de ativa¸cão dos comportamentos e na arbitragem das sa´ıdas (Action Selection)[Bryson, 2000].

O modelo de controle original de Brooks [Brooks, 1986] é conhecido com “subsumption”. O controlador é constru´ıdo em termos de n´ıveis de competência. Cada n´ıvel oferece uma base para o n´ıvel superior. A ‘inteligência” ou capacidade do sistema é ampliada a cada novo comportamento inserido. A implementa¸cão original de Brooks [Brooks, 1989b] é baseada em um conjunto de máquinas de estados fini- tos ou FSA (Finite State Acceptor) que interagem entre si. Devido à dificuldade de programa¸cão utilizando diretamente as FSA, foi desenvolvida uma linguagem chamada de “Behavior Language” [Brooks, 1990], que oferece elementos abstratos que são compilados para um conjunto de FSA executável. Continuando o desenvolvimento, Brooks [Brooks, 1991d] explicita os seguintes conceitos:

• Situado1_{: define a habilidade dos robˆos em sentir o ambiente a sua volta evi-}

tando o uso de representa¸c˜oes abstratas.

• Personifica¸cão2: define os robôs como criaturas f´ısicas que devem experimen- tar o mundo diretamente e não através de simula¸cão.

O desenvolvimento do controle baseado em comportamentos continua com Ar- kin, que o combina com a teoria de esquemas (Schema Theory) desenvolvida por Arbib [Arbib, 1992]. O conceito biológico de esquemas Motores (Motor schemas) é então aplicado ao controle de robos [Arkin, 1989, Arkin, 1995, Arkin, 1998]. Os esquemas perceptivos são embutidos nos esquemas motores, de forma a reagir a est´ımulos tão rápido quando poss´ıvel. Os esquemas perceptivos podem ser definidos recursi- vamente tornando-os capazes de extrair informa¸cões mais elaboradas e significativas para ativar apropriadamente os esquemas motores.

Patti Maes [Maes, 1989b, Maes, 1989a, Maes, 1990, Maes and Brooks, 1990] publicou um método baseado na sele¸cão de a¸cões através do espalhamento de ativa¸cões geradas por objetivos e por módulos que detectam determinadas situa¸cões pré- definidas.

Mataric [Mataric, 1992a, Mataric, 1992b] desenvolve uma heur´ıstica para desenvolvimento de controles comportamentais. Os comportamentos s˜ao definidos em um n´ıvel mais alto e refinados seguidamente at´e que possam ser aterrados ou fundamen- tados nos dados sensoriais.

Situatedness

No intuito de desenvolver tarefas mais complexas, Firby e Slack [Firby, 1994, Firby et al., 1995] desenvolveram um trabalho, no qual um conjunto de tarefas é es- pecificado por seqüências de a¸cões, que ativam um conjunto de habilidades espec´ıficas (skill), que se assemelham a comportamentos. Este trabalho não é considerado pura- mente comportamental porque utiliza módulos de resolu¸cão de problemas para realizar planejamento, que define a seqüência de a¸cões apropriadas para cada tarefa.

Monica Nicolescu e Mataric [Nicolescu and Mataric, 2000a,

Nicolescu and Mataric, 2000b] ampliaram o modelo comportamental definindo o conceito de comportamentos abstratos. Seqüências de comportamentos abstratos especificam a realiza¸cão de um determinado objetivo ou tarefa. Os comportamentos abstratos são interconectados com comportamentos primitivos, possibilitando uma intera¸cão através da distribui¸cão de ativa¸cão e inibi¸cões. A estrutura proposta permite o desenvolvimento de tarefas complexas utilizando o mesmo conjunto de comportamentos primitivos.

O modelo de Brooks que define um paradigma conhecido por PAB (Port- Arbitrated behavior Paradigm) foi generalizado para sistemas multi-agentes por Wer- ger [Werger, 2000]. Neste trabalho foi definida a linguagem Ayllu que facilita a implementa¸cão do controle comportamental de Brooks em um time de robôs interconectados através de rede IP.

Todas as abordagens baseadas no modelo comportamental foram inspiradas nos comportamentos animais e no conhecimento sobre processos biológicos de percep¸cão, cogni¸cão e a¸cão. Implementar estes processos em qualquer tipo de sistema não é uma tarefa simples e abre possibilidades para várias e diferentes abordagens, cada uma com propriedades próprias, vantagens e desvantagens. Podem-se destacar duas divisões principais entre as abordagens: a forma de sa´ıda ou resposta dos comportamentos e a coordena¸cão dos comportamentos.

Os comportamentos devem enviar comandos para os atuadores ou motores definindo a for¸ca, velocidade e dire¸cão destes. Os comandos podem ser discretos ou cont´ınuos. Os discretos correspondem a um conjunto finito de valores pré- determinados. O controle de velocidade de um motor pode receber os comandos “frente”, “trás” e “parado”, cada um correspondendo a um valor real de velocidade ou for¸ca pré-determinados. Os comandos cont´ınuos podem assumir qualquer valor real dentro de uma faixa pré-determinada de atua¸cão.

Além do tipo de resposta fornecida para comandar atuadores, outra caracter´ıstica marcante é o paralelismo inerente à ativa¸cão dos comportamentos. É poss´ıvel se ter vários comportamentos ativos no mesmo instante e fica clara a necessidade de selecionar a melhor sa´ıda do sistema. A sele¸cão, também chamada de coordena¸cão de comportamentos, pode ser realizada de diversas formas e deu origem a diferentes abordagens do controle baseado em comportamento. A coordena¸cão de comportamentos pode ser realizada em duas formas básicas: métodos competitivos e métodos

cooperativos.

Os métodos de controle competitivos garantem que apenas a sa´ıda de um comportamento é utilizada para o controle dos atuadores. No modelo de Books conhecido como “subsumption´´, vários comportamentos são ativados simultaneamente e a sa´ıda é selecionada através de critérios de supressão. Existe uma prioridade previamente definida entre todos os comportamentos durante o projeto.

Patti Maes [Maes, 1990, Maes and Brooks, 1990] publicou um método baseado na sele¸cão de a¸cões. É proposta uma rede de comportamentos conectados com objetivos e sensores. A execu¸cão dos comportamentos é realizada quando a ativa¸cão recebida de objetivos e dos sensores ultrapassa um determinado limite(“threshold”). Nesta abordagem, apenas um comportamento é ativado de cada vez, não existindo uma prioridade expl´ıcita entre eles e nem a necessidade de coordenar as sa´ıdas. A ativa¸cão é controlada por um conjunto de parâmetros existentes nos próprios comportamentos, nos sensores, nos objetivos e nas interconexões existentes. Uma vantagem desta abordagem é a possibilidade de alterar os parâmetros dinamicamente, permitindo adapta¸cões durante a execu¸cão.

Quando se utilizam métodos baseados em prioridade, com supressão de sa´ıdas para arbitrar as respostas dos comportamentos, a informa¸cão contida nos comandos suprimidos é totalmente ignorada. Em muitos casos, pode não ser o ideal. Imagine um autômato que está seguindo um alvo e precisa desviar de um obstáculo. Para o comportamento de desvio pode não importar se vai virar para a direita ou esquerda, entretanto a dire¸cão escolhida pode ser decisiva para se alcan¸car o alvo. O comportamento de desvio deve portando, ou receber informa¸cões sobre a posi¸cão do alvo, ou permitir que suas sa´ıdas sejam combinadas ao comportamento que segue o alvo.

Os métodos que combinam sa´ıdas são conhecidos como coordena¸cão cooperativa. Nestes métodos, as respostas dos comportamentos são somadas ou fundidas através de alguma fun¸cão previamente definida. Ou seja, os comandos enviados aos atuadores são dependentes de todos os comportamentos ativos simultaneamente. Não existe, portanto, uma prioridade explicitamente definida em rela¸cão aos comportamentos ativos. Existem muitas maneiras para realizar a fusão de comandos tanto para comandos discretos, quando cont´ınuos [Bryson, 2000]. Uma das maneiras mais conhecidas, utilizada nos esquemas motores por Arkin [Arkin, 1998], é a representa¸cão da percep¸cão externa através de campos potenciais de atra¸cão e repulsão. O objetivo atrai o robô enquanto os obstáculos o repelem. A soma destes resultados determina a trajetória final. Os resultados dos comportamentos ativos simultaneamente são combinados ou fundidos através de soma vetorial.

Em alguns casos a fusão de comandos realizada apenas com a soma ou combina¸cão de sa´ıdas pode também apresentar problemas. Se um comportamento comanda para virar a direita (10O_{) e outro diferente comanda para virar a esquerda (10}O_{) o comando}

dire¸c˜ao, o que pode ser um problema.

Em outras palavras, a utiliza¸cão das prioridades de forma expl´ıcita como no modelo de “subsumption” de Brooks pode levar a perda de informa¸cões produzidas pelos comportamentos suprimidos, e a fusão de comandos pode levar a a¸cões inadequadas ou imprevis´ıveis. É claro que os exemplos apresentados podem ser facilmente resolvi- dos se a funcionalidade dos comportamentos for ampliada aumentando as informa¸cões utilizadas como est´ımulos ou a comunica¸cão entre eles.

Entre os princ´ıpios do controle comportamental estão a simplicidade e inde- pendência no desenvolvimento dos comportamentos de cada n´ıvel. Mantendo estes princ´ıpios, outros métodos de arbitragem foram desenvolvidos, combinando a com- peti¸cão com a coopera¸cão entre as respostas de atua¸cão.

Um método baseado em vota¸cão conhecido como DAMN (Distribuited Architec- ture for Mobile Navigation) foi desenvolvido por Rosenblatt [Rosenblatt, 1997]. Cada comportamento do sistema em vez de escolher um comando espec´ıfico, vota em um conjunto predefinido de comandos discretos para os atuadores, possuindo um número de votos. A coordena¸cão é realizada se contabilizando os votos e selecionando o comando vencedor, e este é efetivamente executado. Neste caso, também não há uma prioridade expl´ıcita entre os diversos comportamentos. Este método é considerado competitivo, mas apresenta um n´ıvel de coopera¸cão. A importância de um comportamento pode ser alterada quando se modifica o número de votos distribu´ıdos no sistema.

Uma outra abordagem para fusão de atua¸cão muito interessante é encontrada em Payton et al [Payton et al., 1992]. Cada comportamento pode responder três tipos de valores poss´ıveis para um comando.

Faixa (Zone): Define um limite inferior e superior para um comando.

Limite (Clamp) : Define um limite inferior ou um superior para um comando. Preciso (Spike) : Define um valor espec´ıfico e ´unico para o comando. Neste caso ´e

utilizado um controle de prioridade usual.

Os comandos gerados pelos comportamentos podem então ser descritos como variáveis de controle e não sa´ıdas diretas. O processo de fusão dos comandos é rea- lizado no intuito de se atender às restri¸cões de todos os comportamentos simultaneamente. Caso não seja poss´ıvel, são utilizados critérios de prioridade definidos pelo estado do sistema. A vantagem desta representa¸cão é a possibilidade de que cada comportamento pode criar aproxima¸cões inteligentes e constantes para sua fun¸cão cont´ınua de preferência.

Existem ainda outras abordagens para os mecanismos de coordena¸c˜ao de comportamentos cooperativa, competitiva ou h´ıbrida. Pirjanian [Pirjanian, 1999], fez um

apanhado geral sobre os métodos de coordena¸cão de comportamentos utilizados. Jo- ana Bryson [Bryson, 2000] estudou os mecanismos de sele¸cão da a¸cão correlacionando- os com hipóteses de psicologia.

Firby et al [Firby et al., 1995] desenvolveram um modelo h´ıbrido dividido em duas camadas interconectadas. Um planejador que utiliza uma biblioteca de tarefas or- ganizadas na forma de árvores, que em fun¸cão das tarefas ativas, um conjunto de habilidades do n´ıvel inferior são habilitadas. As habilidades perceptivas interagem com habilidades de a¸cão permitindo um controle eficiente. O planejador interage com as habilidades perceptivas recebendo est´ımulos que vão permitir a sele¸cão de novas tarefas.

Ainda existem muitos outros trabalhos desenvolvidos na ´area, mas estes exemplos s˜ao significativos nas tecnologias utilizadas.

Dans le document Multidimensional martingale optimal transport. (Page 32-35)