Sistemas computacionais para atenção visual Top-Down e Bottom-up usando redes neurais artificiais

Benicasa, Alcides Xavier

doi:10.11606/T.55.2013.tde-29042014-162209

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.55.2013.tde-29042014-162209

Document

Doctoral Thesis

Author

Benicasa, Alcides Xavier (Catálogo USP)

Full name

Alcides Xavier Benicasa

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2013-11-18

Published

São Carlos, 2013

Supervisor

Romero, Roseli Aparecida Francelin (Catálogo USP)
Liang, Zhao - (Co-supervisor) (Catálogo USP)

Committee

Romero, Roseli Aparecida Francelin (President)
Camargo, Heloisa de Arruda
Gomide, Fernando Antonio Campos
Liang, Zhao
Silva Filho, Antonio Carlos Roque da

Title in Portuguese

Sistemas computacionais para atenção visual Top-Down e Bottom-up usando redes neurais artificiais

Keywords in Portuguese

Atenção baseada em objetos
Atenção visual bottrom-up e top-down
Reconhecimento de objetos

Abstract in Portuguese

A análise de cenas complexas por computadores não é uma tarefa trivial, entretanto, o cérebro humano pode realizar esta função de maneira eficiente. A evolução natural tem desenvolvido formas para otimizar nosso sistema visual de modo que apenas partes importantes da cena sejam analisadas a cada instante. Este mecanismo de seleção é denominado por atenção visual. A atenção visual opera sob dois aspectos: bottom-up e top-down. A atenção bottom-up é dirigida por conspicuidades baseadas na cena, como o contraste de cores, orientação, etc. Por outro lado, a atenção top-down é controlada por tarefas, memórias, etc. A atenção top-down pode ainda modular o mecanismo bottom-up através do enviesamento de determinadas características de acordo com a tarefa. Além do mecanismo de modulação considerado, o que é selecionado a partir da cena também representa uma importante parte para o processo de seleção. Neste cenário, diversas teorias têm sido propostas e podem ser agrupadas em duas linhas principais: atenção baseada no espaço e atenção baseada em objetos. Modelos baseados em objeto, ao invés de apenas direcionar a atenção para locais ou características específicas da cena, requerem que a seleção seja realizada a nível de objeto, significando que os objetos são a unidade básica da percepção. De modo a desenvolver modelos de acordo com a teoria baseada em objetos, deve-se considerar a integração de um módulo de organização perceptual. Este módulo pode segmentar os objetos do fundo da cena baseado em princípios de agrupamento tais como similaridade, proximidade, etc. Esses objetos competirão pela atenção. Diversos modelos de atenção visual baseados em objetos tem sido propostos nos últimos anos. Pesquisas em modelos de atenção visual têm sido desenvolvidas principalmente relacionadas à atenção bottom-up guiadas por características visuais primitivas, desconsiderando qualquer informação sobre os objetos. Por outro lado, trabalhos recentes têm sido realizados em relação ao uso do conhecimento sobre o alvo para influenciar a seleção da região mais saliente. Pesquisas nesta área são relativamente novas e os poucos modelos existentes encontram-se em suas fases iniciais. Aqui, nós propomos um novo modelo para atenção visual com modulações bottom-up e top-down. Comparações qualitativas e quantitativas do modelo proposto são realizadas em relação aos mapas de fixação humana e demais modelos estado da arte propostos

Title in English

Computational systems for top-down and bottom-uo visual attention using artificial neural networks

Keywords in English

Botton-up and top-down visual attention
Object-based attention
Recognition of objects

Abstract in English

Perceiving a complex scene is a quite demanding task for a computer albeit our brain does it efficiently. Evolution has developed ways to optimize our visual system in such a manner that only important parts of the scene undergo scrutiny at a given time. This selection mechanism is named visual attention. Visual attention operates in two modes: bottom-up and top-down. Bottom-up attention is driven by scene-based conspicuities, such as the contrast of colors, orientation, etc. On the other hand, top-down attention is controlled by task, memory, etc. Top-down attention can even modulate the bottom-up mechanism biasing features according to the task. In additional to modulation mechanism taken into account, what is selected from the scene also represents an important part of the selection process. In this scenario, several theories have been proposed and can be gathered in two main lines: space-based attention and object-based attention. Object-based models, instead of only delivering the attention to locations or specific features of the scene, claim that the selection it be performed on object level, it means that the objects are the basic unit of perception. In order to develop models following object-based theories, one needs to consider the integration of a perceptual organization module. This module might segment the objects from the background of the scene based on grouping principles, such as similarity, closeness, etc. Those objects will compete for attention. Several object-based models of visual attention have been proposed in recent years. Research in models of visual attention has mainly focused on the bottom-up guidance of early visual features, disregarding any information about objects. On the other hand, recently works have been conducted regarding the use of the knowledge of the target to influence the computation of the most salient region. The research in this area is rather new and the few existing models are in their early phases. Here, we propose a new visual attention model with both bottom-up and top-down modulations. We provide both qualitative and quantitative comparisons of the proposed model against an ground truth fixation maps and state-of-the-art proposed methods

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

AlcidesBenicasa_defesa.pdf (9.31 Mbytes)

Publishing Date

2014-04-29

Derived works

WARNING: Learn what derived works are clicking here.