Author(s):
Antunes, Mário Luís Pinto
Date: 2011
Persistent ID: http://hdl.handle.net/10773/7867
Origin: RIA - Repositório Institucional da Universidade de Aveiro
Subject(s): Engenharia de computadores; Visão por computador; Reconhecimento de formas; Semântica de computadores; Inteligência artificial; Robótica
Description
Visão semântica é uma importante linha de investigação na área de visão
por computador. A palavra-chave “semântica” implica a extracção de características
não apenas visuais (cor, forma, textura), mas também qualquer
tipo de informação de “alto-nível”. Em particular, a visão semântica procura
compreender ou interpretar imagens de cenas em termos dos objectos presentes
e eventualmente das relações entre eles. Uma das principais áreas de
aplicação actual é a robótica. Sendo o mundo que nos rodeia extremamente
visual, a interacção entre um utilizador humano não especializado e um robô
requer que o robô seja capaz de detectar, reconhecer e compreender qualquer
tipo de referências visuais fornecidas no âmbito da comunicação entre
o utilizador e o robô.
Para que tal seja possível, é necessária uma fase de aprendizagem, através
da qual várias categorias de objectos são aprendidas pelo robô. Depois deste
processo, o robô será capaz de reconhecer novas instâncias das categorias
anteriormente aprendidas.
Foi desenvolvido um novo agente de visão semântica que recorre a serviços
de pesquisa de imagens na Web para aprender um conjunto de categorias
gerais a partir apenas dos seus respectivos nomes. O trabalho teve como
ponto de partida o agente UA@SRVC, anteriormente desenvolvido na Universidade
de Aveiro para participação no Semantic Robot Vision Challenge.
O trabalho começou pelo desenvolvimento de uma nova técnica de segmentação
de objectos baseada nas suas arestas e na diversidade de cor. De
seguida, a técnica de pesquisa semântica e selecção de imagens de treino
do agente UA@SRVC foi revista e reimplementada utilizando, entre outros
componentes, o novo módulo de segmentação. Por fim foram desenvolvidos
novos classificadores para o reconhecimento de objectos.
Apreendemos que, mesmo com pouca informação prévia sobre um objecto,
é possível segmentá-lo correctamente utilizando para isso uma heurística
simples que combina a diversidade da cor e a distância entre segmentos.
Recorrendo a uma técnica de agrupamento conceptual, é possível criar um
sistema de votos que permite efectuar uma boa selecção de instâncias para
o treino de categorias. Conclui-se também que diferentes classificadores são
mais eficientes quando a fase de aprendizagem é supervisionada ou automatizada. Semantic vision is an important line of research in computer vision. The
keyword “semantic” means the extraction of features, not only visual (color,
shape, texture), but also any “higher level” information. In particular, semantic
vision seeks to understand or interpret images of scenes in terms of
present objects and possible relations between them. One of the main areas
of current application is robotics. As the world around us is extremely visual,
interaction between a non specialized human user and a robot requires the
robot to be able to detect, recognize and understand any kind of visual cues
provided in the communication between user and robot.
To make this possible, a learning phase is needed, in which various categories
of objects are learned by the robot. After this process, the robot will be able
to recognize new instances of the categories previously learned.
We developed a new semantic vision agent that uses image search web services
to learn a set of general categories based only on their respective names.
The work had as starting point the agent UA@SRVC, previously developed
at the University of Aveiro for participation in the Semantic Robot Vision
Challenge.
This work began by developing a new technique for segmentation of objects
based on their edges and diversity of color. Then, the technique of semantic
search and selection of images from the agent UA@SRVC was revised and
reimplemented using, among other components, the new object extracting
module. Finally new classifiers were developed for the recognition of objects.
We learned that, even with little prior information about an object, it is possible
to segment it correctly using a simple heuristic that combines colour
disparity and distance between segments. Drawing on a conceptual clustering
technique, we can create a voting system that allows a good selection of
instances for training the categories. We also conclude that various classifiers
are most effective when the learning phase is supervised or automated. Mestrado em Engenharia de Computadores e Telemática