Autor(es):
Rodrigues, Rui
Data: 2006
Identificador Persistente: http://hdl.handle.net/1822/7027
Origem: RepositóriUM - Universidade do Minho
Descrição
Tese de doutoramento em Informática A área de Visão por Computador dedica-se a dotar os sistemas computacionais de capacidades de aquisição e processamento de informação visual, de forma a tornar possível uma série de tarefas – a detecção ou seguimento de objectos, o reconhecimento de objectos e símbolos – ou
a resolver outros problemas mais complexos, como monitorização e vigilância, verificação de identidade ou controlo de qualidade.
Um problema importante que tem atraído a atenção dos investigadores desta área é o da
reconstrução 3D, que além de ser uma tarefa complexa que pode envolver diferentes técnicas de visão, serve também como ferramenta para resolver problemas de maior abrangência.
De uma forma genérica, a reconstrução 3D pode ser definida como o processo de extrair
informação 3D relativa a objectos do mundo real, com base na informação contida em
imagens, ou produzida por sensores laser ou digitalizadores mecânicos. Quando baseado em imagens, o processo pode ser visto como o inverso de tirar fotografias. Tal processo permite a automatização de uma série de tarefas e aplicações, desde o cálculo de medições 3D para controle de qualidade, investigação forense ou reconstrução de acidentes, até à produção de conteúdos para sistemas de visualização 3D (p. ex. televisão 3D) a partir de conteúdos 2D já existentes.
Esta tese é dedicada ao ramo de reconstrução 3D baseado em imagens utilizando pontos e linhas, mais especificamente orientada aos casos em que as câmaras utilizadas não obedeçam
a um posicionamento rígido ou pré-determinado.
Os sistemas envolvidos na aquisição e processamento de imagens e as sua limitações e especificidades levantam vários problemas ao processo de reconstrução. Existem três grandes fontes de problemas: a aquisição de imagens (distorção das lentes, limitações na resolução, quantização, ruído eléctrico, etc.), a calibração interna e externa das câmaras (erros de medida), e o estabelecimento de correspondências entre (partes de) imagens (causados não só pelos
problemas de aquisição de imagem, mas também por oclusões, efeitos de perspectiva, reflexos e refracções ou ambiguidades nas imagens).
Estas questões, a variedade de configurações de câmaras e tipos de cenas representam problemas de peso para os métodos de reconstrução 3D. Surge assim a necessidade de métodos robustos que sejam capazes de reconstruir uma cena em caso de erros nos dados de entrada
(calibração de câmaras, qualidade das imagens, etc.) e cenas mais complexas (com um grande número de oclusões ou reflexos, por exemplo).
Os métodos de reconstrução normalmente enfrentam uma série de compromissos entre
a aplicabilidade a diferentes situações, a robustez e também o desempenho. Não existem métodos individuais definitivos que resolvam completamente o problema de reconstrução 3D em todos as situações. Quando se assumem fortes pressupostos e restrições, o problema torna-se mais tratável e simplificado, permitindo o uso de métodos de baixa complexidade.
Porém, esses métodos são limitados a nível de aplicabilidade. Por outro lado, um método
que se pretenda ser mais genérico e robusto a erros e variações nos dados de entrada, será naturalmente mais complexo e terá maior carga computacional. Isto pode comprometer a usabilidade em situações onde a capacidade de obter rapidamente dados de reconstrução é importante (por exemplo para determinar se são necessárias mais imagens ainda durante o processo de aquisição).
Esta tese pretende apresentar um melhor compromisso ao nível da robustez para uma gama alargada de origens de erros, com um número de restrições reduzido, comparada com métodos existentes. Também é objectivo apresentar uma implementação de um método robusto que represente um bom compromisso com o desempenho, de forma a que a reconstrução se possa fazer a taxas que permitam interactividade. Um método com as características referidas pode
também fornecer dados 3D robustos que sejam um ponto de partida para outros métodos de reconstrução que necessitem de uma boa aproximação inicial, complementando-os desta forma.
Para atingir estes objectivos, será proposto um novo método de reconstrução 3D de pontos e linhas, baseado em conjuntos de images (na ordem das dezenas), capturadas de pontos de vista arbitrários, e assumindo a existência de informação sobre a calibração das câmaras.
O método proposto explora uma combinação inovadora de conceitos, incluindo:
- ideias de diferentes métodos de reconstrução, tais como: o uso de pontos dos contornos, que reduzem as restrições na proximidade das câmaras entre si; o uso de múltiplas câmaras, que leva a um aumento de confiança nas estimativas; e o uso de um referencial absoluto, que facilita a integração de informação;
- técnicas de outros ramos de processamento de imagem, tal como o uso de transformadas de distâncias para criar uma métrica implícita para a avaliação de pontos;
- o uso de um mecanismo de votação, que contribui para a robustez pela acumulação de
evidências;
- ferramentas das áreas de computação gráfica (p. ex. a projecção de texturas) e do
hardware gráfico (o uso de API’s gráficas standard) para aumentar o desempenho do
método e torná-lo usável com hardware comummente disponível.
A versão básica do método dispõe de uma robustez implícita pela sua natureza de
integração de informação, uma vez que todas as imagens contribuem simultaneamente para estimar cada ponto, promovendo assim a confiança nas estimativas. Dois passos adicionais
são também propostos, que identificam e eliminam a maioria das estimativas incorrectas
inicialmente. O resultado é um conjunto de pontos e linhas reconstruídos que cobre os objectos da cena de forma precisa.
Também é apresentada uma implementação acelerada por hardware que exlora as
capacidades do hardware gráfico comummente disponível. Foi efectuada uma série de testes utilizando cenas sintéticas e reais, para analisar a qualidade, robustez e desempenho do método e da sua implementação. Os resultados apresentados mostram que é possível obter
reconstruções utilizando pontos de vista arbitrários, simultaneamente de forma robusta e rápida, mesmo na presença de oclusões, reflexos e calibrações de câmara imperfeitas.
De uma forma geral, o método de reconstrução apresentado nesta tese é capaz de lidar com várias questões importantes que afectam outros métodos. Pode ser aplicado a configurações
de câmaras afastadas e sem grandes restrições; é robusto a erros nas imagens e a variações de iluminação, problemas nos contornos e na calibração das câmaras; lida com oclusões e produz bons resultados sem necessitar de aplicar regularização; e tem um nível de desempenho que permite interactividade. The research field of Computer Vision (CV) is devoted to provide to computer systems the
ability to accept and process visual input in order to perform a series of tasks, such as object detection and tracking, object or symbol recognition, or for solving other complex problems, such as monitoring and surveillance, identity verification or quality control.
One important problem that draws the attention of computer vision researchers is 3D reconstruction, which is in itself a complex task that can involve different computer vision techniques, and it can also be used as a tool for solving higher-level problems. Briefly stated, 3D reconstruction can be defined as the process of extracting 3D information regarding objects and
scenes of the real world, based on inputs such as images, or data from laser or mechanical scanners.
When based on images, it could be seen as the reverse of taking a picture. The availability
of such a process enables the automation of a series of tasks and applications, from computing 3D measures for quality assessment, forensics or accident reconstruction, to producing content
for 3D displays (which are gaining momentum) from existing 2D material.
This thesis focuses on the branch of 3D reconstruction methods using images captured from standard cameras as main inputs, without requiring or being bound to specific view points used for capturing the images or for representing the reconstruction, i.e. the focus is on viewindependent methods.
There are multiple complications arising from the image acquisition and processing devices
available and their limitations or specificities. Three major sources of possible issues are:
image acquisition (lens distortion, resolution limitations, quantization, electrical noise, etc.),
internal and external camera calibration (measurement errors), and correspondence establishment between (parts of) images (caused by image acquisition problems and others, namely occlusion, perspective effects, reflections and refractions or ambiguities in the images).
These issues and the variety of inputs that cause them to occur concurrently are major
problems for 3D reconstruction methods. This calls for robust reconstruction methods that
should be able to reconstruct a scene in settings with error sources in the inputs (e.g. camera calibration errors, noise in the images, etc.) and less favorable yet correct conditions, such as a high number of occlusions or highlights.
Reconstruction methods face a series of compromises, between the applicability to different settings, robustness, and also performance. There are no definitive individual methods that completely solve 3D reconstruction in all settings. When strong assumptions and constraints are applied, the problem becomes more conditioned and simplified, and less complex methods
can be used. However, such methods are limited in terms of applicability. On the other
hand, if a method is to cope with more general assumptions and to be robust to errors and input variations, it is in general bound to be more complex and thus computationally more demanding. This may compromise usability in many situations where the ability to quickly obtain reconstruction feedback, or in other words to interact with the reconstruction software,
is important.
This thesis is aimed to present a better compromise in robustness for a wider range of error sources, with a lower number of restrictions, than those usually presented by other methods. It is also aimed to present an implementation of a robust method that has a good compromise with efficiency, such that interactive reconstruction rates can be achieved, without compromising robustness. Such a method is also expected to be useful for providing robust initialization data for e.g. methods that require a good initial approximation of a scene’s reconstruction i.e.,
complementing other reconstruction methods.
To accomplish those goals, a new feature reconstruction method, for points and lines, is
proposed, based on sets of images (on the order of tens of images), captured from arbitrary viewpoints, and assuming known or a priori estimated camera calibration.
The method explores an innovative combination of concepts, including:
- ideas from different reconstruction methods, such as: the use of contour points, that reduces baseline restrictions; the use of multiple cameras, that leads to an increase in
confidence of estimates; and the use of an absolute referential for estimation, facilitating
integration of information;
- techniques from other fields of image processing, namely the use of distance transforms to provide an implicit correspondence metric for contour points;
- the use of a voting mechanism that yields robustness by accumulation of evidence;
- tools from the computer graphics and graphics hardware fields, such as projective texturing and graphics cards standard API’s, that increase performance to the method and
make it usable in current off-the-shelf hardware.
The core method provides basic inherent robustness due to its integrating nature, since
all images contribute simultaneously to estimate each point, thus providing confidence in the estimation. Two additional steps for increasing robustness are presented, which identify and eliminate the majority of initial incorrect estimates. The result is a set of reconstructed points
and lines that accurately covers the scene’s objects.
An hardware-accelerated implementation of the method, exploiting standard graphics
hardware, is also presented. Tests were performed on synthetic and real scenes, to assess the quality, robustness and performance of the proposed method and its implementation.
The results are reported, and show that it is possible to achieve interactive and robust viewindependent point reconstructions even in the presence of occlusions, highlights, and less-thanperfect camera calibrations.
Overall the reconstruction method presented in this thesis is able to deal with many important issues that hamper previous works. It can be applied to wide-baseline, weakly-constrained camera settings; it is robust to image noise and lighting variations, problems in contours and errors in camera calibration; it can cope with occlusion and produce good results without resorting
to regularization; and it performs at interactive rates.