Autor(es):
Santos, Maribel Yasmina
Data: 2001
Identificador Persistente: http://hdl.handle.net/1822/202
Origem: RepositóriUM - Universidade do Minho
Descrição
A Descoberta de Conhecimento em Bases de Dados está associada à identi…cação de relacionamentos
implícitos existentes nos dados analisados. O processo global de descoberta de conhecimento,
que se desenrola em várias fases, inclui a gestão dos algoritmos de Data Mining, utilizados
para extrair padrões dos dados, e a interpretação dos padrões encontrados pelos mesmos.
Um caso particular da Descoberta de Conhecimento em Bases de Dados diz respeito à
exploração de dados geo-referenciados, isto é, dados que incluem referências a objectos geográ…
cos, localizações ou partes de uma divisão territorial. A análise destes dados impõe a veri…cação
da componente espacial associada aos mesmos (distâncias, direcções, adjacências, ...), e a sua
in‡uência nos restantes dados explorados, já que um objecto geográ…co pode ser afectado por
acontecimentos veri…cados em objectos vizinhos.
Os algoritmos de Data Mining disponíveis em ferramentas de descoberta de conhecimento
tradicionais, que permitem a exploração de dados armazenados em bases de dados relacionais,
não estão preparados para a análise desta componente, motivando: i) o desenvolvimento de novos
algoritmos; ii) a adaptação de algoritmos já existentes; iii) a utilização de sistemas gestores de
bases de dados espaciais ou sistemas de informação geográ…ca, que permitam a incorporação da
componente espacial dos dados no processo de descoberta de conhecimento.
A existência nas bases de dados organizacionais de identi…cadores geográ…cos qualitativos,
como moradas, os quais possibilitam a geo-referenciação da informação através de sistemas de
posicionamento indirecto, conduziu à identi…cação de uma abordagem alternativa à análise de
dados espaciais, utilizada neste trabalho, que permite a integração da componente espacial
dos dados, no processo de descoberta de conhecimento, através da utilização de estratégias de
raciocínio espacial qualitativo.
Os princípios estabelecidos para o Padrão, o sistema proposto nesta tese, representam
uma nova abordagem na análise de dados espaciais, que apresenta como vantagens: o facto
de permitir utilizar uma diversidade de técnicas de Data Mining, já disponíveis para dados
não espaciais; o suprimir a necessidade de caracterização geométrica das entidades geográ…cas
referenciadas; e o permitir aos algoritmos de Data Mining analisar simultaneamente dados geoespaciais
e dados não espaciais, não condicionando ou limitando os resultados que podem ser
obtidos.
A apresentação de um estudo de caso, com a análise de uma base de dados de grande
dimensão, permitiu constatar a utilidade do sistema Padrão na exploração de bases de dados
geo-referenciadas, nomeadamente, na identi…cação de relacionamentos implícitos existentes entre
os dados geo-espaciais e os dados não espaciais analisados. Knowledge Discovery in Databases is a process that aims the discovery of associations within
data sets. Data Mining is the central step of this process. It corresponds to the application of
algorithms for identifying patterns within data. Other steps are related to incorporating prior
domain knowledge and interpretation of results.
Geo-referenced data sets constitute a special case that demands a particular approach
within the knowledge discovery process. Geo-referenced data sets include allusion to geographic
objects, locations or administrative sub-divisions of a region. The geographic location and
extension of those objects have implicit relationships of spatial neighbourhood. The Data Mining
algorithms have to take this spatial neighbourhood into account when looking for associations
among data.
Data Mining algorithms available in traditional knowledge discovery tools, developed for
the analysis of relational databases, are not prepared for the analysis of this spatial component.
This situation led to: i) the development of new algorithms capable of dealing with spatial
relationships; ii) the adaptation of existing algorithms in order to enable them no deal with
those spatial relationships; iii) the integration of the capabilities for spatial analysis of spatial
database management systems or geographic information systems with the tools normally used
in the knowledge discovery process.
Most of the geographic attributes normally found out in organisational databases (e.g.,
addresses) correspond to a type of spatial information that can be described using indirect
positioning systems.
This work proposes a new approach - the Padrão system - to the analysis of spatial
data based on qualitative spatial reasoning strategies that allow the integration of the spatial
component in the knowledge discovery process. The main advantages of this approach include:
the use of already existing Data Mining algorithms applied to the analysis of non-spatial data;
avoid the geometric characterisation of spatial objects; and enable that Data Mining algorithms
deal with geo-spatial and non-spatial data simultaneously thus imposing no limits and constraints
to the results achieved.
The e¢cacy and usefulness of Padrão has been tested with a case study where a large
database has been subject to a knowledge discovery process. The results con…rm that Padrão
enables the identification of implicit relationships among geo-spatial and non-spatial data.