Detalhes do Documento

Padrão: um sistema de descoberta de conhecimento em bases de dados geo-referenc...

Autor(es): Santos, Maribel Yasmina cv logo 1

Data: 2001

Identificador Persistente: http://hdl.handle.net/1822/202

Origem: RepositóriUM - Universidade do Minho


Descrição
A Descoberta de Conhecimento em Bases de Dados está associada à identi…cação de relacionamentos implícitos existentes nos dados analisados. O processo global de descoberta de conhecimento, que se desenrola em várias fases, inclui a gestão dos algoritmos de Data Mining, utilizados para extrair padrões dos dados, e a interpretação dos padrões encontrados pelos mesmos. Um caso particular da Descoberta de Conhecimento em Bases de Dados diz respeito à exploração de dados geo-referenciados, isto é, dados que incluem referências a objectos geográ… cos, localizações ou partes de uma divisão territorial. A análise destes dados impõe a veri…cação da componente espacial associada aos mesmos (distâncias, direcções, adjacências, ...), e a sua in‡uência nos restantes dados explorados, já que um objecto geográ…co pode ser afectado por acontecimentos veri…cados em objectos vizinhos. Os algoritmos de Data Mining disponíveis em ferramentas de descoberta de conhecimento tradicionais, que permitem a exploração de dados armazenados em bases de dados relacionais, não estão preparados para a análise desta componente, motivando: i) o desenvolvimento de novos algoritmos; ii) a adaptação de algoritmos já existentes; iii) a utilização de sistemas gestores de bases de dados espaciais ou sistemas de informação geográ…ca, que permitam a incorporação da componente espacial dos dados no processo de descoberta de conhecimento. A existência nas bases de dados organizacionais de identi…cadores geográ…cos qualitativos, como moradas, os quais possibilitam a geo-referenciação da informação através de sistemas de posicionamento indirecto, conduziu à identi…cação de uma abordagem alternativa à análise de dados espaciais, utilizada neste trabalho, que permite a integração da componente espacial dos dados, no processo de descoberta de conhecimento, através da utilização de estratégias de raciocínio espacial qualitativo. Os princípios estabelecidos para o Padrão, o sistema proposto nesta tese, representam uma nova abordagem na análise de dados espaciais, que apresenta como vantagens: o facto de permitir utilizar uma diversidade de técnicas de Data Mining, já disponíveis para dados não espaciais; o suprimir a necessidade de caracterização geométrica das entidades geográ…cas referenciadas; e o permitir aos algoritmos de Data Mining analisar simultaneamente dados geoespaciais e dados não espaciais, não condicionando ou limitando os resultados que podem ser obtidos. A apresentação de um estudo de caso, com a análise de uma base de dados de grande dimensão, permitiu constatar a utilidade do sistema Padrão na exploração de bases de dados geo-referenciadas, nomeadamente, na identi…cação de relacionamentos implícitos existentes entre os dados geo-espaciais e os dados não espaciais analisados. Knowledge Discovery in Databases is a process that aims the discovery of associations within data sets. Data Mining is the central step of this process. It corresponds to the application of algorithms for identifying patterns within data. Other steps are related to incorporating prior domain knowledge and interpretation of results. Geo-referenced data sets constitute a special case that demands a particular approach within the knowledge discovery process. Geo-referenced data sets include allusion to geographic objects, locations or administrative sub-divisions of a region. The geographic location and extension of those objects have implicit relationships of spatial neighbourhood. The Data Mining algorithms have to take this spatial neighbourhood into account when looking for associations among data. Data Mining algorithms available in traditional knowledge discovery tools, developed for the analysis of relational databases, are not prepared for the analysis of this spatial component. This situation led to: i) the development of new algorithms capable of dealing with spatial relationships; ii) the adaptation of existing algorithms in order to enable them no deal with those spatial relationships; iii) the integration of the capabilities for spatial analysis of spatial database management systems or geographic information systems with the tools normally used in the knowledge discovery process. Most of the geographic attributes normally found out in organisational databases (e.g., addresses) correspond to a type of spatial information that can be described using indirect positioning systems. This work proposes a new approach - the Padrão system - to the analysis of spatial data based on qualitative spatial reasoning strategies that allow the integration of the spatial component in the knowledge discovery process. The main advantages of this approach include: the use of already existing Data Mining algorithms applied to the analysis of non-spatial data; avoid the geometric characterisation of spatial objects; and enable that Data Mining algorithms deal with geo-spatial and non-spatial data simultaneously thus imposing no limits and constraints to the results achieved. The e¢cacy and usefulness of Padrão has been tested with a case study where a large database has been subject to a knowledge discovery process. The results con…rm that Padrão enables the identification of implicit relationships among geo-spatial and non-spatial data.
Tipo de Documento Tese de Doutoramento
Idioma Português
delicious logo  facebook logo  linkedin logo  twitter logo 
degois logo
mendeley logo


    Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência Programa Operacional da Sociedade do Conhecimento União Europeia