Detalhes do Documento

Spatio-temporal SNN : integrating time and space in the clustering process

Autor(es): Oliveira, João Ricardo Leite Mota

Data: 2013

Identificador Persistente: http://hdl.handle.net/1822/29459

Origem: RepositóriUM - Universidade do Minho

Assunto(s): Clustering; Density-based clustering; Spatio-temporal data; Distance function; Spatio-temporal clustering

Descrição
Dissertação de mestrado em Engenharia e Gestão de Sistemas de Informação Spatio-temporal clustering is a new subfield of data mining that is increasingly gaining scientific attention due to the technical advances of location-based or environmental devices that register position, time and, in some cases, other semantic attributes. This process intends to group objects based in their spatial and temporal similarity helping to discover interesting patterns and correlations in large datasets. One of the main challenges of this area is that there are different types of spatio-temporal data and there is no general approach to treat all these types. Another challenge still unresolved is the ability to integrate several dimensions in the clustering process with a general-purpose approach. Moreover, it was also possible to verify that few works address their implementations under the SNN (Shared Nearest Neighbour) algorithm, which gives the opportunity to propose an innovative extension of this particular algorithm. This work intends to implement in the SNN clustering algorithm the ability to deal with spatio-temporal data allowing the integration of space, time and one or more semantic attributes in the clustering process. In this document, background knowledge about clustering, spatial clustering and spatio-temporal clustering are presented along with a summary of the main approaches followed to cluster spatio-temporal data with different clustering algorithms. Based on those approaches, and in the analysis of their advantages and disadvantages, the boundaries of this work are defined in order to incorporate the space, time and semantic attribute dimensions in the SNN algorithm and thus propose the 4D+SNN approach. The results presented in this work are very promising as the approach proposed is able to identify interesting patterns on spatio-temporal data. Concretely, it can identify clusters taking into account simultaneously the spatial and temporal dimension and it also has good results when adding one or more semantic attributes. O clustering espaço-temporal é uma nova área do data mining que está a ganhar crescente atenção por parte da comunidade científica devido aos avanços tecnológicos dos dispositivos de localização ou monitorização ambiental que registam posição, tempo e, em alguns casos, outros atributos semânticos. Este processo pretende agrupar objectos segundo as suas similaridades espaciais e temporais ajudando assim a descobrir padrões interessantes e correlações em grandes conjuntos de dados. Um dos grandes desafios nesta área é a existência de vários tipos de dados espaço-temporais e não existe uma abordagem geral para tratar todos estes tipos. Outro desafio ainda por resolver é a capacidade para integrar várias dimensões no processo de clustering com uma abordagem geral. Além disso, foi possível verificar que poucos trabalhos de investigação usam o algoritmo SNN (Shared Nearest Neighbour) nas suas implementações o que dá a oportunidade para propor uma extensão inovadora para este algoritmo em particular. Este trabalho pretende implementar no algoritmo de clustering SNN a capacidade para lidar com dados espaço-temporais permitindo assim a integração do espaço, tempo e um ou mais atributos semânticos no processo de clustering. Neste documento, serão apresentados alguns conceitos sobre clustering, clustering espacial e clustering espaço-temporal assim como um resumo das principais abordagens usadas para fazer o clustering de dados espaço-temporais com algoritmos de clustering diferentes. Baseado nestas abordagens e na análise das suas vantagens e desvantagens, serão definidos os limites deste trabalho de modo a incorporar as dimensões espaço, tempo e atributo semântico no algoritmo SNN e, assim, propor a abordagem 4D+SNN. Os resultados apresentados neste trabalho são bastante promissores pois a abordagem proposta é capaz de identificar padrões interessantes em dados espaço-temporais. Concretamente, consegue identificar clusters tendo em consideração simultaneamente as dimensões espaço e tempo e também obtém bons resultados quando adicionando um ou mais atributos semânticos.

Tipo de Documento Dissertação de Mestrado
Idioma Inglês
Orientador(es) Santos, Maribel Yasmina