Document details

Utilização de Informação Linguística na classificação de documentos em Língua P...

Author(s): Gonçalves, Teresa cv logo 1

Date: 2007

Persistent ID: http://hdl.handle.net/10174/1409

Origin: Repositório Científico da Universidade de Évora

Subject(s): Classificação automática de texto; Máquinas de vectores de suporte; Informação linguística


Description
As Tecnologias de Informação actuais e os serviços baseados na Web necessitam de gerir, seleccionar e filtrar quantidades crescentes de informação textual. A classificação de textos permite aos utilizadores, através da navegação sobre hierarquias de classes, consultar mais facilmente o conjunto de textos do seu interesse. Este paradigma é muito eficaz tanto na filtragem de informação como no desenvolvimento de serviços online dirigidos para o utilizador. Como a quantidade de documentos envolvidos nestas aplicações é grande, são necessárias aproximações eficientes e automáticas de classificação. Os modelos padrão de Aprendizagem Automática utilizam a representação saco-de-palavras para induzir a função objectivo de classificação, onde as únicas características do documento são estatísticas sobre as suas palavras. As estruturas da linguagem típicas, como a morfologia, a sintaxe e a semântica são completamente ignoradas no processo de aprendizagem. Por outro lado, a quase totalidade de estudos tem sido realizada sobre textos escritos na língua Inglesa. Esta tese examina o papel das diversas estruturas linguísticas na classificação de textos, aplicando o estudo à língua Portuguesa. Define-se uma arquitectura modular para a tarefa de classificação de documentos que permite seleccionar o nível de informação linguística utilizado e propõe-se uma representação e um algoritmo de aprendizagem adequados para a informação semântica. A experimentação mostra que utilizando informação morfológica os resultados podem ser superiores aos da representação padrão e que as estruturas semânticas utilizadas possuem um poder discriminante sobre as classes equivalente ao das estruturas morfológicas.
Document Type Doctoral Thesis
Language English
Advisor(s) Universidade de Évora
delicious logo  facebook logo  linkedin logo  twitter logo 
degois logo
mendeley logo


    Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência Programa Operacional da Sociedade do Conhecimento EU