Autor(es):
Martins, Ciro Alexandre Domingues
Data: 2008
Identificador Persistente: http://hdl.handle.net/10773/2220
Origem: RIA - Repositório Institucional da Universidade de Aveiro
Assunto(s): Engenharia informática; Linguística computacional; Reconhecimento automático da fala; Língua portuguesa
Descrição
Actualmente muitas das metodologias utilizadas para transcrição e indexação
de transmissões noticiosas são baseadas em processos manuais. Com o
processamento e transcrição deste tipo de dados os prestadores de serviços
noticiosos procuram extrair informação semântica que permita a sua
interpretação, sumarização, indexação e posterior disseminação selectiva.
Pelo que, o desenvolvimento e implementação de técnicas automáticas para
suporte deste tipo de tarefas têm suscitado ao longo dos últimos anos o
interesse pela utilização de sistemas de reconhecimento automático de fala.
Contudo, as especificidades que caracterizam este tipo de tarefas,
nomeadamente a diversidade de tópicos presentes nos blocos de notícias,
originam um elevado número de ocorrência de novas palavras não incluídas
no vocabulário finito do sistema de reconhecimento, o que se traduz
negativamente na qualidade das transcrições automáticas produzidas pelo
mesmo. Para línguas altamente flexivas, como é o caso do Português
Europeu, este problema torna-se ainda mais relevante.
Para colmatar este tipo de problemas no sistema de reconhecimento, várias
abordagens podem ser exploradas: a utilização de informações específicas de
cada um dos blocos noticiosos a ser transcrito, como por exemplo os scripts
previamente produzidos pelo pivot e restantes jornalistas, e outro tipo de fontes
como notícias escritas diariamente disponibilizadas na Internet.
Este trabalho engloba essencialmente três contribuições: um novo algoritmo
para selecção e optimização do vocabulário, utilizando informação morfosintáctica
de forma a compensar as diferenças linguísticas existentes entre os
diferentes conjuntos de dados; uma metodologia diária para adaptação
dinâmica e não supervisionada do modelo de linguagem, utilizando múltiplos
passos de reconhecimento; metodologia para inclusão de novas palavras no
vocabulário do sistema, mesmo em situações de não existência de dados de
adaptação e sem necessidade re-estimação global do modelo de linguagem.
ABSTRACT: Most of today methods for transcription and indexation of broadcast audio data
are manual. Broadcasters process thousands hours of audio and video data on
a daily basis, in order to transcribe that data, to extract semantic information,
and to interpret and summarize the content of those documents. The
development of automatic and efficient support for these manual tasks has
been a great challenge and over the last decade there has been a growing
interest in the usage of automatic speech recognition as a tool to provide
automatic transcription and indexation of broadcast news and random and
relevant access to large broadcast news databases. However, due to the
common topic changing over time which characterizes this kind of tasks, the
appearance of new events leads to high out-of-vocabulary (OOV) word rates
and consequently to degradation of recognition performance. This is especially
true for highly inflected languages like the European Portuguese language.
Several innovative techniques can be exploited to reduce those errors. The use
of news shows specific information, such as topic-based lexicons, pivot working
script, and other sources such as the online written news daily available in the
Internet can be added to the information sources employed by the automatic
speech recognizer. In this thesis we are exploring the use of additional sources
of information for vocabulary optimization and language model adaptation of a
European Portuguese broadcast news transcription system.
Hence, this thesis has 3 different main contributions: a novel approach for
vocabulary selection using Part-Of-Speech (POS) tags to compensate for word
usage differences across the various training corpora; language model
adaptation frameworks performed on a daily basis for single-stage and multistage
recognition approaches; a new method for inclusion of new words in the
system vocabulary without the need of additional data or language model
retraining. Doutoramento em Engenharia Informática
Tipo de Documento
Tese de Doutoramento
Idioma
Inglês
Orientador(es)
Neto, João Paulo da Silva; Teixeira, António Joaquim da Silva