Autor(es):
Ramos, Sandra Cristina de Faria, 1975-
Data: 2010
Identificador Persistente: http://hdl.handle.net/10451/2338
Origem: Repositório da Universidade de Lisboa
Assunto(s): Métodos bayesianos; Classificação supervisionada; Análise não paramétrica; Microarray; Teses de doutoramento - 2010
Descrição
Tese de doutoramento, Estatística e Investigação Operacional (Probabilidade e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2010 Nesta tese apresentam-se as contribuições resultantes de um trabalho de investigação
sobre métodos bayesianos de screening em classificação supervisionada
num cenário bivariado, ou seja, métodos que permitem atribuir a um novo
indivíduo uma categoria de entre um conjunto de categorias mutuamente exclusivas,
com base na observação de vectores de características bidimensionais
nesse indivíduo.
Iniciam-se os trabalhos com a formulação do problema de screening do
ponto de vista preditivo bayesiano e mostra-se como se pode construir, de
acordo com a formulação proposta, uma região de especificação quando se
admite um modelo gaussiano bivariado para o vector de características condicional
à categoria. Seguidamente introduzem-se alterações no modelo inicial
de forma a remover restrições no que respeita a pressupostos distribucionais.
Nesta generalização consideram-se duas abordagens. A primeira usa
métodos do núcleo multivariados para estimar a distribuição preditiva de uma
observação futura condicional às varias categorias da variável resposta. A segunda
usa os actuais métodos bayesianos não paramétricos para estimar essa
distribuição preditiva.
È proposta uma regra de classificação baseada em múltiplos pares de
variáveis, que resulta da combinação da classificação e de quantidades preditivas
a posteriori resultantes da aplicação do método a cada par de variáveis.
Para ultrapassar os problemas de cálculo encontrados, soão introduzidos e programados
diversos algoritmos que envolvem métodos de integração numérica
e de simulação estocástica.
O classificador bayesiano que se apresenta generaliza os métodos de classificação clássicos, pois permite a obtenção de fronteiras paramétricas flexíveis,
sem necessidade de fixar previamente a sua forma e possibilita o cálculo de
um conjunto de quantidades preditivas de interesse.
São apresentados e discutidos resultados da ilustração da metodologia proposta
quando aplicada a conjuntos de dados reais correspondentes a níveis de
expressão genética e a conjuntos de dados simulados.
Os programas desenvolvidos para implementar a metodologia proposta
foram construídos em ambiente R e permitem obter a região de especificação
de forma automática. In this thesis we present the main contributions of a research project on
Bayesian optimal screening methods in supervised classification considering
a bivariate scenario, ie, methods that allow assigning a new individual to one
category among a set of mutually exclusive categories, based on observation
of two-dimensional vectors of characteristics of the individual.
The work begins with the formulation of the problem of screening from the
Bayesian predictive point of view. It is shown how the optimal specification
region can be built under the assumption of a bivariate Gaussian model for the
vectors of characteristics. Next, changes are introduced in the initial model in
order to remove restrictions concerning the distributional assumptions. First,
multivariate kernel methods were used to estimate the predictive distribution
of a future observation, conditional on the categories of the response variable.
Second, nonparametric Bayesian methods were applied to estimate this
predictive distribution.
A classification rule based on multiple pairs of variables is proposed. This
rule is a combination of the classification and some predictive probabilities
that result from applying the method to each considered pair of variables. To
overcome the computational problems encountered, several algorithms that
involve numerical integration methods and stochastic simulation were introduced
and programmed.
The presented Bayesian classifier generalizes the classical methods of classification,
since it allows flexible parametric boundaries, without the need of
choosing its shape a priori, at the same time that the calculation of a set of
predictive quantities of interest is made possible. The proposed methodology was applied to real data for illustration, with
the results being discussed and conclusions drawn.
The programs developed to implement the proposed methodology were
built in the environment R and allow to obtain the specification region automatically.
Tipo de Documento
Tese de Doutoramento
Idioma
Português
Orientador(es)
Turkman, Maria Antónia Amaral, 1949-; Antunes, Marília Cristina de Sousa, 1969-