Document details

Métodos estatísticos de screening em classificação supervisionada

Author(s): Ramos, Sandra Cristina de Faria, 1975- cv logo 1

Date: 2010

Persistent ID: http://hdl.handle.net/10451/2338

Origin: Repositório da Universidade de Lisboa

Subject(s): Métodos bayesianos; Classificação supervisionada; Análise não paramétrica; Microarray; Teses de doutoramento - 2010


Description
Tese de doutoramento, Estatística e Investigação Operacional (Probabilidade e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2010 Nesta tese apresentam-se as contribuições resultantes de um trabalho de investigação sobre métodos bayesianos de screening em classificação supervisionada num cenário bivariado, ou seja, métodos que permitem atribuir a um novo indivíduo uma categoria de entre um conjunto de categorias mutuamente exclusivas, com base na observação de vectores de características bidimensionais nesse indivíduo. Iniciam-se os trabalhos com a formulação do problema de screening do ponto de vista preditivo bayesiano e mostra-se como se pode construir, de acordo com a formulação proposta, uma região de especificação quando se admite um modelo gaussiano bivariado para o vector de características condicional à categoria. Seguidamente introduzem-se alterações no modelo inicial de forma a remover restrições no que respeita a pressupostos distribucionais. Nesta generalização consideram-se duas abordagens. A primeira usa métodos do núcleo multivariados para estimar a distribuição preditiva de uma observação futura condicional às varias categorias da variável resposta. A segunda usa os actuais métodos bayesianos não paramétricos para estimar essa distribuição preditiva. È proposta uma regra de classificação baseada em múltiplos pares de variáveis, que resulta da combinação da classificação e de quantidades preditivas a posteriori resultantes da aplicação do método a cada par de variáveis. Para ultrapassar os problemas de cálculo encontrados, soão introduzidos e programados diversos algoritmos que envolvem métodos de integração numérica e de simulação estocástica. O classificador bayesiano que se apresenta generaliza os métodos de classificação clássicos, pois permite a obtenção de fronteiras paramétricas flexíveis, sem necessidade de fixar previamente a sua forma e possibilita o cálculo de um conjunto de quantidades preditivas de interesse. São apresentados e discutidos resultados da ilustração da metodologia proposta quando aplicada a conjuntos de dados reais correspondentes a níveis de expressão genética e a conjuntos de dados simulados. Os programas desenvolvidos para implementar a metodologia proposta foram construídos em ambiente R e permitem obter a região de especificação de forma automática. In this thesis we present the main contributions of a research project on Bayesian optimal screening methods in supervised classification considering a bivariate scenario, ie, methods that allow assigning a new individual to one category among a set of mutually exclusive categories, based on observation of two-dimensional vectors of characteristics of the individual. The work begins with the formulation of the problem of screening from the Bayesian predictive point of view. It is shown how the optimal specification region can be built under the assumption of a bivariate Gaussian model for the vectors of characteristics. Next, changes are introduced in the initial model in order to remove restrictions concerning the distributional assumptions. First, multivariate kernel methods were used to estimate the predictive distribution of a future observation, conditional on the categories of the response variable. Second, nonparametric Bayesian methods were applied to estimate this predictive distribution. A classification rule based on multiple pairs of variables is proposed. This rule is a combination of the classification and some predictive probabilities that result from applying the method to each considered pair of variables. To overcome the computational problems encountered, several algorithms that involve numerical integration methods and stochastic simulation were introduced and programmed. The presented Bayesian classifier generalizes the classical methods of classification, since it allows flexible parametric boundaries, without the need of choosing its shape a priori, at the same time that the calculation of a set of predictive quantities of interest is made possible. The proposed methodology was applied to real data for illustration, with the results being discussed and conclusions drawn. The programs developed to implement the proposed methodology were built in the environment R and allow to obtain the specification region automatically.
Document Type Doctoral Thesis
Language Portuguese
Advisor(s) Turkman, Maria Antónia Amaral, 1949-; Antunes, Marília Cristina de Sousa, 1969-
delicious logo  facebook logo  linkedin logo  twitter logo 
degois logo
mendeley logo


    Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência Programa Operacional da Sociedade do Conhecimento EU