Autor(es):
Almeida, Catarina Faria de
Data: 2013
Identificador Persistente: http://hdl.handle.net/10451/10041
Origem: Repositório da Universidade de Lisboa
Assunto(s): Next generation sequencing; Clear cell renal cell carninoma; Normalização; Expressão diferencial; SETD2; Trabalhos de projecto de mestrado - 2013
Descrição
Trabalho de projecto de mestrado em Bioestatística, apresentado à Universidade de Lisboa, através da Faculdade de Ciências, 2013 Clear cell Renal Cell Carcinoma, ccRCC, is the most common form of Renal Cancer, accounting for 90% of these cancers cases. It is well established that the majority of these cancers happen when both alleles of VHL (Von Hippel Lindau) tumour suppressor gene are mutated. It has also been observed that patients with this form of cancer present mutations on the SETD2 gene which applies its functions during transcription. In the last few years the growth within sequencing technologies has been astonishing. Next Generation Sequencing technology, NGS, provides tools for assessing full genomes to a reference sequence in a matter of days, being extremely accurate, while also increasingly cost effective. One of its many applications is RNA-Sequencing, a method for transcriptome analysis. Throughout this thesis we aimed at analysing RNA-Seq data from six samples: four with mutations on the SETD2 gene and two control samples. The main goal was to understand how the remaining genes on the transcriptome respond to these genes mutations. In the first part of this work we aimed at analysing several forms to normalize the data, resorting to R software packages (EDASeq, DESeq and edgeR). Data normalization is a crucial step on NGS techniques, as these techniques have some inherent bias that need to be accounted for. DESeq proved to be the most selective, while EDASeq is not as stringent. The second part of this work aimed at identifying deferentially expressed genes, to infer which genes behave in a significant way in the samples, packages edgeR, DESeq and RankProd. We identified six new genes as differentially expressed. O carcinoma renal de células claras, ccRCC, é o tipo mais comum de cancro renal, sendo responsável por cerca de 70% destes tumores, com a mais alta taxa de mortalidade entre todos os tipos de cancro renal. A grande maioria destes tumores deve-se a mutações no gene VHL, um gene supressor de cancro. Não obstante, vários estudos de sequenciação do ccRCC acabaram por revelar a ocorrência de mutações somáticas no gene SETD2, uma Histone methyltransferase que trimetila a lisina 36 na histona H3 (H3K36me3). Este gene tem um papel fundamental na transcrição, um dos principais passos na expressão genética { processo pelo qual são geradas proteínas perfeitamente funcionais, permitindo que o ADN se desenrole e seja posteriormente transcrito. Está localizado no braço curto do cromossoma 3 e as mutações deste gene conduzem à perda de funções deste mesmo cromossoma. O objectivo biológico da presente tese é avaliar as alterações do transcriptoma, induzidas pelas mutações no gene SETD2. Esta questão será abordada utilizando dados do transcriptoma completo, de linhas celulares mutadas no gene SETD2 e de linhas celulares não mutadas do gene wild tipe (WT), no ccRCC. Os dados desta análise consideraram 4 amostras biológicas de transcriptomas mutados do genoma SETD2 e 2 amostras wild tipe, dados estes que foram gerados pela unidade do investigador Sérgio Almeida, do Instituto de Medicina Molecular (IMM da FMUL). Recentemente, o desenvolvimento de novas tecnologias de métodos de sequenciação, designadas por Next Generation Sequencing (NGS), disponibilizou um novo método que, em simultâneo, executa o mapeamento e a quantificação de transcriptomas, chamado sequenciação de RNA (RNA-seq). Apesar de mais expendioso do que os estudos de microarrays e ainda com alguns problemas de análise de dados por resolver, a sequenciação do RNA pode avaliar o transcriptoma completo, disponibilizando a derradeira solução para a análise dos níveis e da estrutura de transcriptomas processados e não processados, sob diferentes condições. Esta técnica disponibiliza uma importante poupança de tempo (o genoma humano completo pode ser sequenciado em menos de uma semana, dependendo das opções do investigador) com qualidade, precisão de leitura (cerca de 98%) e poupanças de tempo. O transcriptoma completo de cada amostra _e convertido em cRNA e separado em pequenos fragmentos (cerca de 200, 300nt), estes fragmentos são posteriormente utilizados como modelos no passo de sequenciação, onde só uma pequena sequência da parte final do fragmento irá ser sequenciada (chamada de read). Este processo gera milhões de reads, que podem ser depois alinhadas com o genoma e originar uma tabela de contagens para cada gene (número de reads, por gene) por amostra. Algumas ferramentas bioinformáticas foram recentemente desenvolvidas, para analisar esta imensa informação gerada pela técnica RNA-seq. Estas ferramentas diferem entre si quanto à normalização e às técnicas estatísticas aplicadas, com impacto nos resultados finais. Assim, o objectivo da presente tese é explorar e comparar os diferentes métodos aplicados ao problema biológico acima mencionado. Para o efeito, a nossa análise recorreu ao Bioconductor. O Bioconductor é um software de utilização gratuita, não impondo quaisquer licenças de utilização, que disponibiliza código aberto para Bioinformática. Aqui, encontram-se packages que permitem processar a informação no que respeita aos 2 passos da análise: normalização e análise da expressão diferencial dos genes. O trabalho desta tese foi desenvolvido considerando a análise dividida nestes dois passos principiais: normalização e expressão diferencial. Os nossos estudos irão ser desenvolvidos em torno das diferentes formas de normalização dos dados, analisando posteriormente os diferentes resultados que se obtiveram na expressão diferencial dos dados. A normalização é o passo pelo qual se consegue que uma base de dados com contagens profundamente discrepantes entre si possa ser comparável, aplicando a estes dados um denominador comum que toma em consideração os erros associados à utilização desta técnica. A expressão diferencial é o passo onde se identificaram os genes que revelaram significativas alterações da expressão estatística, entre duas amostras, tal como a mutação do gene SETD2 e as linhas das células do ccRCC wild type. No essencial, isto significa que estes genes revelam uma alteração significativa da sua expressão, das amostras mutadas para as wild type. A nossa análise baseou-se na utilização de 4 packages, EDASeq, edgeR, DESeq e RankProd. Enquanto o primeiro foi desenhado apenas para realizar a normalização, o último foca-se apenas na análise da expressão diferencial. Ambos os packages edgeR e DESeq possuem abordagens próprias para realizar ambos os passos, podendo ao mesmo tempo receber contagens de dados normalizados pelo EDASeq. O método RankProd pode receber dados normalizados pelos métodos EDASeq e DESeq, e o método edgeR também pode receber dados normalizados obtidos pelo método DESeq. A forma como estes dados são normalizados vai depender das premissas que cada método utiliza para normalizar os dados: o edgeR e o DESeq consideram abordagens diferentes na normalização between lane, enquanto o método EDASeq realiza uma normalização na própria lane relativamente ao conteúdo em GC, antes de proceder à normalização textitbetween lanes. Observámos ainda que todas estas abordagens disponibilizam bons níveis de normalização, bem correlacionados entre si (obtendo valores de 0.98/1.00 no coeficiente de correlação de Pearson) e no que respeita aos dados em bruto. As combinações estudadas entre os vários métodos tiveram o objectivo de permitir uma comparação detalhada das metodologias, no que respeita aos seus próprios protocolos (normalização DESeq combinada com a análise de expressão diferencial com DESeq e normalização edgeR combinada com a análise da expressão diferencial com edgeR) e à juncão de protocolos: nomeadamente as diferentes abordagens no passo da normalização pelos métodos – EDASeq ou DESeq { e ainda as diferentes abordagens no passo da expressão diferencial dos métodos { edgeR, DESeq ou RankProd. No que respeita a protocolos próprios, observámos que o protocolo completo do método edgeR identificou muito mais genes que o método DESeq, independentemente dos níveis de significância considerados (1%, 5% e 10%). No que respeita à juncão de protocolos, quando se juntou a normalização do EDASeq à expressão diferencial do edgeR, obteve-se um número significativamente maior de genes identificados quando comparado com quaisquer outros métodos. O método RankProd acabou por apresentar uma nova perspectiva sobre os dados, tendo sido concebido para trabalhar os dados numa lógica de microarrays; contudo, ao assumir que cada lane dos nossos dados funciona como um array, propusemo-nos investigar se este package se podia ajustar aos nossos dados de NGS. Observámos que o RankProd se ajustava adequadamente ao receber dados normalizados oriundos do método DESeq, mas falhava quando recebia dados normalizados pelo método EDASeq. Observámos que, globalmente, o método DESeq, quando utilizado como processo de normalização, conduz à identificação de um número menor de genes diferencialmente expressos que o EDASeq, para todos os níveis de significância considerados (1%, 5% e 10%). Por outro lado, quando considerados todos os métodos para a expressão diferencial, detectamos que o método edgeR identificou mais genes que o RankProd ou o DESeq, para os mesmos níveis de significância. Observámos ainda que a maioria dos genes identificados com estes métodos (com excepção dos procedimentos de normalização do EDASeq) conduziram a um maior número de contagens para genes up regulated que para genes down regulated, o que significa que estes genes demonstram possuir maior expressão diferencial quando mutados do que nas amostras wt. O passo seguinte na análise foi perceber se os genes que estes métodos identificam como diferencialmente expressos são os mesmos. Considerando todos os métodos do R, identificamos 6 genes diferencialmente expressos comuns a todos eles (para uma FDR=5%): "SLC2A10", "COL14A1", "GPR173", "LOC100506178", "EREG" e "ADAMTSL1". Uma vez excluído o RankProd desta comparação, foram identificados 27 genes como diferencialmente expressos, considerando o mesmo valor para a FDR. Considerando investigações futuras, e no que respeita aos resultados obtidos pelo Bioconductor, a combinação entre técnicas que revelou um maior número de genes com expressão diferencial é entre o método EDASeq para a normalização com o método edgeR para a análise da expressão diferencial. Adicionalmente, todas as combinações de técnicas onde o método EDASeq executa a normalização, claramente resultaram em amostras com um maior número de contagens. No princípio deste projecto, propusemo-nos estudar 6 amostras de transcriptoma, obtidas com o RNA-Seq, duas correspondendo a amostras controlo, as outras quatro apresentando mutações no gene SETD2, o que leva à ocorrência do ccRCC. O desafio foi analisar os dados, procurando identificar genes que reagissem às mutações do SETD2, respondendo à questão de como este gene afecta os restantes genes no transcriptoma. Outro desafio a que nos propusemos, conforme indicado neste texto, foi a comparação de metodologias por forma a melhor aferir sobre o objectivo primário deste trabalho. Este trabalho permitiu identificar 6 novos genes que respondem às mutações do SETD2.