Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas

Detalhes bibliográficos
Autor(a) principal: Kümmel, Bruno Couto
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/31651
Resumo: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.
id UNB_8af1d4e568cafd5780d4d008f6ef5423
oai_identifier_str oai:repositorio.unb.br:10482/31651
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínasRNAs não-codificadoresAprendizagem de máquinaProteínas - transcrição e codificaçãolncRNAsDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.RNAs não-codificadores longos (long non-coding RNA - lncRNAs) constitui uma classe heterogênea de RNAs que agrega transcritos com pouca capacidade de codificar proteínas e que possuem mais de 200 nucleotídeos em sua composição. Estudos recentes apontam que essas moléculas possuem funções de regulação de processos biológicos importantes dentro das células. Sabe-se também que o nível de expressão dos lncRNAs está correlacionado com diversas doenças genéticas, tais como câncer e doenças neuro-degenerativas. Este trabalho apresenta um método para seleção das características mais relevantes para modelos de aprendizado de máquina aplicados ao problema de distinguir lncRNAs de transcritos codificadores de proteínas. O método proposto, denominadoSingle Score Feature Selection (S2FS), utilizou como características as frequências de 2-mers, 3-mers e 4-mers dos transcritos, para detectar aquelas mais relevantes para distinguir lncRNAs de transcritos codificadores de proteínas. As características identificadas pelo S2FS foram avaliadas nos datasets obtidos de repositórios públicos de transcritos RNAs codicadores de proteínas e de lncRNAs de Homo sapiens, Mus musculus e Danio rerio. Para o dataset de H. sapiens, também foi utilizada a característica da ORF mais longa de cada transcrito. Os resultados obtidos indicam que o S2FS identificou boas características para os modelos de predição de lncRNAs baseados em Random Forest. Nos modelos de classificação testados, as características selecionadas pelo S2FS possibilitaram resultados melhores do que as características selecionadas por um método de seleção univariada de características baseado no escore da função χ2.Long non-coding RNA(lncRNAs) constitutes a heterogeneous class of RNAs that includes RNAs with more than 200 nucleotides and poor capacity for coding proteins. Recent studies have indicated that these molecules act on critical biological processes inside the cells. However, their expression levels are also correlated with a number of complex human diseases, such as cancer, neuro-degenerative diseases and others. This work proposes a method for feature selection for machine learning methods applied to the task of distinguishing lncRNAs from protein coding transcripts. The proposed method, called Single Score Feature Selection (S2FS), used as features the 2-mer, 3-mer and 4-mer frequencies of the transcripts, in order to detect those more relevant to distinguish lncRNAs from protein coding transcripts. The features identified by S2FS were evaluated on datasets obtained from public repositories of protein coding transcripts and lncRNAs of Homo Sapiens, Mus musculus and Danio rerio. For the H. sapiens dataset, the longest ORF of each transcript was also used as a feature. The obtained results show that the S2FS identified good features for the lncRNA prediction models based on Random Forest. In the tested classification models, the selected features from S2FS enabled better performance results than the features selected by an univariate selection method based on the scores of a χ2 function.Walter, Maria Emília Machado TellesKümmel, Bruno Couto2018-04-12T19:37:08Z2018-04-12T19:37:08Z2018-04-122017-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfKÜMMEL, Bruno Couto. Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas. 2017. xviii, 101 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2017.http://repositorio.unb.br/handle/10482/31651A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-14T18:56:24Zoai:repositorio.unb.br:10482/31651Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-14T18:56:24Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
title Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
spellingShingle Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
Kümmel, Bruno Couto
RNAs não-codificadores
Aprendizagem de máquina
Proteínas - transcrição e codificação
lncRNAs
title_short Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
title_full Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
title_fullStr Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
title_full_unstemmed Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
title_sort Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas
author Kümmel, Bruno Couto
author_facet Kümmel, Bruno Couto
author_role author
dc.contributor.none.fl_str_mv Walter, Maria Emília Machado Telles
dc.contributor.author.fl_str_mv Kümmel, Bruno Couto
dc.subject.por.fl_str_mv RNAs não-codificadores
Aprendizagem de máquina
Proteínas - transcrição e codificação
lncRNAs
topic RNAs não-codificadores
Aprendizagem de máquina
Proteínas - transcrição e codificação
lncRNAs
description Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2017.
publishDate 2017
dc.date.none.fl_str_mv 2017-12-12
2018-04-12T19:37:08Z
2018-04-12T19:37:08Z
2018-04-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv KÜMMEL, Bruno Couto. Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas. 2017. xviii, 101 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2017.
http://repositorio.unb.br/handle/10482/31651
identifier_str_mv KÜMMEL, Bruno Couto. Método baseado em aprendizado de máquina para seleção de características para distinção entre RNAs não-codificadores longos e RNAs codificadores de proteínas. 2017. xviii, 101 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2017.
url http://repositorio.unb.br/handle/10482/31651
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1814508382153867264