Anotação e classificação de elementos transponíveis com o uso de deep learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/276145 |
Resumo: | Os elementos transponíveis (TEs) são sequências de DNA capazes de se transporem dentro de um genoma hospedeiro e desempenham vários papéis na regulação dos genes, no envelhecimento, no desenvolvimento de certos tipos de câncer, na especiação e no desenvolvimento do sistema imunológico, entre outros. A identificação e classificação dos TEs nos genomas constituem um desafio devido à sua natureza repetitiva e diversificada. Embora se aplique várias técnicas para a anotação de TEs, o ressurgimento de deep learning (DL) trouxe novas possibilidades dentro das ciências ômicas com esta finalidade. As redes neurais convolucionais (CNN) têm sido aplicadas com sucesso em vários domínios, incluindo a classificação de imagens, o processamento de linguagem natural e na genômica. No entanto, faltam ferramentas baseadas em DL que possam efetuar a identificação e classificação de TEs de ponta a ponta. Nesta tese, apresentamos o HamleTE, uma ferramenta baseada em DL que utiliza um workflow para anotar e classificar TEs em genomas. HamleTE oferece os modos de anotação e classificação, proporcionando flexibilidade para diferentes casos de uso. A ferramenta emprega CNNs para extração de características, seguida por camadas totalmente conectadas para aprender as associações entre dados e rótulos para categorização precisa. Ao contrário das ferramentas existentes, HamleTE integra etapas de extração de sequências repetitivas e de remoção de redundância, assegurando uma anotação TE robusta. Para avaliar o desempenho do HamleTE, comparamo-lo com outros programas de classificação de TE. Os resultados demonstraram que, em relação aos outros programas, HamleTE alcançou um desempenho comparável ou superior em termos de identificação correta de TEs, precisão, especificidade, acurácia, sensibilidade e F1-score. Além disso, o modo de anotação do HamleTE gerou bibliotecas de TEs emprega um workflow hierárquico com vários modelos de classificação. Esta abordagem reduz a complexidade e a variação em cada etapa, atenuando as dificuldades associadas à aprendizagem e à categorização. Além disso, o HamleTE utiliza embedding vectors para representar sequências de DNA, capturando as relações contextuais e a semântica da informação genética. Esta abordagem melhora a capacidade do modelo para extrair características e aumenta a precisão da classificação. Em conclusão, HamleTE preenche a lacuna nas ferramentas de anotação e classificação de TE baseadas em DL. Ele fornece um workflow abrangente e eficiente para a análise de TEs, fornecendo resultados precisos e possibilitando opções de refinamento dos resultados. Ao tirar partido do poder da DL, HamleTE permite aos pesquisadores explorar a paisagem repetitiva e diversificada dos TEs nos genomas eucarióticos, facilitando uma exploração dos seus papéis funcionais e evolutivos. |
id |
URGS_f43562cd7a74ced83c413c3ed87e61cc |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/276145 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Gomes, Tiago Minuzzi Freire da FontouraLoreto, Élgion Lúcio da Silva2024-07-10T06:25:20Z2023http://hdl.handle.net/10183/276145001186349Os elementos transponíveis (TEs) são sequências de DNA capazes de se transporem dentro de um genoma hospedeiro e desempenham vários papéis na regulação dos genes, no envelhecimento, no desenvolvimento de certos tipos de câncer, na especiação e no desenvolvimento do sistema imunológico, entre outros. A identificação e classificação dos TEs nos genomas constituem um desafio devido à sua natureza repetitiva e diversificada. Embora se aplique várias técnicas para a anotação de TEs, o ressurgimento de deep learning (DL) trouxe novas possibilidades dentro das ciências ômicas com esta finalidade. As redes neurais convolucionais (CNN) têm sido aplicadas com sucesso em vários domínios, incluindo a classificação de imagens, o processamento de linguagem natural e na genômica. No entanto, faltam ferramentas baseadas em DL que possam efetuar a identificação e classificação de TEs de ponta a ponta. Nesta tese, apresentamos o HamleTE, uma ferramenta baseada em DL que utiliza um workflow para anotar e classificar TEs em genomas. HamleTE oferece os modos de anotação e classificação, proporcionando flexibilidade para diferentes casos de uso. A ferramenta emprega CNNs para extração de características, seguida por camadas totalmente conectadas para aprender as associações entre dados e rótulos para categorização precisa. Ao contrário das ferramentas existentes, HamleTE integra etapas de extração de sequências repetitivas e de remoção de redundância, assegurando uma anotação TE robusta. Para avaliar o desempenho do HamleTE, comparamo-lo com outros programas de classificação de TE. Os resultados demonstraram que, em relação aos outros programas, HamleTE alcançou um desempenho comparável ou superior em termos de identificação correta de TEs, precisão, especificidade, acurácia, sensibilidade e F1-score. Além disso, o modo de anotação do HamleTE gerou bibliotecas de TEs emprega um workflow hierárquico com vários modelos de classificação. Esta abordagem reduz a complexidade e a variação em cada etapa, atenuando as dificuldades associadas à aprendizagem e à categorização. Além disso, o HamleTE utiliza embedding vectors para representar sequências de DNA, capturando as relações contextuais e a semântica da informação genética. Esta abordagem melhora a capacidade do modelo para extrair características e aumenta a precisão da classificação. Em conclusão, HamleTE preenche a lacuna nas ferramentas de anotação e classificação de TE baseadas em DL. Ele fornece um workflow abrangente e eficiente para a análise de TEs, fornecendo resultados precisos e possibilitando opções de refinamento dos resultados. Ao tirar partido do poder da DL, HamleTE permite aos pesquisadores explorar a paisagem repetitiva e diversificada dos TEs nos genomas eucarióticos, facilitando uma exploração dos seus papéis funcionais e evolutivos.Transposable elements (TEs) are DNA sequences capable of transposing within a host genome, and they play various roles in gene regulation, aging, cancer, speciation, and immune system development, among other processes. Accurate identification and classification of TEs in genomes are challenging due to their repetitive and diverse nature. While several techniques have been developed for TE annotation, the recent re-emergence of deep learning has provided new opportunities for omics sciences. Convolutional neural networks (CNNs) have been successfully applied in various domains, including image classification, natural language processing, and now, genomics. However, there is a lack of deep learning-based tools that can perform end-to-end TE identification and classification. In this thesis, we present HamleTE, a deep learning-powered tool that utilizes a workflow to annotate and classify TEs in genomes. HamleTE offers both annotation and classification modes, providing flexibility for different use cases. The tool employs CNNs for feature extraction, followed by fully-connected layers to learn the associations between data and labels for accurate categorization. Unlike existing tools, HamleTE integrates repeat extraction and redundancy removal steps, ensuring robust TE annotation. To evaluate HamleTE's performance, we compared it with other TE classification programs. The results demonstrated that HamleTE achieved comparable or superior performance in terms of correct TE identification, precision, specificity, accuracy, recall, and F1-score. Furthermore, HamleTE's annotation mode generated TE libraries that accurately reflected the distribution of TEs in different species, outperforming existing annotation programs in terms of representation and coverage. The tool's user-friendly installation and usage, as well as its efficient resource utilization, make it accessible to both bioinformatics experts and non-specialists. To address the challenges of TE classification, HamleTE employs a hierarchical workflow with multiple classification models. This approach reduces complexity and variance at each step, mitigating the difficulties associated with learning and categorization. Furthermore, HamleTE utilizes embedding vectors to represent DNA sequences, capturing the contextual relationships and semantic of the genetic information.This approach improves the model's ability to extract features and enhances classification accuracy. In conclusion, HamleTE fills the gap in deep learning-based TE annotation and classification tools. It provides a comprehensive and efficient workflow for TE analysis, delivering accurate results and allowing options for curating the results. By leveraging the power of deep learning, HamleTE enables researchers to explore the repetitive and diverse landscape of TEs in eukaryotic genomes, facilitating the exploration of their functional and evolutionary roles.application/pdfengBioinformáticaGenômicaBioinformaticDeep learningAnotação e classificação de elementos transponíveis com o uso de deep learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de BiociênciasPrograma de Pós-Graduação em Genética e Biologia MolecularPorto Alegre, BR-RS2023doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001186349.pdf.txt001186349.pdf.txtExtracted Texttext/plain245292http://www.lume.ufrgs.br/bitstream/10183/276145/2/001186349.pdf.txt09842da455f6bff1610fe8249900a1c8MD52ORIGINAL001186349.pdfTexto completoapplication/pdf9140878http://www.lume.ufrgs.br/bitstream/10183/276145/1/001186349.pdf8296baa1f76712aebd3435f82f1c3d61MD5110183/2761452024-07-11 05:40:37.603385oai:www.lume.ufrgs.br:10183/276145Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-07-11T08:40:37Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
title |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
spellingShingle |
Anotação e classificação de elementos transponíveis com o uso de deep learning Gomes, Tiago Minuzzi Freire da Fontoura Bioinformática Genômica Bioinformatic Deep learning |
title_short |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
title_full |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
title_fullStr |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
title_full_unstemmed |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
title_sort |
Anotação e classificação de elementos transponíveis com o uso de deep learning |
author |
Gomes, Tiago Minuzzi Freire da Fontoura |
author_facet |
Gomes, Tiago Minuzzi Freire da Fontoura |
author_role |
author |
dc.contributor.author.fl_str_mv |
Gomes, Tiago Minuzzi Freire da Fontoura |
dc.contributor.advisor1.fl_str_mv |
Loreto, Élgion Lúcio da Silva |
contributor_str_mv |
Loreto, Élgion Lúcio da Silva |
dc.subject.por.fl_str_mv |
Bioinformática Genômica |
topic |
Bioinformática Genômica Bioinformatic Deep learning |
dc.subject.eng.fl_str_mv |
Bioinformatic Deep learning |
description |
Os elementos transponíveis (TEs) são sequências de DNA capazes de se transporem dentro de um genoma hospedeiro e desempenham vários papéis na regulação dos genes, no envelhecimento, no desenvolvimento de certos tipos de câncer, na especiação e no desenvolvimento do sistema imunológico, entre outros. A identificação e classificação dos TEs nos genomas constituem um desafio devido à sua natureza repetitiva e diversificada. Embora se aplique várias técnicas para a anotação de TEs, o ressurgimento de deep learning (DL) trouxe novas possibilidades dentro das ciências ômicas com esta finalidade. As redes neurais convolucionais (CNN) têm sido aplicadas com sucesso em vários domínios, incluindo a classificação de imagens, o processamento de linguagem natural e na genômica. No entanto, faltam ferramentas baseadas em DL que possam efetuar a identificação e classificação de TEs de ponta a ponta. Nesta tese, apresentamos o HamleTE, uma ferramenta baseada em DL que utiliza um workflow para anotar e classificar TEs em genomas. HamleTE oferece os modos de anotação e classificação, proporcionando flexibilidade para diferentes casos de uso. A ferramenta emprega CNNs para extração de características, seguida por camadas totalmente conectadas para aprender as associações entre dados e rótulos para categorização precisa. Ao contrário das ferramentas existentes, HamleTE integra etapas de extração de sequências repetitivas e de remoção de redundância, assegurando uma anotação TE robusta. Para avaliar o desempenho do HamleTE, comparamo-lo com outros programas de classificação de TE. Os resultados demonstraram que, em relação aos outros programas, HamleTE alcançou um desempenho comparável ou superior em termos de identificação correta de TEs, precisão, especificidade, acurácia, sensibilidade e F1-score. Além disso, o modo de anotação do HamleTE gerou bibliotecas de TEs emprega um workflow hierárquico com vários modelos de classificação. Esta abordagem reduz a complexidade e a variação em cada etapa, atenuando as dificuldades associadas à aprendizagem e à categorização. Além disso, o HamleTE utiliza embedding vectors para representar sequências de DNA, capturando as relações contextuais e a semântica da informação genética. Esta abordagem melhora a capacidade do modelo para extrair características e aumenta a precisão da classificação. Em conclusão, HamleTE preenche a lacuna nas ferramentas de anotação e classificação de TE baseadas em DL. Ele fornece um workflow abrangente e eficiente para a análise de TEs, fornecendo resultados precisos e possibilitando opções de refinamento dos resultados. Ao tirar partido do poder da DL, HamleTE permite aos pesquisadores explorar a paisagem repetitiva e diversificada dos TEs nos genomas eucarióticos, facilitando uma exploração dos seus papéis funcionais e evolutivos. |
publishDate |
2023 |
dc.date.issued.fl_str_mv |
2023 |
dc.date.accessioned.fl_str_mv |
2024-07-10T06:25:20Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/276145 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001186349 |
url |
http://hdl.handle.net/10183/276145 |
identifier_str_mv |
001186349 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/276145/2/001186349.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/276145/1/001186349.pdf |
bitstream.checksum.fl_str_mv |
09842da455f6bff1610fe8249900a1c8 8296baa1f76712aebd3435f82f1c3d61 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085644114853888 |