Development of DNA sequence classifiers based on deep learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/84065 |
Resumo: | Dissertação de mestrado em Informatics Engineering |
id |
RCAP_0076a52d01d5fa55d76734a3b66ec1c5 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/84065 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development of DNA sequence classifiers based on deep learningDesenvolvimento de classificadores de sequências de ADN baseado em deep learningDNADNA sequence classificationMachine LearningDeep LearningClassificação de sequências de ADNDissertação de mestrado em Informatics EngineeringDeoxyribonucleic acid (DNA) is a biological macromolecule whose primary function is to store an individual’s genetic information. Because of breakthroughs in sequencing technology, the number of DNA sequences is now growing at an exponential rate. The assignment of a function to these sequences is a great obstacle in Bioinformatics, and current methods rely on homologies, a solution that is slow and less accurate. Machine learning (ML) has been widely employed as it is a relevant tool for processing huge amounts of data by learning on its own without explicit programming. Using ML, it is now possible to speed up and automatically classify DNA sequences into existing categories with the objective of learning their functions. However, building a machine learning classifier of biological sequences is a tough challenge due to the lack of numerical properties in the sequence that the model requires. Therefore, it is still necessary to apply some pre-processing techniques so that the sequences are properly represented for the model. These techniques include feature extraction and feature selection, and they are the most difficult components because sequences lack explicit features. Deep learning models have recently been developed that not only extract features from input automatically, but also improve the prediction and classification of DNA sequences. The main goal of this project is to create a tool that can automatically classify DNA sequences using machine and deep learning models and algorithms, followed by its integration into ProPythia, a Python package developed by the host group. Automated ML classifiers will also be developed to integrate in OmniumAI software platforms. Transcription factor annotation and essential gene determination will be used as case studies for the platform validation. With this study, it is intended to encourage the use of such technologies to develop new tools that can manage vast volumes of biological data, thus boosting DNA prediction understanding.O ácido desoxirribonucleico (ADN) é uma macromolécula biológica cuja principal função é armazenar a informação genética de um indivíduo. Devido aos avanços na tecnologia de sequenciamento, o número dessas sequências está a crescer a uma taxa exponencial. A atribuição de funções a estas sequências é um grande obstáculo na Bioinformática, e os métodos atuais usam homologias, uma solução lenta e pouco precisa. Machine learning tem sido bastante utilizado, pois é uma ferramenta capaz de processar grandes quantidades de dados aprendendo por conta própria sem programação explícita. Desta maneira, é possível acelerar e classificar automaticamente as sequências de ADN em categorias existentes com o objetivo de aprender as suas funções. No entanto, construir um classificador de machine learning de sequências biológicas é um grande desafio devido à falta de propriedades numéricas na sequência que o modelo exige. É necessário aplicar algumas técnicas de pré-processamento para que as sequências sejam devidamente representadas para o modelo. Essas técnicas incluem extração e seleção de características, e são os componentes mais difíceis porque as sequências carecem de características explícitas. Modelos de deep learning foram desenvolvidos recentemente que não só extraem características dos dados automaticamente, como também melhoram a previsão e classificação de sequências de ADN. O principal objetivo deste projeto é criar uma ferramenta capaz de classificar automaticamente sequências de ADN usando modelos e algoritmos de machine e deep learning, seguido da sua integração no ProPythia, um Python package desenvolvido pelo grupo anfitrião. Classificadores automáticos de machine learning também serão desenvolvidos para integração em plataformas de software OmniumAI. A determinação do fator de transcrição e de genes essenciais serão utilizados como casos de estudo para validação da plataforma. Com este estudo, pretende-se incentivar o uso de tais tecnologias para desenvolver novas ferramentas que consigam lidar com grandes volumes de dados, permitindo avanços na área de previsão de ADN.Rocha, MiguelDias, OscarUniversidade do MinhoAbreu, João Nuno Cardoso Gonçalves de2022-12-192022-12-19T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/84065eng203252250info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:47:10Zoai:repositorium.sdum.uminho.pt:1822/84065Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:45:15.441728Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development of DNA sequence classifiers based on deep learning Desenvolvimento de classificadores de sequências de ADN baseado em deep learning |
title |
Development of DNA sequence classifiers based on deep learning |
spellingShingle |
Development of DNA sequence classifiers based on deep learning Abreu, João Nuno Cardoso Gonçalves de DNA DNA sequence classification Machine Learning Deep Learning Classificação de sequências de ADN |
title_short |
Development of DNA sequence classifiers based on deep learning |
title_full |
Development of DNA sequence classifiers based on deep learning |
title_fullStr |
Development of DNA sequence classifiers based on deep learning |
title_full_unstemmed |
Development of DNA sequence classifiers based on deep learning |
title_sort |
Development of DNA sequence classifiers based on deep learning |
author |
Abreu, João Nuno Cardoso Gonçalves de |
author_facet |
Abreu, João Nuno Cardoso Gonçalves de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Rocha, Miguel Dias, Oscar Universidade do Minho |
dc.contributor.author.fl_str_mv |
Abreu, João Nuno Cardoso Gonçalves de |
dc.subject.por.fl_str_mv |
DNA DNA sequence classification Machine Learning Deep Learning Classificação de sequências de ADN |
topic |
DNA DNA sequence classification Machine Learning Deep Learning Classificação de sequências de ADN |
description |
Dissertação de mestrado em Informatics Engineering |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-12-19 2022-12-19T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/84065 |
url |
https://hdl.handle.net/1822/84065 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203252250 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133016506761216 |