Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRPE |
Texto Completo: | http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150 |
Resumo: | Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification. |
id |
URPE_ba5c329df92a9e5ba71df4c56618c0ed |
---|---|
oai_identifier_str |
oai:tede2:tede2/8150 |
network_acronym_str |
URPE |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRPE |
repository_id_str |
|
spelling |
FERREIRA, Tiago Alessandro EspínolaCUNHA FILHO, MoacyrBALBINO, Valdir QueirozSANTOS, Antônio de PáduaMIRANDA, Péricles Barbosa Cunha dehttp://lattes.cnpq.br/9331786260432286SANZ, Albaro Ramon Paiva2019-07-17T13:07:29Z2019-02-27SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife.http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification.As técnicas de classificação são frequentemente utilizadas na solução de diferentes problemas da bioinformática. A maioria dos genes na sequência do DNA é transcrita pelo RNA mensageiro e traduzida para proteína. O DNA contém regiões que codificam as proteínas chamadas exons, e regiões que não codificam as proteinas são chamadas de introns, os limites entre os exons e introns são chamados de splice site. Durante o processo de transcrição, os introns são "cortados", isso é conhecido como splicing, que coloca os exons de um gene um atrás do outro consecutivamente, prontos para serem traduzidos na sequência de aminoácidos que compõem a proteína. Nos splice sites, a transição da região codificante exon para a região não codificante intron (EI) é distinguida com os nucleótidos GT, e a transição da região não codificante intron para a região codificante exon (IE) é distinguida com os nucleótidos AG. Uma pequena porcentagem dessas combinações são splice sites reais. Neste estudo, é apresentada uma metodologia para o problema de classificação EI e IE que consistem em obter distribuições de probabilidades usando técnicas de aprendizagem de máquina, e a partir delas obter diferentes medidas de desempenho. Uma série de algoritmos (Support Vector Machine (SVM), Neural Networks (RNA), Random Forest (RF), Naive Bayes(NB)) foram testados e comparados para encontrar o melhor classificador. Para fazer a seleção do melhor classificador, as medidas mais conhecidas, foram aplicadas com base na matriz de confusão: Acurácia, Especificidade, Sensibilidade, dentre outros, bem como a distância de Kolgomorov-Smirnov (KS) como medida de desempenho dos modelos de classificação. Mais precisamente, a KS é uma medida do grau de separação entre as distribuições de classe de probabilidade, sendo este um indicativo de maior acurácia. Os resultados apresentados neste estudo foram iguais ou superiores em acurácia quando são comparado com os trabalhos apresentados na literatura.Submitted by Mario BC (mario@bc.ufrpe.br) on 2019-07-17T13:07:29Z No. of bitstreams: 1 Albaro Ramon Paiva Sanz.pdf: 1588433 bytes, checksum: 079ea859e16f08cd1678049a7acf4458 (MD5)Made available in DSpace on 2019-07-17T13:07:29Z (GMT). No. of bitstreams: 1 Albaro Ramon Paiva Sanz.pdf: 1588433 bytes, checksum: 079ea859e16f08cd1678049a7acf4458 (MD5) Previous issue date: 2019-02-27Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfporUniversidade Federal Rural de PernambucoPrograma de Pós-Graduação em Biometria e Estatística AplicadaUFRPEBrasilDepartamento de Estatística e InformáticaClassificação exon-intronClassificação intron-exonAprendizagem de máquinaAlgoritmoCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAAprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humanoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis768382242446187918600600600600-6774555140396120501-58364078281851435172075167498588264571info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRPEinstname:Universidade Federal Rural de Pernambuco (UFRPE)instacron:UFRPEORIGINALAlbaro Ramon Paiva Sanz.pdfAlbaro Ramon Paiva Sanz.pdfapplication/pdf1588433http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/2/Albaro+Ramon+Paiva+Sanz.pdf079ea859e16f08cd1678049a7acf4458MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51tede2/81502019-07-17 10:07:29.412oai:tede2:tede2/8150Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://www.tede2.ufrpe.br:8080/tede/PUBhttp://www.tede2.ufrpe.br:8080/oai/requestbdtd@ufrpe.br ||bdtd@ufrpe.bropendoar:2024-05-28T12:36:35.840622Biblioteca Digital de Teses e Dissertações da UFRPE - Universidade Federal Rural de Pernambuco (UFRPE)false |
dc.title.por.fl_str_mv |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
title |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
spellingShingle |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano SANZ, Albaro Ramon Paiva Classificação exon-intron Classificação intron-exon Aprendizagem de máquina Algoritmo CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
title_short |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
title_full |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
title_fullStr |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
title_full_unstemmed |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
title_sort |
Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano |
author |
SANZ, Albaro Ramon Paiva |
author_facet |
SANZ, Albaro Ramon Paiva |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
FERREIRA, Tiago Alessandro Espínola |
dc.contributor.referee1.fl_str_mv |
CUNHA FILHO, Moacyr |
dc.contributor.referee2.fl_str_mv |
BALBINO, Valdir Queiroz |
dc.contributor.referee3.fl_str_mv |
SANTOS, Antônio de Pádua |
dc.contributor.referee4.fl_str_mv |
MIRANDA, Péricles Barbosa Cunha de |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9331786260432286 |
dc.contributor.author.fl_str_mv |
SANZ, Albaro Ramon Paiva |
contributor_str_mv |
FERREIRA, Tiago Alessandro Espínola CUNHA FILHO, Moacyr BALBINO, Valdir Queiroz SANTOS, Antônio de Pádua MIRANDA, Péricles Barbosa Cunha de |
dc.subject.por.fl_str_mv |
Classificação exon-intron Classificação intron-exon Aprendizagem de máquina Algoritmo |
topic |
Classificação exon-intron Classificação intron-exon Aprendizagem de máquina Algoritmo CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
description |
Classification techniques are often used to solve different bioinformatics problems. Most genes in the DNA sequence are transcribed by messenger RNA and translated into protein. The DNA contains regions that encode proteins (exons) and regions that do not encode proteins (introns), the boundaries between exons and introns are called the splice site. During the transcription process, the introns are "cut", this is known as splicing that puts the exons of a gene consecutively, ready to be translated into the amino acid sequence that make up the protein. In splice sites, the transition from the coding region exon to the non-coding region intron (EI) and distinguished with the nucleotides GT, and transition from the non-coding region (intron) to the coding region exon (IE) and distinguished with the nucleotides AG. A small percentage of these combinations are actual splice sites. In this study, a methodology for the classification problem EI and IE is presented, which consists in obtaining probability distributions using machine learning technique and starting from them to obtain different measures of performance. A number of algorithms (Support Vector Machine (SVM), Artificial Neural Network (RNA), Random Forest (RF), Naive Bayes (NB)) are tested and compared to find the best classifier. To make the selection of the best classifier the most known measures are applied based on the confusion matrix: Accuracy, Specificity, Sensitivity, among others, as well as the Kolgomorov distance (KS) as measured performance of the classification models. More precisely, the KS is a measure of the degree of sep aration between the distributions of probability class, which is an indication of greater accuracy. The results presented in this study are equal or superior in accuracy when compared with the papers presented in the literature Classification. |
publishDate |
2019 |
dc.date.accessioned.fl_str_mv |
2019-07-17T13:07:29Z |
dc.date.issued.fl_str_mv |
2019-02-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife. |
dc.identifier.uri.fl_str_mv |
http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150 |
identifier_str_mv |
SANZ, Albaro Ramon Paiva. Aprendizagem de máquina para classificação de estructuras Exon e Intron em dados de genoma humano. 2019. 75 f. Tese (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife. |
url |
http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/8150 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
768382242446187918 |
dc.relation.confidence.fl_str_mv |
600 600 600 600 |
dc.relation.department.fl_str_mv |
-6774555140396120501 |
dc.relation.cnpq.fl_str_mv |
-5836407828185143517 |
dc.relation.sponsorship.fl_str_mv |
2075167498588264571 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal Rural de Pernambuco |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Biometria e Estatística Aplicada |
dc.publisher.initials.fl_str_mv |
UFRPE |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Departamento de Estatística e Informática |
publisher.none.fl_str_mv |
Universidade Federal Rural de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRPE instname:Universidade Federal Rural de Pernambuco (UFRPE) instacron:UFRPE |
instname_str |
Universidade Federal Rural de Pernambuco (UFRPE) |
instacron_str |
UFRPE |
institution |
UFRPE |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRPE |
collection |
Biblioteca Digital de Teses e Dissertações da UFRPE |
bitstream.url.fl_str_mv |
http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/2/Albaro+Ramon+Paiva+Sanz.pdf http://www.tede2.ufrpe.br:8080/tede2/bitstream/tede2/8150/1/license.txt |
bitstream.checksum.fl_str_mv |
079ea859e16f08cd1678049a7acf4458 bd3efa91386c1718a7f26a329fdcb468 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRPE - Universidade Federal Rural de Pernambuco (UFRPE) |
repository.mail.fl_str_mv |
bdtd@ufrpe.br ||bdtd@ufrpe.br |
_version_ |
1810102259730612224 |