Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais

Detalhes bibliográficos
Autor(a) principal: Paiva, Jônatas Lopes de
Data de Publicação: 2015
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFLA
Texto Completo: http://repositorio.ufla.br/jspui/handle/1/5238
Resumo: This work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated.
id UFLA_f538fe3f240547a5c6591f7f9cddefc2
oai_identifier_str oai:localhost:1/5238
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiaisClassificação de proteínasCodificação de proteínasRedes neurais artificiaisClusteringBioinformáticaProtein classificationProtein codingArtificial neural networksClusteringBioinformaticsThis work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated.Este trabalho propõe a construção de um classificador para as proteínas do banco de dados público COG (Clusters of Orthologous Groups). O classificador é construído utilizando redes neurais artificiais (RNA). O grande problema deste método é que RNAs aceitam entradas de tamanho único, e as proteínas do COG possuem tamanhos variados, por este motivo as proteínas precisam ser codificadas, e a codificação utilizada neste trabalho é a Sequence Coding By Sliding Window (SCSW), que se utiliza de janelas deslizantes e gera vetores de tamanho único para qualquer entrada. O empecilho desta codificação é o fato de que os vetores gerados podem ser ambíguos, fazendo com que sequências diferentes gerem vetores iguais, por este motivo um tamanho ideal para a janela deslizante deve ser encontrado. Com a codificação pronta, os conjuntos de dados para treinamento e validação da RNA devem ser selecionados, essa seleção deve ser feita porque os dados obtidos do COG possuem dimensionalidade muito grande, o que torna uma seleção de dados necessária. A seleção é feita utilizando o método Fuzzy c-means, que seleciona os pontos e cria os conjuntos para a criação da RNA. Ao final, os resultados obtidos com a RNA no conjunto de validação são comparados aos resultados esperados, com esses resultados o índice de acerto da rede é calculado.Castro, Cristiano Leite deEsmin, Ahmed Ali AbdallaCardoso, Patrícia GomesPaiva, Jônatas Lopes de2015-03-17T14:28:20Z2015-03-17T14:28:20Z2015-03-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfPAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010.http://repositorio.ufla.br/jspui/handle/1/5238info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2018-10-06T11:53:18Zoai:localhost:1/5238Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2018-10-06T11:53:18Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false
dc.title.none.fl_str_mv Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
title Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
spellingShingle Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
Paiva, Jônatas Lopes de
Classificação de proteínas
Codificação de proteínas
Redes neurais artificiais
Clustering
Bioinformática
Protein classification
Protein coding
Artificial neural networks
Clustering
Bioinformatics
title_short Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
title_full Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
title_fullStr Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
title_full_unstemmed Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
title_sort Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
author Paiva, Jônatas Lopes de
author_facet Paiva, Jônatas Lopes de
author_role author
dc.contributor.none.fl_str_mv Castro, Cristiano Leite de
Esmin, Ahmed Ali Abdalla
Cardoso, Patrícia Gomes
dc.contributor.author.fl_str_mv Paiva, Jônatas Lopes de
dc.subject.por.fl_str_mv Classificação de proteínas
Codificação de proteínas
Redes neurais artificiais
Clustering
Bioinformática
Protein classification
Protein coding
Artificial neural networks
Clustering
Bioinformatics
topic Classificação de proteínas
Codificação de proteínas
Redes neurais artificiais
Clustering
Bioinformática
Protein classification
Protein coding
Artificial neural networks
Clustering
Bioinformatics
description This work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated.
publishDate 2015
dc.date.none.fl_str_mv 2015-03-17T14:28:20Z
2015-03-17T14:28:20Z
2015-03-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010.
http://repositorio.ufla.br/jspui/handle/1/5238
identifier_str_mv PAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010.
url http://repositorio.ufla.br/jspui/handle/1/5238
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1815439193697943552