Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFLA |
Texto Completo: | http://repositorio.ufla.br/jspui/handle/1/5238 |
Resumo: | This work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated. |
id |
UFLA_f538fe3f240547a5c6591f7f9cddefc2 |
---|---|
oai_identifier_str |
oai:localhost:1/5238 |
network_acronym_str |
UFLA |
network_name_str |
Repositório Institucional da UFLA |
repository_id_str |
|
spelling |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiaisClassificação de proteínasCodificação de proteínasRedes neurais artificiaisClusteringBioinformáticaProtein classificationProtein codingArtificial neural networksClusteringBioinformaticsThis work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated.Este trabalho propõe a construção de um classificador para as proteínas do banco de dados público COG (Clusters of Orthologous Groups). O classificador é construído utilizando redes neurais artificiais (RNA). O grande problema deste método é que RNAs aceitam entradas de tamanho único, e as proteínas do COG possuem tamanhos variados, por este motivo as proteínas precisam ser codificadas, e a codificação utilizada neste trabalho é a Sequence Coding By Sliding Window (SCSW), que se utiliza de janelas deslizantes e gera vetores de tamanho único para qualquer entrada. O empecilho desta codificação é o fato de que os vetores gerados podem ser ambíguos, fazendo com que sequências diferentes gerem vetores iguais, por este motivo um tamanho ideal para a janela deslizante deve ser encontrado. Com a codificação pronta, os conjuntos de dados para treinamento e validação da RNA devem ser selecionados, essa seleção deve ser feita porque os dados obtidos do COG possuem dimensionalidade muito grande, o que torna uma seleção de dados necessária. A seleção é feita utilizando o método Fuzzy c-means, que seleciona os pontos e cria os conjuntos para a criação da RNA. Ao final, os resultados obtidos com a RNA no conjunto de validação são comparados aos resultados esperados, com esses resultados o índice de acerto da rede é calculado.Castro, Cristiano Leite deEsmin, Ahmed Ali AbdallaCardoso, Patrícia GomesPaiva, Jônatas Lopes de2015-03-17T14:28:20Z2015-03-17T14:28:20Z2015-03-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfPAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010.http://repositorio.ufla.br/jspui/handle/1/5238info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2018-10-06T11:53:18Zoai:localhost:1/5238Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2018-10-06T11:53:18Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false |
dc.title.none.fl_str_mv |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
title |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
spellingShingle |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais Paiva, Jônatas Lopes de Classificação de proteínas Codificação de proteínas Redes neurais artificiais Clustering Bioinformática Protein classification Protein coding Artificial neural networks Clustering Bioinformatics |
title_short |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
title_full |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
title_fullStr |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
title_full_unstemmed |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
title_sort |
Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais |
author |
Paiva, Jônatas Lopes de |
author_facet |
Paiva, Jônatas Lopes de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Castro, Cristiano Leite de Esmin, Ahmed Ali Abdalla Cardoso, Patrícia Gomes |
dc.contributor.author.fl_str_mv |
Paiva, Jônatas Lopes de |
dc.subject.por.fl_str_mv |
Classificação de proteínas Codificação de proteínas Redes neurais artificiais Clustering Bioinformática Protein classification Protein coding Artificial neural networks Clustering Bioinformatics |
topic |
Classificação de proteínas Codificação de proteínas Redes neurais artificiais Clustering Bioinformática Protein classification Protein coding Artificial neural networks Clustering Bioinformatics |
description |
This work proposes the construction of a protein classifier for the public database COG (Clusters of Orthologous groups). The classifier is built using artificial neural networks (ANN). The major problem with this method is that ANNs accept only single sizes inputs, and the proteins in COG can have many different sizes, because of that the proteins need to be coded, and the coding method used in this work is the Sequence Coding By Sliding Window (SCSW), which uses sliding windows and generates unique size vectors for any entry. The downside with this coding is that the vectors generated can be ambiguous, causing different sequences to generate equal vectors, to avoid that an ideal size for the sliding window must be found. With the encoding ready the datasets for training and validation of ANN must be selected, this selection must be done because the data obtained from COG are too large; and this makes a selection of data required. The selection is done using the Fuzzy c-means method; it selects the points and creates sets for the creation of ANN. In the end, the results obtained with the ANN in the validation set are compared with the expected results, with these results the hit rate of the network is calculated. |
publishDate |
2015 |
dc.date.none.fl_str_mv |
2015-03-17T14:28:20Z 2015-03-17T14:28:20Z 2015-03-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
PAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010. http://repositorio.ufla.br/jspui/handle/1/5238 |
identifier_str_mv |
PAIVA, J. L. de. Estudo de aplicação de um método híbrido para classificação de proteínas utilizando sequence coding by sliding window e redes neurais artificiais. 2010. 44 p. Monografia (Graduação em Ciência da Computação) – Universidade Federal de Lavras, Lavras, 2010. |
url |
http://repositorio.ufla.br/jspui/handle/1/5238 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA |
instname_str |
Universidade Federal de Lavras (UFLA) |
instacron_str |
UFLA |
institution |
UFLA |
reponame_str |
Repositório Institucional da UFLA |
collection |
Repositório Institucional da UFLA |
repository.name.fl_str_mv |
Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA) |
repository.mail.fl_str_mv |
nivaldo@ufla.br || repositorio.biblioteca@ufla.br |
_version_ |
1815439193697943552 |