Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores

Detalhes bibliográficos
Autor(a) principal: Fedacz, Gabriel Lucas
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UEPG
Texto Completo: http://tede2.uepg.br/jspui/handle/prefix/3251
Resumo: No meio agrícola, algumas bactérias têm sido utilizadas na promoção do biocontrole e crescimento vegetal. Isto tem motivado o desenvolvimento de ferramentas de software para detectar automaticamente sua presença em amostras coletadas do solo. Uma maneira de proceder tal identificação é o desenvolvimento de classificadores que utilizam padrões de espectros de massa obtido por MALDI/TOF para verificar a frequência de determinados conjuntos de proteínas ribossomais na amostra. A seleção de uma função de classificação adequada para o problema alvo tem grande influência sobre o desempenho do classificador e isto tem incentivado o uso de escores, denominados medidas de complexidade de dados. Tais escores descrevem certas características da base dados e podem fornecer suporte à escolha da função de classificação. Durante o processo de geração dos dados a partir de espectros de massa, é comum a ocorrência do desbalanceamento de classes, o que afeta adversamente as medidas de complexidade de dados. Considerando o exposto, este trabalho aplica um protocolo experimental para verificar a influência do desbalanceamento dos dados sobre o desempenho dos classificadores e nas medidas de complexidade. Os modelos classificadores utilizados nos experimentos foram a regressão logística e o QDA, os quais foram treinados para a identificação de bactérias dos gêneros Bacillus e Rhizobium. O desempenho dos classificadores apresentou relação exponencial com o balanceamento dos dados. Foram propostos dois índices de complexidade de dados, L2B e N3B que foram submetidas aos testes junto aos índices encontrados na literatura. Os resultados mostram que as medidas F3, Density, N3B e L2B estão relacionados ao desempenho dos classificadores treinados com dados desbalanceados. Tais medidas foram avaliadas quanto a capacidade em predizer a acurácia balanceada dos modelos. Na identificação de bactérias do gênero Bacillus, a medida de melhor relação com o desempenho em ambos os modelos foi a medida N3B. No caso da identificação do gênero Rhizobium, a medida de melhor associação ao modelo logístico foi L2B e N3B no modelo quadrático.
id UEPG_d3079d6f31e80eecc0ceba65fa7d8649
oai_identifier_str oai:tede2.uepg.br:prefix/3251
network_acronym_str UEPG
network_name_str Biblioteca Digital de Teses e Dissertações da UEPG
repository_id_str
spelling Rocha, José Carlos Ferreira da645-024-0309-00lattes.cnpq.brBritto Junior, Alceu de Souza576.493.759-00lattes.cnpq.brSteffens, Maria Berenice Reynaud519.159.369-34Universidade Estadual de Ponta GrossaUniversidade Federal do Paraná08297252965lattes.cnpq.brFedacz, Gabriel Lucas2020-11-25T18:52:21Z2020-11-252020-11-25T18:52:21Z2020-07-28FEDACZ, Gabriel Lucas. Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores. 2020. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Ponta Grossa, Ponta Grossa, 2020.http://tede2.uepg.br/jspui/handle/prefix/3251No meio agrícola, algumas bactérias têm sido utilizadas na promoção do biocontrole e crescimento vegetal. Isto tem motivado o desenvolvimento de ferramentas de software para detectar automaticamente sua presença em amostras coletadas do solo. Uma maneira de proceder tal identificação é o desenvolvimento de classificadores que utilizam padrões de espectros de massa obtido por MALDI/TOF para verificar a frequência de determinados conjuntos de proteínas ribossomais na amostra. A seleção de uma função de classificação adequada para o problema alvo tem grande influência sobre o desempenho do classificador e isto tem incentivado o uso de escores, denominados medidas de complexidade de dados. Tais escores descrevem certas características da base dados e podem fornecer suporte à escolha da função de classificação. Durante o processo de geração dos dados a partir de espectros de massa, é comum a ocorrência do desbalanceamento de classes, o que afeta adversamente as medidas de complexidade de dados. Considerando o exposto, este trabalho aplica um protocolo experimental para verificar a influência do desbalanceamento dos dados sobre o desempenho dos classificadores e nas medidas de complexidade. Os modelos classificadores utilizados nos experimentos foram a regressão logística e o QDA, os quais foram treinados para a identificação de bactérias dos gêneros Bacillus e Rhizobium. O desempenho dos classificadores apresentou relação exponencial com o balanceamento dos dados. Foram propostos dois índices de complexidade de dados, L2B e N3B que foram submetidas aos testes junto aos índices encontrados na literatura. Os resultados mostram que as medidas F3, Density, N3B e L2B estão relacionados ao desempenho dos classificadores treinados com dados desbalanceados. Tais medidas foram avaliadas quanto a capacidade em predizer a acurácia balanceada dos modelos. Na identificação de bactérias do gênero Bacillus, a medida de melhor relação com o desempenho em ambos os modelos foi a medida N3B. No caso da identificação do gênero Rhizobium, a medida de melhor associação ao modelo logístico foi L2B e N3B no modelo quadrático.In the agricultural environment, some bacteria have been used as active in biocontrol and plant growth. This has motivated the development of software tools to automatically detect their presence in soil samples. One way to proceed with this identification is the development of classifiers that use MALDI / TOF mass spectra patterns to check the frequency of certain ribosomal proteins in the sample. The selection of a classification function that fits the target problem has a great influence on the classifier’s performance, this has encouraged the use of scores, called data complexity measures. Such scores describe certain characteristics of the database and may provide support for choosing the classification function. During the process of generating data from mass spectrometry, it is common for data to be unbalanced, which adversely affects the data complexity measures. Considering the above, this work applies an experimental protocol to verify the influence of unbalanced data on the performance of classifiers and on complexity measures. The classifying models used in the experiments were logistic regression and QDA, which were trained to identify bacteria of the genera Bacillus and Rhizobium. The performance of the classifiers showed a strong to moderate relationship with the unbalanced data problem. Two data complexity indexes, L2B and N3B, have been proposed and submitted to tests along with the indexes found in the literature. The results show that the measures F3, Density, N3B and L2B are related to the performance of the classifiers trained with unbalanced data. Such measures were evaluated for their ability to predict the balanced accuracy of the models. When identifying bacteria of the genera Bacillus, the measure of best relation to the performance of the models was the N3B measure. In the case of the identification of the genera Rhizobium, the measure of best association with the logistic model was L2B and N3B for the quadratic model.Submitted by Angela Maria de Oliveira (amolivei@uepg.br) on 2020-11-25T18:52:21Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Gabriel Lucas Fedacz.pdf: 5647149 bytes, checksum: b92286c02641bcf0bfe08ea59c9a6393 (MD5)Made available in DSpace on 2020-11-25T18:52:21Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Gabriel Lucas Fedacz.pdf: 5647149 bytes, checksum: b92286c02641bcf0bfe08ea59c9a6393 (MD5) Previous issue date: 2020-07-28Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorporUniversidade Estadual de Ponta GrossaPrograma de Pós Graduação Computação AplicadaUEPGBrasilDepartamento de InformáticaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComplexidade de dadosEspectrometria de MassaClassificação de BactériasDesbalanceamento de dadosData ComplexityMass SpectrometryBacterial ClassificationImbalanced DatasetsAprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadoresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Biblioteca Digital de Teses e Dissertações da UEPGinstname:Universidade Estadual de Ponta Grossa (UEPG)instacron:UEPGLICENSElicense.txtlicense.txttext/plain; charset=utf-81866http://tede2.uepg.br/jspui/bitstream/prefix/3251/3/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811http://tede2.uepg.br/jspui/bitstream/prefix/3251/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52ORIGINALGabriel Lucas Fedacz.pdfGabriel Lucas Fedacz.pdfdissertação completa em pdfapplication/pdf5647149http://tede2.uepg.br/jspui/bitstream/prefix/3251/1/Gabriel%20Lucas%20Fedacz.pdfb92286c02641bcf0bfe08ea59c9a6393MD51prefix/32512020-11-25 16:52:21.643oai:tede2.uepg.br:prefix/3251TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Teses e Dissertaçõeshttps://tede2.uepg.br/jspui/PUBhttp://tede2.uepg.br/oai/requestbicen@uepg.br||mv_fidelis@yahoo.com.bropendoar:2020-11-25T18:52:21Biblioteca Digital de Teses e Dissertações da UEPG - Universidade Estadual de Ponta Grossa (UEPG)false
dc.title.pt_BR.fl_str_mv Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
title Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
spellingShingle Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
Fedacz, Gabriel Lucas
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Complexidade de dados
Espectrometria de Massa
Classificação de Bactérias
Desbalanceamento de dados
Data Complexity
Mass Spectrometry
Bacterial Classification
Imbalanced Datasets
title_short Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
title_full Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
title_fullStr Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
title_full_unstemmed Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
title_sort Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores
author Fedacz, Gabriel Lucas
author_facet Fedacz, Gabriel Lucas
author_role author
dc.contributor.instituicao-banca1.pt_BR.fl_str_mv Universidade Estadual de Ponta Grossa
dc.contributor.instituicao-banca2.pt_BR.fl_str_mv Universidade Federal do Paraná
dc.contributor.advisor1.fl_str_mv Rocha, José Carlos Ferreira da
dc.contributor.advisor1ID.fl_str_mv 645-024-0309-00
dc.contributor.advisor1Lattes.fl_str_mv lattes.cnpq.br
dc.contributor.referee1.fl_str_mv Britto Junior, Alceu de Souza
dc.contributor.referee1ID.fl_str_mv 576.493.759-00
dc.contributor.referee1Lattes.fl_str_mv lattes.cnpq.br
dc.contributor.referee2.fl_str_mv Steffens, Maria Berenice Reynaud
dc.contributor.referee2ID.fl_str_mv 519.159.369-34
dc.contributor.authorID.fl_str_mv 08297252965
dc.contributor.authorLattes.fl_str_mv lattes.cnpq.br
dc.contributor.author.fl_str_mv Fedacz, Gabriel Lucas
contributor_str_mv Rocha, José Carlos Ferreira da
Britto Junior, Alceu de Souza
Steffens, Maria Berenice Reynaud
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Complexidade de dados
Espectrometria de Massa
Classificação de Bactérias
Desbalanceamento de dados
Data Complexity
Mass Spectrometry
Bacterial Classification
Imbalanced Datasets
dc.subject.por.fl_str_mv Complexidade de dados
Espectrometria de Massa
Classificação de Bactérias
Desbalanceamento de dados
Data Complexity
Mass Spectrometry
Bacterial Classification
Imbalanced Datasets
description No meio agrícola, algumas bactérias têm sido utilizadas na promoção do biocontrole e crescimento vegetal. Isto tem motivado o desenvolvimento de ferramentas de software para detectar automaticamente sua presença em amostras coletadas do solo. Uma maneira de proceder tal identificação é o desenvolvimento de classificadores que utilizam padrões de espectros de massa obtido por MALDI/TOF para verificar a frequência de determinados conjuntos de proteínas ribossomais na amostra. A seleção de uma função de classificação adequada para o problema alvo tem grande influência sobre o desempenho do classificador e isto tem incentivado o uso de escores, denominados medidas de complexidade de dados. Tais escores descrevem certas características da base dados e podem fornecer suporte à escolha da função de classificação. Durante o processo de geração dos dados a partir de espectros de massa, é comum a ocorrência do desbalanceamento de classes, o que afeta adversamente as medidas de complexidade de dados. Considerando o exposto, este trabalho aplica um protocolo experimental para verificar a influência do desbalanceamento dos dados sobre o desempenho dos classificadores e nas medidas de complexidade. Os modelos classificadores utilizados nos experimentos foram a regressão logística e o QDA, os quais foram treinados para a identificação de bactérias dos gêneros Bacillus e Rhizobium. O desempenho dos classificadores apresentou relação exponencial com o balanceamento dos dados. Foram propostos dois índices de complexidade de dados, L2B e N3B que foram submetidas aos testes junto aos índices encontrados na literatura. Os resultados mostram que as medidas F3, Density, N3B e L2B estão relacionados ao desempenho dos classificadores treinados com dados desbalanceados. Tais medidas foram avaliadas quanto a capacidade em predizer a acurácia balanceada dos modelos. Na identificação de bactérias do gênero Bacillus, a medida de melhor relação com o desempenho em ambos os modelos foi a medida N3B. No caso da identificação do gênero Rhizobium, a medida de melhor associação ao modelo logístico foi L2B e N3B no modelo quadrático.
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-11-25T18:52:21Z
dc.date.available.fl_str_mv 2020-11-25
2020-11-25T18:52:21Z
dc.date.issued.fl_str_mv 2020-07-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FEDACZ, Gabriel Lucas. Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores. 2020. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Ponta Grossa, Ponta Grossa, 2020.
dc.identifier.uri.fl_str_mv http://tede2.uepg.br/jspui/handle/prefix/3251
identifier_str_mv FEDACZ, Gabriel Lucas. Aprendizagem de Classificadores para Identificação de Bactérias: relação entre as medidas de complexidade de dados e o desempenho dos classificadores. 2020. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Ponta Grossa, Ponta Grossa, 2020.
url http://tede2.uepg.br/jspui/handle/prefix/3251
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Estadual de Ponta Grossa
dc.publisher.program.fl_str_mv Programa de Pós Graduação Computação Aplicada
dc.publisher.initials.fl_str_mv UEPG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento de Informática
publisher.none.fl_str_mv Universidade Estadual de Ponta Grossa
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UEPG
instname:Universidade Estadual de Ponta Grossa (UEPG)
instacron:UEPG
instname_str Universidade Estadual de Ponta Grossa (UEPG)
instacron_str UEPG
institution UEPG
reponame_str Biblioteca Digital de Teses e Dissertações da UEPG
collection Biblioteca Digital de Teses e Dissertações da UEPG
bitstream.url.fl_str_mv http://tede2.uepg.br/jspui/bitstream/prefix/3251/3/license.txt
http://tede2.uepg.br/jspui/bitstream/prefix/3251/2/license_rdf
http://tede2.uepg.br/jspui/bitstream/prefix/3251/1/Gabriel%20Lucas%20Fedacz.pdf
bitstream.checksum.fl_str_mv 43cd690d6a359e86c1fe3d5b7cba0c9b
e39d27027a6cc9cb039ad269a5db8e34
b92286c02641bcf0bfe08ea59c9a6393
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UEPG - Universidade Estadual de Ponta Grossa (UEPG)
repository.mail.fl_str_mv bicen@uepg.br||mv_fidelis@yahoo.com.br
_version_ 1809460470300540928