Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação

Detalhes bibliográficos
Autor(a) principal: Oliveira, Giovanna de Fátima Abrantes
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UEPB
Texto Completo: http://tede.bc.uepb.edu.br/jspui/handle/tede/4730
Resumo: A seleção de variáveis consiste em uma ferramenta potencial que busca filtrar informações relevantes para resolução de problemas envolvendo matrizes complexas. Buscando melhorar a precisão dos modelos quimiométricos e a robustez atendendo ao princípio da parcimônia diferentes algoritmos têm sido desenvolvidos utilizando a seleção de variáveis. Com os avanços da inteligência artificial o uso de algoritmos bioinspirados para a otimização e resolução de problemas complexos tornou-se uma ferramenta interessante para diversas aplicações em classificação multivariada. Nesse contexto, o presente estudo propõe um novo algoritmo bionspirado no comportamento dos vagalumes denominado FA-PLS-DA para seleção de variáveis empregando a Análise Discriminante Linear buscando superar problemas que envolvem elevada multicolinearidade entre as variáveis. Para avaliar o desempenho do algoritmo proposto, foram utilizados três bancos de dados espectrométricos na região NIR de domínio público e dados com informação simulada, sendo os dados brutos e pré-processados. O primeiro banco de dados composto de espectros ATR-FTIR na faixa de 4000 a 650 cm-1 de 104 amostras de saliva para avaliar a presença ou ausência de SARS-CoV-2. O segundo banco de dados utilizados consiste também em espectros NIR de 192 amostras de leite de cabra para avaliar a adulteração pela adição de leite de vaca. O terceiro banco de dados é também composto por espectros NIR de 120 amostras de azeite de oliva extra-virgem provenientes de quatro países diferentes. Para estudo com informação simulada o banco de dados compreendeu as 90 observações com 600 variáveis usando quatro fatores para gerar três classes distintas, as amostras foram divididas em conjuntos de treinamento e teste usando o algoritmo Kennard-Stone. O desempenho do FA-PLS-DA foi comparado com os resultados da Análise Discriminante Linear por Mínimos Quadrados Parciais (PLS-DA) aplicando diferentes pré-processamentos aos dados. O tratamento dos dados foi realizado em ambiente Matlab. Foram selecionados os modelos com os dados pré-processados que apresentaram maior Taxa Correta de Classificação (TCC), o algoritmo FA-PLS-DA selecionou uma quantidade menor variáveis latentes (LVs) para todos os bancos de dados. Ademais, o algoritmo proposto apresentou TCC de 100% para o conjunto de treinamento do banco de dados de COVID, enquanto o PLS-DA apresentou TCC de 98,72% empregando um número maior de variábeis latentes. Para o banco de dados de leite de cabra o algoritmo proposto apresentou TCC de 95,92%, já o PLS-DA mostrou 100% de TCC, apesar de superar o algoritmo proposto em termos de TCC, o PLS-DA empregou um número elevado de LVs para construção dos modelos. O algoritmo proposto superou o PLS-DA na construção dos modelos do banco de dados de azeite de oliva, em que obteve 100% de TCC para os conjuntos de treinamento e teste empregando o menor número de LVs. Para os dados com informação simulada o FA-PLS-DA apresentou 82,22% de TCC para o conjunto de teste, enquanto a TCC do PLS-DA foi de 77,78%. Em todos os bancos de dados o algoritmo FA-PLS-DA mostrou ser mais parcimonioso que o PLS-DA tendo sua performance comparada ao desempenho do PLS-DA, sendo robusto e capaz de classificar as amostras adequadamente a partir das variáveis selecionadas corroborando com sua viabilidade.
id UEPB_c374415f107b305e4dcf17556aa122fb
oai_identifier_str oai:tede.bc.uepb.edu.br:tede/4730
network_acronym_str UEPB
network_name_str Biblioteca Digital de Teses e Dissertações da UEPB
repository_id_str
spelling Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificaçãoSeleção de variáveisInteligência artificialAlgoritmos bioinspiradosQUIMICA::QUIMICA ANALITICAA seleção de variáveis consiste em uma ferramenta potencial que busca filtrar informações relevantes para resolução de problemas envolvendo matrizes complexas. Buscando melhorar a precisão dos modelos quimiométricos e a robustez atendendo ao princípio da parcimônia diferentes algoritmos têm sido desenvolvidos utilizando a seleção de variáveis. Com os avanços da inteligência artificial o uso de algoritmos bioinspirados para a otimização e resolução de problemas complexos tornou-se uma ferramenta interessante para diversas aplicações em classificação multivariada. Nesse contexto, o presente estudo propõe um novo algoritmo bionspirado no comportamento dos vagalumes denominado FA-PLS-DA para seleção de variáveis empregando a Análise Discriminante Linear buscando superar problemas que envolvem elevada multicolinearidade entre as variáveis. Para avaliar o desempenho do algoritmo proposto, foram utilizados três bancos de dados espectrométricos na região NIR de domínio público e dados com informação simulada, sendo os dados brutos e pré-processados. O primeiro banco de dados composto de espectros ATR-FTIR na faixa de 4000 a 650 cm-1 de 104 amostras de saliva para avaliar a presença ou ausência de SARS-CoV-2. O segundo banco de dados utilizados consiste também em espectros NIR de 192 amostras de leite de cabra para avaliar a adulteração pela adição de leite de vaca. O terceiro banco de dados é também composto por espectros NIR de 120 amostras de azeite de oliva extra-virgem provenientes de quatro países diferentes. Para estudo com informação simulada o banco de dados compreendeu as 90 observações com 600 variáveis usando quatro fatores para gerar três classes distintas, as amostras foram divididas em conjuntos de treinamento e teste usando o algoritmo Kennard-Stone. O desempenho do FA-PLS-DA foi comparado com os resultados da Análise Discriminante Linear por Mínimos Quadrados Parciais (PLS-DA) aplicando diferentes pré-processamentos aos dados. O tratamento dos dados foi realizado em ambiente Matlab. Foram selecionados os modelos com os dados pré-processados que apresentaram maior Taxa Correta de Classificação (TCC), o algoritmo FA-PLS-DA selecionou uma quantidade menor variáveis latentes (LVs) para todos os bancos de dados. Ademais, o algoritmo proposto apresentou TCC de 100% para o conjunto de treinamento do banco de dados de COVID, enquanto o PLS-DA apresentou TCC de 98,72% empregando um número maior de variábeis latentes. Para o banco de dados de leite de cabra o algoritmo proposto apresentou TCC de 95,92%, já o PLS-DA mostrou 100% de TCC, apesar de superar o algoritmo proposto em termos de TCC, o PLS-DA empregou um número elevado de LVs para construção dos modelos. O algoritmo proposto superou o PLS-DA na construção dos modelos do banco de dados de azeite de oliva, em que obteve 100% de TCC para os conjuntos de treinamento e teste empregando o menor número de LVs. Para os dados com informação simulada o FA-PLS-DA apresentou 82,22% de TCC para o conjunto de teste, enquanto a TCC do PLS-DA foi de 77,78%. Em todos os bancos de dados o algoritmo FA-PLS-DA mostrou ser mais parcimonioso que o PLS-DA tendo sua performance comparada ao desempenho do PLS-DA, sendo robusto e capaz de classificar as amostras adequadamente a partir das variáveis selecionadas corroborando com sua viabilidade.Variable selection is a potential tool that seeks to filter relevant information to solve problems involving complex matrices. Seeking to improve the accuracy of chemometric models and robustness to the principle of parsimony different algorithms have been developed using variable selection. With the advances in artificial intelligence the use of bio-inspired algorithms for the optimization and resolution of complex problems has become an interesting tool for several applications in the context of multivariate calibration and classification. In this context, the present study proposes a new bio-inspired algorithm in the behavior of fireflies called FA-PLS-DA for variable selection employing Linear Discriminant Analysis seeking to overcome problems involving high multicollinearity among variables. To evaluate the performance of the proposed algorithm, we stipulated population conditions of 50 fireflies in 50 life cycles and used three case studies involving public domain NIR spectrometric databases and a database with simulated information. The first database consists of ATR-FTIR spectra in the 4000 to 650 cm-1 range of 104 saliva samples to assess the presence or absence of SARS-CoV-2. The second database used also consists of NIR spectra of 192 goat milk samples to assess adulteration by the addition of cow's milk. The third database also consists of NIR spectra of 120 samples of extra virgin olive oil from four different countries. For study with simulated information the database comprised 90 observations with 600 variables using four factors to generate three distinct classes, the samples were divided into training and test sets using the Kennard-Stone algorithm. The performance of FA-PLS-DA was compared with the results of Partial Least Squares Linear Discriminant Analysis (PLS-DA) applying different preprocessing to the data, and the data was treated in programs developed in Matlab environment. The preprocessed models that presented the highest TCC were selected, the FA-PLS-DA algorithm selected 3, 7, 9 and 7 latent variables (LVs) for the COVID, goat milk, extra-virgin olive oil and simulated databases respectively, while the PLS-DA selected 4, 16, 16 and 4 LVs. Furthermore, the proposed algorithm showed a correct classification rate (CCR) of 100% for the COVID database training set, while PLS-DA showed a rate of 98.72% by employing a larger number of latent variables. For the goat milk database, the proposed algorithm showed a CCR of 95.92%, while PLS-DA showed 100% CCR. Despite outperforming the proposed algorithm in terms of CCR, PLS-DA employed a high number of LVs for model building. The proposed algorithm outperformed PLS-DA in building the models for the olive oil database, where it obtained 100% CCR for the training and test sets by employing the smallest number of LVs. For the data with simulated information FA-PLS-DA showed 82, 22% CCR for the test set, while PLS-DA showed 77.78%. For all the databases, the FA-PLS-DA algorithm proved to be more parsimonious than PLS-DA, and its performance compared to PLS-DA was robust and able to classify the samples properly from the selected variables, corroborating its viability.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Estadual da ParaíbaPró-Reitoria de Pós-Graduação e Pesquisa - PRPGPBrasilUEPBPrograma de Pós-Graduação em Química - PPGQVéras Neto, José Germanohttp://lattes.cnpq.br/2790322814354811Fernandes, David Douglas de Sousahttp://lattes.cnpq.br/3836928174191943Véras Neto, José Germanohttp://lattes.cnpq.br/2790322814354811Simões, Simone da Silvahttp://lattes.cnpq.br/8054994629202655Pistonesi, Marcelo Fabiánhttp://lattes.cnpq.br/9272086732365288Oliveira, Giovanna de Fátima Abrantes2023-08-22T15:47:49Z2999-12-312023-07-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfOLIVEIRA, Giovanna de Fátima Abrantes. Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação. 2023. 61 f. Dissertação (Programa de Pós-Graduação em Química - PPGQ) - Universidade Estadual da Paraíba, Campina Grande, 2023.http://tede.bc.uepb.edu.br/jspui/handle/tede/4730porinfo:eu-repo/semantics/embargoedAccessreponame:Biblioteca Digital de Teses e Dissertações da UEPBinstname:Universidade Estadual da Paraíba (UEPB)instacron:UEPB2023-08-22T15:48:18Zoai:tede.bc.uepb.edu.br:tede/4730Biblioteca Digital de Teses e Dissertaçõeshttp://tede.bc.uepb.edu.br/jspui/PUBhttp://tede.bc.uepb.edu.br/oai/requestbc@uepb.edu.br||opendoar:2023-08-22T15:48:18Biblioteca Digital de Teses e Dissertações da UEPB - Universidade Estadual da Paraíba (UEPB)false
dc.title.none.fl_str_mv Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
title Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
spellingShingle Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
Oliveira, Giovanna de Fátima Abrantes
Seleção de variáveis
Inteligência artificial
Algoritmos bioinspirados
QUIMICA::QUIMICA ANALITICA
title_short Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
title_full Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
title_fullStr Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
title_full_unstemmed Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
title_sort Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação
author Oliveira, Giovanna de Fátima Abrantes
author_facet Oliveira, Giovanna de Fátima Abrantes
author_role author
dc.contributor.none.fl_str_mv Véras Neto, José Germano
http://lattes.cnpq.br/2790322814354811
Fernandes, David Douglas de Sousa
http://lattes.cnpq.br/3836928174191943
Véras Neto, José Germano
http://lattes.cnpq.br/2790322814354811
Simões, Simone da Silva
http://lattes.cnpq.br/8054994629202655
Pistonesi, Marcelo Fabián
http://lattes.cnpq.br/9272086732365288
dc.contributor.author.fl_str_mv Oliveira, Giovanna de Fátima Abrantes
dc.subject.por.fl_str_mv Seleção de variáveis
Inteligência artificial
Algoritmos bioinspirados
QUIMICA::QUIMICA ANALITICA
topic Seleção de variáveis
Inteligência artificial
Algoritmos bioinspirados
QUIMICA::QUIMICA ANALITICA
description A seleção de variáveis consiste em uma ferramenta potencial que busca filtrar informações relevantes para resolução de problemas envolvendo matrizes complexas. Buscando melhorar a precisão dos modelos quimiométricos e a robustez atendendo ao princípio da parcimônia diferentes algoritmos têm sido desenvolvidos utilizando a seleção de variáveis. Com os avanços da inteligência artificial o uso de algoritmos bioinspirados para a otimização e resolução de problemas complexos tornou-se uma ferramenta interessante para diversas aplicações em classificação multivariada. Nesse contexto, o presente estudo propõe um novo algoritmo bionspirado no comportamento dos vagalumes denominado FA-PLS-DA para seleção de variáveis empregando a Análise Discriminante Linear buscando superar problemas que envolvem elevada multicolinearidade entre as variáveis. Para avaliar o desempenho do algoritmo proposto, foram utilizados três bancos de dados espectrométricos na região NIR de domínio público e dados com informação simulada, sendo os dados brutos e pré-processados. O primeiro banco de dados composto de espectros ATR-FTIR na faixa de 4000 a 650 cm-1 de 104 amostras de saliva para avaliar a presença ou ausência de SARS-CoV-2. O segundo banco de dados utilizados consiste também em espectros NIR de 192 amostras de leite de cabra para avaliar a adulteração pela adição de leite de vaca. O terceiro banco de dados é também composto por espectros NIR de 120 amostras de azeite de oliva extra-virgem provenientes de quatro países diferentes. Para estudo com informação simulada o banco de dados compreendeu as 90 observações com 600 variáveis usando quatro fatores para gerar três classes distintas, as amostras foram divididas em conjuntos de treinamento e teste usando o algoritmo Kennard-Stone. O desempenho do FA-PLS-DA foi comparado com os resultados da Análise Discriminante Linear por Mínimos Quadrados Parciais (PLS-DA) aplicando diferentes pré-processamentos aos dados. O tratamento dos dados foi realizado em ambiente Matlab. Foram selecionados os modelos com os dados pré-processados que apresentaram maior Taxa Correta de Classificação (TCC), o algoritmo FA-PLS-DA selecionou uma quantidade menor variáveis latentes (LVs) para todos os bancos de dados. Ademais, o algoritmo proposto apresentou TCC de 100% para o conjunto de treinamento do banco de dados de COVID, enquanto o PLS-DA apresentou TCC de 98,72% empregando um número maior de variábeis latentes. Para o banco de dados de leite de cabra o algoritmo proposto apresentou TCC de 95,92%, já o PLS-DA mostrou 100% de TCC, apesar de superar o algoritmo proposto em termos de TCC, o PLS-DA empregou um número elevado de LVs para construção dos modelos. O algoritmo proposto superou o PLS-DA na construção dos modelos do banco de dados de azeite de oliva, em que obteve 100% de TCC para os conjuntos de treinamento e teste empregando o menor número de LVs. Para os dados com informação simulada o FA-PLS-DA apresentou 82,22% de TCC para o conjunto de teste, enquanto a TCC do PLS-DA foi de 77,78%. Em todos os bancos de dados o algoritmo FA-PLS-DA mostrou ser mais parcimonioso que o PLS-DA tendo sua performance comparada ao desempenho do PLS-DA, sendo robusto e capaz de classificar as amostras adequadamente a partir das variáveis selecionadas corroborando com sua viabilidade.
publishDate 2023
dc.date.none.fl_str_mv 2023-08-22T15:47:49Z
2023-07-31
2999-12-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv OLIVEIRA, Giovanna de Fátima Abrantes. Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação. 2023. 61 f. Dissertação (Programa de Pós-Graduação em Química - PPGQ) - Universidade Estadual da Paraíba, Campina Grande, 2023.
http://tede.bc.uepb.edu.br/jspui/handle/tede/4730
identifier_str_mv OLIVEIRA, Giovanna de Fátima Abrantes. Seleção de variáveis baseada em algoritmo firefly e análise discriminante por mínimos quadrados parciais para problemas de classificação. 2023. 61 f. Dissertação (Programa de Pós-Graduação em Química - PPGQ) - Universidade Estadual da Paraíba, Campina Grande, 2023.
url http://tede.bc.uepb.edu.br/jspui/handle/tede/4730
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual da Paraíba
Pró-Reitoria de Pós-Graduação e Pesquisa - PRPGP
Brasil
UEPB
Programa de Pós-Graduação em Química - PPGQ
publisher.none.fl_str_mv Universidade Estadual da Paraíba
Pró-Reitoria de Pós-Graduação e Pesquisa - PRPGP
Brasil
UEPB
Programa de Pós-Graduação em Química - PPGQ
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UEPB
instname:Universidade Estadual da Paraíba (UEPB)
instacron:UEPB
instname_str Universidade Estadual da Paraíba (UEPB)
instacron_str UEPB
institution UEPB
reponame_str Biblioteca Digital de Teses e Dissertações da UEPB
collection Biblioteca Digital de Teses e Dissertações da UEPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UEPB - Universidade Estadual da Paraíba (UEPB)
repository.mail.fl_str_mv bc@uepb.edu.br||
_version_ 1811813192629747712