Novas estratégias para seleção de variáveis por intervalos em problemas de classificação

Detalhes bibliográficos
Autor(a) principal: Fernandes, David Douglas de Sousa
Data de Publicação: 2016
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFPB
Texto Completo: https://repositorio.ufpb.br/jspui/handle/tede/9007
Resumo: In Analytical Chemistry it has been recurring in the literature the use of analytical signals recorded on multiple sensors combined with subsequent chemometric modeling for developing new analytical methodologies. For this purpose, it uses generally multivariate instrumental techniques as spectrometry ultraviolet-visible or near infrared, voltammetry, etc. In this scenario, the analyst is faced with the option of selecting individual variables or variable intervals so to avoid or reduce multicollinearity problems. A well-known strategy for selection of variable intervals is to divide the set of instrumental responses into equal width intervals and select the best interval based on the performance of the prediction of a unique range in the regression by Partial Least Squares (iPLS). On the other hand, the use of interval selection for classification purposes has received relatively little attention. A common practice is to use the iPLS regression method with the coded class indices as response variables to be predicted; that is the basic idea behind the release of the Discriminant Analysis by Partial Least Squares (PLS-DA) for classification. In other words, interval selection for classification purposes has no development of native functions (algorithms). Thus, in this work it is proposed two new strategies in classification problems using interval selection by the Successive Projections Algorithm. The first strategy is named Successive Projections Algorithm for selecting intervals in Discriminant Analysis Partial Least Squares (iSPA-PLS-DA), while the second strategy is called Successive Projections Algorithm for selecting intervals in Soft and Independent Modeling by Class Analogy (iSPA-SIMCA). The performance of the proposed algorithms was evaluated in three case studies: classification of vegetable oils according to the type of raw material and the expiration date using data obtained by square wave voltammetry; classification of unadulterated biodiesel/diesel blends (B5) and adulterated with soybean oil (OB5) using spectral data obtained in the ultraviolet-visible region; and classification of vegetable oils with respect to the expiration date using spectral data obtained in the near infrared region. The proposed iSPA-PLS-DA and iSPA-SIMCA algorithms provided good results in the three case studies, with correct classification rates always greater than or equal to those obtained by PLS-DA and SIMCA models using all variables, iPLS-DA and iSIMCA with a single selected interval, as well as SPA-LDA and GA-LDA with selection of individual variables. Therefore, the proposed iSPA-PLS-DA and iSPA-SIMCA algorithms can be considered as promising approaches for use in classification problems employing interval selection. In a more general point of view, the possibility of using interval selection without loss of the classification accuracy can be considered a very useful tool for the construction of dedicated instruments (e.g. LED-based photometers) for use in routine and in situ analysis.
id UFPB_e1e401d0df379fc6247876e4dfbef0f9
oai_identifier_str oai:repositorio.ufpb.br:tede/9007
network_acronym_str UFPB
network_name_str Biblioteca Digital de Teses e Dissertações da UFPB
repository_id_str
spelling Novas estratégias para seleção de variáveis por intervalos em problemas de classificaçãoSeleção de intervalosAlgoritmo das projeções sucessivasAnálise discriminantes por mínimos quadrados parciaisModelagem independente e flexível por analogia de classeClassificaçãoInterval selectionSuccessive projections algorithmDiscriminant analysis partial least squaresSoft independent modeling by class analogyClassificationCIENCIAS EXATAS E DA TERRA::QUIMICAIn Analytical Chemistry it has been recurring in the literature the use of analytical signals recorded on multiple sensors combined with subsequent chemometric modeling for developing new analytical methodologies. For this purpose, it uses generally multivariate instrumental techniques as spectrometry ultraviolet-visible or near infrared, voltammetry, etc. In this scenario, the analyst is faced with the option of selecting individual variables or variable intervals so to avoid or reduce multicollinearity problems. A well-known strategy for selection of variable intervals is to divide the set of instrumental responses into equal width intervals and select the best interval based on the performance of the prediction of a unique range in the regression by Partial Least Squares (iPLS). On the other hand, the use of interval selection for classification purposes has received relatively little attention. A common practice is to use the iPLS regression method with the coded class indices as response variables to be predicted; that is the basic idea behind the release of the Discriminant Analysis by Partial Least Squares (PLS-DA) for classification. In other words, interval selection for classification purposes has no development of native functions (algorithms). Thus, in this work it is proposed two new strategies in classification problems using interval selection by the Successive Projections Algorithm. The first strategy is named Successive Projections Algorithm for selecting intervals in Discriminant Analysis Partial Least Squares (iSPA-PLS-DA), while the second strategy is called Successive Projections Algorithm for selecting intervals in Soft and Independent Modeling by Class Analogy (iSPA-SIMCA). The performance of the proposed algorithms was evaluated in three case studies: classification of vegetable oils according to the type of raw material and the expiration date using data obtained by square wave voltammetry; classification of unadulterated biodiesel/diesel blends (B5) and adulterated with soybean oil (OB5) using spectral data obtained in the ultraviolet-visible region; and classification of vegetable oils with respect to the expiration date using spectral data obtained in the near infrared region. The proposed iSPA-PLS-DA and iSPA-SIMCA algorithms provided good results in the three case studies, with correct classification rates always greater than or equal to those obtained by PLS-DA and SIMCA models using all variables, iPLS-DA and iSIMCA with a single selected interval, as well as SPA-LDA and GA-LDA with selection of individual variables. Therefore, the proposed iSPA-PLS-DA and iSPA-SIMCA algorithms can be considered as promising approaches for use in classification problems employing interval selection. In a more general point of view, the possibility of using interval selection without loss of the classification accuracy can be considered a very useful tool for the construction of dedicated instruments (e.g. LED-based photometers) for use in routine and in situ analysis.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESEm Química Analítica tem sido recorrente na literatura o uso de sinais analíticos registrados em múltiplos sensores combinados com posterior modelagem quimiométrica para desenvolvimento de novas metodologias analíticas. Para esta finalidade, geralmente se faz uso de técnicas instrumentais multivariadas como a espectrometrias no ultravioleta-visível ou no infravermelho próximo, voltametria, etc. Neste cenário, o analista se depara com a opção de selecionar variáveis individuais ou intervalos de variáveis de modo de evitar ou diminuir problemas de multicolinearidade. Uma estratégia bem conhecida para seleção de intervalos de variáveis consiste em dividir o conjunto de respostas instrumentais em intervalos de igual largura e selecionar o melhor intervalo com base no critério de desempenho de predição de um único intervalo em regressão por Mínimos Quadrados Parciais (iPLS). Por outro lado, o uso da seleção de intervalo para fins de classificação tem recebido relativamente pouca atenção. Uma prática comum consiste em utilizar o método de regressão iPLS com os índices de classe codificados como variáveis de resposta a serem preditos, que é a idéia básica por trás da versão da Análise Discriminante por Mínimos Quadrados Parciais (PLS-DA) para a classificação. Em outras palavras, a seleção de intervalos para fins de classificação não possui o desenvolvimento de funções nativas (algoritmos). Assim, neste trabalho são propostas duas novas estratégias em problemas de classificação que usam seleção de intervalos de variáveis empregando o Algoritmo das Projeções Sucessivas. A primeira estratégia é denominada de Algoritmo das Projeções Sucessivas para seleção intervalos em Análise Discriminante por Mínimos Quadrados Parciais (iSPA-PLS-DA), enquanto a segunda estratégia é denominada de Algoritmo das Projeções Sucessivas para a seleção de intervalos em Modelagem Independente e Flexível por Analogia de Classe (iSPA-SIMCA). O desempenho dos algoritmos propostos foi avaliado em três estudos de casos: classificação de óleos vegetais com relação ao tipo de matéria-prima e ao prazo de validade utilizando dados obtidos por voltametria de onda quadrada; classificação de misturas biodiesel/diesel não adulteradas (B5) e adulteradas com óleo de soja (OB5) empregando dados espectrais obtidos na região do ultravioleta-visível; e classificação de óleos vegetais com relação ao prazo de validade usando dados espectrais obtidos na região do infravermelho próximo. Os algoritmos iSPA-PLS-DA e iSPA-SIMCA propostos forneceram bons resultados nos três estudos de caso, com taxas de classificação corretas sempre iguais ou superiores àquelas obtidas pelos modelos PLS-DA e SIMCA utilizando todas as variáveis, iPLS-DA e iSIMCA com um único intervalo selecionado, bem como SPA-LDA e GA-LDA com seleção de variáveis individuais. Portanto, os algoritmos iSPA-PLS-DA e iSPA-SIMCA propostos podem ser consideradas abordagens promissoras para uso em problemas de classificação empregando seleção de intervalos de variáveis. Num contexto mais geral, a possibilidade de utilização de seleção de intervalos de variáveis sem perda da precisão da classificação pode ser considerada uma ferramenta bastante útil para a construção de instrumentos dedicados (por exemplo, fotômetros a base de LED) para uso em análise de rotina e de campo.Universidade Federal da ParaíbaBrasilQuímicaPrograma de Pós-Graduação em QuímicaUFPBAraújo, Mario César Ugulinohttp://lattes.cnpq.br/7281739070942782Fernandes, David Douglas de Sousa2017-06-20T13:50:43Z2018-07-21T00:30:05Z2018-07-21T00:30:05Z2016-08-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfFERNANDES, David Douglas de Sousa. Novas estratégias para seleção de variáveis por intervalos em problemas de classificação. 2016. 138 f. Tese (Doutorado em Química) - Universidade Federal da Paraíba, João Pessoa, 2016.https://repositorio.ufpb.br/jspui/handle/tede/9007porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2018-09-06T02:09:58Zoai:repositorio.ufpb.br:tede/9007Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| diretoria@ufpb.bropendoar:2018-09-06T02:09:58Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false
dc.title.none.fl_str_mv Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
title Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
spellingShingle Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
Fernandes, David Douglas de Sousa
Seleção de intervalos
Algoritmo das projeções sucessivas
Análise discriminantes por mínimos quadrados parciais
Modelagem independente e flexível por analogia de classe
Classificação
Interval selection
Successive projections algorithm
Discriminant analysis partial least squares
Soft independent modeling by class analogy
Classification
CIENCIAS EXATAS E DA TERRA::QUIMICA
title_short Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
title_full Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
title_fullStr Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
title_full_unstemmed Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
title_sort Novas estratégias para seleção de variáveis por intervalos em problemas de classificação
author Fernandes, David Douglas de Sousa
author_facet Fernandes, David Douglas de Sousa
author_role author
dc.contributor.none.fl_str_mv Araújo, Mario César Ugulino
http://lattes.cnpq.br/7281739070942782
dc.contributor.author.fl_str_mv Fernandes, David Douglas de Sousa
dc.subject.por.fl_str_mv Seleção de intervalos
Algoritmo das projeções sucessivas
Análise discriminantes por mínimos quadrados parciais
Modelagem independente e flexível por analogia de classe
Classificação
Interval selection
Successive projections algorithm
Discriminant analysis partial least squares
Soft independent modeling by class analogy
Classification
CIENCIAS EXATAS E DA TERRA::QUIMICA
topic Seleção de intervalos
Algoritmo das projeções sucessivas
Análise discriminantes por mínimos quadrados parciais
Modelagem independente e flexível por analogia de classe
Classificação
Interval selection
Successive projections algorithm
Discriminant analysis partial least squares
Soft independent modeling by class analogy
Classification
CIENCIAS EXATAS E DA TERRA::QUIMICA
description In Analytical Chemistry it has been recurring in the literature the use of analytical signals recorded on multiple sensors combined with subsequent chemometric modeling for developing new analytical methodologies. For this purpose, it uses generally multivariate instrumental techniques as spectrometry ultraviolet-visible or near infrared, voltammetry, etc. In this scenario, the analyst is faced with the option of selecting individual variables or variable intervals so to avoid or reduce multicollinearity problems. A well-known strategy for selection of variable intervals is to divide the set of instrumental responses into equal width intervals and select the best interval based on the performance of the prediction of a unique range in the regression by Partial Least Squares (iPLS). On the other hand, the use of interval selection for classification purposes has received relatively little attention. A common practice is to use the iPLS regression method with the coded class indices as response variables to be predicted; that is the basic idea behind the release of the Discriminant Analysis by Partial Least Squares (PLS-DA) for classification. In other words, interval selection for classification purposes has no development of native functions (algorithms). Thus, in this work it is proposed two new strategies in classification problems using interval selection by the Successive Projections Algorithm. The first strategy is named Successive Projections Algorithm for selecting intervals in Discriminant Analysis Partial Least Squares (iSPA-PLS-DA), while the second strategy is called Successive Projections Algorithm for selecting intervals in Soft and Independent Modeling by Class Analogy (iSPA-SIMCA). The performance of the proposed algorithms was evaluated in three case studies: classification of vegetable oils according to the type of raw material and the expiration date using data obtained by square wave voltammetry; classification of unadulterated biodiesel/diesel blends (B5) and adulterated with soybean oil (OB5) using spectral data obtained in the ultraviolet-visible region; and classification of vegetable oils with respect to the expiration date using spectral data obtained in the near infrared region. The proposed iSPA-PLS-DA and iSPA-SIMCA algorithms provided good results in the three case studies, with correct classification rates always greater than or equal to those obtained by PLS-DA and SIMCA models using all variables, iPLS-DA and iSIMCA with a single selected interval, as well as SPA-LDA and GA-LDA with selection of individual variables. Therefore, the proposed iSPA-PLS-DA and iSPA-SIMCA algorithms can be considered as promising approaches for use in classification problems employing interval selection. In a more general point of view, the possibility of using interval selection without loss of the classification accuracy can be considered a very useful tool for the construction of dedicated instruments (e.g. LED-based photometers) for use in routine and in situ analysis.
publishDate 2016
dc.date.none.fl_str_mv 2016-08-26
2017-06-20T13:50:43Z
2018-07-21T00:30:05Z
2018-07-21T00:30:05Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv FERNANDES, David Douglas de Sousa. Novas estratégias para seleção de variáveis por intervalos em problemas de classificação. 2016. 138 f. Tese (Doutorado em Química) - Universidade Federal da Paraíba, João Pessoa, 2016.
https://repositorio.ufpb.br/jspui/handle/tede/9007
identifier_str_mv FERNANDES, David Douglas de Sousa. Novas estratégias para seleção de variáveis por intervalos em problemas de classificação. 2016. 138 f. Tese (Doutorado em Química) - Universidade Federal da Paraíba, João Pessoa, 2016.
url https://repositorio.ufpb.br/jspui/handle/tede/9007
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Química
Programa de Pós-Graduação em Química
UFPB
publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Química
Programa de Pós-Graduação em Química
UFPB
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFPB
instname:Universidade Federal da Paraíba (UFPB)
instacron:UFPB
instname_str Universidade Federal da Paraíba (UFPB)
instacron_str UFPB
institution UFPB
reponame_str Biblioteca Digital de Teses e Dissertações da UFPB
collection Biblioteca Digital de Teses e Dissertações da UFPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)
repository.mail.fl_str_mv diretoria@ufpb.br|| diretoria@ufpb.br
_version_ 1801842920900263936