Redução de dimensionalidade para dados espectrais colineares

Detalhes bibliográficos
Autor(a) principal: Soares, Felipe
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/248647
Resumo: Na análise de dados, a identificação das variáveis relevantes para uma determinada tarefa de aprendizagem da máquina pode ajudar a construir modelos mais precisos, robustos e explicáveis. Embora avanços recentes em redes neurais, como autoencoders e redes neurais profundas, tenham proporcionado abordagens que implicitamente realizam a redução de dimensionalidade, tais modelos usualmente requerem grandes tamanhos de amostra e podem não ser explicáveis, podendo ter aplicabilidade restrita em diversos tipos de bancos de dados, como os de espectroscopia. Bancos de dados espectroscópicos têm como característica um elevado número de variáveis que tendem a ser colineares e geralmente se apoiam em menor número de amostras do que variáveis, o que pode deteriorar o desempenho de diversas técnicas multivariadas aplicadas a tais dados. Desta forma, esta tese propõe métodos de seleção de variáveis aplicados a dados espectroscópicos com o objetivo de realizar agrupamento, classificação e regressão em conjuntos de dados abrangendo diferentes áreas. Esta tese é composta de quatro artigos, três de pesquisa aplicada, e uma comunicação. No primeiro artigo, um índice de importância de variáveis (IIV) é proposto para selecionar os comprimentos de onda mais relevantes para o agrupamento de amostras de acordo com suas similaridades. O IIV proposto é baseado na combinação do escalonamento multidimensional (para redução de dimensionalidade) e análise de Procrustes para derivar uma matriz de projeção. No segundo artigo, com o objetivo de selecionar variáveis para um problema de regressão, outro VII é derivado com base nos pesos da matriz de projeção obtida a partir de uma redução de dimensão através da regressão inversa por fatias localizadas (LSIR). No terceiro artigo, uma comunicação relacionada a um artigo publicado recentemente, foram apontadas falhas de projeto em um experimento com o objetivo de classificar espectros Raman de plasma sanguíneo de pacientes positivos para COVID e controles. Esta comunicação também estabeleceu baselines não enviesados para o quarto artigo, no qual o algoritmo de Máxima Relevância Mínima Redundância (mRMR) para seleção de variáveis é melhorado a fim de levar em conta as dependências lineares no conjunto de variáveis selecionadas. O aprimoramento proposto, denominado PCA-mRMR, é aplicado ao mesmo conjunto de dados do terceiro artigo com propósito de classificação. Em todos os três artigos de pesquisa, os métodos propostos foram comparados com abordagens de seleção de variáveis já existentes e seu desempenho foi avaliado.
id URGS_b46f3f201b0ac8e109a6682726405b7d
oai_identifier_str oai:www.lume.ufrgs.br:10183/248647
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Soares, FelipeAnzanello, Michel José2022-09-10T05:15:21Z2022http://hdl.handle.net/10183/248647001144771Na análise de dados, a identificação das variáveis relevantes para uma determinada tarefa de aprendizagem da máquina pode ajudar a construir modelos mais precisos, robustos e explicáveis. Embora avanços recentes em redes neurais, como autoencoders e redes neurais profundas, tenham proporcionado abordagens que implicitamente realizam a redução de dimensionalidade, tais modelos usualmente requerem grandes tamanhos de amostra e podem não ser explicáveis, podendo ter aplicabilidade restrita em diversos tipos de bancos de dados, como os de espectroscopia. Bancos de dados espectroscópicos têm como característica um elevado número de variáveis que tendem a ser colineares e geralmente se apoiam em menor número de amostras do que variáveis, o que pode deteriorar o desempenho de diversas técnicas multivariadas aplicadas a tais dados. Desta forma, esta tese propõe métodos de seleção de variáveis aplicados a dados espectroscópicos com o objetivo de realizar agrupamento, classificação e regressão em conjuntos de dados abrangendo diferentes áreas. Esta tese é composta de quatro artigos, três de pesquisa aplicada, e uma comunicação. No primeiro artigo, um índice de importância de variáveis (IIV) é proposto para selecionar os comprimentos de onda mais relevantes para o agrupamento de amostras de acordo com suas similaridades. O IIV proposto é baseado na combinação do escalonamento multidimensional (para redução de dimensionalidade) e análise de Procrustes para derivar uma matriz de projeção. No segundo artigo, com o objetivo de selecionar variáveis para um problema de regressão, outro VII é derivado com base nos pesos da matriz de projeção obtida a partir de uma redução de dimensão através da regressão inversa por fatias localizadas (LSIR). No terceiro artigo, uma comunicação relacionada a um artigo publicado recentemente, foram apontadas falhas de projeto em um experimento com o objetivo de classificar espectros Raman de plasma sanguíneo de pacientes positivos para COVID e controles. Esta comunicação também estabeleceu baselines não enviesados para o quarto artigo, no qual o algoritmo de Máxima Relevância Mínima Redundância (mRMR) para seleção de variáveis é melhorado a fim de levar em conta as dependências lineares no conjunto de variáveis selecionadas. O aprimoramento proposto, denominado PCA-mRMR, é aplicado ao mesmo conjunto de dados do terceiro artigo com propósito de classificação. Em todos os três artigos de pesquisa, os métodos propostos foram comparados com abordagens de seleção de variáveis já existentes e seu desempenho foi avaliado.In data analysis, identifying the most relevant features for a given machine learning task can help build more accurate, robust, and explainable models. Although recent advances in neural networks, such as autoencoders and deep neural nets, have provided approaches that implicitly perform dimension reduction, they usually require large sample sizes and may not be explainable. One of such cases is the analysis of spectroscopic data, which is characterised by colinear features (variables or wavelengths) and usually have less samples than features, thus suffering for the curse of dimensionality. Considering this setting, this thesis presents propositions for features election methods applied to spectroscopic data with the goal to perform clustering, classification, and regression in datasets spanning different areas. This thesis is comprised of four articles, three applied research ones, and one communication. In the first article, a feature importance index (FII) is proposed to select the most relevant wavelengths for clustering. This FII is based on the combination of multidimensional scaling (for dimension reduction) and Procrustes analysis to derive a projection matrix. In the second article, with the goal of selecting features for a regression problem, another FII is derived based on the weights of the projection matrix from a Localized Sliced Inverse Regression dimension reduction. In the third article, a communication related to a recent published article, design flaws were pointed out in an experiment aiming to classify Raman spectra of blood plasma of COVID positive patients and controls. This article also established unbiased baselines for the fourth article. In the fourth article, the Maximum Relevancy Minimum Redundancy (mRMR) algorithm for feature selection is improved in order to account for linear dependencies in the selected features. The proposed improved, named PCA-mRMR, is applied to the same dataset of article three, being a classification task. In all three research articles, the proposed methods were compared against existing baseline approaches and their performance were assessed.application/pdfporSeleção de variáveisEspectroscopiaAprendizado de máquinaFeature selectionClassificationClusteringRegressionLSITRPCAMDSSpectroscopyRedução de dimensionalidade para dados espectrais colinearesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de Produção e TransportesPorto Alegre, BR-RS2022doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001144771.pdf.txt001144771.pdf.txtExtracted Texttext/plain98314http://www.lume.ufrgs.br/bitstream/10183/248647/2/001144771.pdf.txtf9d6d29b774592fb84ee9728c45d2bdcMD52ORIGINAL001144771.pdfTexto parcialapplication/pdf1963288http://www.lume.ufrgs.br/bitstream/10183/248647/1/001144771.pdfac80b5f453c5069addf1e04ed1529a07MD5110183/2486472022-09-11 05:09:53.57767oai:www.lume.ufrgs.br:10183/248647Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-09-11T08:09:53Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Redução de dimensionalidade para dados espectrais colineares
title Redução de dimensionalidade para dados espectrais colineares
spellingShingle Redução de dimensionalidade para dados espectrais colineares
Soares, Felipe
Seleção de variáveis
Espectroscopia
Aprendizado de máquina
Feature selection
Classification
Clustering
Regression
LSITR
PCA
MDS
Spectroscopy
title_short Redução de dimensionalidade para dados espectrais colineares
title_full Redução de dimensionalidade para dados espectrais colineares
title_fullStr Redução de dimensionalidade para dados espectrais colineares
title_full_unstemmed Redução de dimensionalidade para dados espectrais colineares
title_sort Redução de dimensionalidade para dados espectrais colineares
author Soares, Felipe
author_facet Soares, Felipe
author_role author
dc.contributor.author.fl_str_mv Soares, Felipe
dc.contributor.advisor1.fl_str_mv Anzanello, Michel José
contributor_str_mv Anzanello, Michel José
dc.subject.por.fl_str_mv Seleção de variáveis
Espectroscopia
Aprendizado de máquina
topic Seleção de variáveis
Espectroscopia
Aprendizado de máquina
Feature selection
Classification
Clustering
Regression
LSITR
PCA
MDS
Spectroscopy
dc.subject.eng.fl_str_mv Feature selection
Classification
Clustering
Regression
LSITR
PCA
MDS
Spectroscopy
description Na análise de dados, a identificação das variáveis relevantes para uma determinada tarefa de aprendizagem da máquina pode ajudar a construir modelos mais precisos, robustos e explicáveis. Embora avanços recentes em redes neurais, como autoencoders e redes neurais profundas, tenham proporcionado abordagens que implicitamente realizam a redução de dimensionalidade, tais modelos usualmente requerem grandes tamanhos de amostra e podem não ser explicáveis, podendo ter aplicabilidade restrita em diversos tipos de bancos de dados, como os de espectroscopia. Bancos de dados espectroscópicos têm como característica um elevado número de variáveis que tendem a ser colineares e geralmente se apoiam em menor número de amostras do que variáveis, o que pode deteriorar o desempenho de diversas técnicas multivariadas aplicadas a tais dados. Desta forma, esta tese propõe métodos de seleção de variáveis aplicados a dados espectroscópicos com o objetivo de realizar agrupamento, classificação e regressão em conjuntos de dados abrangendo diferentes áreas. Esta tese é composta de quatro artigos, três de pesquisa aplicada, e uma comunicação. No primeiro artigo, um índice de importância de variáveis (IIV) é proposto para selecionar os comprimentos de onda mais relevantes para o agrupamento de amostras de acordo com suas similaridades. O IIV proposto é baseado na combinação do escalonamento multidimensional (para redução de dimensionalidade) e análise de Procrustes para derivar uma matriz de projeção. No segundo artigo, com o objetivo de selecionar variáveis para um problema de regressão, outro VII é derivado com base nos pesos da matriz de projeção obtida a partir de uma redução de dimensão através da regressão inversa por fatias localizadas (LSIR). No terceiro artigo, uma comunicação relacionada a um artigo publicado recentemente, foram apontadas falhas de projeto em um experimento com o objetivo de classificar espectros Raman de plasma sanguíneo de pacientes positivos para COVID e controles. Esta comunicação também estabeleceu baselines não enviesados para o quarto artigo, no qual o algoritmo de Máxima Relevância Mínima Redundância (mRMR) para seleção de variáveis é melhorado a fim de levar em conta as dependências lineares no conjunto de variáveis selecionadas. O aprimoramento proposto, denominado PCA-mRMR, é aplicado ao mesmo conjunto de dados do terceiro artigo com propósito de classificação. Em todos os três artigos de pesquisa, os métodos propostos foram comparados com abordagens de seleção de variáveis já existentes e seu desempenho foi avaliado.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-09-10T05:15:21Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/248647
dc.identifier.nrb.pt_BR.fl_str_mv 001144771
url http://hdl.handle.net/10183/248647
identifier_str_mv 001144771
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/248647/2/001144771.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/248647/1/001144771.pdf
bitstream.checksum.fl_str_mv f9d6d29b774592fb84ee9728c45d2bdc
ac80b5f453c5069addf1e04ed1529a07
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085595285815296