Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos

Detalhes bibliográficos
Autor(a) principal: Yamashita, Gabrielli Harumi
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/118834
Resumo: A averiguação da autenticidade de medicamentos tem se apoiado na análise de perfil por espectroscopia de infravermelho (ATR-FTIR). Contudo, tal análise tipicamente gera dados caracterizados por elevado número de variáveis (comprimentos de onda) ruidosas e correlacionadas, necessitando assim da aplicação de técnicas para seleção das variáveis mais relevantes e informativas, tornando os modelos preditivos e exploratórios mais robustos. Esta dissertação testa sistemáticas para a seleção de variáveis com vistas à clusterização e classificação de medicamentos. Para tanto, inicialmente faz-se uso dos parâmetros oriundos da Análise de Componentes Principais (ACP) para a geração de três índices de importância de variáveis; tais índices guiam um processo iterativo de eliminação de variáveis com vistas a uma clusterização mais consistente, medida através do Silhouette Index. Na sequência, utiliza-se o Algoritmo Genético (AG) combinado com a ferramenta de classificação k nearest neighbor (kNN) para selecionar o subconjunto de variáveis que resultem na maior acurácia média com propósito de classificação das amostras em dois grupos, originais ou falsificados. Por fim, aplica-se a divisão dos dados ATR-FTIR em intervalos para selecionar as regiões espectroscópicas mais relevantes para a classificação das amostras via kNN; na sequência, aplica-se o AG para refinar os intervalos retidos anteriormente. A aplicação dos métodos de seleção de variáveis propostos permitiu realizar clusterizações e classificações mais precisas com base em um subconjunto reduzido de variáveis.
id URGS_46272b35f0c6429537f2717481341c4c
oai_identifier_str oai:www.lume.ufrgs.br:10183/118834
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Yamashita, Gabrielli HarumiAnzanello, Michel José2015-07-09T02:00:59Z2015http://hdl.handle.net/10183/118834000969149A averiguação da autenticidade de medicamentos tem se apoiado na análise de perfil por espectroscopia de infravermelho (ATR-FTIR). Contudo, tal análise tipicamente gera dados caracterizados por elevado número de variáveis (comprimentos de onda) ruidosas e correlacionadas, necessitando assim da aplicação de técnicas para seleção das variáveis mais relevantes e informativas, tornando os modelos preditivos e exploratórios mais robustos. Esta dissertação testa sistemáticas para a seleção de variáveis com vistas à clusterização e classificação de medicamentos. Para tanto, inicialmente faz-se uso dos parâmetros oriundos da Análise de Componentes Principais (ACP) para a geração de três índices de importância de variáveis; tais índices guiam um processo iterativo de eliminação de variáveis com vistas a uma clusterização mais consistente, medida através do Silhouette Index. Na sequência, utiliza-se o Algoritmo Genético (AG) combinado com a ferramenta de classificação k nearest neighbor (kNN) para selecionar o subconjunto de variáveis que resultem na maior acurácia média com propósito de classificação das amostras em dois grupos, originais ou falsificados. Por fim, aplica-se a divisão dos dados ATR-FTIR em intervalos para selecionar as regiões espectroscópicas mais relevantes para a classificação das amostras via kNN; na sequência, aplica-se o AG para refinar os intervalos retidos anteriormente. A aplicação dos métodos de seleção de variáveis propostos permitiu realizar clusterizações e classificações mais precisas com base em um subconjunto reduzido de variáveis.The investigation of the authenticity of drugs has relied on the profile analysis by infrared spectroscopy (ATR-FTIR). However, such analysis typically yields a large number of correlated and noisy variables (wavelengths), which require the application of techniques for selecting the most informative and relevant variables to improve model ability. This thesis test an approach to variable selection aimed at clustering and classifying drug samples. For that matter, it derives three variable importance indices based on Principal Component Analysis (PCA) components that guide an iterative process of variable elimination; clustering performance based on the reduced sets is assessed via Silhouette Index. Next, we combine the Genetic Algorithm (GA) with the k nearest neighbor classification technique (kNN) to select the subset of variables yielding the highest average accuracy for classifying samples into authentic or counterfeit categories. Finally, we split the ATR-FTIR data into intervals to select the most relevant spectroscopic regions for sample classification via kNN; we then apply GA to refine the ranges previously retained. The implementation of the proposed variable selection methods led to more accurate clustering and classification procedures based on a small subset of variables.application/pdfporAlgoritmos genéticosAnálise multivariadaControle de qualidadeVariable selectionClusteringPrincipal component analysisGenetic algorithmClassificationInterval selectionAbordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentosMultivariate approaches to variable selection in order to characterize medicines info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia de ProduçãoPorto Alegre, BR-RS2015mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000969149.pdf000969149.pdfTexto completoapplication/pdf913743http://www.lume.ufrgs.br/bitstream/10183/118834/1/000969149.pdf63153b1b356d4a650a71c830773a1bc6MD51TEXT000969149.pdf.txt000969149.pdf.txtExtracted Texttext/plain155388http://www.lume.ufrgs.br/bitstream/10183/118834/2/000969149.pdf.txt2c44419560f436e2f360407be42ef806MD52THUMBNAIL000969149.pdf.jpg000969149.pdf.jpgGenerated Thumbnailimage/jpeg1166http://www.lume.ufrgs.br/bitstream/10183/118834/3/000969149.pdf.jpg1dfc42ca0ba6f0884cdaff7c39881155MD5310183/1188342022-02-22 05:05:40.781646oai:www.lume.ufrgs.br:10183/118834Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-02-22T08:05:40Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
dc.title.alternative.en.fl_str_mv Multivariate approaches to variable selection in order to characterize medicines
title Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
spellingShingle Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
Yamashita, Gabrielli Harumi
Algoritmos genéticos
Análise multivariada
Controle de qualidade
Variable selection
Clustering
Principal component analysis
Genetic algorithm
Classification
Interval selection
title_short Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
title_full Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
title_fullStr Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
title_full_unstemmed Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
title_sort Abordagens multivariadas para a seleção de variáveis com vistas à caracterização de medicamentos
author Yamashita, Gabrielli Harumi
author_facet Yamashita, Gabrielli Harumi
author_role author
dc.contributor.author.fl_str_mv Yamashita, Gabrielli Harumi
dc.contributor.advisor1.fl_str_mv Anzanello, Michel José
contributor_str_mv Anzanello, Michel José
dc.subject.por.fl_str_mv Algoritmos genéticos
Análise multivariada
Controle de qualidade
topic Algoritmos genéticos
Análise multivariada
Controle de qualidade
Variable selection
Clustering
Principal component analysis
Genetic algorithm
Classification
Interval selection
dc.subject.eng.fl_str_mv Variable selection
Clustering
Principal component analysis
Genetic algorithm
Classification
Interval selection
description A averiguação da autenticidade de medicamentos tem se apoiado na análise de perfil por espectroscopia de infravermelho (ATR-FTIR). Contudo, tal análise tipicamente gera dados caracterizados por elevado número de variáveis (comprimentos de onda) ruidosas e correlacionadas, necessitando assim da aplicação de técnicas para seleção das variáveis mais relevantes e informativas, tornando os modelos preditivos e exploratórios mais robustos. Esta dissertação testa sistemáticas para a seleção de variáveis com vistas à clusterização e classificação de medicamentos. Para tanto, inicialmente faz-se uso dos parâmetros oriundos da Análise de Componentes Principais (ACP) para a geração de três índices de importância de variáveis; tais índices guiam um processo iterativo de eliminação de variáveis com vistas a uma clusterização mais consistente, medida através do Silhouette Index. Na sequência, utiliza-se o Algoritmo Genético (AG) combinado com a ferramenta de classificação k nearest neighbor (kNN) para selecionar o subconjunto de variáveis que resultem na maior acurácia média com propósito de classificação das amostras em dois grupos, originais ou falsificados. Por fim, aplica-se a divisão dos dados ATR-FTIR em intervalos para selecionar as regiões espectroscópicas mais relevantes para a classificação das amostras via kNN; na sequência, aplica-se o AG para refinar os intervalos retidos anteriormente. A aplicação dos métodos de seleção de variáveis propostos permitiu realizar clusterizações e classificações mais precisas com base em um subconjunto reduzido de variáveis.
publishDate 2015
dc.date.accessioned.fl_str_mv 2015-07-09T02:00:59Z
dc.date.issued.fl_str_mv 2015
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/118834
dc.identifier.nrb.pt_BR.fl_str_mv 000969149
url http://hdl.handle.net/10183/118834
identifier_str_mv 000969149
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/118834/1/000969149.pdf
http://www.lume.ufrgs.br/bitstream/10183/118834/2/000969149.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/118834/3/000969149.pdf.jpg
bitstream.checksum.fl_str_mv 63153b1b356d4a650a71c830773a1bc6
2c44419560f436e2f360407be42ef806
1dfc42ca0ba6f0884cdaff7c39881155
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085326892302336