Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência

Detalhes bibliográficos
Autor(a) principal: Ranzan, Lucas
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/230840
Resumo: A capacidade de predizer eventos futuros a partir de conhecimentos históricos é a base para a modelagem preditiva. Criar um modelo capaz de quantificar variáveis de interesse, classificar ocorrências ou prever comportamentos, acompanham a evolução dos algoritmos modernos de aprendizado de máquina. Na indústria de transformação, muitas das informações mais relevantes para o controle de processos ainda são adquiridas unicamente através de técnicas laboratoriais, que são custosas, destrutivas e morosas (como, por exemplo, concentração molecular de espécies de interesse, pureza de fármacos, lubricidade de óleos, teor de proteína em alimentos, etc.). Um possível caminho para automação destes sistemas é o estudo de novos sensores capazes de capturar uma informação auxiliar de fácil obtenção, que possa ser transformada matematicamente nas saídas de interesse. Surge então a aspiração por estudos que combinam a escolha de sensores adequados com metodologias capazes de extrair de maneira eficiente a informação útil contida nestes dados. Neste trabalho são apresentadas metodologias baseadas em diferentes estratégias para seleção de variáveis explicativas e otimização de modelos empíricos. Ainda, é proposta uma metodologia para qualificação de inconformidades em novas leituras utilizando redes neurais. É apresentada a metodologia AnTSbe, um algoritmo híbrido baseado nas meta-heurísticas Colônia de Formigas (ACO) e Busca Tabu (TS), desenvolvido para otimizar a seleção de variáveis de entrada em problemas combinatórios complexos. A hibridização das meta-heurísticas visa evitar a estagnação precoce e a ciclagem de subgrupos, comuns nessas metodologias. O algoritmo também introduz o uso da expansão polinomial e combinatória das variáveis de entrada, em um esforço para incrementar o poder preditivo dos modelos. Como estudo de caso, espectroscopia por fluorescência é utilizada para predizer concentração de enxofre em diesel combustível. Os modelos preditivos ajustados foram superiores a outras técnicas descritas na literatura, com erros absolutos percentuais médios de predição menores que 4%. As adaptações propostas se mostraram eficientes, quando comparadas a pesquisas prévias com a mesma base de dados. Uma adaptação é proposta ao algoritmo AnTSbe, focada para dados de fluorescência, com o conceito de Delta Pair. Uma nova camada de otimização é introduzida no algoritmo a fim de selecionar um par Excitação/Emissão que serve como regulador do meio, tendo sua intensidade de fluorescência decrescida de todos outros os pontos do espectro. Neste estudo, são acompanhados três processos distintos de envelhecimento de cachaça, com o intuito de predizer a concentração de fenólicos na bebida ao longo do tempo, com base em dados fluorescência. A adaptação Delta Pair se mostrou especialmente funcional quando combinada com expansão de bases e para predição de cachaças envelhecidas comerciais, que não participaram da etapa de calibração dos modelos. A seguir, matrizes excitação – emissão de fluorescência captadas in situ em fermentações com S. cerevisiae foram utilizadas para calibrar uma rede neural convolucional residual, como intuito de predizer glicose, etanol e biomassa no meio biológico. Em paralelo, foi desenvolvida uma metodologia baseada em redes neurais do tipo autoencoder (AE), capazes de corretamente reconstruir os espectros originais. A metodologia utiliza o erro de reconstrução da rede AE treinada para triagem não supervisionada de novos espectros, conseguindo identificar espectros com inconformidades, e qualificar a confiança que se pode atribuir a um novo dado, baseado na magnitude deste erro. Por fim, a metodologia AnTSbe é utilizada para predizer impurezas nas correntes de uma unidade de separação de propano/propeno, expandindo o uso da metodologia para casos da indústria petroquímica com base em dados simulados de processo (e não de fluorescência). A metodologia se mostrou capaz de corretamente predizer os perfis de concentração das três colunas de separação do processo com erros absolutos percentuais médios inferiores a 5%, com foco especial para quantificação dos contaminantes em cada corrente, que precisam ser mantidos sob controle para garantir a lucratividade da operação. Os artigos desenvolvidos demonstram, inclusive na ordem apresentada, o sucesso das metodologias propostas em aprofundar a seleção de variáveis significativas e otimização de modelos empíricos preditivos. A sucessão dos casos estudados parte do desenvolvimento do algoritmo estocástico base, segue para a busca de um reforço na capacidade de generalização dos modelos otimizados baseados em espectroscopia por fluorescência, apresenta uma técnica para qualificação de novas amostras e conclui com o uso dos algoritmos desenvolvidos em um caso industrial.
id URGS_b594647269b7327c39322c3030f378d9
oai_identifier_str oai:www.lume.ufrgs.br:10183/230840
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Ranzan, LucasTrierweiler, Jorge OtávioTrierweiler, Luciane Ferreira2021-10-16T04:38:54Z2021http://hdl.handle.net/10183/230840001131676A capacidade de predizer eventos futuros a partir de conhecimentos históricos é a base para a modelagem preditiva. Criar um modelo capaz de quantificar variáveis de interesse, classificar ocorrências ou prever comportamentos, acompanham a evolução dos algoritmos modernos de aprendizado de máquina. Na indústria de transformação, muitas das informações mais relevantes para o controle de processos ainda são adquiridas unicamente através de técnicas laboratoriais, que são custosas, destrutivas e morosas (como, por exemplo, concentração molecular de espécies de interesse, pureza de fármacos, lubricidade de óleos, teor de proteína em alimentos, etc.). Um possível caminho para automação destes sistemas é o estudo de novos sensores capazes de capturar uma informação auxiliar de fácil obtenção, que possa ser transformada matematicamente nas saídas de interesse. Surge então a aspiração por estudos que combinam a escolha de sensores adequados com metodologias capazes de extrair de maneira eficiente a informação útil contida nestes dados. Neste trabalho são apresentadas metodologias baseadas em diferentes estratégias para seleção de variáveis explicativas e otimização de modelos empíricos. Ainda, é proposta uma metodologia para qualificação de inconformidades em novas leituras utilizando redes neurais. É apresentada a metodologia AnTSbe, um algoritmo híbrido baseado nas meta-heurísticas Colônia de Formigas (ACO) e Busca Tabu (TS), desenvolvido para otimizar a seleção de variáveis de entrada em problemas combinatórios complexos. A hibridização das meta-heurísticas visa evitar a estagnação precoce e a ciclagem de subgrupos, comuns nessas metodologias. O algoritmo também introduz o uso da expansão polinomial e combinatória das variáveis de entrada, em um esforço para incrementar o poder preditivo dos modelos. Como estudo de caso, espectroscopia por fluorescência é utilizada para predizer concentração de enxofre em diesel combustível. Os modelos preditivos ajustados foram superiores a outras técnicas descritas na literatura, com erros absolutos percentuais médios de predição menores que 4%. As adaptações propostas se mostraram eficientes, quando comparadas a pesquisas prévias com a mesma base de dados. Uma adaptação é proposta ao algoritmo AnTSbe, focada para dados de fluorescência, com o conceito de Delta Pair. Uma nova camada de otimização é introduzida no algoritmo a fim de selecionar um par Excitação/Emissão que serve como regulador do meio, tendo sua intensidade de fluorescência decrescida de todos outros os pontos do espectro. Neste estudo, são acompanhados três processos distintos de envelhecimento de cachaça, com o intuito de predizer a concentração de fenólicos na bebida ao longo do tempo, com base em dados fluorescência. A adaptação Delta Pair se mostrou especialmente funcional quando combinada com expansão de bases e para predição de cachaças envelhecidas comerciais, que não participaram da etapa de calibração dos modelos. A seguir, matrizes excitação – emissão de fluorescência captadas in situ em fermentações com S. cerevisiae foram utilizadas para calibrar uma rede neural convolucional residual, como intuito de predizer glicose, etanol e biomassa no meio biológico. Em paralelo, foi desenvolvida uma metodologia baseada em redes neurais do tipo autoencoder (AE), capazes de corretamente reconstruir os espectros originais. A metodologia utiliza o erro de reconstrução da rede AE treinada para triagem não supervisionada de novos espectros, conseguindo identificar espectros com inconformidades, e qualificar a confiança que se pode atribuir a um novo dado, baseado na magnitude deste erro. Por fim, a metodologia AnTSbe é utilizada para predizer impurezas nas correntes de uma unidade de separação de propano/propeno, expandindo o uso da metodologia para casos da indústria petroquímica com base em dados simulados de processo (e não de fluorescência). A metodologia se mostrou capaz de corretamente predizer os perfis de concentração das três colunas de separação do processo com erros absolutos percentuais médios inferiores a 5%, com foco especial para quantificação dos contaminantes em cada corrente, que precisam ser mantidos sob controle para garantir a lucratividade da operação. Os artigos desenvolvidos demonstram, inclusive na ordem apresentada, o sucesso das metodologias propostas em aprofundar a seleção de variáveis significativas e otimização de modelos empíricos preditivos. A sucessão dos casos estudados parte do desenvolvimento do algoritmo estocástico base, segue para a busca de um reforço na capacidade de generalização dos modelos otimizados baseados em espectroscopia por fluorescência, apresenta uma técnica para qualificação de novas amostras e conclui com o uso dos algoritmos desenvolvidos em um caso industrial.The ability to predict future events from historical observations is the basis for predictive modeling. Creating a model capable of quantifying variables of interest, classifying occurrences or predicting behavior, follows the evolution of modern machine learning algorithms. In the manufacturing industry, much of the most relevant information for process control is still acquired only through laboratory techniques, which are costly, destructive and time-consuming (such as, for example, molecular concentration of species, purity of drugs, lubricity of oils, protein content in food, etc.). A possible way to automate these systems is the study of new sensors capable of capturing auxiliary information of easy application, which can be mathematically transformed in the outputs of interest. This is the aspiration for studies that combine the choice of skilled sensors with methodologies capable of efficiently extracting the useful information contained in the data. In this work we propose methodologies based on different machine learning methods for the optimization of empirical models. AnTSbe methodology is presented, a hybrid algorithm based on Ant Colony (ACO) and Tabu Search (TS) metaheuristics, developed to optimize the selection of input variables in complex combinatorial problems. The hybridization of metaheuristics aims to avoid early stagnation and cycling of subgroups, common in these methodologies. The algorithm also introduces the use of polynomial and combinatorial expansion of the input variables, in an effort to increase the predictive power of the models. As a case study, fluorescence spectroscopy is used to predict sulfur concentration in diesel fuel. The adjusted predictive models were superior to other techniques from literature, with mean absolute percentage errors of prediction smaller than 4%. The proposed adaptations were efficient, when compared to previous researches with the same database. An adaptation is proposed to the AnTSbe algorithm, focused on fluorescence data, with the concept of DeltaPair. A new optimization layer is introduced in the algorithm in order to select an Excitation/Emission pair that serves as a medium regulator, having its fluorescence intensity decreased from all other points in the spectrum. In this study, three distinct cachaça aging processes are followed, in order to predict the concentration of phenolics in the spirit over time, based on fluorescence data. The DeltaPair adaptation is especially functional when combined with base expansion and for the prediction of aged commercial cachaças, which does not participate in the calibration stage of the models. Following, fluorescence excitation - emission matrices, collected in situ in fermentations with S. cerevisiae, were used to calibrate a residual convolutional neural network, in order to predict glucose, ethanol and biomass in the biological environment. In parallel, a methodology based on autoencoder-type neural networks (AE) was developed, capable of correctly reconstructing the original spectra. The methodology uses the trained AE reconstruction error for unsupervised screening of new spectra, managing to identify abnormal spectra, and to qualify the confidence that can be attributed to a new data, based on the magnitude of this error. Despite the focus on fluorescence spectroscopy data, most of the methodologies were designed to be of general use, whatever the data source, with little or no modification. Finally, the AnTSbe methodology is used to predict impurities in the streams of a propane/propylene splitter unit, expanding the use of the methodology for cases in the petrochemical industry based on simulated process data (and not fluorescence). The methodology proved to be capable of correctly predicting the concentration profiles of the three process’ separation columns with mean absolute percentage errors below 5%, with a special focus on quantifying the contaminants in each stream, which need to be kept under control to ensure profitability of the operation. The articles developed demonstrate, in the order presented, the success of the proposed methodologies in deepening the selection of significant variables and the optimization of predictive empirical models. The succession of the studied cases starts from the development of the base stochastic algorithm, goes on to seek a reinforcement in the generalizability of the optimized models based on fluorescence spectroscopy, presents a technique for qualifying new samples and concludes with the use of the algorithms developed in an industrial case.application/pdfporSeleção de variáveisControle preditivoEspectroscopiaMetodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescênciainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPrograma de Pós-Graduação em Engenharia QuímicaPorto Alegre, BR-RS2021doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001131676.pdf.txt001131676.pdf.txtExtracted Texttext/plain353637http://www.lume.ufrgs.br/bitstream/10183/230840/2/001131676.pdf.txt8e2553fec9fbe9c23e93c3d7fd32c7c2MD52ORIGINAL001131676.pdfTexto completoapplication/pdf5949790http://www.lume.ufrgs.br/bitstream/10183/230840/1/001131676.pdf17872c6eed361add6be719106c1a485dMD5110183/2308402023-10-06 03:41:26.853882oai:www.lume.ufrgs.br:10183/230840Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532023-10-06T06:41:26Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
title Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
spellingShingle Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
Ranzan, Lucas
Seleção de variáveis
Controle preditivo
Espectroscopia
title_short Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
title_full Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
title_fullStr Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
title_full_unstemmed Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
title_sort Metodologias para seleção de variáveis explicativas e detecção de inconformidades de predição aplicadas à espectroscopia por fluorescência
author Ranzan, Lucas
author_facet Ranzan, Lucas
author_role author
dc.contributor.author.fl_str_mv Ranzan, Lucas
dc.contributor.advisor1.fl_str_mv Trierweiler, Jorge Otávio
Trierweiler, Luciane Ferreira
contributor_str_mv Trierweiler, Jorge Otávio
Trierweiler, Luciane Ferreira
dc.subject.por.fl_str_mv Seleção de variáveis
Controle preditivo
Espectroscopia
topic Seleção de variáveis
Controle preditivo
Espectroscopia
description A capacidade de predizer eventos futuros a partir de conhecimentos históricos é a base para a modelagem preditiva. Criar um modelo capaz de quantificar variáveis de interesse, classificar ocorrências ou prever comportamentos, acompanham a evolução dos algoritmos modernos de aprendizado de máquina. Na indústria de transformação, muitas das informações mais relevantes para o controle de processos ainda são adquiridas unicamente através de técnicas laboratoriais, que são custosas, destrutivas e morosas (como, por exemplo, concentração molecular de espécies de interesse, pureza de fármacos, lubricidade de óleos, teor de proteína em alimentos, etc.). Um possível caminho para automação destes sistemas é o estudo de novos sensores capazes de capturar uma informação auxiliar de fácil obtenção, que possa ser transformada matematicamente nas saídas de interesse. Surge então a aspiração por estudos que combinam a escolha de sensores adequados com metodologias capazes de extrair de maneira eficiente a informação útil contida nestes dados. Neste trabalho são apresentadas metodologias baseadas em diferentes estratégias para seleção de variáveis explicativas e otimização de modelos empíricos. Ainda, é proposta uma metodologia para qualificação de inconformidades em novas leituras utilizando redes neurais. É apresentada a metodologia AnTSbe, um algoritmo híbrido baseado nas meta-heurísticas Colônia de Formigas (ACO) e Busca Tabu (TS), desenvolvido para otimizar a seleção de variáveis de entrada em problemas combinatórios complexos. A hibridização das meta-heurísticas visa evitar a estagnação precoce e a ciclagem de subgrupos, comuns nessas metodologias. O algoritmo também introduz o uso da expansão polinomial e combinatória das variáveis de entrada, em um esforço para incrementar o poder preditivo dos modelos. Como estudo de caso, espectroscopia por fluorescência é utilizada para predizer concentração de enxofre em diesel combustível. Os modelos preditivos ajustados foram superiores a outras técnicas descritas na literatura, com erros absolutos percentuais médios de predição menores que 4%. As adaptações propostas se mostraram eficientes, quando comparadas a pesquisas prévias com a mesma base de dados. Uma adaptação é proposta ao algoritmo AnTSbe, focada para dados de fluorescência, com o conceito de Delta Pair. Uma nova camada de otimização é introduzida no algoritmo a fim de selecionar um par Excitação/Emissão que serve como regulador do meio, tendo sua intensidade de fluorescência decrescida de todos outros os pontos do espectro. Neste estudo, são acompanhados três processos distintos de envelhecimento de cachaça, com o intuito de predizer a concentração de fenólicos na bebida ao longo do tempo, com base em dados fluorescência. A adaptação Delta Pair se mostrou especialmente funcional quando combinada com expansão de bases e para predição de cachaças envelhecidas comerciais, que não participaram da etapa de calibração dos modelos. A seguir, matrizes excitação – emissão de fluorescência captadas in situ em fermentações com S. cerevisiae foram utilizadas para calibrar uma rede neural convolucional residual, como intuito de predizer glicose, etanol e biomassa no meio biológico. Em paralelo, foi desenvolvida uma metodologia baseada em redes neurais do tipo autoencoder (AE), capazes de corretamente reconstruir os espectros originais. A metodologia utiliza o erro de reconstrução da rede AE treinada para triagem não supervisionada de novos espectros, conseguindo identificar espectros com inconformidades, e qualificar a confiança que se pode atribuir a um novo dado, baseado na magnitude deste erro. Por fim, a metodologia AnTSbe é utilizada para predizer impurezas nas correntes de uma unidade de separação de propano/propeno, expandindo o uso da metodologia para casos da indústria petroquímica com base em dados simulados de processo (e não de fluorescência). A metodologia se mostrou capaz de corretamente predizer os perfis de concentração das três colunas de separação do processo com erros absolutos percentuais médios inferiores a 5%, com foco especial para quantificação dos contaminantes em cada corrente, que precisam ser mantidos sob controle para garantir a lucratividade da operação. Os artigos desenvolvidos demonstram, inclusive na ordem apresentada, o sucesso das metodologias propostas em aprofundar a seleção de variáveis significativas e otimização de modelos empíricos preditivos. A sucessão dos casos estudados parte do desenvolvimento do algoritmo estocástico base, segue para a busca de um reforço na capacidade de generalização dos modelos otimizados baseados em espectroscopia por fluorescência, apresenta uma técnica para qualificação de novas amostras e conclui com o uso dos algoritmos desenvolvidos em um caso industrial.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-10-16T04:38:54Z
dc.date.issued.fl_str_mv 2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/230840
dc.identifier.nrb.pt_BR.fl_str_mv 001131676
url http://hdl.handle.net/10183/230840
identifier_str_mv 001131676
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/230840/2/001131676.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/230840/1/001131676.pdf
bitstream.checksum.fl_str_mv 8e2553fec9fbe9c23e93c3d7fd32c7c2
17872c6eed361add6be719106c1a485d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085566841094144