Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação

Detalhes bibliográficos
Autor(a) principal: Maraschin, Mikael
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Manancial - Repositório Digital da UFSM
dARK ID: ark:/26339/001300000jfbr
Texto Completo: http://repositorio.ufsm.br/handle/1/29514
Resumo: The determination of physical-chemical properties for substances is of paramount importance in the field of chemical engineering, as these are related to equipment sizing, operational conditions, and process efficiencies. Since experimental data for certain substances are not always available, it is necessary to develop and use equations to determine these properties. In recent decades, there has been a popularization of machine learning algorithms. Through an interactive training process with a database, these algorithms have become capable of making predictions. In order to evaluate the integration between different methods for property prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen, oxygen, nitrogen, and sulfur, were used. These pure substances were represented computationally by the number and type of atoms or by the number and type of chemical bonds between these atoms. These variables served as inputs for all trained models. To establish the relationship between these substances and their respective thermodynamic properties, namely the heat of combustion and formation, multivariable linear regression models, symbolic regression, artificial neural networks, gradient boosting based on decision trees, and regression vector support machines were employed. All of these methods were trained using a data split of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear regression model, specifically for the description based on chemical bonds, outperformed the other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the test data of heat of combustion and heat of formation, respectively. This demonstrates that the linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition to evaluating the goodness of fit, a local contribution analysis was employed for each input variable using a calculation methodology derived from game theory, known as Shapley values. This analysis allowed for the identification of the influence of each variable in comparison with the average value predicted by the model.
id UFSM_09c166278214888b472aa1f8d47dfa4f
oai_identifier_str oai:repositorio.ufsm.br:1/29514
network_acronym_str UFSM
network_name_str Manancial - Repositório Digital da UFSM
repository_id_str
spelling Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formaçãoComparison of interpretable machine learning models for prediction of heat of combustion and formationCalor de combustãoCalor de formaçãoModelos de aprendizado de máquinaValores ShapleyHeat of combustionHeat of formationMachine learning modelsCNPQ::ENGENHARIAS::ENGENHARIA QUIMICAThe determination of physical-chemical properties for substances is of paramount importance in the field of chemical engineering, as these are related to equipment sizing, operational conditions, and process efficiencies. Since experimental data for certain substances are not always available, it is necessary to develop and use equations to determine these properties. In recent decades, there has been a popularization of machine learning algorithms. Through an interactive training process with a database, these algorithms have become capable of making predictions. In order to evaluate the integration between different methods for property prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen, oxygen, nitrogen, and sulfur, were used. These pure substances were represented computationally by the number and type of atoms or by the number and type of chemical bonds between these atoms. These variables served as inputs for all trained models. To establish the relationship between these substances and their respective thermodynamic properties, namely the heat of combustion and formation, multivariable linear regression models, symbolic regression, artificial neural networks, gradient boosting based on decision trees, and regression vector support machines were employed. All of these methods were trained using a data split of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear regression model, specifically for the description based on chemical bonds, outperformed the other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the test data of heat of combustion and heat of formation, respectively. This demonstrates that the linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition to evaluating the goodness of fit, a local contribution analysis was employed for each input variable using a calculation methodology derived from game theory, known as Shapley values. This analysis allowed for the identification of the influence of each variable in comparison with the average value predicted by the model.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESA determinação das propriedades físico-químicas para substâncias é de suma importância na área da engenharia química, uma vez que estas propriedades estão relacionadas ao dimensionamento de equipamentos, às condições operacionais e às eficiências dos processos. Como nem sempre os dados experimentais para determinadas substâncias estão disponíveis, torna-se necessário o desenvolvimento e a utilização de equações para determinar estas propriedades. Nas últimas décadas, houve uma popularização dos algoritmos de aprendizado de máquina, que, por meio de um processo iterativo de treinamento com um banco de dados, se tornaram capazes de fazer previsões. Com o objetivo de avaliar a integração entre os métodos de predição de propriedades, utilizaram-se o calor de combustão e de formação de um total de 551 dados de substâncias puras constituídas por carbono, hidrogênio, oxigênio, nitrogênio e enxofre. Essas substâncias puras foram representadas computacionalmente pelo número e tipo de átomos ou pelo número e tipo de ligações químicas entre esses átomos, que foram as variáveis de entrada para todos os modelos treinados. Para relacionar estas substâncias e suas respectivas propriedades termodinâmicas, especificamente o calor de combustão e formação, foram empregados os modelos de regressão linear multivariável, regressão simbólica, redes neurais artificiais, gradiente boosting baseado em árvores de decisão e máquina de suporte de vetor de regressão. Todos estes métodos foram treinados com uma divisão dos dados de 70% para treinamento, 15% para validação e 15% para teste. Por fim, o modelo de regressão linear multivariável, no caso de descrição por ligações químicas, apresentou desempenho superior aos outros métodos, resultando em coeficiente de correlação de Pearson de 99,94% e 96,43% para os dados de teste do calor de combustão e do calor de formação, respectivamente. Isso demonstra que a abordagem de um modelo linear é adequada para substâncias orgânicas compostas por C, H, O, N, S. Além da avaliação da qualidade do ajuste, também foi empregada a análise de contribuição local para cada variável de entrada, por meio de uma metodologia de cálculo proveniente da teoria dos jogos, denominada valores Shapley, permitindo identificar a influência de cada variável em comparação com o valor médio predito pelo modelo.Universidade Federal de Santa MariaBrasilEngenharia QuímicaUFSMPrograma de Pós-Graduação em Engenharia QuímicaCentro de TecnologiaSalau, Nina Paula Gonçalveshttp://lattes.cnpq.br/4234840503539989Lanzanova, Thompson Diórdinis MetzkaRocha, Luiz Alberto OliveiraFagundez, Jean Lucca SouzaMaraschin, Mikael2023-06-20T15:30:35Z2023-06-20T15:30:35Z2023-04-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://repositorio.ufsm.br/handle/1/29514ark:/26339/001300000jfbrporAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Manancial - Repositório Digital da UFSMinstname:Universidade Federal de Santa Maria (UFSM)instacron:UFSM2023-06-20T15:30:35Zoai:repositorio.ufsm.br:1/29514Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufsm.br/ONGhttps://repositorio.ufsm.br/oai/requestatendimento.sib@ufsm.br||tedebc@gmail.comopendoar:2023-06-20T15:30:35Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)false
dc.title.none.fl_str_mv Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
Comparison of interpretable machine learning models for prediction of heat of combustion and formation
title Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
spellingShingle Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
Maraschin, Mikael
Calor de combustão
Calor de formação
Modelos de aprendizado de máquina
Valores Shapley
Heat of combustion
Heat of formation
Machine learning models
CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA
title_short Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
title_full Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
title_fullStr Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
title_full_unstemmed Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
title_sort Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
author Maraschin, Mikael
author_facet Maraschin, Mikael
author_role author
dc.contributor.none.fl_str_mv Salau, Nina Paula Gonçalves
http://lattes.cnpq.br/4234840503539989
Lanzanova, Thompson Diórdinis Metzka
Rocha, Luiz Alberto Oliveira
Fagundez, Jean Lucca Souza
dc.contributor.author.fl_str_mv Maraschin, Mikael
dc.subject.por.fl_str_mv Calor de combustão
Calor de formação
Modelos de aprendizado de máquina
Valores Shapley
Heat of combustion
Heat of formation
Machine learning models
CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA
topic Calor de combustão
Calor de formação
Modelos de aprendizado de máquina
Valores Shapley
Heat of combustion
Heat of formation
Machine learning models
CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA
description The determination of physical-chemical properties for substances is of paramount importance in the field of chemical engineering, as these are related to equipment sizing, operational conditions, and process efficiencies. Since experimental data for certain substances are not always available, it is necessary to develop and use equations to determine these properties. In recent decades, there has been a popularization of machine learning algorithms. Through an interactive training process with a database, these algorithms have become capable of making predictions. In order to evaluate the integration between different methods for property prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen, oxygen, nitrogen, and sulfur, were used. These pure substances were represented computationally by the number and type of atoms or by the number and type of chemical bonds between these atoms. These variables served as inputs for all trained models. To establish the relationship between these substances and their respective thermodynamic properties, namely the heat of combustion and formation, multivariable linear regression models, symbolic regression, artificial neural networks, gradient boosting based on decision trees, and regression vector support machines were employed. All of these methods were trained using a data split of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear regression model, specifically for the description based on chemical bonds, outperformed the other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the test data of heat of combustion and heat of formation, respectively. This demonstrates that the linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition to evaluating the goodness of fit, a local contribution analysis was employed for each input variable using a calculation methodology derived from game theory, known as Shapley values. This analysis allowed for the identification of the influence of each variable in comparison with the average value predicted by the model.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-20T15:30:35Z
2023-06-20T15:30:35Z
2023-04-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://repositorio.ufsm.br/handle/1/29514
dc.identifier.dark.fl_str_mv ark:/26339/001300000jfbr
url http://repositorio.ufsm.br/handle/1/29514
identifier_str_mv ark:/26339/001300000jfbr
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Santa Maria
Brasil
Engenharia Química
UFSM
Programa de Pós-Graduação em Engenharia Química
Centro de Tecnologia
publisher.none.fl_str_mv Universidade Federal de Santa Maria
Brasil
Engenharia Química
UFSM
Programa de Pós-Graduação em Engenharia Química
Centro de Tecnologia
dc.source.none.fl_str_mv reponame:Manancial - Repositório Digital da UFSM
instname:Universidade Federal de Santa Maria (UFSM)
instacron:UFSM
instname_str Universidade Federal de Santa Maria (UFSM)
instacron_str UFSM
institution UFSM
reponame_str Manancial - Repositório Digital da UFSM
collection Manancial - Repositório Digital da UFSM
repository.name.fl_str_mv Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)
repository.mail.fl_str_mv atendimento.sib@ufsm.br||tedebc@gmail.com
_version_ 1815172350128160768