Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Manancial - Repositório Digital da UFSM |
dARK ID: | ark:/26339/001300000jfbr |
Texto Completo: | http://repositorio.ufsm.br/handle/1/29514 |
Resumo: | The determination of physical-chemical properties for substances is of paramount importance in the field of chemical engineering, as these are related to equipment sizing, operational conditions, and process efficiencies. Since experimental data for certain substances are not always available, it is necessary to develop and use equations to determine these properties. In recent decades, there has been a popularization of machine learning algorithms. Through an interactive training process with a database, these algorithms have become capable of making predictions. In order to evaluate the integration between different methods for property prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen, oxygen, nitrogen, and sulfur, were used. These pure substances were represented computationally by the number and type of atoms or by the number and type of chemical bonds between these atoms. These variables served as inputs for all trained models. To establish the relationship between these substances and their respective thermodynamic properties, namely the heat of combustion and formation, multivariable linear regression models, symbolic regression, artificial neural networks, gradient boosting based on decision trees, and regression vector support machines were employed. All of these methods were trained using a data split of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear regression model, specifically for the description based on chemical bonds, outperformed the other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the test data of heat of combustion and heat of formation, respectively. This demonstrates that the linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition to evaluating the goodness of fit, a local contribution analysis was employed for each input variable using a calculation methodology derived from game theory, known as Shapley values. This analysis allowed for the identification of the influence of each variable in comparison with the average value predicted by the model. |
id |
UFSM_09c166278214888b472aa1f8d47dfa4f |
---|---|
oai_identifier_str |
oai:repositorio.ufsm.br:1/29514 |
network_acronym_str |
UFSM |
network_name_str |
Manancial - Repositório Digital da UFSM |
repository_id_str |
|
spelling |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formaçãoComparison of interpretable machine learning models for prediction of heat of combustion and formationCalor de combustãoCalor de formaçãoModelos de aprendizado de máquinaValores ShapleyHeat of combustionHeat of formationMachine learning modelsCNPQ::ENGENHARIAS::ENGENHARIA QUIMICAThe determination of physical-chemical properties for substances is of paramount importance in the field of chemical engineering, as these are related to equipment sizing, operational conditions, and process efficiencies. Since experimental data for certain substances are not always available, it is necessary to develop and use equations to determine these properties. In recent decades, there has been a popularization of machine learning algorithms. Through an interactive training process with a database, these algorithms have become capable of making predictions. In order to evaluate the integration between different methods for property prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen, oxygen, nitrogen, and sulfur, were used. These pure substances were represented computationally by the number and type of atoms or by the number and type of chemical bonds between these atoms. These variables served as inputs for all trained models. To establish the relationship between these substances and their respective thermodynamic properties, namely the heat of combustion and formation, multivariable linear regression models, symbolic regression, artificial neural networks, gradient boosting based on decision trees, and regression vector support machines were employed. All of these methods were trained using a data split of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear regression model, specifically for the description based on chemical bonds, outperformed the other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the test data of heat of combustion and heat of formation, respectively. This demonstrates that the linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition to evaluating the goodness of fit, a local contribution analysis was employed for each input variable using a calculation methodology derived from game theory, known as Shapley values. This analysis allowed for the identification of the influence of each variable in comparison with the average value predicted by the model.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESA determinação das propriedades físico-químicas para substâncias é de suma importância na área da engenharia química, uma vez que estas propriedades estão relacionadas ao dimensionamento de equipamentos, às condições operacionais e às eficiências dos processos. Como nem sempre os dados experimentais para determinadas substâncias estão disponíveis, torna-se necessário o desenvolvimento e a utilização de equações para determinar estas propriedades. Nas últimas décadas, houve uma popularização dos algoritmos de aprendizado de máquina, que, por meio de um processo iterativo de treinamento com um banco de dados, se tornaram capazes de fazer previsões. Com o objetivo de avaliar a integração entre os métodos de predição de propriedades, utilizaram-se o calor de combustão e de formação de um total de 551 dados de substâncias puras constituídas por carbono, hidrogênio, oxigênio, nitrogênio e enxofre. Essas substâncias puras foram representadas computacionalmente pelo número e tipo de átomos ou pelo número e tipo de ligações químicas entre esses átomos, que foram as variáveis de entrada para todos os modelos treinados. Para relacionar estas substâncias e suas respectivas propriedades termodinâmicas, especificamente o calor de combustão e formação, foram empregados os modelos de regressão linear multivariável, regressão simbólica, redes neurais artificiais, gradiente boosting baseado em árvores de decisão e máquina de suporte de vetor de regressão. Todos estes métodos foram treinados com uma divisão dos dados de 70% para treinamento, 15% para validação e 15% para teste. Por fim, o modelo de regressão linear multivariável, no caso de descrição por ligações químicas, apresentou desempenho superior aos outros métodos, resultando em coeficiente de correlação de Pearson de 99,94% e 96,43% para os dados de teste do calor de combustão e do calor de formação, respectivamente. Isso demonstra que a abordagem de um modelo linear é adequada para substâncias orgânicas compostas por C, H, O, N, S. Além da avaliação da qualidade do ajuste, também foi empregada a análise de contribuição local para cada variável de entrada, por meio de uma metodologia de cálculo proveniente da teoria dos jogos, denominada valores Shapley, permitindo identificar a influência de cada variável em comparação com o valor médio predito pelo modelo.Universidade Federal de Santa MariaBrasilEngenharia QuímicaUFSMPrograma de Pós-Graduação em Engenharia QuímicaCentro de TecnologiaSalau, Nina Paula Gonçalveshttp://lattes.cnpq.br/4234840503539989Lanzanova, Thompson Diórdinis MetzkaRocha, Luiz Alberto OliveiraFagundez, Jean Lucca SouzaMaraschin, Mikael2023-06-20T15:30:35Z2023-06-20T15:30:35Z2023-04-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://repositorio.ufsm.br/handle/1/29514ark:/26339/001300000jfbrporAttribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Manancial - Repositório Digital da UFSMinstname:Universidade Federal de Santa Maria (UFSM)instacron:UFSM2023-06-20T15:30:35Zoai:repositorio.ufsm.br:1/29514Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufsm.br/ONGhttps://repositorio.ufsm.br/oai/requestatendimento.sib@ufsm.br||tedebc@gmail.comopendoar:2023-06-20T15:30:35Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM)false |
dc.title.none.fl_str_mv |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação Comparison of interpretable machine learning models for prediction of heat of combustion and formation |
title |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação |
spellingShingle |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação Maraschin, Mikael Calor de combustão Calor de formação Modelos de aprendizado de máquina Valores Shapley Heat of combustion Heat of formation Machine learning models CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA |
title_short |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação |
title_full |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação |
title_fullStr |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação |
title_full_unstemmed |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação |
title_sort |
Comparação de modelos de aprendizado de máquina interpretáveis na predição de calor de combustão e de formação |
author |
Maraschin, Mikael |
author_facet |
Maraschin, Mikael |
author_role |
author |
dc.contributor.none.fl_str_mv |
Salau, Nina Paula Gonçalves http://lattes.cnpq.br/4234840503539989 Lanzanova, Thompson Diórdinis Metzka Rocha, Luiz Alberto Oliveira Fagundez, Jean Lucca Souza |
dc.contributor.author.fl_str_mv |
Maraschin, Mikael |
dc.subject.por.fl_str_mv |
Calor de combustão Calor de formação Modelos de aprendizado de máquina Valores Shapley Heat of combustion Heat of formation Machine learning models CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA |
topic |
Calor de combustão Calor de formação Modelos de aprendizado de máquina Valores Shapley Heat of combustion Heat of formation Machine learning models CNPQ::ENGENHARIAS::ENGENHARIA QUIMICA |
description |
The determination of physical-chemical properties for substances is of paramount importance in the field of chemical engineering, as these are related to equipment sizing, operational conditions, and process efficiencies. Since experimental data for certain substances are not always available, it is necessary to develop and use equations to determine these properties. In recent decades, there has been a popularization of machine learning algorithms. Through an interactive training process with a database, these algorithms have become capable of making predictions. In order to evaluate the integration between different methods for property prediction, a total of 551 data points for pure substances, consisting of carbon, hydrogen, oxygen, nitrogen, and sulfur, were used. These pure substances were represented computationally by the number and type of atoms or by the number and type of chemical bonds between these atoms. These variables served as inputs for all trained models. To establish the relationship between these substances and their respective thermodynamic properties, namely the heat of combustion and formation, multivariable linear regression models, symbolic regression, artificial neural networks, gradient boosting based on decision trees, and regression vector support machines were employed. All of these methods were trained using a data split of 70% for training, 15% for validation, and 15% for testing. Finally, the multivariable linear regression model, specifically for the description based on chemical bonds, outperformed the other methods. It resulted in a Pearson correlation coefficient of 99.93% and 96.43% for the test data of heat of combustion and heat of formation, respectively. This demonstrates that the linear model approach is suitable for organic substances composed of C, H, O, N, S. In addition to evaluating the goodness of fit, a local contribution analysis was employed for each input variable using a calculation methodology derived from game theory, known as Shapley values. This analysis allowed for the identification of the influence of each variable in comparison with the average value predicted by the model. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-06-20T15:30:35Z 2023-06-20T15:30:35Z 2023-04-24 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufsm.br/handle/1/29514 |
dc.identifier.dark.fl_str_mv |
ark:/26339/001300000jfbr |
url |
http://repositorio.ufsm.br/handle/1/29514 |
identifier_str_mv |
ark:/26339/001300000jfbr |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Santa Maria Brasil Engenharia Química UFSM Programa de Pós-Graduação em Engenharia Química Centro de Tecnologia |
publisher.none.fl_str_mv |
Universidade Federal de Santa Maria Brasil Engenharia Química UFSM Programa de Pós-Graduação em Engenharia Química Centro de Tecnologia |
dc.source.none.fl_str_mv |
reponame:Manancial - Repositório Digital da UFSM instname:Universidade Federal de Santa Maria (UFSM) instacron:UFSM |
instname_str |
Universidade Federal de Santa Maria (UFSM) |
instacron_str |
UFSM |
institution |
UFSM |
reponame_str |
Manancial - Repositório Digital da UFSM |
collection |
Manancial - Repositório Digital da UFSM |
repository.name.fl_str_mv |
Manancial - Repositório Digital da UFSM - Universidade Federal de Santa Maria (UFSM) |
repository.mail.fl_str_mv |
atendimento.sib@ufsm.br||tedebc@gmail.com |
_version_ |
1815172350128160768 |