Agrupamento com supervisão para seleção de moléculas em banco de dados químicos

Detalhes bibliográficos
Autor(a) principal: Calderan, Felipe Vaiano [UNIFESP]
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNIFESP
Texto Completo: https://hdl.handle.net/11600/63484
Resumo: Métodos de aprendizado de máquina, desde algoritmos não supervisionados a supervisionados, têm sido aplicados para resolver várias tarefas no domínio da Ciência dos Materiais, como predição de propriedades, projeto de novos compostos, modelos substitutos em simulações de dinâmica molecular, entre outras. No entanto, apesar de já haver avanços notáveis, o uso de modelos de Aprendizado de Máquina nesse domínio ainda está em seu estágio inicial. Com o objetivo de contribuir ainda mais para a área, e visando reduzir o custo computacional de triagem de materiais, este trabalho desenvolve um sistema que inclui algoritmos de agrupamento (K-Means) e otimização (força bruta e Basinhopping) para gerar um método de agrupamento supervisionado que pondera o conjunto de dados de acordo com a qualidade dos agrupamentos formados, seleciona amostras a serem testadas e, em seguida, fornece informações textuais e gráficas para facilitar as análises físico-químicas. Os resultados preliminares mostram que é um método viável de introduzir restrições na forma como os dados são agrupados e pode ser muito poderoso, uma vez que herda a ótima eficiência computacional dos métodos de agrupamento, enquanto também permite a construção de agrupamentos com propriedades específicas destacadas, o que muitas vezes é algo desejável.
id UFSP_f6575a353ff1f7acd2235ccc3bc55ca5
oai_identifier_str oai:repositorio.unifesp.br/:11600/63484
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str 3465
spelling Agrupamento com supervisão para seleção de moléculas em banco de dados químicosSupervised Clustering For Selecting Molecules in Chemical DatabasesAgrupamento de dadosVisualização de dadosAgrupamento supervisionadoMétodo de otimizaçãoMétodos de aprendizado de máquina, desde algoritmos não supervisionados a supervisionados, têm sido aplicados para resolver várias tarefas no domínio da Ciência dos Materiais, como predição de propriedades, projeto de novos compostos, modelos substitutos em simulações de dinâmica molecular, entre outras. No entanto, apesar de já haver avanços notáveis, o uso de modelos de Aprendizado de Máquina nesse domínio ainda está em seu estágio inicial. Com o objetivo de contribuir ainda mais para a área, e visando reduzir o custo computacional de triagem de materiais, este trabalho desenvolve um sistema que inclui algoritmos de agrupamento (K-Means) e otimização (força bruta e Basinhopping) para gerar um método de agrupamento supervisionado que pondera o conjunto de dados de acordo com a qualidade dos agrupamentos formados, seleciona amostras a serem testadas e, em seguida, fornece informações textuais e gráficas para facilitar as análises físico-químicas. Os resultados preliminares mostram que é um método viável de introduzir restrições na forma como os dados são agrupados e pode ser muito poderoso, uma vez que herda a ótima eficiência computacional dos métodos de agrupamento, enquanto também permite a construção de agrupamentos com propriedades específicas destacadas, o que muitas vezes é algo desejável.Machine Learning methods, from unsupervised to supervised algorithms, have been applied to solve several tasks in the Materials Science domain, such as property prediction, design of new compounds, surrogate models in molecular dynamics simulations, among others. However, despite already having noticeable advances in the field, the use of Machine Learning models in the domain is still in its early stages. With the goal of further contributing to the area, and aiming to reduce the computational cost of material screening, this work develops a system that includes clustering (K-Means) and optimization (brute force and Basinhopping) algorithms in order to generate a supervised clustering method to weight the data set according to the quality of the clusters formed, select samples to be further tested and then provide textual and graphical information to facilitate physicochemical analyses. The preliminary results show that it is a viable method of introducing constraints in the way the data is clustered and can be very powerful, since it inherits the great computational efficiency of clustering methods but also allows clusters with specific properties highlighted to be built, which is often something desirable.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)2020/05329-4Universidade Federal de São PauloQuiles, Marcos Gonçalves [UNIFESP]http://lattes.cnpq.br/8867164774240536http://lattes.cnpq.br/3355654720514392Calderan, Felipe Vaiano [UNIFESP]2022-03-11T14:22:45Z2022-03-11T14:22:45Z2022-02-11info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersion87 f.application/pdfhttps://hdl.handle.net/11600/63484porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-07-26T19:22:46Zoai:repositorio.unifesp.br/:11600/63484Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-07-26T19:22:46Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
Supervised Clustering For Selecting Molecules in Chemical Databases
title Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
spellingShingle Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
Calderan, Felipe Vaiano [UNIFESP]
Agrupamento de dados
Visualização de dados
Agrupamento supervisionado
Método de otimização
title_short Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
title_full Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
title_fullStr Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
title_full_unstemmed Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
title_sort Agrupamento com supervisão para seleção de moléculas em banco de dados químicos
author Calderan, Felipe Vaiano [UNIFESP]
author_facet Calderan, Felipe Vaiano [UNIFESP]
author_role author
dc.contributor.none.fl_str_mv Quiles, Marcos Gonçalves [UNIFESP]
http://lattes.cnpq.br/8867164774240536
http://lattes.cnpq.br/3355654720514392
dc.contributor.author.fl_str_mv Calderan, Felipe Vaiano [UNIFESP]
dc.subject.por.fl_str_mv Agrupamento de dados
Visualização de dados
Agrupamento supervisionado
Método de otimização
topic Agrupamento de dados
Visualização de dados
Agrupamento supervisionado
Método de otimização
description Métodos de aprendizado de máquina, desde algoritmos não supervisionados a supervisionados, têm sido aplicados para resolver várias tarefas no domínio da Ciência dos Materiais, como predição de propriedades, projeto de novos compostos, modelos substitutos em simulações de dinâmica molecular, entre outras. No entanto, apesar de já haver avanços notáveis, o uso de modelos de Aprendizado de Máquina nesse domínio ainda está em seu estágio inicial. Com o objetivo de contribuir ainda mais para a área, e visando reduzir o custo computacional de triagem de materiais, este trabalho desenvolve um sistema que inclui algoritmos de agrupamento (K-Means) e otimização (força bruta e Basinhopping) para gerar um método de agrupamento supervisionado que pondera o conjunto de dados de acordo com a qualidade dos agrupamentos formados, seleciona amostras a serem testadas e, em seguida, fornece informações textuais e gráficas para facilitar as análises físico-químicas. Os resultados preliminares mostram que é um método viável de introduzir restrições na forma como os dados são agrupados e pode ser muito poderoso, uma vez que herda a ótima eficiência computacional dos métodos de agrupamento, enquanto também permite a construção de agrupamentos com propriedades específicas destacadas, o que muitas vezes é algo desejável.
publishDate 2022
dc.date.none.fl_str_mv 2022-03-11T14:22:45Z
2022-03-11T14:22:45Z
2022-02-11
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/11600/63484
url https://hdl.handle.net/11600/63484
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 87 f.
application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1814268269537787904