Mycotoxins: Identification and characterization using machine learning as a playground.

Detalhes bibliográficos
Autor(a) principal: Ferreira, Cláudia Filipa Soares
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/96105
Resumo: Dissertação de Mestrado em Química apresentada à Faculdade de Ciências e Tecnologia
id RCAP_5040d87dbb4daeeedc7cbf526378fb65
oai_identifier_str oai:estudogeral.uc.pt:10316/96105
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Mycotoxins: Identification and characterization using machine learning as a playground.Micotoxinas: Identificação e caracterização usando uma abordagem de aprendizagem computacional.MicotoxinasAprendizagem computacionalDescriptores MolecularesToxicidade AgudaMycotoxinsMachine LearningMolecular DescriptorsAcute toxicityDissertação de Mestrado em Química apresentada à Faculdade de Ciências e TecnologiaThe design of cost-effective strategies to simultaneously identify and eliminate toxic compounds from the aquatic environment requires knowledge of relevant molecular fingerprints, interaction patterns, co-occurrence, synergistic effects, and contaminant sources, as this can be a gateway to an effective response to these societal obstacles.This study aims to develop predictive models for molecular similarity and toxicity of mycotoxins based on molecular and physicochemical descriptors using cheminformatics tools and machine learning approaches. An efficient chemical data mining over different datasets composed by 30 and 59 selected mycotoxins described by several molecular descriptors is proposed for virtual screening of molecular similarity and toxicity prediction.Hierarchical cluster analysis and k-means clustering revealed clusters consistent with the known mycotoxin families. PCA results show that discrimination between mycotoxins is largely determined by the selected molecular descriptors and evidence a tendency in the separation of acutely toxic mycotoxins from non-acutely toxic mycotoxins.Supervised learning models (LDA, RF, SVM, NN were constructed for the purpose of classification and combined with the molecular descriptors selected from PCA to improve the knowledge of the selected mycotoxins and predict their respective acute-toxicity profiles. RF proved to be the best model in the classification of mycotoxins into acutely toxic or non-acutely toxic. This study allows the identification of relevant molecular and physicochemical descriptors for the 1) discrimination of different families of mycotoxins, 2) classification of structurally distinct mycotoxins and also those mycotoxins that are not so well described in the literature, and 3) prediction of toxicity. This creates a gateway for the subsequent classification, identification, and rapid and efficient characterization of potential new and unknown mycotoxins. Bridging the gap between multivariate physicochemical data and the ability of models to predict and address relevant mycotoxin-related phenomena, such as co-occurrence and molecular recognition, and to develop improved classification and remediation methods remains a challenge, often limited by available methodologies and experimental information.O desenvolvimento de estratégias efetivas para identificar e eliminar compostos tóxicos do ambiente aquático requer um conhecimento profundo sobre os padrões moleculares e de interação, os fenómenos de coocorrência, e a origem dos contaminantes.Este estudo consiste no desenvolvimento de modelos computacionais capazes de caracterizar a similaridade molecular e prever a toxicidade de diferentes classes de micotoxinas, baseando-se em descritores físico-químicos e moleculares e dando uso a ferramentas de aprendizagem computacional. A análise de agrupamentos hierárquica e o método k-médias revelaram grupos consistentes com as famílias de micotoxinas já estabelecidas na literatura. A análise de componentes principais permitiu selecionar os descritores moleculares mais relevantes para discriminar diferentes famílias de micotoxinas, evidenciando tendências na classificação das micotoxinas tendo em conta a sua toxicidade aguda. Diversos modelos de aprendizagem supervisionada (LDA, RF, SVM e NN) foram construídos sobre os descritores moleculares selecionados da análise de componentes principais, com o intuito de melhorar o conhecimento sobre as micotoxinas selecionadas e desenvolver modelos de previsão para os seus perfis de toxicidade aguda. O modelo RF provou ser o melhor modelo na classificação das micotoxinas em toxicas de forma aguda ou não.Este estudo permite a identificação de descritores moleculares e físico-químicos relevantes para: 1) a discriminação entre várias famílias de micotoxinas, 2) a classificação de micotoxinas estruturalmente distintas e de micotoxinas desconhecidas, e 3) previsão da respetiva toxicidade. Estabelecer a ponte entre dados físico-químicos multivariados e a capacidade dos modelos computacionais de direcionar e prever fenómenos relacionados com micotoxinas, bem como desenvolver métodos mais eficientes de classificação e remediação, são desafios atuais, cuja solução está ainda muito limitada pelas metodologias e os dados experimentais disponíveis.2021-09-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/96105http://hdl.handle.net/10316/96105TID:202778827engFerreira, Cláudia Filipa Soaresinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T04:42:53Zoai:estudogeral.uc.pt:10316/96105Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:14:27.163183Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Mycotoxins: Identification and characterization using machine learning as a playground.
Micotoxinas: Identificação e caracterização usando uma abordagem de aprendizagem computacional.
title Mycotoxins: Identification and characterization using machine learning as a playground.
spellingShingle Mycotoxins: Identification and characterization using machine learning as a playground.
Ferreira, Cláudia Filipa Soares
Micotoxinas
Aprendizagem computacional
Descriptores Moleculares
Toxicidade Aguda
Mycotoxins
Machine Learning
Molecular Descriptors
Acute toxicity
title_short Mycotoxins: Identification and characterization using machine learning as a playground.
title_full Mycotoxins: Identification and characterization using machine learning as a playground.
title_fullStr Mycotoxins: Identification and characterization using machine learning as a playground.
title_full_unstemmed Mycotoxins: Identification and characterization using machine learning as a playground.
title_sort Mycotoxins: Identification and characterization using machine learning as a playground.
author Ferreira, Cláudia Filipa Soares
author_facet Ferreira, Cláudia Filipa Soares
author_role author
dc.contributor.author.fl_str_mv Ferreira, Cláudia Filipa Soares
dc.subject.por.fl_str_mv Micotoxinas
Aprendizagem computacional
Descriptores Moleculares
Toxicidade Aguda
Mycotoxins
Machine Learning
Molecular Descriptors
Acute toxicity
topic Micotoxinas
Aprendizagem computacional
Descriptores Moleculares
Toxicidade Aguda
Mycotoxins
Machine Learning
Molecular Descriptors
Acute toxicity
description Dissertação de Mestrado em Química apresentada à Faculdade de Ciências e Tecnologia
publishDate 2021
dc.date.none.fl_str_mv 2021-09-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/96105
http://hdl.handle.net/10316/96105
TID:202778827
url http://hdl.handle.net/10316/96105
identifier_str_mv TID:202778827
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134042078052352