Aumento Sintético de Dados para Datasets Biológicos

Detalhes bibliográficos
Autor(a) principal: Silva, Beatriz Rodrigues Moreira da
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/102995
Resumo: Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
id RCAP_69fd5392399858b92a6f92b014d2d3b7
oai_identifier_str oai:estudogeral.uc.pt:10316/102995
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Aumento Sintético de Dados para Datasets BiológicosSynthetic Data Augmentation for Biological DatasetsMachine LearningBiologiaGenerative Adversarial NetworksVariational AutoencodersDados TabularesMachine LearningBiologyGenerative Adversarial NetworksVariational AutoencodersTabular DataDissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e TecnologiaThe pursuit of understanding biological systems, along with their role in health and disease,has driven the life sciences research in the last two centuries. However biological andbiochemical research is very challenging due to the high complexity of biological systems,where thousands of molecules interplay in non-linear ways to orchestrate all the intercellularand intracellular communications occurring in each individual.Fortunately, with the proven success of Artificial Intelligence (AI) in many other areas e.g.,recommender systems, music generation, text translation, and automatic driving, MachineLearning (ML) based decision-making models started to become ubiquitous in the lifesciencedomain as well. However, there is a big difference between applications in biologicaldata and the first ones - the amount of data. Depending on the target domain and theexperimental design, the acquisition of biological data may have several reservations(economic, lack of samples, lack of time, or ethical issues), which ultimately leads to a smalldata size situation, complicating the extraction of viable information.Although the number of biological samples may be immutable, the generation of syntheticdata can compensate for the small size of the data. In this work we propose a frameworkinspired by recent literature, to develop new techniques to augment various biologicaldatasets. TVAE, the Variational Autoencoder exploited in our framework, managed tocapture the most important features of our data and produce entire datasets that exhibitedthe same properties as the original data. The generative models were evaluated in 2 phases,in the first phase the selection of the best possible generative models was made, and in thesecond phase these were applied to real-world biological datasets.In the first phase, the models achieved good results, such as similarities of 92% for datasetsthat contained only 100 samples, and utility values that surpassed the original performancesby 4%. When applied to biological datasets, the models presented equally satisfactoryresults, with similarities from 92% to 100% and utilities that managed to exceed the originalvalues also up to 4% more than the original values.A busca pela compreensão dos sistemas biológicos, juntamente com seu papel na saúde e nadoença, impulsionou a pesquisa das ciências da vida nos últimos dois séculos. No entanto, apesquisa biológica e bioquímica é muito desafiadora devido à alta complexidade dossistemas biológicos, onde milhares de moléculas interagem de maneira não linear paraorquestrar todas as comunicações intercelulares e intracelulares que ocorrem em cadaindivíduo.Felizmente, com o sucesso comprovado da Inteligência Artificial em muitas outras áreas (porexemplo, sistemas de recomendação, geração de música, tradução de texto e conduçãoautomática), os modelos de tomada de decisão baseados em Machine Learning começaram atornar-se omnipresentes no domínio das ciências da vida também. No entanto, existe umagrande diferença entre as aplicações onde a Inteligência Artificial é normalmente aplicada ea área das ciências da vida - a quantidade de dados. Dependendo do domínio-alvo e dodesenho experimental, a aquisição de dados biológicos pode ter várias restrições(económicas, falta de amostras, falta de tempo ou questões éticas) que acabam por levar umasituação de poucos dados, tornando difícil a utilização de modelos de Machine Learning.Embora o número de amostras biológicas possa ser imutável, a geração de dados sintéticospode compensar o pequeno tamanho dos dados. Neste trabalho propomos um frameworkinspirada na literatura recente, para desenvolver novas técnicas para aumentar váriosconjuntos de dados biológicos. O TVAE, o Variational Autoencoder explorado na nossaframework, conseguiu capturar característica mais importantes dos nossos dados e produzirdatasets inteiros que exibiam as mesmas propriedades dos dados originais. Os modelosgenerativos foram avaliados em 2 fases, na primeira fase foi feita a seleção dos melhoresmodelos generativos possíveis, e na segunda fase estes foram aplicados a datasets biológicosdo mundo real.Na primeira fase os modelos alcançaram bons resultados, tais como similaridades de 92%para datasets que continham apenas 100 amostras, e valores de utilidade que superaram asperformances originais em 4%. Quando aplicados a datasets biológicos os modelosapresentaram resultados igualmente satisfatórios, com similaridades de 92% até 100% eutilidades que conseguiram ultrapassar os valores originais também até 4% mais que osvalores originais.FCT2022-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102995http://hdl.handle.net/10316/102995TID:203077806engSilva, Beatriz Rodrigues Moreira dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-10-19T20:36:16Zoai:estudogeral.uc.pt:10316/102995Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:52.641024Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Aumento Sintético de Dados para Datasets Biológicos
Synthetic Data Augmentation for Biological Datasets
title Aumento Sintético de Dados para Datasets Biológicos
spellingShingle Aumento Sintético de Dados para Datasets Biológicos
Silva, Beatriz Rodrigues Moreira da
Machine Learning
Biologia
Generative Adversarial Networks
Variational Autoencoders
Dados Tabulares
Machine Learning
Biology
Generative Adversarial Networks
Variational Autoencoders
Tabular Data
title_short Aumento Sintético de Dados para Datasets Biológicos
title_full Aumento Sintético de Dados para Datasets Biológicos
title_fullStr Aumento Sintético de Dados para Datasets Biológicos
title_full_unstemmed Aumento Sintético de Dados para Datasets Biológicos
title_sort Aumento Sintético de Dados para Datasets Biológicos
author Silva, Beatriz Rodrigues Moreira da
author_facet Silva, Beatriz Rodrigues Moreira da
author_role author
dc.contributor.author.fl_str_mv Silva, Beatriz Rodrigues Moreira da
dc.subject.por.fl_str_mv Machine Learning
Biologia
Generative Adversarial Networks
Variational Autoencoders
Dados Tabulares
Machine Learning
Biology
Generative Adversarial Networks
Variational Autoencoders
Tabular Data
topic Machine Learning
Biologia
Generative Adversarial Networks
Variational Autoencoders
Dados Tabulares
Machine Learning
Biology
Generative Adversarial Networks
Variational Autoencoders
Tabular Data
description Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-09-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/102995
http://hdl.handle.net/10316/102995
TID:203077806
url http://hdl.handle.net/10316/102995
identifier_str_mv TID:203077806
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134092712738816