Aumento Sintético de Dados para Datasets Biológicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/102995 |
Resumo: | Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_69fd5392399858b92a6f92b014d2d3b7 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/102995 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Aumento Sintético de Dados para Datasets BiológicosSynthetic Data Augmentation for Biological DatasetsMachine LearningBiologiaGenerative Adversarial NetworksVariational AutoencodersDados TabularesMachine LearningBiologyGenerative Adversarial NetworksVariational AutoencodersTabular DataDissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e TecnologiaThe pursuit of understanding biological systems, along with their role in health and disease,has driven the life sciences research in the last two centuries. However biological andbiochemical research is very challenging due to the high complexity of biological systems,where thousands of molecules interplay in non-linear ways to orchestrate all the intercellularand intracellular communications occurring in each individual.Fortunately, with the proven success of Artificial Intelligence (AI) in many other areas e.g.,recommender systems, music generation, text translation, and automatic driving, MachineLearning (ML) based decision-making models started to become ubiquitous in the lifesciencedomain as well. However, there is a big difference between applications in biologicaldata and the first ones - the amount of data. Depending on the target domain and theexperimental design, the acquisition of biological data may have several reservations(economic, lack of samples, lack of time, or ethical issues), which ultimately leads to a smalldata size situation, complicating the extraction of viable information.Although the number of biological samples may be immutable, the generation of syntheticdata can compensate for the small size of the data. In this work we propose a frameworkinspired by recent literature, to develop new techniques to augment various biologicaldatasets. TVAE, the Variational Autoencoder exploited in our framework, managed tocapture the most important features of our data and produce entire datasets that exhibitedthe same properties as the original data. The generative models were evaluated in 2 phases,in the first phase the selection of the best possible generative models was made, and in thesecond phase these were applied to real-world biological datasets.In the first phase, the models achieved good results, such as similarities of 92% for datasetsthat contained only 100 samples, and utility values that surpassed the original performancesby 4%. When applied to biological datasets, the models presented equally satisfactoryresults, with similarities from 92% to 100% and utilities that managed to exceed the originalvalues also up to 4% more than the original values.A busca pela compreensão dos sistemas biológicos, juntamente com seu papel na saúde e nadoença, impulsionou a pesquisa das ciências da vida nos últimos dois séculos. No entanto, apesquisa biológica e bioquímica é muito desafiadora devido à alta complexidade dossistemas biológicos, onde milhares de moléculas interagem de maneira não linear paraorquestrar todas as comunicações intercelulares e intracelulares que ocorrem em cadaindivíduo.Felizmente, com o sucesso comprovado da Inteligência Artificial em muitas outras áreas (porexemplo, sistemas de recomendação, geração de música, tradução de texto e conduçãoautomática), os modelos de tomada de decisão baseados em Machine Learning começaram atornar-se omnipresentes no domínio das ciências da vida também. No entanto, existe umagrande diferença entre as aplicações onde a Inteligência Artificial é normalmente aplicada ea área das ciências da vida - a quantidade de dados. Dependendo do domínio-alvo e dodesenho experimental, a aquisição de dados biológicos pode ter várias restrições(económicas, falta de amostras, falta de tempo ou questões éticas) que acabam por levar umasituação de poucos dados, tornando difícil a utilização de modelos de Machine Learning.Embora o número de amostras biológicas possa ser imutável, a geração de dados sintéticospode compensar o pequeno tamanho dos dados. Neste trabalho propomos um frameworkinspirada na literatura recente, para desenvolver novas técnicas para aumentar váriosconjuntos de dados biológicos. O TVAE, o Variational Autoencoder explorado na nossaframework, conseguiu capturar característica mais importantes dos nossos dados e produzirdatasets inteiros que exibiam as mesmas propriedades dos dados originais. Os modelosgenerativos foram avaliados em 2 fases, na primeira fase foi feita a seleção dos melhoresmodelos generativos possíveis, e na segunda fase estes foram aplicados a datasets biológicosdo mundo real.Na primeira fase os modelos alcançaram bons resultados, tais como similaridades de 92%para datasets que continham apenas 100 amostras, e valores de utilidade que superaram asperformances originais em 4%. Quando aplicados a datasets biológicos os modelosapresentaram resultados igualmente satisfatórios, com similaridades de 92% até 100% eutilidades que conseguiram ultrapassar os valores originais também até 4% mais que osvalores originais.FCT2022-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102995http://hdl.handle.net/10316/102995TID:203077806engSilva, Beatriz Rodrigues Moreira dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-10-19T20:36:16Zoai:estudogeral.uc.pt:10316/102995Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:52.641024Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Aumento Sintético de Dados para Datasets Biológicos Synthetic Data Augmentation for Biological Datasets |
title |
Aumento Sintético de Dados para Datasets Biológicos |
spellingShingle |
Aumento Sintético de Dados para Datasets Biológicos Silva, Beatriz Rodrigues Moreira da Machine Learning Biologia Generative Adversarial Networks Variational Autoencoders Dados Tabulares Machine Learning Biology Generative Adversarial Networks Variational Autoencoders Tabular Data |
title_short |
Aumento Sintético de Dados para Datasets Biológicos |
title_full |
Aumento Sintético de Dados para Datasets Biológicos |
title_fullStr |
Aumento Sintético de Dados para Datasets Biológicos |
title_full_unstemmed |
Aumento Sintético de Dados para Datasets Biológicos |
title_sort |
Aumento Sintético de Dados para Datasets Biológicos |
author |
Silva, Beatriz Rodrigues Moreira da |
author_facet |
Silva, Beatriz Rodrigues Moreira da |
author_role |
author |
dc.contributor.author.fl_str_mv |
Silva, Beatriz Rodrigues Moreira da |
dc.subject.por.fl_str_mv |
Machine Learning Biologia Generative Adversarial Networks Variational Autoencoders Dados Tabulares Machine Learning Biology Generative Adversarial Networks Variational Autoencoders Tabular Data |
topic |
Machine Learning Biologia Generative Adversarial Networks Variational Autoencoders Dados Tabulares Machine Learning Biology Generative Adversarial Networks Variational Autoencoders Tabular Data |
description |
Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-09-21 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/102995 http://hdl.handle.net/10316/102995 TID:203077806 |
url |
http://hdl.handle.net/10316/102995 |
identifier_str_mv |
TID:203077806 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134092712738816 |