Aumento Sintético de Dados para Datasets Biológicos

Silva, Beatriz Rodrigues Moreira da

Aumento Sintético de Dados para Datasets Biológicos

Detalhes bibliográficos
Autor(a) principal:	Silva, Beatriz Rodrigues Moreira da
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10316/102995
Resumo:	Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia

Metadados do item

id	RCAP_69fd5392399858b92a6f92b014d2d3b7
oai_identifier_str	oai:estudogeral.uc.pt:10316/102995
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Aumento Sintético de Dados para Datasets BiológicosSynthetic Data Augmentation for Biological DatasetsMachine LearningBiologiaGenerative Adversarial NetworksVariational AutoencodersDados TabularesMachine LearningBiologyGenerative Adversarial NetworksVariational AutoencodersTabular DataDissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e TecnologiaThe pursuit of understanding biological systems, along with their role in health and disease,has driven the life sciences research in the last two centuries. However biological andbiochemical research is very challenging due to the high complexity of biological systems,where thousands of molecules interplay in non-linear ways to orchestrate all the intercellularand intracellular communications occurring in each individual.Fortunately, with the proven success of Artificial Intelligence (AI) in many other areas e.g.,recommender systems, music generation, text translation, and automatic driving, MachineLearning (ML) based decision-making models started to become ubiquitous in the lifesciencedomain as well. However, there is a big difference between applications in biologicaldata and the first ones - the amount of data. Depending on the target domain and theexperimental design, the acquisition of biological data may have several reservations(economic, lack of samples, lack of time, or ethical issues), which ultimately leads to a smalldata size situation, complicating the extraction of viable information.Although the number of biological samples may be immutable, the generation of syntheticdata can compensate for the small size of the data. In this work we propose a frameworkinspired by recent literature, to develop new techniques to augment various biologicaldatasets. TVAE, the Variational Autoencoder exploited in our framework, managed tocapture the most important features of our data and produce entire datasets that exhibitedthe same properties as the original data. The generative models were evaluated in 2 phases,in the first phase the selection of the best possible generative models was made, and in thesecond phase these were applied to real-world biological datasets.In the first phase, the models achieved good results, such as similarities of 92% for datasetsthat contained only 100 samples, and utility values that surpassed the original performancesby 4%. When applied to biological datasets, the models presented equally satisfactoryresults, with similarities from 92% to 100% and utilities that managed to exceed the originalvalues also up to 4% more than the original values.A busca pela compreensão dos sistemas biológicos, juntamente com seu papel na saúde e nadoença, impulsionou a pesquisa das ciências da vida nos últimos dois séculos. No entanto, apesquisa biológica e bioquímica é muito desafiadora devido à alta complexidade dossistemas biológicos, onde milhares de moléculas interagem de maneira não linear paraorquestrar todas as comunicações intercelulares e intracelulares que ocorrem em cadaindivíduo.Felizmente, com o sucesso comprovado da Inteligência Artificial em muitas outras áreas (porexemplo, sistemas de recomendação, geração de música, tradução de texto e conduçãoautomática), os modelos de tomada de decisão baseados em Machine Learning começaram atornar-se omnipresentes no domínio das ciências da vida também. No entanto, existe umagrande diferença entre as aplicações onde a Inteligência Artificial é normalmente aplicada ea área das ciências da vida - a quantidade de dados. Dependendo do domínio-alvo e dodesenho experimental, a aquisição de dados biológicos pode ter várias restrições(económicas, falta de amostras, falta de tempo ou questões éticas) que acabam por levar umasituação de poucos dados, tornando difícil a utilização de modelos de Machine Learning.Embora o número de amostras biológicas possa ser imutável, a geração de dados sintéticospode compensar o pequeno tamanho dos dados. Neste trabalho propomos um frameworkinspirada na literatura recente, para desenvolver novas técnicas para aumentar váriosconjuntos de dados biológicos. O TVAE, o Variational Autoencoder explorado na nossaframework, conseguiu capturar característica mais importantes dos nossos dados e produzirdatasets inteiros que exibiam as mesmas propriedades dos dados originais. Os modelosgenerativos foram avaliados em 2 fases, na primeira fase foi feita a seleção dos melhoresmodelos generativos possíveis, e na segunda fase estes foram aplicados a datasets biológicosdo mundo real.Na primeira fase os modelos alcançaram bons resultados, tais como similaridades de 92%para datasets que continham apenas 100 amostras, e valores de utilidade que superaram asperformances originais em 4%. Quando aplicados a datasets biológicos os modelosapresentaram resultados igualmente satisfatórios, com similaridades de 92% até 100% eutilidades que conseguiram ultrapassar os valores originais também até 4% mais que osvalores originais.FCT2022-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102995http://hdl.handle.net/10316/102995TID:203077806engSilva, Beatriz Rodrigues Moreira dainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-10-19T20:36:16Zoai:estudogeral.uc.pt:10316/102995Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:52.641024Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Aumento Sintético de Dados para Datasets Biológicos Synthetic Data Augmentation for Biological Datasets
title	Aumento Sintético de Dados para Datasets Biológicos
spellingShingle	Aumento Sintético de Dados para Datasets Biológicos Silva, Beatriz Rodrigues Moreira da Machine Learning Biologia Generative Adversarial Networks Variational Autoencoders Dados Tabulares Machine Learning Biology Generative Adversarial Networks Variational Autoencoders Tabular Data
title_short	Aumento Sintético de Dados para Datasets Biológicos
title_full	Aumento Sintético de Dados para Datasets Biológicos
title_fullStr	Aumento Sintético de Dados para Datasets Biológicos
title_full_unstemmed	Aumento Sintético de Dados para Datasets Biológicos
title_sort	Aumento Sintético de Dados para Datasets Biológicos
author	Silva, Beatriz Rodrigues Moreira da
author_facet	Silva, Beatriz Rodrigues Moreira da
author_role	author
dc.contributor.author.fl_str_mv	Silva, Beatriz Rodrigues Moreira da
dc.subject.por.fl_str_mv	Machine Learning Biologia Generative Adversarial Networks Variational Autoencoders Dados Tabulares Machine Learning Biology Generative Adversarial Networks Variational Autoencoders Tabular Data
topic	Machine Learning Biologia Generative Adversarial Networks Variational Autoencoders Dados Tabulares Machine Learning Biology Generative Adversarial Networks Variational Autoencoders Tabular Data
description	Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
publishDate	2022
dc.date.none.fl_str_mv	2022-09-21
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10316/102995 http://hdl.handle.net/10316/102995 TID:203077806
url	http://hdl.handle.net/10316/102995
identifier_str_mv	TID:203077806
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134092712738816

Aumento Sintético de Dados para Datasets Biológicos

Registros relacionados