Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada

Leite, André Francisco Oliveira

Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada

Detalhes bibliográficos
Autor(a) principal:	Leite, André Francisco Oliveira
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://hdl.handle.net/1822/77879
Resumo:	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação

Metadados do item

id	RCAP_da292cdf21b4fe1af0cfa522473f4128
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/77879
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizadaBig genome warehouse: integrating heterogeneous biological data for personalized medicineBig data warehouseGenoma humanoHadoopHiveNoSQLHuman genomeEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoAtualmente, com o avanço das tecnologias de sequenciação de DNA, a quantidade de dados produzida pela comunidade científica sobre genoma humano tem aumentado de forma exponencial tornando-se mais fácil e barata a sua produção do que o seu armazenamento. Isto revolucionou a forma como agora se compreende a biologia humana e melhorou o estudo sobre como mudanças (variações) no DNA estão envolvidas no risco de desenvolver certas doenças. Porém, para serem revelados novos conhecimentos sobre o genoma, os métodos de análise tradicional não são suficientes nem escaláveis. Esta explosão de dados genómicos é acompanhada com a ascensão do conceito Big Data, grandes volumes de dados disponíveis em vários níveis de complexidade, gerados a diferentes velocidades e muitas vezes sem estrutura e organização. Neste sentido, o processamento convencional de Big Data pode ser aplicado a este domínio genómico, a fim de resolver estes problemas relacionados à heterogeneidade, limpeza e integração de dados. Novas técnicas e tecnologias de processamento de dados surgiram para processar dados de múltiplos formatos e estruturas sem se preocuparem com as restrições associadas a sistemas de base de dados relacionais, destacando-se os sistemas de ficheiros distribuídos, tal como o Hadoop Distributed File System, paradigmas de processamento de dados distribuídos como Hadoop MapReduce e Spark e as base de dados NoSQL, como o MongoDB ou HBase. Para a integração de dados de múltiplas fontes, o Hive é usado como mecanismo de armazenamento distribuído fornecendo capacidade de data warehousing. Esta dissertação adotou técnicas e tecnologias Big Data para a integração de dados genómicos num Big Data Warehouse, designado por Big Genome Warehouse, assente num modelo de dados capaz de integrar diversas fontes de dados sobre o genoma. Com a implementação deste sistema Big Data procura-se responder a questões sobre doenças do foro cardíaco através da implementação de painéis analíticos capazes de ajudar investigadores ou profissionais de saúde na deteção de doenças do foro do miocárdio. A avaliação do trabalho realizado foi concretizada através da verificação do tipo de análises que tais painéis analíticos proporcionam, sendo capazes de dar resposta às questões colocadas pelos utilizadores deste domínio de aplicação.Currently, with the advancement of DNA sequencing technologies, the amount of data produced about the human genome by the scientific community has been increasing exponentially, making it easier and cheaper to produce this data than to store it. This has revolutionized the way how human biology is now understood and has improved the study about the changes (variations) in DNA are involved in the risk of developing certain diseases. However, to reveal new knowledge about the genome, traditional analysis methods are neither sufficient nor scalable. This explosion of genomic data is accompanied by the rise of the Big Data concept, large volumes of data available at varying levels of complexity, generated at different speeds and often without structure and organization. In this sense, conventional Big Data processing can be applied to this genomic domain in order to solve these problems related to heterogeneity, cleanliness and data integration. New data processing techniques and technologies have emerged to process data of multiple formats and structures without worrying about the constraints associated with relational database systems, standing out distributed file systems such as the Hadoop Distributed File System, distributed data processing paradigms like Hadoop MapReduce and Spark, and NoSQL databases such as MongoDB or HBase. For multi-source data integration, Hive is used as a distributed storage engine providing data warehousing capability. This dissertation seeks the adoption of Big Data techniques and technologies by integrating this genomic data into a Big Data Warehouse, called Big Genome Warehouse, based on a data model capable of integrating various genome data sources. The implementation of this Big Data system seeks to answer questions about heart diseases by implementing analytical panels capable of assisting researchers or health professionals in detecting cardiomyopathies. The evaluation of this work was carried out through the verification of the type of analysis that such analytical panels provide, able to answer the questions posed by the users of this application domain.Santos, Maribel YasminaCosta, Carlos Filipe Machado SilvaUniversidade do MinhoLeite, André Francisco Oliveira20202020-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/77879por202795349info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:33:53Zoai:repositorium.sdum.uminho.pt:1822/77879Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:29:28.900141Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada Big genome warehouse: integrating heterogeneous biological data for personalized medicine
title	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
spellingShingle	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada Leite, André Francisco Oliveira Big data warehouse Genoma humano Hadoop Hive NoSQL Human genome Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_full	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_fullStr	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_full_unstemmed	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_sort	Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
author	Leite, André Francisco Oliveira
author_facet	Leite, André Francisco Oliveira
author_role	author
dc.contributor.none.fl_str_mv	Santos, Maribel Yasmina Costa, Carlos Filipe Machado Silva Universidade do Minho
dc.contributor.author.fl_str_mv	Leite, André Francisco Oliveira
dc.subject.por.fl_str_mv	Big data warehouse Genoma humano Hadoop Hive NoSQL Human genome Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic	Big data warehouse Genoma humano Hadoop Hive NoSQL Human genome Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate	2020
dc.date.none.fl_str_mv	2020 2020-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1822/77879
url	https://hdl.handle.net/1822/77879
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	202795349
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799132795256176640

Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada

Registros relacionados