Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada

Detalhes bibliográficos
Autor(a) principal: Leite, André Francisco Oliveira
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/77879
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_da292cdf21b4fe1af0cfa522473f4128
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/77879
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizadaBig genome warehouse: integrating heterogeneous biological data for personalized medicineBig data warehouseGenoma humanoHadoopHiveNoSQLHuman genomeEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoAtualmente, com o avanço das tecnologias de sequenciação de DNA, a quantidade de dados produzida pela comunidade científica sobre genoma humano tem aumentado de forma exponencial tornando-se mais fácil e barata a sua produção do que o seu armazenamento. Isto revolucionou a forma como agora se compreende a biologia humana e melhorou o estudo sobre como mudanças (variações) no DNA estão envolvidas no risco de desenvolver certas doenças. Porém, para serem revelados novos conhecimentos sobre o genoma, os métodos de análise tradicional não são suficientes nem escaláveis. Esta explosão de dados genómicos é acompanhada com a ascensão do conceito Big Data, grandes volumes de dados disponíveis em vários níveis de complexidade, gerados a diferentes velocidades e muitas vezes sem estrutura e organização. Neste sentido, o processamento convencional de Big Data pode ser aplicado a este domínio genómico, a fim de resolver estes problemas relacionados à heterogeneidade, limpeza e integração de dados. Novas técnicas e tecnologias de processamento de dados surgiram para processar dados de múltiplos formatos e estruturas sem se preocuparem com as restrições associadas a sistemas de base de dados relacionais, destacando-se os sistemas de ficheiros distribuídos, tal como o Hadoop Distributed File System, paradigmas de processamento de dados distribuídos como Hadoop MapReduce e Spark e as base de dados NoSQL, como o MongoDB ou HBase. Para a integração de dados de múltiplas fontes, o Hive é usado como mecanismo de armazenamento distribuído fornecendo capacidade de data warehousing. Esta dissertação adotou técnicas e tecnologias Big Data para a integração de dados genómicos num Big Data Warehouse, designado por Big Genome Warehouse, assente num modelo de dados capaz de integrar diversas fontes de dados sobre o genoma. Com a implementação deste sistema Big Data procura-se responder a questões sobre doenças do foro cardíaco através da implementação de painéis analíticos capazes de ajudar investigadores ou profissionais de saúde na deteção de doenças do foro do miocárdio. A avaliação do trabalho realizado foi concretizada através da verificação do tipo de análises que tais painéis analíticos proporcionam, sendo capazes de dar resposta às questões colocadas pelos utilizadores deste domínio de aplicação.Currently, with the advancement of DNA sequencing technologies, the amount of data produced about the human genome by the scientific community has been increasing exponentially, making it easier and cheaper to produce this data than to store it. This has revolutionized the way how human biology is now understood and has improved the study about the changes (variations) in DNA are involved in the risk of developing certain diseases. However, to reveal new knowledge about the genome, traditional analysis methods are neither sufficient nor scalable. This explosion of genomic data is accompanied by the rise of the Big Data concept, large volumes of data available at varying levels of complexity, generated at different speeds and often without structure and organization. In this sense, conventional Big Data processing can be applied to this genomic domain in order to solve these problems related to heterogeneity, cleanliness and data integration. New data processing techniques and technologies have emerged to process data of multiple formats and structures without worrying about the constraints associated with relational database systems, standing out distributed file systems such as the Hadoop Distributed File System, distributed data processing paradigms like Hadoop MapReduce and Spark, and NoSQL databases such as MongoDB or HBase. For multi-source data integration, Hive is used as a distributed storage engine providing data warehousing capability. This dissertation seeks the adoption of Big Data techniques and technologies by integrating this genomic data into a Big Data Warehouse, called Big Genome Warehouse, based on a data model capable of integrating various genome data sources. The implementation of this Big Data system seeks to answer questions about heart diseases by implementing analytical panels capable of assisting researchers or health professionals in detecting cardiomyopathies. The evaluation of this work was carried out through the verification of the type of analysis that such analytical panels provide, able to answer the questions posed by the users of this application domain.Santos, Maribel YasminaCosta, Carlos Filipe Machado SilvaUniversidade do MinhoLeite, André Francisco Oliveira20202020-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/77879por202795349info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:33:53Zoai:repositorium.sdum.uminho.pt:1822/77879Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:29:28.900141Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
Big genome warehouse: integrating heterogeneous biological data for personalized medicine
title Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
spellingShingle Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
Leite, André Francisco Oliveira
Big data warehouse
Genoma humano
Hadoop
Hive
NoSQL
Human genome
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_full Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_fullStr Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_full_unstemmed Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
title_sort Big genome warehouse: integração de dados biológicos heterogéneos para a medicina personalizada
author Leite, André Francisco Oliveira
author_facet Leite, André Francisco Oliveira
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Costa, Carlos Filipe Machado Silva
Universidade do Minho
dc.contributor.author.fl_str_mv Leite, André Francisco Oliveira
dc.subject.por.fl_str_mv Big data warehouse
Genoma humano
Hadoop
Hive
NoSQL
Human genome
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Big data warehouse
Genoma humano
Hadoop
Hive
NoSQL
Human genome
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2020
dc.date.none.fl_str_mv 2020
2020-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/77879
url https://hdl.handle.net/1822/77879
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202795349
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132795256176640