Aplicação do MapReduce na análise de mutações gênicas de pacientes

Detalhes bibliográficos
Autor(a) principal: Reckziegel Filho, Bruno
Data de Publicação: 2013
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/77306
Resumo: O avanço obtido com o desenvolvimento de técnicas rápidas para o sequenciamento de DNA e a comercialização de máquinas sequenciadoras, permitiram vários progressos na área da genética médica. Porém, devido à grande quantia de dados produzidos por tais máquinas, métodos e programas que façam a análise de sequenciamento eficientemente e em um curto espaço de tempo são indispensáveis. Além disso, aplicações que façam o diagnóstico clínico de pacientes são vistas com extremo interese por parte de pesquisadores e médicos. O MapReduce é um modelo de computação intensiva em dados que possibilita o tratamento de dados intensivos em um sistema de arquivos distribuído, além de abstrair o paralelismo de tarefas, através do uso de duas funções básicas (Map e Reduce), e permitir o controle de falhas. Considerando a inexistência de dependência entre tais dados, arquivos longos de todos tipos são bem aceitos para serem analisados neste contexto, sendo desmembrados em tamanhos menores e manipulados por diversas máquinas. Portanto, o uso desse modelo acaba se tornando uma possível solução viável para o propósito de análise dos dados produzidos por sequenciadores. Considerando tais fatos, este trabalho de conclusão de graduação objetivou o desenvolvimento de um aplicativo MR , em conjunto com pesquisadores do Grupo de Processamento Paralelo e Distribuído (GPPD) da Universidade Federal do Rio Grande do Sul e pesquisadores do Hospital de Clínica de Porto Alegre (HCPA), que auxilie no diagnóstico clínico de pacientes através da automatização da análise das sequências genéticas desses pacientes (providas por máquinas sequenciadoras) e que vise a criação de uma solução escalável, considerando esse grande volume de dados a ser analisado.
id UFRGS-2_aba72efd1174dd1a708761efb7580a71
oai_identifier_str oai:www.lume.ufrgs.br:10183/77306
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Reckziegel Filho, BrunoGeyer, Claudio Fernando Resin2013-08-23T01:47:02Z2013http://hdl.handle.net/10183/77306000896370O avanço obtido com o desenvolvimento de técnicas rápidas para o sequenciamento de DNA e a comercialização de máquinas sequenciadoras, permitiram vários progressos na área da genética médica. Porém, devido à grande quantia de dados produzidos por tais máquinas, métodos e programas que façam a análise de sequenciamento eficientemente e em um curto espaço de tempo são indispensáveis. Além disso, aplicações que façam o diagnóstico clínico de pacientes são vistas com extremo interese por parte de pesquisadores e médicos. O MapReduce é um modelo de computação intensiva em dados que possibilita o tratamento de dados intensivos em um sistema de arquivos distribuído, além de abstrair o paralelismo de tarefas, através do uso de duas funções básicas (Map e Reduce), e permitir o controle de falhas. Considerando a inexistência de dependência entre tais dados, arquivos longos de todos tipos são bem aceitos para serem analisados neste contexto, sendo desmembrados em tamanhos menores e manipulados por diversas máquinas. Portanto, o uso desse modelo acaba se tornando uma possível solução viável para o propósito de análise dos dados produzidos por sequenciadores. Considerando tais fatos, este trabalho de conclusão de graduação objetivou o desenvolvimento de um aplicativo MR , em conjunto com pesquisadores do Grupo de Processamento Paralelo e Distribuído (GPPD) da Universidade Federal do Rio Grande do Sul e pesquisadores do Hospital de Clínica de Porto Alegre (HCPA), que auxilie no diagnóstico clínico de pacientes através da automatização da análise das sequências genéticas desses pacientes (providas por máquinas sequenciadoras) e que vise a criação de uma solução escalável, considerando esse grande volume de dados a ser analisado.The advance obtained with the development of fast DNA sequencing techniques and the commercialization of sequencing machines allowed the progress of many researches in the Medical Genetics area. However, due to the big quantity of data produced by these machines, the development of methods and programs that can analyse these data efficiently and rapidly is required. Besides, diagnosis applications are viewed with extreme interest by doctors and researchers. MapReduce is a data-intensive computing model that handles big volume of data in a distributed file system, abstracting the parallelism of tasks over these data using two basic functions (Map and Reduce) and creating a fault-tolerant system. It provides support for Big files from all types of formats, dividing these files in small pieces and distributing them to the machines being used by the architecture. Therefore, this computing model can offer a good solution to the analysis of the data volume generated by sequencing machines. Considering these facts, the objective in this bachelor work is to develop an MR application(supported by GPPD and HCPA researchers) to assist in the clinic diagnosis of patients automatizing the analysis of the genetic sequences from these patients (provided by sequencing machines) and trying to create a scalable solution considering the great amount of data to be analyzed.application/pdfporInformática médicaProcessamento paraleloMapReduceData-intensive computingBioinformaticsMedical genetics analysisAplicação do MapReduce na análise de mutações gênicas de pacientesApplication of mapreduce in the analysis of genetic mutations in patients info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2013Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000896370.pdf000896370.pdfTexto completoapplication/pdf1080956http://www.lume.ufrgs.br/bitstream/10183/77306/1/000896370.pdf8e630dc3923b17babc080025e93dedf2MD51TEXT000896370.pdf.txt000896370.pdf.txtExtracted Texttext/plain68156http://www.lume.ufrgs.br/bitstream/10183/77306/2/000896370.pdf.txt52677a9e73feb26a0361810f55410ce9MD52THUMBNAIL000896370.pdf.jpg000896370.pdf.jpgGenerated Thumbnailimage/jpeg987http://www.lume.ufrgs.br/bitstream/10183/77306/3/000896370.pdf.jpg58b57c6609d3eb8d6e263ab665af3bd5MD5310183/773062018-10-17 07:29:19.768oai:www.lume.ufrgs.br:10183/77306Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-17T10:29:19Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Aplicação do MapReduce na análise de mutações gênicas de pacientes
dc.title.alternative.en.fl_str_mv Application of mapreduce in the analysis of genetic mutations in patients
title Aplicação do MapReduce na análise de mutações gênicas de pacientes
spellingShingle Aplicação do MapReduce na análise de mutações gênicas de pacientes
Reckziegel Filho, Bruno
Informática médica
Processamento paralelo
MapReduce
Data-intensive computing
Bioinformatics
Medical genetics analysis
title_short Aplicação do MapReduce na análise de mutações gênicas de pacientes
title_full Aplicação do MapReduce na análise de mutações gênicas de pacientes
title_fullStr Aplicação do MapReduce na análise de mutações gênicas de pacientes
title_full_unstemmed Aplicação do MapReduce na análise de mutações gênicas de pacientes
title_sort Aplicação do MapReduce na análise de mutações gênicas de pacientes
author Reckziegel Filho, Bruno
author_facet Reckziegel Filho, Bruno
author_role author
dc.contributor.author.fl_str_mv Reckziegel Filho, Bruno
dc.contributor.advisor1.fl_str_mv Geyer, Claudio Fernando Resin
contributor_str_mv Geyer, Claudio Fernando Resin
dc.subject.por.fl_str_mv Informática médica
Processamento paralelo
topic Informática médica
Processamento paralelo
MapReduce
Data-intensive computing
Bioinformatics
Medical genetics analysis
dc.subject.eng.fl_str_mv MapReduce
Data-intensive computing
Bioinformatics
Medical genetics analysis
description O avanço obtido com o desenvolvimento de técnicas rápidas para o sequenciamento de DNA e a comercialização de máquinas sequenciadoras, permitiram vários progressos na área da genética médica. Porém, devido à grande quantia de dados produzidos por tais máquinas, métodos e programas que façam a análise de sequenciamento eficientemente e em um curto espaço de tempo são indispensáveis. Além disso, aplicações que façam o diagnóstico clínico de pacientes são vistas com extremo interese por parte de pesquisadores e médicos. O MapReduce é um modelo de computação intensiva em dados que possibilita o tratamento de dados intensivos em um sistema de arquivos distribuído, além de abstrair o paralelismo de tarefas, através do uso de duas funções básicas (Map e Reduce), e permitir o controle de falhas. Considerando a inexistência de dependência entre tais dados, arquivos longos de todos tipos são bem aceitos para serem analisados neste contexto, sendo desmembrados em tamanhos menores e manipulados por diversas máquinas. Portanto, o uso desse modelo acaba se tornando uma possível solução viável para o propósito de análise dos dados produzidos por sequenciadores. Considerando tais fatos, este trabalho de conclusão de graduação objetivou o desenvolvimento de um aplicativo MR , em conjunto com pesquisadores do Grupo de Processamento Paralelo e Distribuído (GPPD) da Universidade Federal do Rio Grande do Sul e pesquisadores do Hospital de Clínica de Porto Alegre (HCPA), que auxilie no diagnóstico clínico de pacientes através da automatização da análise das sequências genéticas desses pacientes (providas por máquinas sequenciadoras) e que vise a criação de uma solução escalável, considerando esse grande volume de dados a ser analisado.
publishDate 2013
dc.date.accessioned.fl_str_mv 2013-08-23T01:47:02Z
dc.date.issued.fl_str_mv 2013
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/77306
dc.identifier.nrb.pt_BR.fl_str_mv 000896370
url http://hdl.handle.net/10183/77306
identifier_str_mv 000896370
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/77306/1/000896370.pdf
http://www.lume.ufrgs.br/bitstream/10183/77306/2/000896370.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/77306/3/000896370.pdf.jpg
bitstream.checksum.fl_str_mv 8e630dc3923b17babc080025e93dedf2
52677a9e73feb26a0361810f55410ce9
58b57c6609d3eb8d6e263ab665af3bd5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447111031848960