Aferindo performance na geração automática de tesauros com técnicas de bigdata

Detalhes bibliográficos
Autor(a) principal: Mignoni, Matheus
Data de Publicação: 2017
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/168935
Resumo: Este trabalho contempla, através da utilização de grandes massas de dados (Big Data) e cluster de computadores, os benefícios que as técnicas de computação distribuída podem prover no processamento de linguagens naturais (PLN), mais especificamente, na geração automática de Tesauros. Baseando-se em um pacote de programas existentes para geração de modelos semânticos distribucionais, que suportavam apenas a utilização de múltiplas threads, foi desenvolvido uma implementação, a partir do Framework Apache Flink, capaz de usufruir das vantagens existentes em um ambimente distribuído com múltiplas máquinas trabalhando em paralelo. A intenção da nova implementação é aprimorar a qualidade dos resultados e diminuir o tempo necessário para computação do mesmos, em comparação com simples implementações sequenciais. Os resultados obtidos mostram que alguns algoritmos obtêm ganhos relevantes e outros nem tanto. Foi concluído que a plataforma BigData pode auxiliar na geração de Tesauros, aumentando a capacidade de processameto de tarefas, antes pouco paralelizáveis, sem implicar em custo de codificação muito elevado para o programador.
id UFRGS-2_33b2b961206793c68fd9b2158b4fb2fa
oai_identifier_str oai:www.lume.ufrgs.br:10183/168935
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Mignoni, MatheusGeyer, Claudio Fernando ResinVillavicencio, Aline2017-09-28T02:27:30Z2017http://hdl.handle.net/10183/168935001048286Este trabalho contempla, através da utilização de grandes massas de dados (Big Data) e cluster de computadores, os benefícios que as técnicas de computação distribuída podem prover no processamento de linguagens naturais (PLN), mais especificamente, na geração automática de Tesauros. Baseando-se em um pacote de programas existentes para geração de modelos semânticos distribucionais, que suportavam apenas a utilização de múltiplas threads, foi desenvolvido uma implementação, a partir do Framework Apache Flink, capaz de usufruir das vantagens existentes em um ambimente distribuído com múltiplas máquinas trabalhando em paralelo. A intenção da nova implementação é aprimorar a qualidade dos resultados e diminuir o tempo necessário para computação do mesmos, em comparação com simples implementações sequenciais. Os resultados obtidos mostram que alguns algoritmos obtêm ganhos relevantes e outros nem tanto. Foi concluído que a plataforma BigData pode auxiliar na geração de Tesauros, aumentando a capacidade de processameto de tarefas, antes pouco paralelizáveis, sem implicar em custo de codificação muito elevado para o programador.This document present, through the use of large data masses (Big Data) and cluster of computers, the benefits of distributed computing techniques can provide in the processing of natural languages processing(NLP), more specifically in the automatic generation of Thesaurus. Based on a package of existing programs for generation of distributional semantic models, which only supported the use of multiple threads, an implementation was developed, from the Apache Flink Framework, able to take advantage of existing advantages in a distributed environment with multiple machines Working in parallel. The new implementation intent to improve the quality of the results and decrease the time required to compute them, compared to simple sequential implementations. The results obtained show that some algorithms obtain relevant gains and others not so much. It was concluded that the BigData platform is undoubtedly the future of computing large amounts of data, however, there are spaces for optimizations.application/pdfporTesauroBig dataApache flinkThesauriPerformanceBig DataAferindo performance na geração automática de tesauros com técnicas de bigdataAutomatic generation of thesaurus with bigdata techniques info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2017Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001048286.pdf001048286.pdfTexto completoapplication/pdf271965http://www.lume.ufrgs.br/bitstream/10183/168935/1/001048286.pdf20281789b327fd7356afdff113e4f8a3MD51TEXT001048286.pdf.txt001048286.pdf.txtExtracted Texttext/plain46737http://www.lume.ufrgs.br/bitstream/10183/168935/2/001048286.pdf.txt93208813463268fae418022de35ebed8MD52THUMBNAIL001048286.pdf.jpg001048286.pdf.jpgGenerated Thumbnailimage/jpeg1043http://www.lume.ufrgs.br/bitstream/10183/168935/3/001048286.pdf.jpg9051f512eeb291422a2d2d99b9eb077cMD5310183/1689352018-10-29 08:01:09.402oai:www.lume.ufrgs.br:10183/168935Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-29T11:01:09Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Aferindo performance na geração automática de tesauros com técnicas de bigdata
dc.title.alternative.en.fl_str_mv Automatic generation of thesaurus with bigdata techniques
title Aferindo performance na geração automática de tesauros com técnicas de bigdata
spellingShingle Aferindo performance na geração automática de tesauros com técnicas de bigdata
Mignoni, Matheus
Tesauro
Big data
Apache flink
Thesauri
Performance
Big Data
title_short Aferindo performance na geração automática de tesauros com técnicas de bigdata
title_full Aferindo performance na geração automática de tesauros com técnicas de bigdata
title_fullStr Aferindo performance na geração automática de tesauros com técnicas de bigdata
title_full_unstemmed Aferindo performance na geração automática de tesauros com técnicas de bigdata
title_sort Aferindo performance na geração automática de tesauros com técnicas de bigdata
author Mignoni, Matheus
author_facet Mignoni, Matheus
author_role author
dc.contributor.author.fl_str_mv Mignoni, Matheus
dc.contributor.advisor1.fl_str_mv Geyer, Claudio Fernando Resin
dc.contributor.advisor-co1.fl_str_mv Villavicencio, Aline
contributor_str_mv Geyer, Claudio Fernando Resin
Villavicencio, Aline
dc.subject.por.fl_str_mv Tesauro
Big data
topic Tesauro
Big data
Apache flink
Thesauri
Performance
Big Data
dc.subject.eng.fl_str_mv Apache flink
Thesauri
Performance
Big Data
description Este trabalho contempla, através da utilização de grandes massas de dados (Big Data) e cluster de computadores, os benefícios que as técnicas de computação distribuída podem prover no processamento de linguagens naturais (PLN), mais especificamente, na geração automática de Tesauros. Baseando-se em um pacote de programas existentes para geração de modelos semânticos distribucionais, que suportavam apenas a utilização de múltiplas threads, foi desenvolvido uma implementação, a partir do Framework Apache Flink, capaz de usufruir das vantagens existentes em um ambimente distribuído com múltiplas máquinas trabalhando em paralelo. A intenção da nova implementação é aprimorar a qualidade dos resultados e diminuir o tempo necessário para computação do mesmos, em comparação com simples implementações sequenciais. Os resultados obtidos mostram que alguns algoritmos obtêm ganhos relevantes e outros nem tanto. Foi concluído que a plataforma BigData pode auxiliar na geração de Tesauros, aumentando a capacidade de processameto de tarefas, antes pouco paralelizáveis, sem implicar em custo de codificação muito elevado para o programador.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-09-28T02:27:30Z
dc.date.issued.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/168935
dc.identifier.nrb.pt_BR.fl_str_mv 001048286
url http://hdl.handle.net/10183/168935
identifier_str_mv 001048286
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/168935/1/001048286.pdf
http://www.lume.ufrgs.br/bitstream/10183/168935/2/001048286.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/168935/3/001048286.pdf.jpg
bitstream.checksum.fl_str_mv 20281789b327fd7356afdff113e4f8a3
93208813463268fae418022de35ebed8
9051f512eeb291422a2d2d99b9eb077c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447203543515136