Análise comparativa de ferramentas de extração de metadados em artigos científicos

Detalhes bibliográficos
Autor(a) principal: José Alberto Grossi Júnior
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUBD-A8SH9N
Resumo: São inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada.
id UFMG_d738a078a43472a48ff65c971e8636a6
oai_identifier_str oai:repositorio.ufmg.br:1843/BUBD-A8SH9N
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Marcello Peixoto BaxBeatriz Valadares CendonRenata Maria Abrantes Baracho PortoMax Cirino de MattosJosé Alberto Grossi Júnior2019-08-13T09:26:19Z2019-08-13T09:26:19Z2015-11-27http://hdl.handle.net/1843/BUBD-A8SH9NSão inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada.Currently we can find numerous tools to extract metadata from scientific papers, each one with its own particularity, technology and used techniques. However, with the increasing scientific production and the numerous publishers, events and conferences, a large part of papers still remain without an effective automated metadata extraction, hindering theknowledge dissemination and mainly the electronic search for these documents. The present work compares the correct metadata extraction from some preselected tools - Cermine, CiteSeer, CrossRef and ParsCit - using an empirical experiment with a set of scientific papers. This set covers different knowledge areas, conferences and different layouts. The experiment was made inside custom environments according the technologies each tool needs, allowing all papers to have their metadata extracted by each one and comparing results one by one. Thereby, according the presented results, its possible to identify the behavior of each tool related to the right metadata extraction. Except for the CrossRef tool, all others obtained results over 60%, including Cermine with to 86.83%. Moreover, the major weaknesses were identified for each tool; points to be fixed; metadata fields with better extraction results. Furthermore its also presented a reliability index, that allows to establish a grade for each tool. This grade is calculated based on the metadata extraction results using the selected set of papers.Universidade Federal de Minas GeraisUFMGRecuperação da informaçãoMetadadosCiência da InformaçãoExtração de dados em artigosExtração de metadadosArtigos científicosAnálise comparativa de ferramentas de extração de metadados em artigos científicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALmasters_1.0.0.pdfapplication/pdf4894425https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/1/masters_1.0.0.pdf4f8bf2d4add1c70d3b8f9e563da258d8MD51TEXTmasters_1.0.0.pdf.txtmasters_1.0.0.pdf.txtExtracted texttext/plain174473https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/2/masters_1.0.0.pdf.txtf31b0bb7e23aba795b504eea54be7174MD521843/BUBD-A8SH9N2019-11-14 22:17:00.22oai:repositorio.ufmg.br:1843/BUBD-A8SH9NRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-15T01:17Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Análise comparativa de ferramentas de extração de metadados em artigos científicos
title Análise comparativa de ferramentas de extração de metadados em artigos científicos
spellingShingle Análise comparativa de ferramentas de extração de metadados em artigos científicos
José Alberto Grossi Júnior
Extração de dados em artigos
Extração de metadados
Artigos científicos
Recuperação da informação
Metadados
Ciência da Informação
title_short Análise comparativa de ferramentas de extração de metadados em artigos científicos
title_full Análise comparativa de ferramentas de extração de metadados em artigos científicos
title_fullStr Análise comparativa de ferramentas de extração de metadados em artigos científicos
title_full_unstemmed Análise comparativa de ferramentas de extração de metadados em artigos científicos
title_sort Análise comparativa de ferramentas de extração de metadados em artigos científicos
author José Alberto Grossi Júnior
author_facet José Alberto Grossi Júnior
author_role author
dc.contributor.advisor1.fl_str_mv Marcello Peixoto Bax
dc.contributor.referee1.fl_str_mv Beatriz Valadares Cendon
dc.contributor.referee2.fl_str_mv Renata Maria Abrantes Baracho Porto
dc.contributor.referee3.fl_str_mv Max Cirino de Mattos
dc.contributor.author.fl_str_mv José Alberto Grossi Júnior
contributor_str_mv Marcello Peixoto Bax
Beatriz Valadares Cendon
Renata Maria Abrantes Baracho Porto
Max Cirino de Mattos
dc.subject.por.fl_str_mv Extração de dados em artigos
Extração de metadados
Artigos científicos
topic Extração de dados em artigos
Extração de metadados
Artigos científicos
Recuperação da informação
Metadados
Ciência da Informação
dc.subject.other.pt_BR.fl_str_mv Recuperação da informação
Metadados
Ciência da Informação
description São inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada.
publishDate 2015
dc.date.issued.fl_str_mv 2015-11-27
dc.date.accessioned.fl_str_mv 2019-08-13T09:26:19Z
dc.date.available.fl_str_mv 2019-08-13T09:26:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUBD-A8SH9N
url http://hdl.handle.net/1843/BUBD-A8SH9N
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/1/masters_1.0.0.pdf
https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/2/masters_1.0.0.pdf.txt
bitstream.checksum.fl_str_mv 4f8bf2d4add1c70d3b8f9e563da258d8
f31b0bb7e23aba795b504eea54be7174
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589559111385088