Análise comparativa de ferramentas de extração de metadados em artigos científicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/BUBD-A8SH9N |
Resumo: | São inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada. |
id |
UFMG_d738a078a43472a48ff65c971e8636a6 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/BUBD-A8SH9N |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Marcello Peixoto BaxBeatriz Valadares CendonRenata Maria Abrantes Baracho PortoMax Cirino de MattosJosé Alberto Grossi Júnior2019-08-13T09:26:19Z2019-08-13T09:26:19Z2015-11-27http://hdl.handle.net/1843/BUBD-A8SH9NSão inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada.Currently we can find numerous tools to extract metadata from scientific papers, each one with its own particularity, technology and used techniques. However, with the increasing scientific production and the numerous publishers, events and conferences, a large part of papers still remain without an effective automated metadata extraction, hindering theknowledge dissemination and mainly the electronic search for these documents. The present work compares the correct metadata extraction from some preselected tools - Cermine, CiteSeer, CrossRef and ParsCit - using an empirical experiment with a set of scientific papers. This set covers different knowledge areas, conferences and different layouts. The experiment was made inside custom environments according the technologies each tool needs, allowing all papers to have their metadata extracted by each one and comparing results one by one. Thereby, according the presented results, its possible to identify the behavior of each tool related to the right metadata extraction. Except for the CrossRef tool, all others obtained results over 60%, including Cermine with to 86.83%. Moreover, the major weaknesses were identified for each tool; points to be fixed; metadata fields with better extraction results. Furthermore its also presented a reliability index, that allows to establish a grade for each tool. This grade is calculated based on the metadata extraction results using the selected set of papers.Universidade Federal de Minas GeraisUFMGRecuperação da informaçãoMetadadosCiência da InformaçãoExtração de dados em artigosExtração de metadadosArtigos científicosAnálise comparativa de ferramentas de extração de metadados em artigos científicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALmasters_1.0.0.pdfapplication/pdf4894425https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/1/masters_1.0.0.pdf4f8bf2d4add1c70d3b8f9e563da258d8MD51TEXTmasters_1.0.0.pdf.txtmasters_1.0.0.pdf.txtExtracted texttext/plain174473https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/2/masters_1.0.0.pdf.txtf31b0bb7e23aba795b504eea54be7174MD521843/BUBD-A8SH9N2019-11-14 22:17:00.22oai:repositorio.ufmg.br:1843/BUBD-A8SH9NRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-15T01:17Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
title |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
spellingShingle |
Análise comparativa de ferramentas de extração de metadados em artigos científicos José Alberto Grossi Júnior Extração de dados em artigos Extração de metadados Artigos científicos Recuperação da informação Metadados Ciência da Informação |
title_short |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
title_full |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
title_fullStr |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
title_full_unstemmed |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
title_sort |
Análise comparativa de ferramentas de extração de metadados em artigos científicos |
author |
José Alberto Grossi Júnior |
author_facet |
José Alberto Grossi Júnior |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Marcello Peixoto Bax |
dc.contributor.referee1.fl_str_mv |
Beatriz Valadares Cendon |
dc.contributor.referee2.fl_str_mv |
Renata Maria Abrantes Baracho Porto |
dc.contributor.referee3.fl_str_mv |
Max Cirino de Mattos |
dc.contributor.author.fl_str_mv |
José Alberto Grossi Júnior |
contributor_str_mv |
Marcello Peixoto Bax Beatriz Valadares Cendon Renata Maria Abrantes Baracho Porto Max Cirino de Mattos |
dc.subject.por.fl_str_mv |
Extração de dados em artigos Extração de metadados Artigos científicos |
topic |
Extração de dados em artigos Extração de metadados Artigos científicos Recuperação da informação Metadados Ciência da Informação |
dc.subject.other.pt_BR.fl_str_mv |
Recuperação da informação Metadados Ciência da Informação |
description |
São inúmeras as ferramentas para extração de metadados em artigos científicos, tendo cada uma sua particularidade, tecnologia e técnicas utilizadas. Porém, com a crescente produção científica e a grande variedade de editoras, eventos e congressos, um número cada vez maior de artigos permanece sem uma extração de metadados eficaz, o que dificulta a disseminação de conhecimento e principalmente a pesquisa eletrônica desses documentos. Este trabalho compara a capacidade de extração de metadados de algumas ferramentas pré-selecionadas - Cermine, CiteSeer, CrossRef e ParsCit - utilizando para isso um experimento empírico com um conjunto de artigos. Esse conjunto abrange diversas áreas do conhecimento, diversos eventos e formatos visuais diferentes. O experimento foi realizado em ambientes pré-configurados de acordo com a característica técnica de cada ferramenta, permitindo que todos os artigos tivessem seus metadados extraídos por cada uma delas e os resultados comparados individualmente. Desta forma, com base nos resultados apresentados, pôde-se identificar o comportamento de cada uma das ferramentas no tocante à sua capacidade de extração correta de metadados. Exceto pela ferramenta CrossRef, todas as demais obtiveram resultados acima de 60%, chegando a 86.83% da ferramenta Cermine. Além disso, foram evidenciadas as principais fragilidades dessas ferramentas; pontos onde seriam necessários ajustes; metadados para os quais se obtém um maior sucesso na extração. Ademais, é apresentado também um índice de confiabilidade, que permite estabelecer para cada ferramenta uma nota. Essa nota é calculada com base nos resultados obtidos na extração de metadados pela seleção de artigos realizada. |
publishDate |
2015 |
dc.date.issued.fl_str_mv |
2015-11-27 |
dc.date.accessioned.fl_str_mv |
2019-08-13T09:26:19Z |
dc.date.available.fl_str_mv |
2019-08-13T09:26:19Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/BUBD-A8SH9N |
url |
http://hdl.handle.net/1843/BUBD-A8SH9N |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/1/masters_1.0.0.pdf https://repositorio.ufmg.br/bitstream/1843/BUBD-A8SH9N/2/masters_1.0.0.pdf.txt |
bitstream.checksum.fl_str_mv |
4f8bf2d4add1c70d3b8f9e563da258d8 f31b0bb7e23aba795b504eea54be7174 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589559111385088 |