Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO

Detalhes bibliográficos
Autor(a) principal: Max Cirino de Mattos
Data de Publicação: 2013
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ECIC-9CPH3G
Resumo: Diversos autores ressaltam a importância da criação de uma base de citações nos moldes do Science Citation Index (SCI) para a visibilidade da produção científica local de países em desenvolvimento, inclusive para a produção de políticas científicas nacionais. Nesse sentido, a obtenção automática dos metadados dos artigos e referências citadas disponíveis no formato eXtensible Markup Language (XML) para a criação de uma base de citações considerando como fonte primária a Scientific Electronic Library On-line (SciELO) representa um passo inicial importante para a criação de um índice de citações para a América Latina e Caribe. A metodologia proposta trata da geração automática dessa base de citações, e o presente trabalho analisa os resultados encontrados nas 4 etapas inicias dessa metodologia a identificação dos periódicos; a obtenção dos dados estatísticos anuais (dados fonte) de cada periódico; a vinculação da(s) área(s) de conhecimento a cada periódico; e a criação do Módulo Dados Cadastrais do banco de dados e nas três etapas finais: a identificação e armazenamento dos arquivos XML disponíveis no SciELO; a interpretação desses arquivos para extração dos metadados e informações sobre cada referência citada; e o armazenamento de todas as informações extraídas de cada arquivo XML no banco de dados (no Módulo Base de Citações). O teste inicial do protótipo criado foi realizado com o periódico Perspectivas em Ciência da Informação (PCI), apresentando a análise de 24 fascículos, 300 artigos, 7.714 citações, 579 resumos, 587 títulos, 2.358 palavras-chave, 686 autores de artigos e 10.394 autores identificados nas citações. A validação do protótipo foi realizada com a Coleção Saúde Pública, resultando em 14 periódicos, 14 editores, 1.335 fascículos, 23.780 artigos, 491.739 citações, 37.124 resumos, 44.696 títulos, 149.874 palavras-chave, 73.859 autores de artigos e 1.240.734 autores identificados nas citações. Nenhum procedimento de desambiguação de nomes de fontes ou autores foi realizado. As diferenças encontradas entre os números disponibilizados pelo SciELO nos dados fonte de cada periódico e os números levantados a partir da interpretação dos arquivos XML são explicadas, e algumas soluções propostas. O elevado índice de acerto na identificação das citações a partir dos arquivos XML comprovou aeficácia do processo desenvolvido. Entre os problemas identificados, destaca-se a diferença entre os dados fonte de um mesmo ISSN em coleções diferentes. Mais detalhes sobre a forma como o SciELO calcula os dados sobre número de fascículos, artigos e citaçõesprecisam ser investigados para a análise das diferenças encontradas. Pretende-se disponibilizar a base de citações gerada para a PCI em seu site. Nova pesquisa está em andamento, buscando a obtenção de todos os arquivos XML das coleções citadas para a construção de uma base de citações para cobertura da América Latina, Caribe e outras coleções do SciELO.
id UFMG_3070bd12a9ad0ed57bfaa558797996cd
oai_identifier_str oai:repositorio.ufmg.br:1843/ECIC-9CPH3G
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Beatriz Valadares CendonCícera Henrique da SilvaMaria Cristina Soares GuimarãesRicardo Hiroshi Caldeira TakahashiMarlene de OliveiraRenata Maria Abrantes Baracho PortoMax Cirino de Mattos2019-08-12T17:29:32Z2019-08-12T17:29:32Z2013-10-01http://hdl.handle.net/1843/ECIC-9CPH3GDiversos autores ressaltam a importância da criação de uma base de citações nos moldes do Science Citation Index (SCI) para a visibilidade da produção científica local de países em desenvolvimento, inclusive para a produção de políticas científicas nacionais. Nesse sentido, a obtenção automática dos metadados dos artigos e referências citadas disponíveis no formato eXtensible Markup Language (XML) para a criação de uma base de citações considerando como fonte primária a Scientific Electronic Library On-line (SciELO) representa um passo inicial importante para a criação de um índice de citações para a América Latina e Caribe. A metodologia proposta trata da geração automática dessa base de citações, e o presente trabalho analisa os resultados encontrados nas 4 etapas inicias dessa metodologia a identificação dos periódicos; a obtenção dos dados estatísticos anuais (dados fonte) de cada periódico; a vinculação da(s) área(s) de conhecimento a cada periódico; e a criação do Módulo Dados Cadastrais do banco de dados e nas três etapas finais: a identificação e armazenamento dos arquivos XML disponíveis no SciELO; a interpretação desses arquivos para extração dos metadados e informações sobre cada referência citada; e o armazenamento de todas as informações extraídas de cada arquivo XML no banco de dados (no Módulo Base de Citações). O teste inicial do protótipo criado foi realizado com o periódico Perspectivas em Ciência da Informação (PCI), apresentando a análise de 24 fascículos, 300 artigos, 7.714 citações, 579 resumos, 587 títulos, 2.358 palavras-chave, 686 autores de artigos e 10.394 autores identificados nas citações. A validação do protótipo foi realizada com a Coleção Saúde Pública, resultando em 14 periódicos, 14 editores, 1.335 fascículos, 23.780 artigos, 491.739 citações, 37.124 resumos, 44.696 títulos, 149.874 palavras-chave, 73.859 autores de artigos e 1.240.734 autores identificados nas citações. Nenhum procedimento de desambiguação de nomes de fontes ou autores foi realizado. As diferenças encontradas entre os números disponibilizados pelo SciELO nos dados fonte de cada periódico e os números levantados a partir da interpretação dos arquivos XML são explicadas, e algumas soluções propostas. O elevado índice de acerto na identificação das citações a partir dos arquivos XML comprovou aeficácia do processo desenvolvido. Entre os problemas identificados, destaca-se a diferença entre os dados fonte de um mesmo ISSN em coleções diferentes. Mais detalhes sobre a forma como o SciELO calcula os dados sobre número de fascículos, artigos e citaçõesprecisam ser investigados para a análise das diferenças encontradas. Pretende-se disponibilizar a base de citações gerada para a PCI em seu site. Nova pesquisa está em andamento, buscando a obtenção de todos os arquivos XML das coleções citadas para a construção de uma base de citações para cobertura da América Latina, Caribe e outras coleções do SciELO.Several authors emphasize the importance of creating a citation index - such as the Science Citation Index (SCI) as an instrument for the production of national science policies and therefore for the promotion of local scientific development in less developed countries. The automatic retrieval of metadata of articles and references cited available in eXtensible Markup Language (XML) files to create this kind of index - using Scientific Electronic Library Online (SciELO) as a primary source - represents an important initial step for creating a Web of Science for Latin America and the Caribbean. The methodology used is based upon theautomatic generation of such citations, and this research analyzes the results found in the initial stages of this methodology - identification of journals; obtaining the annual statistical data (source data) for each journal, the identification of areas of knowledge for each journal and the creation of the database module "Registration Data" - and the three final stages: identification and storage of XML files available in SciELO; interpreting these files for extracting metadata and information about each cited reference and the storage of all information from each XML file in the database module "Citation Index". The initial test of the prototype built was performed with the journal "Perspectives in Information cience" (PIS), presenting the analysis of 24 issues, 300 articles, 7,714 citations, 579 abstracts, 587 titles, 2,358 keywords, 686 authors of articles and 10,394 authors identified in citations. The validation of the prototype was performed with the Public Health Collection resulting in 14 journals, 14 publishers, 1,335 issues, 23,780 articles, 491,739 citations, 37,124 abstracts, 44,696 titles, 149,874 keywords, 73,859 authors of articles and 1,240,734 authors identified in citations. There were no disambiguation procedures for names of authors or sources. The differences between the values provided by the source data of SciELO for each journal andthe numbers collected from the interpretation of the XML files are explained and some solutions are proposed. The high success rate in identifying metadata and citations from XML files proved the effectiveness of the prototype. Among the problems identified, one to highlight was the difference between the source data for the same ISSN in differentcollections. More details about how SciELO calculates the number of issues, articles and citations need to be investigated for the analysis of the differences found. It is intended to provide the citation index generated for PIS on its website. Another research study is underway which seeks to obtain all the XML files from listed collections of SciELO in order to construct a citation index for Latin America, the Caribbean and other collections of SciELO.Universidade Federal de Minas GeraisUFMGCiência da informaçãoBibliometriaCiência EstatísticaBase de citaçõesSciELOIndicadores científicos nacionaisProposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELOinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINAL20131001_tese_max_c_mattos.pdfapplication/pdf64319739https://repositorio.ufmg.br/bitstream/1843/ECIC-9CPH3G/1/20131001_tese_max_c_mattos.pdf884c585e1359671bc20d767589a51ee4MD51TEXT20131001_tese_max_c_mattos.pdf.txt20131001_tese_max_c_mattos.pdf.txtExtracted texttext/plain258039https://repositorio.ufmg.br/bitstream/1843/ECIC-9CPH3G/2/20131001_tese_max_c_mattos.pdf.txta8c2637f10b4eef2ffc9cf2be82deb78MD521843/ECIC-9CPH3G2019-11-14 18:59:47.229oai:repositorio.ufmg.br:1843/ECIC-9CPH3GRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T21:59:47Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
title Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
spellingShingle Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
Max Cirino de Mattos
Base de citações
SciELO
Indicadores científicos nacionais
Ciência da informação
Bibliometria
Ciência Estatística
title_short Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
title_full Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
title_fullStr Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
title_full_unstemmed Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
title_sort Proposta de uma base de citações da literatura científica por meio da extração automática de dados do SciELO: por meio da extração automática de dados do SciELO
author Max Cirino de Mattos
author_facet Max Cirino de Mattos
author_role author
dc.contributor.advisor1.fl_str_mv Beatriz Valadares Cendon
dc.contributor.referee1.fl_str_mv Cícera Henrique da Silva
dc.contributor.referee2.fl_str_mv Maria Cristina Soares Guimarães
dc.contributor.referee3.fl_str_mv Ricardo Hiroshi Caldeira Takahashi
dc.contributor.referee4.fl_str_mv Marlene de Oliveira
dc.contributor.referee5.fl_str_mv Renata Maria Abrantes Baracho Porto
dc.contributor.author.fl_str_mv Max Cirino de Mattos
contributor_str_mv Beatriz Valadares Cendon
Cícera Henrique da Silva
Maria Cristina Soares Guimarães
Ricardo Hiroshi Caldeira Takahashi
Marlene de Oliveira
Renata Maria Abrantes Baracho Porto
dc.subject.por.fl_str_mv Base de citações
SciELO
Indicadores científicos nacionais
topic Base de citações
SciELO
Indicadores científicos nacionais
Ciência da informação
Bibliometria
Ciência Estatística
dc.subject.other.pt_BR.fl_str_mv Ciência da informação
Bibliometria
Ciência Estatística
description Diversos autores ressaltam a importância da criação de uma base de citações nos moldes do Science Citation Index (SCI) para a visibilidade da produção científica local de países em desenvolvimento, inclusive para a produção de políticas científicas nacionais. Nesse sentido, a obtenção automática dos metadados dos artigos e referências citadas disponíveis no formato eXtensible Markup Language (XML) para a criação de uma base de citações considerando como fonte primária a Scientific Electronic Library On-line (SciELO) representa um passo inicial importante para a criação de um índice de citações para a América Latina e Caribe. A metodologia proposta trata da geração automática dessa base de citações, e o presente trabalho analisa os resultados encontrados nas 4 etapas inicias dessa metodologia a identificação dos periódicos; a obtenção dos dados estatísticos anuais (dados fonte) de cada periódico; a vinculação da(s) área(s) de conhecimento a cada periódico; e a criação do Módulo Dados Cadastrais do banco de dados e nas três etapas finais: a identificação e armazenamento dos arquivos XML disponíveis no SciELO; a interpretação desses arquivos para extração dos metadados e informações sobre cada referência citada; e o armazenamento de todas as informações extraídas de cada arquivo XML no banco de dados (no Módulo Base de Citações). O teste inicial do protótipo criado foi realizado com o periódico Perspectivas em Ciência da Informação (PCI), apresentando a análise de 24 fascículos, 300 artigos, 7.714 citações, 579 resumos, 587 títulos, 2.358 palavras-chave, 686 autores de artigos e 10.394 autores identificados nas citações. A validação do protótipo foi realizada com a Coleção Saúde Pública, resultando em 14 periódicos, 14 editores, 1.335 fascículos, 23.780 artigos, 491.739 citações, 37.124 resumos, 44.696 títulos, 149.874 palavras-chave, 73.859 autores de artigos e 1.240.734 autores identificados nas citações. Nenhum procedimento de desambiguação de nomes de fontes ou autores foi realizado. As diferenças encontradas entre os números disponibilizados pelo SciELO nos dados fonte de cada periódico e os números levantados a partir da interpretação dos arquivos XML são explicadas, e algumas soluções propostas. O elevado índice de acerto na identificação das citações a partir dos arquivos XML comprovou aeficácia do processo desenvolvido. Entre os problemas identificados, destaca-se a diferença entre os dados fonte de um mesmo ISSN em coleções diferentes. Mais detalhes sobre a forma como o SciELO calcula os dados sobre número de fascículos, artigos e citaçõesprecisam ser investigados para a análise das diferenças encontradas. Pretende-se disponibilizar a base de citações gerada para a PCI em seu site. Nova pesquisa está em andamento, buscando a obtenção de todos os arquivos XML das coleções citadas para a construção de uma base de citações para cobertura da América Latina, Caribe e outras coleções do SciELO.
publishDate 2013
dc.date.issued.fl_str_mv 2013-10-01
dc.date.accessioned.fl_str_mv 2019-08-12T17:29:32Z
dc.date.available.fl_str_mv 2019-08-12T17:29:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ECIC-9CPH3G
url http://hdl.handle.net/1843/ECIC-9CPH3G
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ECIC-9CPH3G/1/20131001_tese_max_c_mattos.pdf
https://repositorio.ufmg.br/bitstream/1843/ECIC-9CPH3G/2/20131001_tese_max_c_mattos.pdf.txt
bitstream.checksum.fl_str_mv 884c585e1359671bc20d767589a51ee4
a8c2637f10b4eef2ffc9cf2be82deb78
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1797971407748988928