Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE

Tavares, Frederico; Cunha, Letícia Mello

Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE

Detalhes bibliográficos
Autor(a) principal:	Tavares, Frederico
Data de Publicação:	2021
Outros Autores:	Cunha, Letícia Mello
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo:	http://app.uff.br/riuff/handle/1/24056
Resumo:	Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.

Metadados do item

id	UFF-2_a27184081a5a1d6d1b1c7baca9e77e54
oai_identifier_str	oai:app.uff.br:1/24056
network_acronym_str	UFF-2
network_name_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str	2120
spelling	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEEWeb scrapingIndexaçãoAutomatizaçãoMetadadoSistema de informaçãoBiblioteca digitalIndexingAutomationIndexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.Indexing is an identification of a document so that it can be accessed when desired. Web Crawling is the process responsible for scanning the internet, extracting all metadata for indexing, unlike Web Scraping, which is an automated way to enter a given website and extract information from it. Through automated processes, implemented using a robot, Web Scraping exports data from a website to a database or a local spreadsheet for later retrieval and analysis of the extracted information. Due to the large amount of data on a website, this process facilitates the storage of data in a bank as it allows access to large volumes of data simultaneously. The focus of this work was, through a use case, to use the benefits of Web Scraping to arrive at a viable solution for the indexing of scientific articles. For this, a scraper was developed that collects metadata from scientific articles and their authors published in the IEEE Xplore library and exports the collected data to two spreadsheets of CSV format. We will address the concepts of scientific society, indexing, Web Scraping and its main libraries and tools. The result of this work offers an analysis of the tests and results obtained from the scraper developed looking for the feasibility of indexing the information collected.Universidade Federal FluminenseNiteróiViterbo Filho, JoséSilva, Érica Mourão daSilva, Mônica daTavares, FredericoCunha, Letícia Mello2021-12-23T15:19:04Z2021-12-23T15:19:04Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfTAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/24056Aluno de GraduaçãoCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-12-23T15:19:07Zoai:app.uff.br:1/24056Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-12-23T15:19:07Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
spellingShingle	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE Tavares, Frederico Web scraping Indexação Automatização Metadado Sistema de informação Biblioteca digital Indexing Automation
title_short	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_full	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_fullStr	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_full_unstemmed	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_sort	Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
author	Tavares, Frederico
author_facet	Tavares, Frederico Cunha, Letícia Mello
author_role	author
author2	Cunha, Letícia Mello
author2_role	author
dc.contributor.none.fl_str_mv	Viterbo Filho, José Silva, Érica Mourão da Silva, Mônica da
dc.contributor.author.fl_str_mv	Tavares, Frederico Cunha, Letícia Mello
dc.subject.por.fl_str_mv	Web scraping Indexação Automatização Metadado Sistema de informação Biblioteca digital Indexing Automation
topic	Web scraping Indexação Automatização Metadado Sistema de informação Biblioteca digital Indexing Automation
description	Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.
publishDate	2021
dc.date.none.fl_str_mv	2021-12-23T15:19:04Z 2021-12-23T15:19:04Z 2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021. http://app.uff.br/riuff/handle/1/24056 Aluno de Graduação
identifier_str_mv	TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021. Aluno de Graduação
url	http://app.uff.br/riuff/handle/1/24056
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	CC-BY-SA info:eu-repo/semantics/openAccess
rights_invalid_str_mv	CC-BY-SA
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal Fluminense Niterói
publisher.none.fl_str_mv	Universidade Federal Fluminense Niterói
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF
instname_str	Universidade Federal Fluminense (UFF)
instacron_str	UFF
institution	UFF
reponame_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv	riuff@id.uff.br
_version_	1797044678700302336

Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE

Registros relacionados