Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE

Detalhes bibliográficos
Autor(a) principal: Tavares, Frederico
Data de Publicação: 2021
Outros Autores: Cunha, Letícia Mello
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/24056
Resumo: Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.
id UFF-2_a27184081a5a1d6d1b1c7baca9e77e54
oai_identifier_str oai:app.uff.br:1/24056
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEEWeb scrapingIndexaçãoAutomatizaçãoMetadadoSistema de informaçãoBiblioteca digitalIndexingAutomationIndexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.Indexing is an identification of a document so that it can be accessed when desired. Web Crawling is the process responsible for scanning the internet, extracting all metadata for indexing, unlike Web Scraping, which is an automated way to enter a given website and extract information from it. Through automated processes, implemented using a robot, Web Scraping exports data from a website to a database or a local spreadsheet for later retrieval and analysis of the extracted information. Due to the large amount of data on a website, this process facilitates the storage of data in a bank as it allows access to large volumes of data simultaneously. The focus of this work was, through a use case, to use the benefits of Web Scraping to arrive at a viable solution for the indexing of scientific articles. For this, a scraper was developed that collects metadata from scientific articles and their authors published in the IEEE Xplore library and exports the collected data to two spreadsheets of CSV format. We will address the concepts of scientific society, indexing, Web Scraping and its main libraries and tools. The result of this work offers an analysis of the tests and results obtained from the scraper developed looking for the feasibility of indexing the information collected.Universidade Federal FluminenseNiteróiViterbo Filho, JoséSilva, Érica Mourão daSilva, Mônica daTavares, FredericoCunha, Letícia Mello2021-12-23T15:19:04Z2021-12-23T15:19:04Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfTAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/24056Aluno de GraduaçãoCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-12-23T15:19:07Zoai:app.uff.br:1/24056Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-12-23T15:19:07Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
spellingShingle Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
Tavares, Frederico
Web scraping
Indexação
Automatização
Metadado
Sistema de informação
Biblioteca digital
Indexing
Automation
title_short Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_full Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_fullStr Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_full_unstemmed Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
title_sort Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
author Tavares, Frederico
author_facet Tavares, Frederico
Cunha, Letícia Mello
author_role author
author2 Cunha, Letícia Mello
author2_role author
dc.contributor.none.fl_str_mv Viterbo Filho, José
Silva, Érica Mourão da
Silva, Mônica da
dc.contributor.author.fl_str_mv Tavares, Frederico
Cunha, Letícia Mello
dc.subject.por.fl_str_mv Web scraping
Indexação
Automatização
Metadado
Sistema de informação
Biblioteca digital
Indexing
Automation
topic Web scraping
Indexação
Automatização
Metadado
Sistema de informação
Biblioteca digital
Indexing
Automation
description Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-23T15:19:04Z
2021-12-23T15:19:04Z
2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021.
http://app.uff.br/riuff/handle/1/24056
Aluno de Graduação
identifier_str_mv TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021.
Aluno de Graduação
url http://app.uff.br/riuff/handle/1/24056
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal Fluminense
Niterói
publisher.none.fl_str_mv Universidade Federal Fluminense
Niterói
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1797044678700302336