Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Outros Autores: | |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/24056 |
Resumo: | Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas. |
id |
UFF-2_a27184081a5a1d6d1b1c7baca9e77e54 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/24056 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEEWeb scrapingIndexaçãoAutomatizaçãoMetadadoSistema de informaçãoBiblioteca digitalIndexingAutomationIndexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas.Indexing is an identification of a document so that it can be accessed when desired. Web Crawling is the process responsible for scanning the internet, extracting all metadata for indexing, unlike Web Scraping, which is an automated way to enter a given website and extract information from it. Through automated processes, implemented using a robot, Web Scraping exports data from a website to a database or a local spreadsheet for later retrieval and analysis of the extracted information. Due to the large amount of data on a website, this process facilitates the storage of data in a bank as it allows access to large volumes of data simultaneously. The focus of this work was, through a use case, to use the benefits of Web Scraping to arrive at a viable solution for the indexing of scientific articles. For this, a scraper was developed that collects metadata from scientific articles and their authors published in the IEEE Xplore library and exports the collected data to two spreadsheets of CSV format. We will address the concepts of scientific society, indexing, Web Scraping and its main libraries and tools. The result of this work offers an analysis of the tests and results obtained from the scraper developed looking for the feasibility of indexing the information collected.Universidade Federal FluminenseNiteróiViterbo Filho, JoséSilva, Érica Mourão daSilva, Mônica daTavares, FredericoCunha, Letícia Mello2021-12-23T15:19:04Z2021-12-23T15:19:04Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfTAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021.http://app.uff.br/riuff/handle/1/24056Aluno de GraduaçãoCC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2021-12-23T15:19:07Zoai:app.uff.br:1/24056Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202021-12-23T15:19:07Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
title |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
spellingShingle |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE Tavares, Frederico Web scraping Indexação Automatização Metadado Sistema de informação Biblioteca digital Indexing Automation |
title_short |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
title_full |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
title_fullStr |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
title_full_unstemmed |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
title_sort |
Web Scraping, um caso de uso para coletar metadados de artígos científicos publicados na biblioteca digital da IEEE |
author |
Tavares, Frederico |
author_facet |
Tavares, Frederico Cunha, Letícia Mello |
author_role |
author |
author2 |
Cunha, Letícia Mello |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Viterbo Filho, José Silva, Érica Mourão da Silva, Mônica da |
dc.contributor.author.fl_str_mv |
Tavares, Frederico Cunha, Letícia Mello |
dc.subject.por.fl_str_mv |
Web scraping Indexação Automatização Metadado Sistema de informação Biblioteca digital Indexing Automation |
topic |
Web scraping Indexação Automatização Metadado Sistema de informação Biblioteca digital Indexing Automation |
description |
Indexação é uma identificação de um documento para que ele consiga ser acessado quando desejado. Web Crawling é o processo responsável por varrer a internet extraindo todos os metadados para indexação, diferentemente do Web Scraping que é uma forma automatizada de entrar em um determinado site e extrair informações do mesmo. Por meio de processos automatizados, implementados utilizando um robô, o Web Scraping exporta dados de um site para um banco de dados ou uma planilha local para posterior recuperação e análise das informações extraídas. Devido à grande quantidade de dados de um site, esse processo facilita o armazenamento dos mesmos em um banco por possibilitar o acesso à grandes volumes de dados simultaneamente. O enfoque deste trabalho foi, através de um caso de uso, utilizar os benefícios do Web Scraping para chegar a uma solução viável para a indexação de artigos científicos. Para isso, foi desenvolvido um scraper que coleta metadados de artigos científicos e seus autores publicados na biblioteca IEEE Xplore e exporta os dados coletados para duas planilhas de formato CSV. Vamos abordar os conceitos de sociedade científica, indexação, Web Scraping e suas principais bibliotecas e ferramentas. O resultado deste trabalho oferece uma análise dos testes e resultados obtidos do scraper desenvolvido buscando a viabilidade de indexar as informações coletadas. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-23T15:19:04Z 2021-12-23T15:19:04Z 2021 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021. http://app.uff.br/riuff/handle/1/24056 Aluno de Graduação |
identifier_str_mv |
TAVARES, Frederico; CUNHA, Letícia Mello. Web Scraping, um caso de uso para coletar metadados de artigos científicos publicados na biblioteca digital da IEEE. 2021. 19f. Trabalho de Conclusão de Curso (Graduação Sistemas de Informação) - Universidade Federal Fluminense, Niterói, 2021. Aluno de Graduação |
url |
http://app.uff.br/riuff/handle/1/24056 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal Fluminense Niterói |
publisher.none.fl_str_mv |
Universidade Federal Fluminense Niterói |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1797044678700302336 |