Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web

Detalhes bibliográficos
Autor(a) principal: Coutinho, Jeovano
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFGD
Texto Completo: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
Resumo: Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural.
id UFGD-2_82dc839d881037b14f94a7a01a5ca1c5
oai_identifier_str oai:https://repositorio.ufgd.edu.br/jspui:prefix/2574
network_acronym_str UFGD-2
network_name_str Repositório Institucional da UFGD
repository_id_str 2116
spelling Batista Junior, Joinvilehttp://lattes.cnpq.br/7711394117839430Odakura, Valguima Victoria Viana Aguiarhttp://lattes.cnpq.br/0165414661753032Barvinski, Carla Adrianahttp://lattes.cnpq.br/2994481069591021http://lattes.cnpq.br/7711394117839430Coutinho, Jeovano2020-03-03T18:36:48Z2022-12-312020-03-03T18:36:48Z2019-11-22COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019.http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural.This work presents an automated solution for structures and sentence extraction of technical articles available on the web in PDF format through an application with a friendly user interface. The application has a web scrapper for identification and download of the technical articles from the web. In the structures and sentence extraction process, heuristics are used with regular expressions for contents identifying present on technical articles as paragraphs, sections, footers, figures, items list, and references. The final result is an XML file describing the extracted structure from the processed technical articles. The obtained sentences from the structure of technical articles are used as input to many natural language processing activities.Submitted by Alison Souza (alisonsouza@ufgd.edu.br) on 2020-03-03T18:36:48Z No. of bitstreams: 1 Documento embargado.pdf: 44487 bytes, checksum: 52b041d9608d3c7801de4e92dec51380 (MD5)Made available in DSpace on 2020-03-03T18:36:48Z (GMT). No. of bitstreams: 1 Documento embargado.pdf: 44487 bytes, checksum: 52b041d9608d3c7801de4e92dec51380 (MD5) Previous issue date: 2019-11-22porUniversidade Federal da Grande DouradosUFGDBrasilFaculdade de Ciências Exatas e TecnologiaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOProcessamento de linguagem natural (Ciência da computação)Coleta de dados webNatural language processing (Computer science)Web scrapingCaptura e extração de estrutura e sentenças de artigos técnicos disponíveis na webCapture and extract structure and sentences of technical articles available on the webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFGDinstname:Universidade Federal da Grande Dourados (UFGD)instacron:UFGDTEXTJeovanoDeOliveiraCoutinho.pdf.txtJeovanoDeOliveiraCoutinho.pdf.txtExtracted texttext/plain47013https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/4/JeovanoDeOliveiraCoutinho.pdf.txt01f9993b613cd7c7cda535ae2bb8fa83MD54ORIGINALJeovanoDeOliveiraCoutinho.pdfJeovanoDeOliveiraCoutinho.pdfapplication/pdf1003356https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/3/JeovanoDeOliveiraCoutinho.pdf531c351fff417cdea2663b5c870e95ccMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52prefix/25742023-09-14 01:51:15.554oai:https://repositorio.ufgd.edu.br/jspui:prefix/2574TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://repositorio.ufgd.edu.br/jspui:8080/oai/requestopendoar:21162023-09-14T05:51:15Repositório Institucional da UFGD - Universidade Federal da Grande Dourados (UFGD)false
dc.title.pt_BR.fl_str_mv Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
dc.title.alternative.en.fl_str_mv Capture and extract structure and sentences of technical articles available on the web
title Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
spellingShingle Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
Coutinho, Jeovano
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Processamento de linguagem natural (Ciência da computação)
Coleta de dados web
Natural language processing (Computer science)
Web scraping
title_short Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
title_full Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
title_fullStr Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
title_full_unstemmed Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
title_sort Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
author Coutinho, Jeovano
author_facet Coutinho, Jeovano
author_role author
dc.contributor.advisor1.fl_str_mv Batista Junior, Joinvile
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7711394117839430
dc.contributor.referee1.fl_str_mv Odakura, Valguima Victoria Viana Aguiar
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/0165414661753032
dc.contributor.referee2.fl_str_mv Barvinski, Carla Adriana
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/2994481069591021
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/7711394117839430
dc.contributor.author.fl_str_mv Coutinho, Jeovano
contributor_str_mv Batista Junior, Joinvile
Odakura, Valguima Victoria Viana Aguiar
Barvinski, Carla Adriana
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO
Processamento de linguagem natural (Ciência da computação)
Coleta de dados web
Natural language processing (Computer science)
Web scraping
dc.subject.por.fl_str_mv Processamento de linguagem natural (Ciência da computação)
Coleta de dados web
dc.subject.eng.fl_str_mv Natural language processing (Computer science)
Web scraping
description Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural.
publishDate 2019
dc.date.issued.fl_str_mv 2019-11-22
dc.date.accessioned.fl_str_mv 2020-03-03T18:36:48Z
dc.date.available.fl_str_mv 2020-03-03T18:36:48Z
2022-12-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019.
dc.identifier.uri.fl_str_mv http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
identifier_str_mv COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019.
url http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Grande Dourados
dc.publisher.initials.fl_str_mv UFGD
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Faculdade de Ciências Exatas e Tecnologia
publisher.none.fl_str_mv Universidade Federal da Grande Dourados
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFGD
instname:Universidade Federal da Grande Dourados (UFGD)
instacron:UFGD
instname_str Universidade Federal da Grande Dourados (UFGD)
instacron_str UFGD
institution UFGD
reponame_str Repositório Institucional da UFGD
collection Repositório Institucional da UFGD
bitstream.url.fl_str_mv https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/4/JeovanoDeOliveiraCoutinho.pdf.txt
https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/3/JeovanoDeOliveiraCoutinho.pdf
https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/2/license.txt
bitstream.checksum.fl_str_mv 01f9993b613cd7c7cda535ae2bb8fa83
531c351fff417cdea2663b5c870e95cc
43cd690d6a359e86c1fe3d5b7cba0c9b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFGD - Universidade Federal da Grande Dourados (UFGD)
repository.mail.fl_str_mv
_version_ 1798042072217812992