Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFGD |
Texto Completo: | http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574 |
Resumo: | Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural. |
id |
UFGD-2_82dc839d881037b14f94a7a01a5ca1c5 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufgd.edu.br/jspui:prefix/2574 |
network_acronym_str |
UFGD-2 |
network_name_str |
Repositório Institucional da UFGD |
repository_id_str |
2116 |
spelling |
Batista Junior, Joinvilehttp://lattes.cnpq.br/7711394117839430Odakura, Valguima Victoria Viana Aguiarhttp://lattes.cnpq.br/0165414661753032Barvinski, Carla Adrianahttp://lattes.cnpq.br/2994481069591021http://lattes.cnpq.br/7711394117839430Coutinho, Jeovano2020-03-03T18:36:48Z2022-12-312020-03-03T18:36:48Z2019-11-22COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019.http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural.This work presents an automated solution for structures and sentence extraction of technical articles available on the web in PDF format through an application with a friendly user interface. The application has a web scrapper for identification and download of the technical articles from the web. In the structures and sentence extraction process, heuristics are used with regular expressions for contents identifying present on technical articles as paragraphs, sections, footers, figures, items list, and references. The final result is an XML file describing the extracted structure from the processed technical articles. The obtained sentences from the structure of technical articles are used as input to many natural language processing activities.Submitted by Alison Souza (alisonsouza@ufgd.edu.br) on 2020-03-03T18:36:48Z No. of bitstreams: 1 Documento embargado.pdf: 44487 bytes, checksum: 52b041d9608d3c7801de4e92dec51380 (MD5)Made available in DSpace on 2020-03-03T18:36:48Z (GMT). No. of bitstreams: 1 Documento embargado.pdf: 44487 bytes, checksum: 52b041d9608d3c7801de4e92dec51380 (MD5) Previous issue date: 2019-11-22porUniversidade Federal da Grande DouradosUFGDBrasilFaculdade de Ciências Exatas e TecnologiaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOProcessamento de linguagem natural (Ciência da computação)Coleta de dados webNatural language processing (Computer science)Web scrapingCaptura e extração de estrutura e sentenças de artigos técnicos disponíveis na webCapture and extract structure and sentences of technical articles available on the webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFGDinstname:Universidade Federal da Grande Dourados (UFGD)instacron:UFGDTEXTJeovanoDeOliveiraCoutinho.pdf.txtJeovanoDeOliveiraCoutinho.pdf.txtExtracted texttext/plain47013https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/4/JeovanoDeOliveiraCoutinho.pdf.txt01f9993b613cd7c7cda535ae2bb8fa83MD54ORIGINALJeovanoDeOliveiraCoutinho.pdfJeovanoDeOliveiraCoutinho.pdfapplication/pdf1003356https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/3/JeovanoDeOliveiraCoutinho.pdf531c351fff417cdea2663b5c870e95ccMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52prefix/25742023-09-14 01:51:15.554oai:https://repositorio.ufgd.edu.br/jspui:prefix/2574TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://repositorio.ufgd.edu.br/jspui:8080/oai/requestopendoar:21162023-09-14T05:51:15Repositório Institucional da UFGD - Universidade Federal da Grande Dourados (UFGD)false |
dc.title.pt_BR.fl_str_mv |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
dc.title.alternative.en.fl_str_mv |
Capture and extract structure and sentences of technical articles available on the web |
title |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
spellingShingle |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web Coutinho, Jeovano CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO Processamento de linguagem natural (Ciência da computação) Coleta de dados web Natural language processing (Computer science) Web scraping |
title_short |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
title_full |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
title_fullStr |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
title_full_unstemmed |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
title_sort |
Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web |
author |
Coutinho, Jeovano |
author_facet |
Coutinho, Jeovano |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Batista Junior, Joinvile |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7711394117839430 |
dc.contributor.referee1.fl_str_mv |
Odakura, Valguima Victoria Viana Aguiar |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/0165414661753032 |
dc.contributor.referee2.fl_str_mv |
Barvinski, Carla Adriana |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/2994481069591021 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/7711394117839430 |
dc.contributor.author.fl_str_mv |
Coutinho, Jeovano |
contributor_str_mv |
Batista Junior, Joinvile Odakura, Valguima Victoria Viana Aguiar Barvinski, Carla Adriana |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO Processamento de linguagem natural (Ciência da computação) Coleta de dados web Natural language processing (Computer science) Web scraping |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural (Ciência da computação) Coleta de dados web |
dc.subject.eng.fl_str_mv |
Natural language processing (Computer science) Web scraping |
description |
Este trabalho apresenta uma solução automatizada para extração de sentenças e estruturas de artigos técnicos disponíveis na web no formato PDF através de uma aplicação com interface gráfica amigável. A aplicação contém um Web Scrapper para identificação e realização de download dos artigos técnicos da web. No processo de extração de estruturas e sentenças, são utilizadas heurísticas junto a expressões regulares para identificações de conteúdos presentes em artigos técnicos como: parágrafos, seções, notas de rodapé, figuras, lista de itens, e referências. O resultado final é um arquivo XML descrevendo a estrutura extraída dos artigos técnicos processados. As sentenças obtidas a partir da estrutura do artigo são utilizadas como entrada para várias atividades de processamento de linguagem natural. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-11-22 |
dc.date.accessioned.fl_str_mv |
2020-03-03T18:36:48Z |
dc.date.available.fl_str_mv |
2020-03-03T18:36:48Z 2022-12-31 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019. |
dc.identifier.uri.fl_str_mv |
http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574 |
identifier_str_mv |
COUTINHO, Jeovano. Captura e extração de estrutura e sentenças de artigos técnicos disponíveis na web. 2019. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Faculdade de Ciências Exatas e Tecnologias, Universidade Federal da Grande Dourados, Dourados, MS, 2019. |
url |
http://repositorio.ufgd.edu.br/jspui/handle/prefix/2574 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal da Grande Dourados |
dc.publisher.initials.fl_str_mv |
UFGD |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Faculdade de Ciências Exatas e Tecnologia |
publisher.none.fl_str_mv |
Universidade Federal da Grande Dourados |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFGD instname:Universidade Federal da Grande Dourados (UFGD) instacron:UFGD |
instname_str |
Universidade Federal da Grande Dourados (UFGD) |
instacron_str |
UFGD |
institution |
UFGD |
reponame_str |
Repositório Institucional da UFGD |
collection |
Repositório Institucional da UFGD |
bitstream.url.fl_str_mv |
https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/4/JeovanoDeOliveiraCoutinho.pdf.txt https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/3/JeovanoDeOliveiraCoutinho.pdf https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2574/2/license.txt |
bitstream.checksum.fl_str_mv |
01f9993b613cd7c7cda535ae2bb8fa83 531c351fff417cdea2663b5c870e95cc 43cd690d6a359e86c1fe3d5b7cba0c9b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFGD - Universidade Federal da Grande Dourados (UFGD) |
repository.mail.fl_str_mv |
|
_version_ |
1798042072217812992 |