Criação de um banco de dados não relacional a partir de informação extraída de textos

Detalhes bibliográficos
Autor(a) principal: Xavier, Eduardo Semkiw
Data de Publicação: 2018
Outros Autores: Batista, Jonathan da Silva
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/16814
Resumo: As informações e dados estão atualmente concentradas em enorme quantidade dentro de arquivos de texto. E o fato da maior parte das informações tratadas por humanos estarem em textos não estruturados, justifica a importância de se extrair dados. O objetivo deste trabalho é desenvolver uma aplicação capaz de analisar e extrair informações úteis a partir de arquivos PDF. A aplicação irá utilizar uma ferramenta externa para converter PDF e realizar a extração do conteúdo em arquivo de texto. Logo em seguida irá efetuar uma busca por padrões, como endereços e datas. Finalmente fará o armazenamento dos dados tratados em um banco de dados NoSQL. Visto que a extração de informação em arquivos PDF gera uma grande quantidade de dados, surge a necessidade de apoio automatizado ao usuário, devido dificuldade de se realizar isso de forma totalmente manual.
id UTFPR-12_260f418b482f0ea9a7b4f44fda36eea3
oai_identifier_str oai:repositorio.utfpr.edu.br:1/16814
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-19T21:06:10Z2020-11-19T21:06:10Z2018-05-29XAVIER, Eduardo Semkiw; BATISTA, Jonathan da Silva. Criação de um banco de dados não relacional a partir de informação extraída de textos. 2018. 39 f. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2018.http://repositorio.utfpr.edu.br/jspui/handle/1/16814As informações e dados estão atualmente concentradas em enorme quantidade dentro de arquivos de texto. E o fato da maior parte das informações tratadas por humanos estarem em textos não estruturados, justifica a importância de se extrair dados. O objetivo deste trabalho é desenvolver uma aplicação capaz de analisar e extrair informações úteis a partir de arquivos PDF. A aplicação irá utilizar uma ferramenta externa para converter PDF e realizar a extração do conteúdo em arquivo de texto. Logo em seguida irá efetuar uma busca por padrões, como endereços e datas. Finalmente fará o armazenamento dos dados tratados em um banco de dados NoSQL. Visto que a extração de informação em arquivos PDF gera uma grande quantidade de dados, surge a necessidade de apoio automatizado ao usuário, devido dificuldade de se realizar isso de forma totalmente manual.Information and data are currently concentrated in huge amounts within text files. And the fact that most information treated by humans is in unstructured texts justifies the importance of extracting data. The purpose of this paper is to develop an application capable of analyzing and extracting useful information from PDF files. The application will use an external tool to convert PDF and extract the content into text file. It will then search for patterns, such as addresses and dates. Finally, it will store the treated data in a NoSQL database. Since the extraction of information in PDF files generates a large amount of data, there is a need for automated support to the user, due to the difficulty of doing so in a totally manual way.porUniversidade Tecnológica Federal do ParanáPonta GrossaTecnologia em Análise e Desenvolvimento de SistemasUTFPRBrasilDepartamento Acadêmico de InformáticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOBanco de dados não relacionaisProcessamento de textos (Computação)Análise de envoltória de dadosNon-relational databasesText processing (Computer science)Data envelopment analysisCriação de um banco de dados não relacional a partir de informação extraída de textosCreation of a non-relational database from information extracted from textsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPonta GrossaKoscianski, AndréKoscianski, AndréMorais, Erikson Freitas deBini, Tarcizio AlexandreXavier, Eduardo SemkiwBatista, Jonathan da Silvainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALPG_COADS_2018_1_05.pdfapplication/pdf1290265http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/1/PG_COADS_2018_1_05.pdf5ed79a70353f30ee578a6cee29de2170MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTPG_COADS_2018_1_05.pdf.txtExtracted texttext/plain54658http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/3/PG_COADS_2018_1_05.pdf.txt4c86bccb094edc5ec95e5a4a4041ddfeMD53THUMBNAILPG_COADS_2018_1_05.pdf.jpgGenerated Thumbnailimage/jpeg1380http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/4/PG_COADS_2018_1_05.pdf.jpgc8874fa1917a12ca2ad61f68977eb4e4MD541/168142020-11-19 19:06:10.212oai:repositorio.utfpr.edu.br:1/16814TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-19T21:06:10Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv Criação de um banco de dados não relacional a partir de informação extraída de textos
dc.title.alternative.pt_BR.fl_str_mv Creation of a non-relational database from information extracted from texts
title Criação de um banco de dados não relacional a partir de informação extraída de textos
spellingShingle Criação de um banco de dados não relacional a partir de informação extraída de textos
Xavier, Eduardo Semkiw
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Banco de dados não relacionais
Processamento de textos (Computação)
Análise de envoltória de dados
Non-relational databases
Text processing (Computer science)
Data envelopment analysis
title_short Criação de um banco de dados não relacional a partir de informação extraída de textos
title_full Criação de um banco de dados não relacional a partir de informação extraída de textos
title_fullStr Criação de um banco de dados não relacional a partir de informação extraída de textos
title_full_unstemmed Criação de um banco de dados não relacional a partir de informação extraída de textos
title_sort Criação de um banco de dados não relacional a partir de informação extraída de textos
author Xavier, Eduardo Semkiw
author_facet Xavier, Eduardo Semkiw
Batista, Jonathan da Silva
author_role author
author2 Batista, Jonathan da Silva
author2_role author
dc.contributor.advisor1.fl_str_mv Koscianski, André
dc.contributor.referee1.fl_str_mv Koscianski, André
dc.contributor.referee2.fl_str_mv Morais, Erikson Freitas de
dc.contributor.referee3.fl_str_mv Bini, Tarcizio Alexandre
dc.contributor.author.fl_str_mv Xavier, Eduardo Semkiw
Batista, Jonathan da Silva
contributor_str_mv Koscianski, André
Koscianski, André
Morais, Erikson Freitas de
Bini, Tarcizio Alexandre
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Banco de dados não relacionais
Processamento de textos (Computação)
Análise de envoltória de dados
Non-relational databases
Text processing (Computer science)
Data envelopment analysis
dc.subject.por.fl_str_mv Banco de dados não relacionais
Processamento de textos (Computação)
Análise de envoltória de dados
Non-relational databases
Text processing (Computer science)
Data envelopment analysis
description As informações e dados estão atualmente concentradas em enorme quantidade dentro de arquivos de texto. E o fato da maior parte das informações tratadas por humanos estarem em textos não estruturados, justifica a importância de se extrair dados. O objetivo deste trabalho é desenvolver uma aplicação capaz de analisar e extrair informações úteis a partir de arquivos PDF. A aplicação irá utilizar uma ferramenta externa para converter PDF e realizar a extração do conteúdo em arquivo de texto. Logo em seguida irá efetuar uma busca por padrões, como endereços e datas. Finalmente fará o armazenamento dos dados tratados em um banco de dados NoSQL. Visto que a extração de informação em arquivos PDF gera uma grande quantidade de dados, surge a necessidade de apoio automatizado ao usuário, devido dificuldade de se realizar isso de forma totalmente manual.
publishDate 2018
dc.date.issued.fl_str_mv 2018-05-29
dc.date.accessioned.fl_str_mv 2020-11-19T21:06:10Z
dc.date.available.fl_str_mv 2020-11-19T21:06:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv XAVIER, Eduardo Semkiw; BATISTA, Jonathan da Silva. Criação de um banco de dados não relacional a partir de informação extraída de textos. 2018. 39 f. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2018.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/16814
identifier_str_mv XAVIER, Eduardo Semkiw; BATISTA, Jonathan da Silva. Criação de um banco de dados não relacional a partir de informação extraída de textos. 2018. 39 f. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2018.
url http://repositorio.utfpr.edu.br/jspui/handle/1/16814
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.publisher.program.fl_str_mv Tecnologia em Análise e Desenvolvimento de Sistemas
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento Acadêmico de Informática
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/1/PG_COADS_2018_1_05.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/2/license.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/3/PG_COADS_2018_1_05.pdf.txt
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/4/PG_COADS_2018_1_05.pdf.jpg
bitstream.checksum.fl_str_mv 5ed79a70353f30ee578a6cee29de2170
b9d82215ab23456fa2d8b49c5df1b95b
4c86bccb094edc5ec95e5a4a4041ddfe
c8874fa1917a12ca2ad61f68977eb4e4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1805922898133647360