Criação de um banco de dados não relacional a partir de informação extraída de textos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Outros Autores: | |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/16814 |
Resumo: | As informações e dados estão atualmente concentradas em enorme quantidade dentro de arquivos de texto. E o fato da maior parte das informações tratadas por humanos estarem em textos não estruturados, justifica a importância de se extrair dados. O objetivo deste trabalho é desenvolver uma aplicação capaz de analisar e extrair informações úteis a partir de arquivos PDF. A aplicação irá utilizar uma ferramenta externa para converter PDF e realizar a extração do conteúdo em arquivo de texto. Logo em seguida irá efetuar uma busca por padrões, como endereços e datas. Finalmente fará o armazenamento dos dados tratados em um banco de dados NoSQL. Visto que a extração de informação em arquivos PDF gera uma grande quantidade de dados, surge a necessidade de apoio automatizado ao usuário, devido dificuldade de se realizar isso de forma totalmente manual. |
id |
UTFPR-12_260f418b482f0ea9a7b4f44fda36eea3 |
---|---|
oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/16814 |
network_acronym_str |
UTFPR-12 |
network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
repository_id_str |
|
spelling |
2020-11-19T21:06:10Z2020-11-19T21:06:10Z2018-05-29XAVIER, Eduardo Semkiw; BATISTA, Jonathan da Silva. Criação de um banco de dados não relacional a partir de informação extraída de textos. 2018. 39 f. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2018.http://repositorio.utfpr.edu.br/jspui/handle/1/16814As informações e dados estão atualmente concentradas em enorme quantidade dentro de arquivos de texto. E o fato da maior parte das informações tratadas por humanos estarem em textos não estruturados, justifica a importância de se extrair dados. O objetivo deste trabalho é desenvolver uma aplicação capaz de analisar e extrair informações úteis a partir de arquivos PDF. A aplicação irá utilizar uma ferramenta externa para converter PDF e realizar a extração do conteúdo em arquivo de texto. Logo em seguida irá efetuar uma busca por padrões, como endereços e datas. Finalmente fará o armazenamento dos dados tratados em um banco de dados NoSQL. Visto que a extração de informação em arquivos PDF gera uma grande quantidade de dados, surge a necessidade de apoio automatizado ao usuário, devido dificuldade de se realizar isso de forma totalmente manual.Information and data are currently concentrated in huge amounts within text files. And the fact that most information treated by humans is in unstructured texts justifies the importance of extracting data. The purpose of this paper is to develop an application capable of analyzing and extracting useful information from PDF files. The application will use an external tool to convert PDF and extract the content into text file. It will then search for patterns, such as addresses and dates. Finally, it will store the treated data in a NoSQL database. Since the extraction of information in PDF files generates a large amount of data, there is a need for automated support to the user, due to the difficulty of doing so in a totally manual way.porUniversidade Tecnológica Federal do ParanáPonta GrossaTecnologia em Análise e Desenvolvimento de SistemasUTFPRBrasilDepartamento Acadêmico de InformáticaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOBanco de dados não relacionaisProcessamento de textos (Computação)Análise de envoltória de dadosNon-relational databasesText processing (Computer science)Data envelopment analysisCriação de um banco de dados não relacional a partir de informação extraída de textosCreation of a non-relational database from information extracted from textsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisPonta GrossaKoscianski, AndréKoscianski, AndréMorais, Erikson Freitas deBini, Tarcizio AlexandreXavier, Eduardo SemkiwBatista, Jonathan da Silvainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALPG_COADS_2018_1_05.pdfapplication/pdf1290265http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/1/PG_COADS_2018_1_05.pdf5ed79a70353f30ee578a6cee29de2170MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTPG_COADS_2018_1_05.pdf.txtExtracted texttext/plain54658http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/3/PG_COADS_2018_1_05.pdf.txt4c86bccb094edc5ec95e5a4a4041ddfeMD53THUMBNAILPG_COADS_2018_1_05.pdf.jpgGenerated Thumbnailimage/jpeg1380http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/4/PG_COADS_2018_1_05.pdf.jpgc8874fa1917a12ca2ad61f68977eb4e4MD541/168142020-11-19 19:06:10.212oai:repositorio.utfpr.edu.br:1/16814TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-19T21:06:10Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
dc.title.pt_BR.fl_str_mv |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
dc.title.alternative.pt_BR.fl_str_mv |
Creation of a non-relational database from information extracted from texts |
title |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
spellingShingle |
Criação de um banco de dados não relacional a partir de informação extraída de textos Xavier, Eduardo Semkiw CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Banco de dados não relacionais Processamento de textos (Computação) Análise de envoltória de dados Non-relational databases Text processing (Computer science) Data envelopment analysis |
title_short |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
title_full |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
title_fullStr |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
title_full_unstemmed |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
title_sort |
Criação de um banco de dados não relacional a partir de informação extraída de textos |
author |
Xavier, Eduardo Semkiw |
author_facet |
Xavier, Eduardo Semkiw Batista, Jonathan da Silva |
author_role |
author |
author2 |
Batista, Jonathan da Silva |
author2_role |
author |
dc.contributor.advisor1.fl_str_mv |
Koscianski, André |
dc.contributor.referee1.fl_str_mv |
Koscianski, André |
dc.contributor.referee2.fl_str_mv |
Morais, Erikson Freitas de |
dc.contributor.referee3.fl_str_mv |
Bini, Tarcizio Alexandre |
dc.contributor.author.fl_str_mv |
Xavier, Eduardo Semkiw Batista, Jonathan da Silva |
contributor_str_mv |
Koscianski, André Koscianski, André Morais, Erikson Freitas de Bini, Tarcizio Alexandre |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Banco de dados não relacionais Processamento de textos (Computação) Análise de envoltória de dados Non-relational databases Text processing (Computer science) Data envelopment analysis |
dc.subject.por.fl_str_mv |
Banco de dados não relacionais Processamento de textos (Computação) Análise de envoltória de dados Non-relational databases Text processing (Computer science) Data envelopment analysis |
description |
As informações e dados estão atualmente concentradas em enorme quantidade dentro de arquivos de texto. E o fato da maior parte das informações tratadas por humanos estarem em textos não estruturados, justifica a importância de se extrair dados. O objetivo deste trabalho é desenvolver uma aplicação capaz de analisar e extrair informações úteis a partir de arquivos PDF. A aplicação irá utilizar uma ferramenta externa para converter PDF e realizar a extração do conteúdo em arquivo de texto. Logo em seguida irá efetuar uma busca por padrões, como endereços e datas. Finalmente fará o armazenamento dos dados tratados em um banco de dados NoSQL. Visto que a extração de informação em arquivos PDF gera uma grande quantidade de dados, surge a necessidade de apoio automatizado ao usuário, devido dificuldade de se realizar isso de forma totalmente manual. |
publishDate |
2018 |
dc.date.issued.fl_str_mv |
2018-05-29 |
dc.date.accessioned.fl_str_mv |
2020-11-19T21:06:10Z |
dc.date.available.fl_str_mv |
2020-11-19T21:06:10Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
XAVIER, Eduardo Semkiw; BATISTA, Jonathan da Silva. Criação de um banco de dados não relacional a partir de informação extraída de textos. 2018. 39 f. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2018. |
dc.identifier.uri.fl_str_mv |
http://repositorio.utfpr.edu.br/jspui/handle/1/16814 |
identifier_str_mv |
XAVIER, Eduardo Semkiw; BATISTA, Jonathan da Silva. Criação de um banco de dados não relacional a partir de informação extraída de textos. 2018. 39 f. Trabalho de Conclusão de Curso (Tecnologia em Análise e Desenvolvimento de Sistemas) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2018. |
url |
http://repositorio.utfpr.edu.br/jspui/handle/1/16814 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa |
dc.publisher.program.fl_str_mv |
Tecnologia em Análise e Desenvolvimento de Sistemas |
dc.publisher.initials.fl_str_mv |
UTFPR |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Departamento Acadêmico de Informática |
publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
instacron_str |
UTFPR |
institution |
UTFPR |
reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
bitstream.url.fl_str_mv |
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/1/PG_COADS_2018_1_05.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/3/PG_COADS_2018_1_05.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/16814/4/PG_COADS_2018_1_05.pdf.jpg |
bitstream.checksum.fl_str_mv |
5ed79a70353f30ee578a6cee29de2170 b9d82215ab23456fa2d8b49c5df1b95b 4c86bccb094edc5ec95e5a4a4041ddfe c8874fa1917a12ca2ad61f68977eb4e4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1805922898133647360 |