Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público

Detalhes bibliográficos
Autor(a) principal: Noguti, Mariana Yukari, 1987-
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/75335
Resumo: Orientador: Prof. Luiz Eduardo Soares Oliveira
id UFPR_b549c98811fea97d5c766c5c538538ba
oai_identifier_str oai:acervodigital.ufpr.br:1884/75335
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Noguti, Mariana Yukari, 1987-Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big DataOliveira, Luiz Eduardo Soares de, 1971-2022-04-28T15:03:50Z2022-04-28T15:03:50Z2019https://hdl.handle.net/1884/75335Orientador: Prof. Luiz Eduardo Soares OliveiraMonografia (especialização) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Especialização em Data Science & Big Data.Inclui referênciasResumo: Observa-se nos últimos anos um crescimento no volume de pesquisas relativas a Processamento de Linguagem Natural (PLN). A utilização de redes neurais convolucionais e recorrentes em conjunto com técnicas de vetorização de palavras vem apresentando resultados promissores quando aplicadas a problemas de classificação textual, como análise de sentimentos e segmentação de documentos em tópicos. Neste artigo propõe-se o uso de técnicas de PLN na categorização de textos curtos, com o objetivo de classificar as descrições dos atendimentos realizados pelo Ministério Público do Paraná à população em uma das áreas de atuação da instituição. Buscou-se elaborar um modelo capaz de automatizar a rotulação dos atendimentos, reduzindo o tempo gasto com a seleção do atributo e a validação do cadastro, possibilitando a alocação de funcionários em demandas mais complexas. Foram utilizados métodos de extração de características textuais a partir de matrizes termo-documento e representações vetoriais. Na etapa classificatória foram apresentadas as performances obtidas por diferentes classificadores, dentre eles modelos lineares e ensembles, bem como algumas arquiteturas de redes neurais. Ao final, observou-se que o melhor resultado foi obtido através da representação vetorial de palavras com Wang2Vec associada à rede neural recorrente GRU, atingindo uma acurácia de 93% e F1-Score de 87,4% na classificação de doze categoriasAbstract: In recent years, there has been an increase in the volume of research related to Natural Language Processing (NLP). The use of convolutional and recurrent neural networks together with word embedding techniques has presented promising results when applied to textual classification problems, such as sentiment analysis and topic segmentation of documents. This paper proposes the use of NLP techniques for categorization of short texts, with the purpose of classifying the descriptions of the services performed by the Public Prosecutor of Paraná to the population in one of the institution’s areas of activity. It was intended to elaborate a model capable of automating the labeling of the attendances, reducing the time spent selecting the attribute and validating the register, allowing the allocation of employees in more complex demands. Methods of feature extraction from texts were compared by using document-term matrices and vector representations. In the classificatory stage were presented the performances obtained by different classifiers, among them linear models and ensembles, as well as some neural networks architectures. At the end, it was observed that the best result was obtained through vector representation of words with Wang2Vec associated with the GRU recurrent neural network, reaching an accuracy of 93% and F1-Score of 87.4% in the classification of twelve categories.1 recurso online : PDF.application/pdfProcessamento da linguagem natural (Computação)Redes neurais (Computação)Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Públicoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - E - MARIANA YUKARI NOGUTI.pdfapplication/pdf254809https://acervodigital.ufpr.br/bitstream/1884/75335/1/R%20-%20E%20-%20MARIANA%20YUKARI%20NOGUTI.pdfca265994f2a47ac605a858807bb99e65MD51open access1884/753352022-04-28 12:03:51.078open accessoai:acervodigital.ufpr.br:1884/75335Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-04-28T15:03:51Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
title Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
spellingShingle Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
Noguti, Mariana Yukari, 1987-
Processamento da linguagem natural (Computação)
Redes neurais (Computação)
title_short Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
title_full Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
title_fullStr Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
title_full_unstemmed Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
title_sort Aplicação de técnicas de classificação textual na predição de áreas de atuação do Ministério Público
author Noguti, Mariana Yukari, 1987-
author_facet Noguti, Mariana Yukari, 1987-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Curso de Especialização em Data Science & Big Data
dc.contributor.author.fl_str_mv Noguti, Mariana Yukari, 1987-
dc.contributor.advisor1.fl_str_mv Oliveira, Luiz Eduardo Soares de, 1971-
contributor_str_mv Oliveira, Luiz Eduardo Soares de, 1971-
dc.subject.por.fl_str_mv Processamento da linguagem natural (Computação)
Redes neurais (Computação)
topic Processamento da linguagem natural (Computação)
Redes neurais (Computação)
description Orientador: Prof. Luiz Eduardo Soares Oliveira
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2022-04-28T15:03:50Z
dc.date.available.fl_str_mv 2022-04-28T15:03:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/75335
url https://hdl.handle.net/1884/75335
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/75335/1/R%20-%20E%20-%20MARIANA%20YUKARI%20NOGUTI.pdf
bitstream.checksum.fl_str_mv ca265994f2a47ac605a858807bb99e65
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860853092319232