Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos

Detalhes bibliográficos
Autor(a) principal: Mendonça, Leandro Rezende Carneiro de
Data de Publicação: 2020
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFG
Texto Completo: http://repositorio.bc.ufg.br/tede/handle/tede/10965
Resumo: As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO).
id UFG-2_c57d1277e70f8e08f47c770e0d4dfb0c
oai_identifier_str oai:repositorio.bc.ufg.br:tede/10965
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Cruz Junior, Gelson dahttp://lattes.cnpq.br/4370555454162131Cruz Junior , Gelson daSoares Alcalá , Symone GomesOliveira , Marco Antonio Assfalk deSoares , Fabrízzio Alphonsus Alves de Melo NunesCampos , Sérgio Vale Aguiarhttp://lattes.cnpq.br/5053246742596082Mendonça, Leandro Rezende Carneiro de2020-12-09T11:29:26Z2020-12-09T11:29:26Z2020-11-13MENDONÇA, L. R. C. Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos. 2020. 78 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020.http://repositorio.bc.ufg.br/tede/handle/tede/10965As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO).Como resultado da crescente produção de dados textuais não estruturados, surgiram técnicas para representar palavras e documentos no espaço vetorial para extração de conhecimento. O Ministério Público brasileiro recebe inúmeras solicitações textuais não estruturadas enviadas por cidadãos com necessidades diversas - violência doméstica contra a mulher, solicitações de internações em unidades de terapia intensiva, entre outras. O tempo gasto na classificação, detecção de similaridades e distribuição para a promotoria competente é essencial para otimização dos recursos públicos. Assim, foi adotado um modelo neural associado ao algoritmo Simulated Annealing (SA), um clássico algoritmo de otimização global com baixa complexidade computacional, de modo a reduzir o tempo de treinamento diário e a proporcionar uma visualização gráfica mais amigável de dados multidimensionais, apoiando o processo de decisão judicial. A analogia física do algoritmo SA associado à representação contínua de documentos no espaço vetorial contribui para a visualização amigável de um conjunto de dados de alta dimensão, mantendo uma acurácia comparável a outros modelos neurais profundos e a outros algoritmos de otimização, como Covariance Matrix Adaptation Evolution Strategy (CMA-ES) e Bayesian Optimization (BO).Submitted by Franciele Moreira (francielemoreyra@gmail.com) on 2020-12-08T15:26:54Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Leandro Rezende Carneiro de Mendonça - 2020.pdf: 16635106 bytes, checksum: b691690a35c53d8a89191a29acc51523 (MD5)Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-12-09T11:29:26Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Leandro Rezende Carneiro de Mendonça - 2020.pdf: 16635106 bytes, checksum: b691690a35c53d8a89191a29acc51523 (MD5)Made available in DSpace on 2020-12-09T11:29:26Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Leandro Rezende Carneiro de Mendonça - 2020.pdf: 16635106 bytes, checksum: b691690a35c53d8a89191a29acc51523 (MD5) Previous issue date: 2020-11-13OutroporUniversidade Federal de GoiásPrograma de Pós-graduação em Engenharia Elétrica e da Computação (EMC)UFGBrasilEscola de Engenharia Elétrica, Mecânica e de Computação - EMC (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessRepresentação de documentoRedes neuraisProcessamento de linguagem naturalAnálise de textoRepresentação vetorialOtimizaçãoRecozimento simuladoAprendizado de máquinaDocument representationNeural networkNatural language processText analysisVector representationOptimizationSimulated annealingMachine learningENGENHARIASModelo neural recozido para a representação semântica de documentos por meio de vetores contínuosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis4750050050050044845reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/3b275583-b8bf-4a6e-b344-9b7644bfbf04/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/77fd94e4-92c9-4d77-a9c6-dd9ef632a669/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALTese - Leandro Rezende Carneiro de Mendonça - 2020.pdfTese - Leandro Rezende Carneiro de Mendonça - 2020.pdfapplication/pdf16635106http://repositorio.bc.ufg.br/tede/bitstreams/74732de7-ed65-4dcc-b35d-cb6b000cf9b4/downloadb691690a35c53d8a89191a29acc51523MD53tede/109652020-12-09 08:29:26.747http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/10965http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2020-12-09T11:29:26Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=
dc.title.pt_BR.fl_str_mv Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
title Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
spellingShingle Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
Mendonça, Leandro Rezende Carneiro de
Representação de documento
Redes neurais
Processamento de linguagem natural
Análise de texto
Representação vetorial
Otimização
Recozimento simulado
Aprendizado de máquina
Document representation
Neural network
Natural language process
Text analysis
Vector representation
Optimization
Simulated annealing
Machine learning
ENGENHARIAS
title_short Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
title_full Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
title_fullStr Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
title_full_unstemmed Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
title_sort Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
author Mendonça, Leandro Rezende Carneiro de
author_facet Mendonça, Leandro Rezende Carneiro de
author_role author
dc.contributor.advisor1.fl_str_mv Cruz Junior, Gelson da
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4370555454162131
dc.contributor.referee1.fl_str_mv Cruz Junior , Gelson da
dc.contributor.referee2.fl_str_mv Soares Alcalá , Symone Gomes
dc.contributor.referee3.fl_str_mv Oliveira , Marco Antonio Assfalk de
dc.contributor.referee4.fl_str_mv Soares , Fabrízzio Alphonsus Alves de Melo Nunes
dc.contributor.referee5.fl_str_mv Campos , Sérgio Vale Aguiar
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5053246742596082
dc.contributor.author.fl_str_mv Mendonça, Leandro Rezende Carneiro de
contributor_str_mv Cruz Junior, Gelson da
Cruz Junior , Gelson da
Soares Alcalá , Symone Gomes
Oliveira , Marco Antonio Assfalk de
Soares , Fabrízzio Alphonsus Alves de Melo Nunes
Campos , Sérgio Vale Aguiar
dc.subject.por.fl_str_mv Representação de documento
Redes neurais
Processamento de linguagem natural
Análise de texto
Representação vetorial
Otimização
Recozimento simulado
Aprendizado de máquina
topic Representação de documento
Redes neurais
Processamento de linguagem natural
Análise de texto
Representação vetorial
Otimização
Recozimento simulado
Aprendizado de máquina
Document representation
Neural network
Natural language process
Text analysis
Vector representation
Optimization
Simulated annealing
Machine learning
ENGENHARIAS
dc.subject.eng.fl_str_mv Document representation
Neural network
Natural language process
Text analysis
Vector representation
Optimization
Simulated annealing
Machine learning
dc.subject.cnpq.fl_str_mv ENGENHARIAS
description As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO).
publishDate 2020
dc.date.accessioned.fl_str_mv 2020-12-09T11:29:26Z
dc.date.available.fl_str_mv 2020-12-09T11:29:26Z
dc.date.issued.fl_str_mv 2020-11-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MENDONÇA, L. R. C. Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos. 2020. 78 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/10965
identifier_str_mv MENDONÇA, L. R. C. Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos. 2020. 78 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020.
url http://repositorio.bc.ufg.br/tede/handle/tede/10965
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 47
dc.relation.confidence.fl_str_mv 500
500
500
500
dc.relation.department.fl_str_mv 4
dc.relation.cnpq.fl_str_mv 484
dc.relation.sponsorship.fl_str_mv 5
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivatives 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Engenharia Elétrica e da Computação (EMC)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola de Engenharia Elétrica, Mecânica e de Computação - EMC (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/3b275583-b8bf-4a6e-b344-9b7644bfbf04/download
http://repositorio.bc.ufg.br/tede/bitstreams/77fd94e4-92c9-4d77-a9c6-dd9ef632a669/download
http://repositorio.bc.ufg.br/tede/bitstreams/74732de7-ed65-4dcc-b35d-cb6b000cf9b4/download
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
4460e5956bc1d1639be9ae6146a50347
b691690a35c53d8a89191a29acc51523
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv tasesdissertacoes.bc@ufg.br
_version_ 1798044323174940672