Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFG |
Texto Completo: | http://repositorio.bc.ufg.br/tede/handle/tede/10965 |
Resumo: | As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO). |
id |
UFG-2_c57d1277e70f8e08f47c770e0d4dfb0c |
---|---|
oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/10965 |
network_acronym_str |
UFG-2 |
network_name_str |
Repositório Institucional da UFG |
repository_id_str |
|
spelling |
Cruz Junior, Gelson dahttp://lattes.cnpq.br/4370555454162131Cruz Junior , Gelson daSoares Alcalá , Symone GomesOliveira , Marco Antonio Assfalk deSoares , Fabrízzio Alphonsus Alves de Melo NunesCampos , Sérgio Vale Aguiarhttp://lattes.cnpq.br/5053246742596082Mendonça, Leandro Rezende Carneiro de2020-12-09T11:29:26Z2020-12-09T11:29:26Z2020-11-13MENDONÇA, L. R. C. Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos. 2020. 78 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020.http://repositorio.bc.ufg.br/tede/handle/tede/10965As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO).Como resultado da crescente produção de dados textuais não estruturados, surgiram técnicas para representar palavras e documentos no espaço vetorial para extração de conhecimento. O Ministério Público brasileiro recebe inúmeras solicitações textuais não estruturadas enviadas por cidadãos com necessidades diversas - violência doméstica contra a mulher, solicitações de internações em unidades de terapia intensiva, entre outras. O tempo gasto na classificação, detecção de similaridades e distribuição para a promotoria competente é essencial para otimização dos recursos públicos. Assim, foi adotado um modelo neural associado ao algoritmo Simulated Annealing (SA), um clássico algoritmo de otimização global com baixa complexidade computacional, de modo a reduzir o tempo de treinamento diário e a proporcionar uma visualização gráfica mais amigável de dados multidimensionais, apoiando o processo de decisão judicial. A analogia física do algoritmo SA associado à representação contínua de documentos no espaço vetorial contribui para a visualização amigável de um conjunto de dados de alta dimensão, mantendo uma acurácia comparável a outros modelos neurais profundos e a outros algoritmos de otimização, como Covariance Matrix Adaptation Evolution Strategy (CMA-ES) e Bayesian Optimization (BO).Submitted by Franciele Moreira (francielemoreyra@gmail.com) on 2020-12-08T15:26:54Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Leandro Rezende Carneiro de Mendonça - 2020.pdf: 16635106 bytes, checksum: b691690a35c53d8a89191a29acc51523 (MD5)Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-12-09T11:29:26Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Leandro Rezende Carneiro de Mendonça - 2020.pdf: 16635106 bytes, checksum: b691690a35c53d8a89191a29acc51523 (MD5)Made available in DSpace on 2020-12-09T11:29:26Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Leandro Rezende Carneiro de Mendonça - 2020.pdf: 16635106 bytes, checksum: b691690a35c53d8a89191a29acc51523 (MD5) Previous issue date: 2020-11-13OutroporUniversidade Federal de GoiásPrograma de Pós-graduação em Engenharia Elétrica e da Computação (EMC)UFGBrasilEscola de Engenharia Elétrica, Mecânica e de Computação - EMC (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessRepresentação de documentoRedes neuraisProcessamento de linguagem naturalAnálise de textoRepresentação vetorialOtimizaçãoRecozimento simuladoAprendizado de máquinaDocument representationNeural networkNatural language processText analysisVector representationOptimizationSimulated annealingMachine learningENGENHARIASModelo neural recozido para a representação semântica de documentos por meio de vetores contínuosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis4750050050050044845reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/3b275583-b8bf-4a6e-b344-9b7644bfbf04/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/77fd94e4-92c9-4d77-a9c6-dd9ef632a669/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALTese - Leandro Rezende Carneiro de Mendonça - 2020.pdfTese - Leandro Rezende Carneiro de Mendonça - 2020.pdfapplication/pdf16635106http://repositorio.bc.ufg.br/tede/bitstreams/74732de7-ed65-4dcc-b35d-cb6b000cf9b4/downloadb691690a35c53d8a89191a29acc51523MD53tede/109652020-12-09 08:29:26.747http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/10965http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2020-12-09T11:29:26Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
dc.title.pt_BR.fl_str_mv |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
title |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
spellingShingle |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos Mendonça, Leandro Rezende Carneiro de Representação de documento Redes neurais Processamento de linguagem natural Análise de texto Representação vetorial Otimização Recozimento simulado Aprendizado de máquina Document representation Neural network Natural language process Text analysis Vector representation Optimization Simulated annealing Machine learning ENGENHARIAS |
title_short |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
title_full |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
title_fullStr |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
title_full_unstemmed |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
title_sort |
Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos |
author |
Mendonça, Leandro Rezende Carneiro de |
author_facet |
Mendonça, Leandro Rezende Carneiro de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Cruz Junior, Gelson da |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/4370555454162131 |
dc.contributor.referee1.fl_str_mv |
Cruz Junior , Gelson da |
dc.contributor.referee2.fl_str_mv |
Soares Alcalá , Symone Gomes |
dc.contributor.referee3.fl_str_mv |
Oliveira , Marco Antonio Assfalk de |
dc.contributor.referee4.fl_str_mv |
Soares , Fabrízzio Alphonsus Alves de Melo Nunes |
dc.contributor.referee5.fl_str_mv |
Campos , Sérgio Vale Aguiar |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/5053246742596082 |
dc.contributor.author.fl_str_mv |
Mendonça, Leandro Rezende Carneiro de |
contributor_str_mv |
Cruz Junior, Gelson da Cruz Junior , Gelson da Soares Alcalá , Symone Gomes Oliveira , Marco Antonio Assfalk de Soares , Fabrízzio Alphonsus Alves de Melo Nunes Campos , Sérgio Vale Aguiar |
dc.subject.por.fl_str_mv |
Representação de documento Redes neurais Processamento de linguagem natural Análise de texto Representação vetorial Otimização Recozimento simulado Aprendizado de máquina |
topic |
Representação de documento Redes neurais Processamento de linguagem natural Análise de texto Representação vetorial Otimização Recozimento simulado Aprendizado de máquina Document representation Neural network Natural language process Text analysis Vector representation Optimization Simulated annealing Machine learning ENGENHARIAS |
dc.subject.eng.fl_str_mv |
Document representation Neural network Natural language process Text analysis Vector representation Optimization Simulated annealing Machine learning |
dc.subject.cnpq.fl_str_mv |
ENGENHARIAS |
description |
As a result of the growing production of unstructured textual data, techniques for representing words and documents in the vector space have emerged recently. The Brazilian Public Ministry has received several textual requests that are send by citizens with different needs, such as those involved in cases of domestic violence against women, others requesting intensive care unit admissions, and more. The time spent in classifying, detecting similar requests and distributing them is essential to optimize and save public resources. Therefore, we adopted the neural model with the Simulated Annealing (SA), a classic global optimization algorithm with low computational complexity, because of the need to reduce the daily training time, providing a more friendly graphic visualization of data in high dimensions, supporting the judicial decision process. The physical analogy of the SA meta-heuristic associated with the continuous representation of documents in the vector space contribute greatly to the friendly visualization of a high-dimensional dataset, maintaining a comparable score with other deep models and optimization algorithms, such as Covariance Matrix Adaptation Evolution Strategy (CMA-ES) and Bayesian Optimization (BO). |
publishDate |
2020 |
dc.date.accessioned.fl_str_mv |
2020-12-09T11:29:26Z |
dc.date.available.fl_str_mv |
2020-12-09T11:29:26Z |
dc.date.issued.fl_str_mv |
2020-11-13 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MENDONÇA, L. R. C. Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos. 2020. 78 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020. |
dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/10965 |
identifier_str_mv |
MENDONÇA, L. R. C. Modelo neural recozido para a representação semântica de documentos por meio de vetores contínuos. 2020. 78 f. Tese (Doutorado em Engenharia Elétrica e da Computação) - Universidade Federal de Goiás, Goiânia, 2020. |
url |
http://repositorio.bc.ufg.br/tede/handle/tede/10965 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
47 |
dc.relation.confidence.fl_str_mv |
500 500 500 500 |
dc.relation.department.fl_str_mv |
4 |
dc.relation.cnpq.fl_str_mv |
484 |
dc.relation.sponsorship.fl_str_mv |
5 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Engenharia Elétrica e da Computação (EMC) |
dc.publisher.initials.fl_str_mv |
UFG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola de Engenharia Elétrica, Mecânica e de Computação - EMC (RG) |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Repositório Institucional da UFG |
collection |
Repositório Institucional da UFG |
bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/3b275583-b8bf-4a6e-b344-9b7644bfbf04/download http://repositorio.bc.ufg.br/tede/bitstreams/77fd94e4-92c9-4d77-a9c6-dd9ef632a669/download http://repositorio.bc.ufg.br/tede/bitstreams/74732de7-ed65-4dcc-b35d-cb6b000cf9b4/download |
bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 4460e5956bc1d1639be9ae6146a50347 b691690a35c53d8a89191a29acc51523 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
tasesdissertacoes.bc@ufg.br |
_version_ |
1798044323174940672 |