Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Outros Autores: | |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFAM |
Texto Completo: | https://tede.ufam.edu.br/handle/tede/7933 |
Resumo: | Devido à popularidade da internet e ao baixo preço de dispositivos móveis, as pessoas mudaram a forma como interagem umas com as outras e com empresas. No passado, a internet impulsionou o crescimento do comércio eletrônico, inicialmente com pessoas fazendo compras por meio de computadores pessoais e mais recentemente utilizando dispositivos móveis, quando o comércio eletrônico passou a ser chamado também como comércio móvel. Nos últimos anos, ao lado do crescimento do comércio móvel, o número de usuários ativos em aplicativos de trocas de mensagens também cresceu. Em resposta a tal fenômeno, empresas de vários setores têm investido no atendimento a seus clientes por meio deste tipo de aplicativos, contudo, manter pessoal qualificado para atender os clientes pode gerar alto custo. Além do custo, o atendimento também pode ficar demorado em momentos de pico, gerando insatisfação por parte dos clientes. Neste cenário o desenvolvimento de sistemas de diálogo orientados a tarefa surge como uma alternativa para o atendimento à clientes, graças a sua capacidade de atender a um grande número de clientes de forma ininterrupta, com boa velocidade de resposta e baixo custo. A crescente demanda por esses sistemas e os desafios envolvidos em sua construção, nos motivou a estudar sobre esse tipo de sistema. Neste estudo aprendemos que existe uma fase no desenvolvimento chamada de compreensão de linguagem natural, cujo propósito é identificar a intenção do usuário a cada frase dita por ele, assim como parâmetros relacionados a essa intenção identificada. Este propósito pode ser alcançado por meio de duas tarefas, conhecidas como: detecção de intenção e extração de parâmetros. Por serem tarefas conhecidas na literatura de sistema de diálogos, e possuírem diversos trabalhos já publicados ao longo de anos, propomos nesta dissertação um estudo sobre o impacto do uso de técnicas de pré-processamento de texto aplicado em modelos utilizados nessas duas tarefas. Mais precisamente, escolhemos técnicas como stemmer, lematização, remoção de stopwords e uso de Word Embeddings para serem utilizados em nossos experimentos. Os experimentos foram realizados em 3 bases de dados de referência para o problema estudado, concluímos que nem todas as técnicas de pré-processamento escolhidas impactam de forma positiva quando aplicadas em trabalhos publicados na literatura. Diante das técnicas comparadas, apenas o stemmer resultou em ganho, um ganho de até 3% na revocação da tarefa de extração de parâmetros custando uma pequena perda de 0.9% na precisão da mesma tarefa. Já as técnicas de lematização, remoção de stopwords e Word Embeddings resultaram em perdas na revocação e precisão. Ao analisar os resultados negativos concluímos que a lematização confunde o modelo por apresentar diferentes lemas para uma mesma palavra, enquanto que a remoção de stopwords remove as preposições e artigos que são importantes para contextualizar e localizar os parâmetros a serem extraídos, no caso dos Word Embeddings a configuração dos trabalhos comparados não favoreceu o uso da técnica. |
id |
UFAM_66fea69886d6164f704e51d7fba00912 |
---|---|
oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/7933 |
network_acronym_str |
UFAM |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository_id_str |
6592 |
spelling |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefaComércio eletrônicoProcessamento de linguagem natural (Computação)Processamento de textos (Computação)StopwordsWord EmbeddingsCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOComércio eletrônicoSistemas de diálogoProcessamento de linguagem naturalDetecção de intençãoExtração de parâmetrosChatbotDevido à popularidade da internet e ao baixo preço de dispositivos móveis, as pessoas mudaram a forma como interagem umas com as outras e com empresas. No passado, a internet impulsionou o crescimento do comércio eletrônico, inicialmente com pessoas fazendo compras por meio de computadores pessoais e mais recentemente utilizando dispositivos móveis, quando o comércio eletrônico passou a ser chamado também como comércio móvel. Nos últimos anos, ao lado do crescimento do comércio móvel, o número de usuários ativos em aplicativos de trocas de mensagens também cresceu. Em resposta a tal fenômeno, empresas de vários setores têm investido no atendimento a seus clientes por meio deste tipo de aplicativos, contudo, manter pessoal qualificado para atender os clientes pode gerar alto custo. Além do custo, o atendimento também pode ficar demorado em momentos de pico, gerando insatisfação por parte dos clientes. Neste cenário o desenvolvimento de sistemas de diálogo orientados a tarefa surge como uma alternativa para o atendimento à clientes, graças a sua capacidade de atender a um grande número de clientes de forma ininterrupta, com boa velocidade de resposta e baixo custo. A crescente demanda por esses sistemas e os desafios envolvidos em sua construção, nos motivou a estudar sobre esse tipo de sistema. Neste estudo aprendemos que existe uma fase no desenvolvimento chamada de compreensão de linguagem natural, cujo propósito é identificar a intenção do usuário a cada frase dita por ele, assim como parâmetros relacionados a essa intenção identificada. Este propósito pode ser alcançado por meio de duas tarefas, conhecidas como: detecção de intenção e extração de parâmetros. Por serem tarefas conhecidas na literatura de sistema de diálogos, e possuírem diversos trabalhos já publicados ao longo de anos, propomos nesta dissertação um estudo sobre o impacto do uso de técnicas de pré-processamento de texto aplicado em modelos utilizados nessas duas tarefas. Mais precisamente, escolhemos técnicas como stemmer, lematização, remoção de stopwords e uso de Word Embeddings para serem utilizados em nossos experimentos. Os experimentos foram realizados em 3 bases de dados de referência para o problema estudado, concluímos que nem todas as técnicas de pré-processamento escolhidas impactam de forma positiva quando aplicadas em trabalhos publicados na literatura. Diante das técnicas comparadas, apenas o stemmer resultou em ganho, um ganho de até 3% na revocação da tarefa de extração de parâmetros custando uma pequena perda de 0.9% na precisão da mesma tarefa. Já as técnicas de lematização, remoção de stopwords e Word Embeddings resultaram em perdas na revocação e precisão. Ao analisar os resultados negativos concluímos que a lematização confunde o modelo por apresentar diferentes lemas para uma mesma palavra, enquanto que a remoção de stopwords remove as preposições e artigos que são importantes para contextualizar e localizar os parâmetros a serem extraídos, no caso dos Word Embeddings a configuração dos trabalhos comparados não favoreceu o uso da técnica.After the popularity of the internet and the low price of mobile devices, the people have changed the way they interact with each other and with companies. In the past, the internet has driven the growth of e-commerce, initially with people shopping through personal computers and more recently using mobile devices, when e-commerce has come to be called also as mobile commerce. In recent years, alongside the growth of mobile commerce, the number of active users in messaging applications has also grown. In response to this phenomenon, companies from various sectors have invested in serving their customers through these types of applications, however, maintaining qualified personnel to serve can generate high costs. In addition to the cost, service can also be time-consuming at peak times, generating customer dissatisfaction. In this scenario, the development of task-oriented dialogue systems emerges as an alternative to customer service, thanks to its ability to serve a large number of customers continuously, with good response speed and low cost. The growing demand for these systems and the challenges involved in their construction, motivated us to study about this type of system. In this study, we learned that there is a phase in the development called natural language understanding, which purpose is to identify the user's intention for each sentence spoken by him, as well as parameters related to that identified intention. This purpose can be achieved through two tasks, known as: intention detection and slot filling. As they are tasks known in the dialog system literature, and since there are several works already published over the years, we propose in this dissertation a study on the impact of the use of text pre-processing techniques applied in models used in these two tasks. More precisely, we chose techniques such as stemmer, lemmatization, stopwords remotion and using Word Embeddings to be used in our experiments. Experiments carried out in reference datasets for the problem studied indicate that not all the pre-processing techniques chosen had a positive impact when applied in works published in the literature. In view of the compared techniques, only the stemmer results in a gain, a gain of up to 3% in the recall of the parameter extraction task, costing a small loss of 0.9% in the same task. Since stemming techniques, removing stopwords and Word Embeddings resulted in changes in recall and accuracy. When analyzing the completed results, which shows a confused reader or model for presenting different slogans for the same word, while removing stopwords removes prepositions and articles that are important to contextualize and use the items to be extracted, no case Word Embeddings, a configuration of the compared works did not favor the use of the technique.CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal do AmazonasInstituto de ComputaçãoBrasilUFAMPrograma de Pós-graduação em InformáticaMoura, Edleno Silva dehttp://lattes.cnpq.br/4737852130924504Silva, Altigran Soares dahttp://lattes.cnpq.br/3405503472010994Rosa, Thierson Coutohttp://lattes.cnpq.br/4414718560764818Ribeiro, Erick Regohttp://lattes.cnpq.br/47704460358573612020-09-16T13:48:23Z2020-03-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfRIBEIRO, Erick Rego. Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa. 2020. 64 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020.https://tede.ufam.edu.br/handle/tede/7933porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2020-09-17T05:03:43Zoai:https://tede.ufam.edu.br/handle/:tede/7933Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922020-09-17T05:03:43Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
dc.title.none.fl_str_mv |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
title |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
spellingShingle |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa Ribeiro, Erick Rego Comércio eletrônico Processamento de linguagem natural (Computação) Processamento de textos (Computação) Stopwords Word Embeddings CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Comércio eletrônico Sistemas de diálogo Processamento de linguagem natural Detecção de intenção Extração de parâmetros Chatbot |
title_short |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
title_full |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
title_fullStr |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
title_full_unstemmed |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
title_sort |
Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa |
author |
Ribeiro, Erick Rego |
author_facet |
Ribeiro, Erick Rego http://lattes.cnpq.br/4770446035857361 |
author_role |
author |
author2 |
http://lattes.cnpq.br/4770446035857361 |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Moura, Edleno Silva de http://lattes.cnpq.br/4737852130924504 Silva, Altigran Soares da http://lattes.cnpq.br/3405503472010994 Rosa, Thierson Couto http://lattes.cnpq.br/4414718560764818 |
dc.contributor.author.fl_str_mv |
Ribeiro, Erick Rego http://lattes.cnpq.br/4770446035857361 |
dc.subject.por.fl_str_mv |
Comércio eletrônico Processamento de linguagem natural (Computação) Processamento de textos (Computação) Stopwords Word Embeddings CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Comércio eletrônico Sistemas de diálogo Processamento de linguagem natural Detecção de intenção Extração de parâmetros Chatbot |
topic |
Comércio eletrônico Processamento de linguagem natural (Computação) Processamento de textos (Computação) Stopwords Word Embeddings CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO Comércio eletrônico Sistemas de diálogo Processamento de linguagem natural Detecção de intenção Extração de parâmetros Chatbot |
description |
Devido à popularidade da internet e ao baixo preço de dispositivos móveis, as pessoas mudaram a forma como interagem umas com as outras e com empresas. No passado, a internet impulsionou o crescimento do comércio eletrônico, inicialmente com pessoas fazendo compras por meio de computadores pessoais e mais recentemente utilizando dispositivos móveis, quando o comércio eletrônico passou a ser chamado também como comércio móvel. Nos últimos anos, ao lado do crescimento do comércio móvel, o número de usuários ativos em aplicativos de trocas de mensagens também cresceu. Em resposta a tal fenômeno, empresas de vários setores têm investido no atendimento a seus clientes por meio deste tipo de aplicativos, contudo, manter pessoal qualificado para atender os clientes pode gerar alto custo. Além do custo, o atendimento também pode ficar demorado em momentos de pico, gerando insatisfação por parte dos clientes. Neste cenário o desenvolvimento de sistemas de diálogo orientados a tarefa surge como uma alternativa para o atendimento à clientes, graças a sua capacidade de atender a um grande número de clientes de forma ininterrupta, com boa velocidade de resposta e baixo custo. A crescente demanda por esses sistemas e os desafios envolvidos em sua construção, nos motivou a estudar sobre esse tipo de sistema. Neste estudo aprendemos que existe uma fase no desenvolvimento chamada de compreensão de linguagem natural, cujo propósito é identificar a intenção do usuário a cada frase dita por ele, assim como parâmetros relacionados a essa intenção identificada. Este propósito pode ser alcançado por meio de duas tarefas, conhecidas como: detecção de intenção e extração de parâmetros. Por serem tarefas conhecidas na literatura de sistema de diálogos, e possuírem diversos trabalhos já publicados ao longo de anos, propomos nesta dissertação um estudo sobre o impacto do uso de técnicas de pré-processamento de texto aplicado em modelos utilizados nessas duas tarefas. Mais precisamente, escolhemos técnicas como stemmer, lematização, remoção de stopwords e uso de Word Embeddings para serem utilizados em nossos experimentos. Os experimentos foram realizados em 3 bases de dados de referência para o problema estudado, concluímos que nem todas as técnicas de pré-processamento escolhidas impactam de forma positiva quando aplicadas em trabalhos publicados na literatura. Diante das técnicas comparadas, apenas o stemmer resultou em ganho, um ganho de até 3% na revocação da tarefa de extração de parâmetros custando uma pequena perda de 0.9% na precisão da mesma tarefa. Já as técnicas de lematização, remoção de stopwords e Word Embeddings resultaram em perdas na revocação e precisão. Ao analisar os resultados negativos concluímos que a lematização confunde o modelo por apresentar diferentes lemas para uma mesma palavra, enquanto que a remoção de stopwords remove as preposições e artigos que são importantes para contextualizar e localizar os parâmetros a serem extraídos, no caso dos Word Embeddings a configuração dos trabalhos comparados não favoreceu o uso da técnica. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-09-16T13:48:23Z 2020-03-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
RIBEIRO, Erick Rego. Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa. 2020. 64 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020. https://tede.ufam.edu.br/handle/tede/7933 |
identifier_str_mv |
RIBEIRO, Erick Rego. Impacto de técnicas de pré-processamento de texto na detecção de intenção e extração de parâmetros em sistemas de diálogo orientados a tarefa. 2020. 64 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2020. |
url |
https://tede.ufam.edu.br/handle/tede/7933 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
instname_str |
Universidade Federal do Amazonas (UFAM) |
instacron_str |
UFAM |
institution |
UFAM |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
_version_ |
1809732040892874752 |