Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto

Detalhes bibliográficos
Autor(a) principal: SILVA, Gabriel Henrique Daniel da
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/54067
Resumo: Os serviços de atendimento ao consumidor (SACs) são canais de comunicação entre uma empresa e seus consumidores, possibilitando que os clientes tirem dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com o advento da Internet e das redes sociais, grande parte do contato é feito online através de canais descentralizados que geram uma enorme quantidade de informação textual a ser analisada. Consumidores insatisfeitos e que não se sentem priorizados tendem a se afastar e tomar ações que possam influenciar negativamente na imagem da empresa. Nesse contexto, este trabalho de mestrado propõe um processo para auxiliar as empresas a lidar com essa grande quantidade de reclamações que ficam expostas na Web através do processamento automático dos textos das reclamações. A solução proposta se baseia em uma estratégia de extração automática das reclamações postadas pelos consumidores em sites específicos, seguida de classificação e ranqueamento dessas reclamações, a fim de priorizar as críticas consideradas mais relevantes (i.e., com maior potencial de prejuízo) no momento. O processo proposto foi implementado em três etapas distintas. Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza um scrapping para extração das reclamações a partir de sites na Web. O código foi desenvolvido em Python com o auxílio do framework Selenium. O site escolhido para o protótipo inicial foi o “ReclameAQUI”. A partir dos dados extraídos, foi criado um corpus contendo reclamações que foram etiquetadas manualmente por pessoas com experiência no domínio de atendimento ao consumidor, também foi realizado um pré-processamento textual. A seguir, foi desenvolvido um classificador de texto baseado em Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados diversos experimentos buscando encontrar a combinação de melhor desempenho dentre as opções disponíveis. A configuração que utiliza TF-IDF para transformação de texto, K-Fold Cross Validation no treinamento e Regressão Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de 82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado também realiza o ranqueamento das reclamações prioritárias, oferecendo ainda a possibilidade de exportação das reclamações de forma ordenada.
id UFPE_9aa9cece5cf5f601d40d967a8e5c6d44
oai_identifier_str oai:repositorio.ufpe.br:123456789/54067
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling SILVA, Gabriel Henrique Daniel dahttp://lattes.cnpq.br/9247743032518953http://lattes.cnpq.br/5390541720896559BARROS, Flávia de Almeida2023-12-13T11:42:40Z2023-12-13T11:42:40Z2023-08-28SILVA, Gabriel Henrique Daniel da. Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.https://repositorio.ufpe.br/handle/123456789/54067Os serviços de atendimento ao consumidor (SACs) são canais de comunicação entre uma empresa e seus consumidores, possibilitando que os clientes tirem dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com o advento da Internet e das redes sociais, grande parte do contato é feito online através de canais descentralizados que geram uma enorme quantidade de informação textual a ser analisada. Consumidores insatisfeitos e que não se sentem priorizados tendem a se afastar e tomar ações que possam influenciar negativamente na imagem da empresa. Nesse contexto, este trabalho de mestrado propõe um processo para auxiliar as empresas a lidar com essa grande quantidade de reclamações que ficam expostas na Web através do processamento automático dos textos das reclamações. A solução proposta se baseia em uma estratégia de extração automática das reclamações postadas pelos consumidores em sites específicos, seguida de classificação e ranqueamento dessas reclamações, a fim de priorizar as críticas consideradas mais relevantes (i.e., com maior potencial de prejuízo) no momento. O processo proposto foi implementado em três etapas distintas. Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza um scrapping para extração das reclamações a partir de sites na Web. O código foi desenvolvido em Python com o auxílio do framework Selenium. O site escolhido para o protótipo inicial foi o “ReclameAQUI”. A partir dos dados extraídos, foi criado um corpus contendo reclamações que foram etiquetadas manualmente por pessoas com experiência no domínio de atendimento ao consumidor, também foi realizado um pré-processamento textual. A seguir, foi desenvolvido um classificador de texto baseado em Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados diversos experimentos buscando encontrar a combinação de melhor desempenho dentre as opções disponíveis. A configuração que utiliza TF-IDF para transformação de texto, K-Fold Cross Validation no treinamento e Regressão Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de 82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado também realiza o ranqueamento das reclamações prioritárias, oferecendo ainda a possibilidade de exportação das reclamações de forma ordenada.The customer service management (SCMs) are communication channels between a company and their customers. It allows their customers to ask questions, make suggestions, request information and register complaints. With the advent of the internet and social networks, a major part of that contact is now made online by multiple channels which generate a huge quantity of text information to be handled. Dissatisfied customers may cut ties and take actions that can cause negative influence on a company’s image. In this context, this paper proposes a process to help companies to handle the huge amount of complaints which are displayed on the web by automatically processing those complaints. The proposed solution is based on a strategy for automatic extraction of open customer’s complaints at specific websites, followed by classification and ranking of those complaints to prioritize the ones considered most relevant (i.e., with most potential waste) at the time. The proposed process has three distincts modules. The first module was responsible for creating a corpus by making a scrapper to extract the complaints from websites. The code was made in Python with the Selenium Framework. The choosed website for the initial prototype is “ReclameAQUI”. The extracted data was manually labeled by humans with experience with customer service. The second module was responsible for pre-processing the text. The last module develops a machine learning based text classifier using the labeled corpus. A few experiments were carried out to search for the best performance between the available options. The one usings TF-IDF for text transformation, K-Fold Cross Validation on training and Logistic Regression obtained the best result with 82.22% of accuracy, 82.39 of F-measure and 0.8881 of AUC. The implemented prototype ranks the complaints that were classified as significant. It has also the option to export the ordered complaints.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalSACExtração de informaçãoAprendizagem de máquinaClassificaçãoExtração, classificação e priorização de reclamações de consumidores em SACs online baseados em textoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdfDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdfapplication/pdf1627577https://repositorio.ufpe.br/bitstream/123456789/54067/1/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf9ea750d979005b5f6eda5f54bfad9f85MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/54067/3/license.txt5e89a1613ddc8510c6576f4b23a78973MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/54067/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52TEXTDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.txtDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.txtExtracted texttext/plain122706https://repositorio.ufpe.br/bitstream/123456789/54067/4/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.txt702060b35723bef8dbdeaffb067e099aMD54THUMBNAILDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.jpgDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.jpgGenerated Thumbnailimage/jpeg1224https://repositorio.ufpe.br/bitstream/123456789/54067/5/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.jpg5563c90ba92e9b892ab24e9eb71b533fMD55123456789/540672024-01-05 02:30:43.458oai:repositorio.ufpe.br:123456789/54067VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212024-01-05T05:30:43Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
spellingShingle Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
SILVA, Gabriel Henrique Daniel da
Inteligência computacional
SAC
Extração de informação
Aprendizagem de máquina
Classificação
title_short Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_full Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_fullStr Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_full_unstemmed Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_sort Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
author SILVA, Gabriel Henrique Daniel da
author_facet SILVA, Gabriel Henrique Daniel da
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9247743032518953
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5390541720896559
dc.contributor.author.fl_str_mv SILVA, Gabriel Henrique Daniel da
dc.contributor.advisor1.fl_str_mv BARROS, Flávia de Almeida
contributor_str_mv BARROS, Flávia de Almeida
dc.subject.por.fl_str_mv Inteligência computacional
SAC
Extração de informação
Aprendizagem de máquina
Classificação
topic Inteligência computacional
SAC
Extração de informação
Aprendizagem de máquina
Classificação
description Os serviços de atendimento ao consumidor (SACs) são canais de comunicação entre uma empresa e seus consumidores, possibilitando que os clientes tirem dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com o advento da Internet e das redes sociais, grande parte do contato é feito online através de canais descentralizados que geram uma enorme quantidade de informação textual a ser analisada. Consumidores insatisfeitos e que não se sentem priorizados tendem a se afastar e tomar ações que possam influenciar negativamente na imagem da empresa. Nesse contexto, este trabalho de mestrado propõe um processo para auxiliar as empresas a lidar com essa grande quantidade de reclamações que ficam expostas na Web através do processamento automático dos textos das reclamações. A solução proposta se baseia em uma estratégia de extração automática das reclamações postadas pelos consumidores em sites específicos, seguida de classificação e ranqueamento dessas reclamações, a fim de priorizar as críticas consideradas mais relevantes (i.e., com maior potencial de prejuízo) no momento. O processo proposto foi implementado em três etapas distintas. Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza um scrapping para extração das reclamações a partir de sites na Web. O código foi desenvolvido em Python com o auxílio do framework Selenium. O site escolhido para o protótipo inicial foi o “ReclameAQUI”. A partir dos dados extraídos, foi criado um corpus contendo reclamações que foram etiquetadas manualmente por pessoas com experiência no domínio de atendimento ao consumidor, também foi realizado um pré-processamento textual. A seguir, foi desenvolvido um classificador de texto baseado em Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados diversos experimentos buscando encontrar a combinação de melhor desempenho dentre as opções disponíveis. A configuração que utiliza TF-IDF para transformação de texto, K-Fold Cross Validation no treinamento e Regressão Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de 82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado também realiza o ranqueamento das reclamações prioritárias, oferecendo ainda a possibilidade de exportação das reclamações de forma ordenada.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-12-13T11:42:40Z
dc.date.available.fl_str_mv 2023-12-13T11:42:40Z
dc.date.issued.fl_str_mv 2023-08-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SILVA, Gabriel Henrique Daniel da. Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/54067
identifier_str_mv SILVA, Gabriel Henrique Daniel da. Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
url https://repositorio.ufpe.br/handle/123456789/54067
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/54067/1/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf
https://repositorio.ufpe.br/bitstream/123456789/54067/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/54067/2/license_rdf
https://repositorio.ufpe.br/bitstream/123456789/54067/4/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/54067/5/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.jpg
bitstream.checksum.fl_str_mv 9ea750d979005b5f6eda5f54bfad9f85
5e89a1613ddc8510c6576f4b23a78973
e39d27027a6cc9cb039ad269a5db8e34
702060b35723bef8dbdeaffb067e099a
5563c90ba92e9b892ab24e9eb71b533f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310853402296320