Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto

SILVA, Gabriel Henrique Daniel da

Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto

Detalhes bibliográficos
Autor(a) principal:	SILVA, Gabriel Henrique Daniel da
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPE
Texto Completo:	https://repositorio.ufpe.br/handle/123456789/54067
Resumo:	Os serviços de atendimento ao consumidor (SACs) são canais de comunicação entre uma empresa e seus consumidores, possibilitando que os clientes tirem dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com o advento da Internet e das redes sociais, grande parte do contato é feito online através de canais descentralizados que geram uma enorme quantidade de informação textual a ser analisada. Consumidores insatisfeitos e que não se sentem priorizados tendem a se afastar e tomar ações que possam influenciar negativamente na imagem da empresa. Nesse contexto, este trabalho de mestrado propõe um processo para auxiliar as empresas a lidar com essa grande quantidade de reclamações que ficam expostas na Web através do processamento automático dos textos das reclamações. A solução proposta se baseia em uma estratégia de extração automática das reclamações postadas pelos consumidores em sites específicos, seguida de classificação e ranqueamento dessas reclamações, a fim de priorizar as críticas consideradas mais relevantes (i.e., com maior potencial de prejuízo) no momento. O processo proposto foi implementado em três etapas distintas. Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza um scrapping para extração das reclamações a partir de sites na Web. O código foi desenvolvido em Python com o auxílio do framework Selenium. O site escolhido para o protótipo inicial foi o “ReclameAQUI”. A partir dos dados extraídos, foi criado um corpus contendo reclamações que foram etiquetadas manualmente por pessoas com experiência no domínio de atendimento ao consumidor, também foi realizado um pré-processamento textual. A seguir, foi desenvolvido um classificador de texto baseado em Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados diversos experimentos buscando encontrar a combinação de melhor desempenho dentre as opções disponíveis. A configuração que utiliza TF-IDF para transformação de texto, K-Fold Cross Validation no treinamento e Regressão Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de 82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado também realiza o ranqueamento das reclamações prioritárias, oferecendo ainda a possibilidade de exportação das reclamações de forma ordenada.

Metadados do item

id	UFPE_9aa9cece5cf5f601d40d967a8e5c6d44
oai_identifier_str	oai:repositorio.ufpe.br:123456789/54067
network_acronym_str	UFPE
network_name_str	Repositório Institucional da UFPE
repository_id_str	2221
spelling	SILVA, Gabriel Henrique Daniel dahttp://lattes.cnpq.br/9247743032518953http://lattes.cnpq.br/5390541720896559BARROS, Flávia de Almeida2023-12-13T11:42:40Z2023-12-13T11:42:40Z2023-08-28SILVA, Gabriel Henrique Daniel da. Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.https://repositorio.ufpe.br/handle/123456789/54067Os serviços de atendimento ao consumidor (SACs) são canais de comunicação entre uma empresa e seus consumidores, possibilitando que os clientes tirem dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com o advento da Internet e das redes sociais, grande parte do contato é feito online através de canais descentralizados que geram uma enorme quantidade de informação textual a ser analisada. Consumidores insatisfeitos e que não se sentem priorizados tendem a se afastar e tomar ações que possam influenciar negativamente na imagem da empresa. Nesse contexto, este trabalho de mestrado propõe um processo para auxiliar as empresas a lidar com essa grande quantidade de reclamações que ficam expostas na Web através do processamento automático dos textos das reclamações. A solução proposta se baseia em uma estratégia de extração automática das reclamações postadas pelos consumidores em sites específicos, seguida de classificação e ranqueamento dessas reclamações, a fim de priorizar as críticas consideradas mais relevantes (i.e., com maior potencial de prejuízo) no momento. O processo proposto foi implementado em três etapas distintas. Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza um scrapping para extração das reclamações a partir de sites na Web. O código foi desenvolvido em Python com o auxílio do framework Selenium. O site escolhido para o protótipo inicial foi o “ReclameAQUI”. A partir dos dados extraídos, foi criado um corpus contendo reclamações que foram etiquetadas manualmente por pessoas com experiência no domínio de atendimento ao consumidor, também foi realizado um pré-processamento textual. A seguir, foi desenvolvido um classificador de texto baseado em Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados diversos experimentos buscando encontrar a combinação de melhor desempenho dentre as opções disponíveis. A configuração que utiliza TF-IDF para transformação de texto, K-Fold Cross Validation no treinamento e Regressão Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de 82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado também realiza o ranqueamento das reclamações prioritárias, oferecendo ainda a possibilidade de exportação das reclamações de forma ordenada.The customer service management (SCMs) are communication channels between a company and their customers. It allows their customers to ask questions, make suggestions, request information and register complaints. With the advent of the internet and social networks, a major part of that contact is now made online by multiple channels which generate a huge quantity of text information to be handled. Dissatisfied customers may cut ties and take actions that can cause negative influence on a company’s image. In this context, this paper proposes a process to help companies to handle the huge amount of complaints which are displayed on the web by automatically processing those complaints. The proposed solution is based on a strategy for automatic extraction of open customer’s complaints at specific websites, followed by classification and ranking of those complaints to prioritize the ones considered most relevant (i.e., with most potential waste) at the time. The proposed process has three distincts modules. The first module was responsible for creating a corpus by making a scrapper to extract the complaints from websites. The code was made in Python with the Selenium Framework. The choosed website for the initial prototype is “ReclameAQUI”. The extracted data was manually labeled by humans with experience with customer service. The second module was responsible for pre-processing the text. The last module develops a machine learning based text classifier using the labeled corpus. A few experiments were carried out to search for the best performance between the available options. The one usings TF-IDF for text transformation, K-Fold Cross Validation on training and Logistic Regression obtained the best result with 82.22% of accuracy, 82.39 of F-measure and 0.8881 of AUC. The implemented prototype ranks the complaints that were classified as significant. It has also the option to export the ordered complaints.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessInteligência computacionalSACExtração de informaçãoAprendizagem de máquinaClassificaçãoExtração, classificação e priorização de reclamações de consumidores em SACs online baseados em textoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPEORIGINALDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdfDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdfapplication/pdf1627577https://repositorio.ufpe.br/bitstream/123456789/54067/1/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf9ea750d979005b5f6eda5f54bfad9f85MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-82362https://repositorio.ufpe.br/bitstream/123456789/54067/3/license.txt5e89a1613ddc8510c6576f4b23a78973MD53CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/54067/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52TEXTDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.txtDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.txtExtracted texttext/plain122706https://repositorio.ufpe.br/bitstream/123456789/54067/4/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.txt702060b35723bef8dbdeaffb067e099aMD54THUMBNAILDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.jpgDISSERTAÇÃO Gabriel Henrique Daniel da Silva.pdf.jpgGenerated Thumbnailimage/jpeg1224https://repositorio.ufpe.br/bitstream/123456789/54067/5/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.jpg5563c90ba92e9b892ab24e9eb71b533fMD55123456789/540672024-01-05 02:30:43.458oai:repositorio.ufpe.br:123456789/54067VGVybW8gZGUgRGVww7NzaXRvIExlZ2FsIGUgQXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2l6YcOnw6NvIGRlIERvY3VtZW50b3Mgbm8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRQoKCkRlY2xhcm8gZXN0YXIgY2llbnRlIGRlIHF1ZSBlc3RlIFRlcm1vIGRlIERlcMOzc2l0byBMZWdhbCBlIEF1dG9yaXphw6fDo28gdGVtIG8gb2JqZXRpdm8gZGUgZGl2dWxnYcOnw6NvIGRvcyBkb2N1bWVudG9zIGRlcG9zaXRhZG9zIG5vIFJlcG9zaXTDs3JpbyBEaWdpdGFsIGRhIFVGUEUgZSBkZWNsYXJvIHF1ZToKCkkgLSBvcyBkYWRvcyBwcmVlbmNoaWRvcyBubyBmb3JtdWzDoXJpbyBkZSBkZXDDs3NpdG8gc8OjbyB2ZXJkYWRlaXJvcyBlIGF1dMOqbnRpY29zOwoKSUkgLSAgbyBjb250ZcO6ZG8gZGlzcG9uaWJpbGl6YWRvIMOpIGRlIHJlc3BvbnNhYmlsaWRhZGUgZGUgc3VhIGF1dG9yaWE7CgpJSUkgLSBvIGNvbnRlw7pkbyDDqSBvcmlnaW5hbCwgZSBzZSBvIHRyYWJhbGhvIGUvb3UgcGFsYXZyYXMgZGUgb3V0cmFzIHBlc3NvYXMgZm9yYW0gdXRpbGl6YWRvcywgZXN0YXMgZm9yYW0gZGV2aWRhbWVudGUgcmVjb25oZWNpZGFzOwoKSVYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIG9icmEgY29sZXRpdmEgKG1haXMgZGUgdW0gYXV0b3IpOiB0b2RvcyBvcyBhdXRvcmVzIGVzdMOjbyBjaWVudGVzIGRvIGRlcMOzc2l0byBlIGRlIGFjb3JkbyBjb20gZXN0ZSB0ZXJtbzsKClYgLSBxdWFuZG8gdHJhdGFyLXNlIGRlIFRyYWJhbGhvIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28sIERpc3NlcnRhw6fDo28gb3UgVGVzZTogbyBhcnF1aXZvIGRlcG9zaXRhZG8gY29ycmVzcG9uZGUgw6AgdmVyc8OjbyBmaW5hbCBkbyB0cmFiYWxobzsKClZJIC0gcXVhbmRvIHRyYXRhci1zZSBkZSBUcmFiYWxobyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvLCBEaXNzZXJ0YcOnw6NvIG91IFRlc2U6IGVzdG91IGNpZW50ZSBkZSBxdWUgYSBhbHRlcmHDp8OjbyBkYSBtb2RhbGlkYWRlIGRlIGFjZXNzbyBhbyBkb2N1bWVudG8gYXDDs3MgbyBkZXDDs3NpdG8gZSBhbnRlcyBkZSBmaW5kYXIgbyBwZXLDrW9kbyBkZSBlbWJhcmdvLCBxdWFuZG8gZm9yIGVzY29saGlkbyBhY2Vzc28gcmVzdHJpdG8sIHNlcsOhIHBlcm1pdGlkYSBtZWRpYW50ZSBzb2xpY2l0YcOnw6NvIGRvIChhKSBhdXRvciAoYSkgYW8gU2lzdGVtYSBJbnRlZ3JhZG8gZGUgQmlibGlvdGVjYXMgZGEgVUZQRSAoU0lCL1VGUEUpLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gQWJlcnRvOgoKTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRlIGF1dG9yIHF1ZSByZWNhZW0gc29icmUgZXN0ZSBkb2N1bWVudG8sIGZ1bmRhbWVudGFkbyBuYSBMZWkgZGUgRGlyZWl0byBBdXRvcmFsIG5vIDkuNjEwLCBkZSAxOSBkZSBmZXZlcmVpcm8gZGUgMTk5OCwgYXJ0LiAyOSwgaW5jaXNvIElJSSwgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIGEgZGlzcG9uaWJpbGl6YXIgZ3JhdHVpdGFtZW50ZSwgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkIChhcXVpc2nDp8OjbykgYXRyYXbDqXMgZG8gc2l0ZSBkbyBSZXBvc2l0w7NyaW8gRGlnaXRhbCBkYSBVRlBFIG5vIGVuZGVyZcOnbyBodHRwOi8vd3d3LnJlcG9zaXRvcmlvLnVmcGUuYnIsIGEgcGFydGlyIGRhIGRhdGEgZGUgZGVww7NzaXRvLgoKIApQYXJhIHRyYWJhbGhvcyBlbSBBY2Vzc28gUmVzdHJpdG86CgpOYSBxdWFsaWRhZGUgZGUgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGUgYXV0b3IgcXVlIHJlY2FlbSBzb2JyZSBlc3RlIGRvY3VtZW50bywgZnVuZGFtZW50YWRvIG5hIExlaSBkZSBEaXJlaXRvIEF1dG9yYWwgbm8gOS42MTAgZGUgMTkgZGUgZmV2ZXJlaXJvIGRlIDE5OTgsIGFydC4gMjksIGluY2lzbyBJSUksIGF1dG9yaXpvIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgUGVybmFtYnVjbyBhIGRpc3BvbmliaWxpemFyIGdyYXR1aXRhbWVudGUsIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCAoYXF1aXNpw6fDo28pIGF0cmF2w6lzIGRvIHNpdGUgZG8gUmVwb3NpdMOzcmlvIERpZ2l0YWwgZGEgVUZQRSBubyBlbmRlcmXDp28gaHR0cDovL3d3dy5yZXBvc2l0b3Jpby51ZnBlLmJyLCBxdWFuZG8gZmluZGFyIG8gcGVyw61vZG8gZGUgZW1iYXJnbyBjb25kaXplbnRlIGFvIHRpcG8gZGUgZG9jdW1lbnRvLCBjb25mb3JtZSBpbmRpY2FkbyBubyBjYW1wbyBEYXRhIGRlIEVtYmFyZ28uCg==Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212024-01-05T05:30:43Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
spellingShingle	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto SILVA, Gabriel Henrique Daniel da Inteligência computacional SAC Extração de informação Aprendizagem de máquina Classificação
title_short	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_full	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_fullStr	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_full_unstemmed	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
title_sort	Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto
author	SILVA, Gabriel Henrique Daniel da
author_facet	SILVA, Gabriel Henrique Daniel da
author_role	author
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/9247743032518953
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/5390541720896559
dc.contributor.author.fl_str_mv	SILVA, Gabriel Henrique Daniel da
dc.contributor.advisor1.fl_str_mv	BARROS, Flávia de Almeida
contributor_str_mv	BARROS, Flávia de Almeida
dc.subject.por.fl_str_mv	Inteligência computacional SAC Extração de informação Aprendizagem de máquina Classificação
topic	Inteligência computacional SAC Extração de informação Aprendizagem de máquina Classificação
description	Os serviços de atendimento ao consumidor (SACs) são canais de comunicação entre uma empresa e seus consumidores, possibilitando que os clientes tirem dúvidas, deem sugestões, solicitem informações e registrem reclamações. Com o advento da Internet e das redes sociais, grande parte do contato é feito online através de canais descentralizados que geram uma enorme quantidade de informação textual a ser analisada. Consumidores insatisfeitos e que não se sentem priorizados tendem a se afastar e tomar ações que possam influenciar negativamente na imagem da empresa. Nesse contexto, este trabalho de mestrado propõe um processo para auxiliar as empresas a lidar com essa grande quantidade de reclamações que ficam expostas na Web através do processamento automático dos textos das reclamações. A solução proposta se baseia em uma estratégia de extração automática das reclamações postadas pelos consumidores em sites específicos, seguida de classificação e ranqueamento dessas reclamações, a fim de priorizar as críticas consideradas mais relevantes (i.e., com maior potencial de prejuízo) no momento. O processo proposto foi implementado em três etapas distintas. Inicialmente, foi desenvolvido um módulo para criação do corpus que realiza um scrapping para extração das reclamações a partir de sites na Web. O código foi desenvolvido em Python com o auxílio do framework Selenium. O site escolhido para o protótipo inicial foi o “ReclameAQUI”. A partir dos dados extraídos, foi criado um corpus contendo reclamações que foram etiquetadas manualmente por pessoas com experiência no domínio de atendimento ao consumidor, também foi realizado um pré-processamento textual. A seguir, foi desenvolvido um classificador de texto baseado em Aprendizagem de Máquina usando o corpus etiquetado. Foram realizados diversos experimentos buscando encontrar a combinação de melhor desempenho dentre as opções disponíveis. A configuração que utiliza TF-IDF para transformação de texto, K-Fold Cross Validation no treinamento e Regressão Logística teve o melhor resultado, com acurácia de 82,22%, F-measure de 82,39% e área sob a curva ROC de 0,8881. Por fim, o protótipo implementado também realiza o ranqueamento das reclamações prioritárias, oferecendo ainda a possibilidade de exportação das reclamações de forma ordenada.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-12-13T11:42:40Z
dc.date.available.fl_str_mv	2023-12-13T11:42:40Z
dc.date.issued.fl_str_mv	2023-08-28
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	SILVA, Gabriel Henrique Daniel da. Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
dc.identifier.uri.fl_str_mv	https://repositorio.ufpe.br/handle/123456789/54067
identifier_str_mv	SILVA, Gabriel Henrique Daniel da. Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
url	https://repositorio.ufpe.br/handle/123456789/54067
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv	Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv	UFPE
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Federal de Pernambuco
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE
instname_str	Universidade Federal de Pernambuco (UFPE)
instacron_str	UFPE
institution	UFPE
reponame_str	Repositório Institucional da UFPE
collection	Repositório Institucional da UFPE
bitstream.url.fl_str_mv	https://repositorio.ufpe.br/bitstream/123456789/54067/1/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf https://repositorio.ufpe.br/bitstream/123456789/54067/3/license.txt https://repositorio.ufpe.br/bitstream/123456789/54067/2/license_rdf https://repositorio.ufpe.br/bitstream/123456789/54067/4/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.txt https://repositorio.ufpe.br/bitstream/123456789/54067/5/DISSERTA%c3%87%c3%83O%20Gabriel%20Henrique%20Daniel%20da%20Silva.pdf.jpg
bitstream.checksum.fl_str_mv	9ea750d979005b5f6eda5f54bfad9f85 5e89a1613ddc8510c6576f4b23a78973 e39d27027a6cc9cb039ad269a5db8e34 702060b35723bef8dbdeaffb067e099a 5563c90ba92e9b892ab24e9eb71b533f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv	attena@ufpe.br
_version_	1802310853402296320

Extração, classificação e priorização de reclamações de consumidores em SACs online baseados em texto

Registros relacionados