Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Uninove |
Texto Completo: | http://bibliotecatede.uninove.br/tede/handle/tede/225 |
Resumo: | The Internet nowadays is a reality in people's lives, enabling the growth of many online services companies. However, to maintain their activities and stay in the market, it s important for these companies to worry about the quality of the provided services. In this context, it becomes important to be able to assess the client satisfaction regarding those services. One way to assess the clients' sentiment regarding the provided services is Opinion Mining, which refers to the set of techniques used to extract and assess the sentiment expressed in texts. The goal of this work was to compare Classification Models for the clients' comments for Opinion Mining in a Brazilian online job search company. Three models were implemented: one based on commercial software named Repustate; one Dictionary based and one based on Naive Bayes. The Models were applied to a database containing non-structured comments of clients in Portuguese, captured in a service cancellation form. A non-structured comment contains typos, concordance errors and can be almost unintelligible. Classifying non-structured comments in Portuguese is a complex task for a classifier for two reasons: the errors in comments and the scarcity of Classification Models for comments in Portuguese to be taken as examples. Those reasons make the Models developed in this work relevant for the research field of Sentiment Analysis and Opinion Mining. The performance evaluation of the Classification Models was performed using Kappa coefficient and the Confusion Matrix. The classification performance of the three models was analyzed by comparing it with the classification made by human judges, that in turn, had their agreement among them assessed using Kappa and Confusion Matrix. The non-structured characteristic of the comments caused divergence in the judges classification and also among the Classification Models. The agreement among the classifiers and the judges was moderate at best, with the best performance achieved by the Naïve Bayes based classifier. The models were applied to the database and, despite the characteristics of the comments the Opinion Mining was performed. The conclusion is that the performance of the classifiers in the Opinion Mining in a Brazilian online search company was positive and the goal of this work has been reached. It s worth to note that the Opinion Mining in non-structured comments in Portuguese is a complex task, that demands research and this scenario is open for new studies. |
id |
NOVE_278d0cbd383449c6cd49b4f4ccc48236 |
---|---|
oai_identifier_str |
oai:localhost:tede/225 |
network_acronym_str |
NOVE |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Uninove |
repository_id_str |
|
spelling |
Sassi, Renato Joséhttp://lattes.cnpq.br/8750334661789610Chaves, Marcírio Silveirahttp://lattes.cnpq.br/1149445153608393Santana, José Carlos Curvelohttp://lattes.cnpq.br/0408226658529368CPF:25649674850http://lattes.cnpq.br/6065923965032871Miranda, Marcelo Drudi2015-04-07T21:10:40Z2015-02-112014-09-28MIRANDA, Marcelo Drudi. Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos. 2014. 97 f. Dissertação (Mestrado em Engenharia) - Universidade Nove de Julho, São Paulo, 2014.http://bibliotecatede.uninove.br/tede/handle/tede/225The Internet nowadays is a reality in people's lives, enabling the growth of many online services companies. However, to maintain their activities and stay in the market, it s important for these companies to worry about the quality of the provided services. In this context, it becomes important to be able to assess the client satisfaction regarding those services. One way to assess the clients' sentiment regarding the provided services is Opinion Mining, which refers to the set of techniques used to extract and assess the sentiment expressed in texts. The goal of this work was to compare Classification Models for the clients' comments for Opinion Mining in a Brazilian online job search company. Three models were implemented: one based on commercial software named Repustate; one Dictionary based and one based on Naive Bayes. The Models were applied to a database containing non-structured comments of clients in Portuguese, captured in a service cancellation form. A non-structured comment contains typos, concordance errors and can be almost unintelligible. Classifying non-structured comments in Portuguese is a complex task for a classifier for two reasons: the errors in comments and the scarcity of Classification Models for comments in Portuguese to be taken as examples. Those reasons make the Models developed in this work relevant for the research field of Sentiment Analysis and Opinion Mining. The performance evaluation of the Classification Models was performed using Kappa coefficient and the Confusion Matrix. The classification performance of the three models was analyzed by comparing it with the classification made by human judges, that in turn, had their agreement among them assessed using Kappa and Confusion Matrix. The non-structured characteristic of the comments caused divergence in the judges classification and also among the Classification Models. The agreement among the classifiers and the judges was moderate at best, with the best performance achieved by the Naïve Bayes based classifier. The models were applied to the database and, despite the characteristics of the comments the Opinion Mining was performed. The conclusion is that the performance of the classifiers in the Opinion Mining in a Brazilian online search company was positive and the goal of this work has been reached. It s worth to note that the Opinion Mining in non-structured comments in Portuguese is a complex task, that demands research and this scenario is open for new studies.A Internet hoje é uma realidade presente na vida das pessoas, possibilitando o surgimento de muitas empresas que fornecem serviços online. Porém, para se manterem no mercado, é fundamental que essas empresas se preocupem com a qualidade dos serviços prestados. Neste contexto, torna-se importante conseguir avaliar a satisfação do cliente em relação a esses serviços. Uma das formas utilizadas para avaliar o sentimento dos clientes em relação aos serviços prestados é a Mineração de Opiniões, que se refere ao conjunto de técnicas utilizadas para extrair e avaliar sentimentos expressos em fontes de dados textuais. O objetivo deste trabalho foi comparar Modelos de Classificação dos comentários de clientes para a Mineração de Opiniões em empresa brasileira de classificados online de empregos. Foram implementados três Modelos de Classificação: baseado no software comercial Repustate; baseado em Dicionário e baseado em Naive Bayes. Os modelos foram aplicados em uma base de dados contendo comentários não estruturados de clientes em língua portuguesa, coletados no formulário de cancelamento do serviço. Um comentário não estruturado apresenta erro de grafia, de concordância e pode ser quase ininteligível. Classificar comentários não estruturados em língua portuguesa é uma tarefa complexa para um classificador por dois motivos: os erros contidos nos comentários e a escassez de modelos de classificação de comentários em língua portuguesa disponíveis para serem tomados como exemplo. Estes motivos tornam os modelos desenvolvidos nesse trabalho relevantes para as pesquisas em Análise de Sentimentos e Mineração de Opiniões. A avaliação do desempenho dos modelos de classificação foi feita usando o índice Kappa e a Matriz de Confusão. O desempenho na classificação dos três Modelos foi analisado por meio da comparação com a classificação realizada por jurados (seres humanos), que também tiveram a avaliação de sua concordância realizada com o índice Kappa e a Matriz de Confusão. A característica não estruturada dos comentários provocou divergência na sua classificação por parte dos jurados e também dos Modelos de Classificação. A concordância entre os classificadores e os jurados chegou no máximo a moderada, com melhor desempenho para o classificador baseado em Naive Bayes. Os modelos foram aplicados na base de dados e, apesar das características dos comentários, a Mineração de Opiniões foi realizada. Conclui-se, então, que o desempenho dos classificadores na mineração de opiniões em empresa brasileira de classificados online de empregos foi positivo e o objetivo do trabalho foi atingido. Vale destacar que a Mineração de Opiniões em comentários não estruturados em língua portuguesa é uma tarefa complexa, que exige pesquisa e que este cenário está aberto para novos estudos.Made available in DSpace on 2015-04-07T21:10:40Z (GMT). No. of bitstreams: 1 Marcelo Drudi Miranda.pdf: 3254291 bytes, checksum: b450eef19b2c6a7289297f386cc74738 (MD5) Previous issue date: 2014-09-28application/pdfporUniversidade Nove de JulhoPrograma de Pós-Graduação de Mestrado e Doutorado em Engenharia de ProduçãoUninoveBREngenhariamineração de opiniõesanálise de sentimentosmodelos de classificaçãoclassificação de comentários em língua portuguesarecuperação de informaçõesprocessamento de linguagem naturalopinion miningsentiment analysisclassification modelscomment classification in portugueseinformation retrievalnatural language processingENGENHARIAS::ENGENHARIA DE PRODUCAOComparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2551182063231974631600info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da Uninoveinstname:Universidade Nove de Julho (UNINOVE)instacron:UNINOVEORIGINALMarcelo Drudi Miranda.pdfapplication/pdf3254291http://localhost:8080/tede/bitstream/tede/225/1/Marcelo+Drudi+Miranda.pdfb450eef19b2c6a7289297f386cc74738MD51tede/2252021-10-08 17:15:36.8oai:localhost:tede/225Biblioteca Digital de Teses e Dissertaçõeshttp://bibliotecatede.uninove.br/PRIhttp://bibliotecatede.uninove.br/oai/requestbibliotecatede@uninove.br||bibliotecatede@uninove.bropendoar:2021-10-08T20:15:36Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE)false |
dc.title.por.fl_str_mv |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
title |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
spellingShingle |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos Miranda, Marcelo Drudi mineração de opiniões análise de sentimentos modelos de classificação classificação de comentários em língua portuguesa recuperação de informações processamento de linguagem natural opinion mining sentiment analysis classification models comment classification in portuguese information retrieval natural language processing ENGENHARIAS::ENGENHARIA DE PRODUCAO |
title_short |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
title_full |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
title_fullStr |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
title_full_unstemmed |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
title_sort |
Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos |
author |
Miranda, Marcelo Drudi |
author_facet |
Miranda, Marcelo Drudi |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Sassi, Renato José |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8750334661789610 |
dc.contributor.referee1.fl_str_mv |
Chaves, Marcírio Silveira |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/1149445153608393 |
dc.contributor.referee2.fl_str_mv |
Santana, José Carlos Curvelo |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/0408226658529368 |
dc.contributor.authorID.fl_str_mv |
CPF:25649674850 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/6065923965032871 |
dc.contributor.author.fl_str_mv |
Miranda, Marcelo Drudi |
contributor_str_mv |
Sassi, Renato José Chaves, Marcírio Silveira Santana, José Carlos Curvelo |
dc.subject.por.fl_str_mv |
mineração de opiniões análise de sentimentos modelos de classificação classificação de comentários em língua portuguesa recuperação de informações processamento de linguagem natural |
topic |
mineração de opiniões análise de sentimentos modelos de classificação classificação de comentários em língua portuguesa recuperação de informações processamento de linguagem natural opinion mining sentiment analysis classification models comment classification in portuguese information retrieval natural language processing ENGENHARIAS::ENGENHARIA DE PRODUCAO |
dc.subject.eng.fl_str_mv |
opinion mining sentiment analysis classification models comment classification in portuguese information retrieval natural language processing |
dc.subject.cnpq.fl_str_mv |
ENGENHARIAS::ENGENHARIA DE PRODUCAO |
description |
The Internet nowadays is a reality in people's lives, enabling the growth of many online services companies. However, to maintain their activities and stay in the market, it s important for these companies to worry about the quality of the provided services. In this context, it becomes important to be able to assess the client satisfaction regarding those services. One way to assess the clients' sentiment regarding the provided services is Opinion Mining, which refers to the set of techniques used to extract and assess the sentiment expressed in texts. The goal of this work was to compare Classification Models for the clients' comments for Opinion Mining in a Brazilian online job search company. Three models were implemented: one based on commercial software named Repustate; one Dictionary based and one based on Naive Bayes. The Models were applied to a database containing non-structured comments of clients in Portuguese, captured in a service cancellation form. A non-structured comment contains typos, concordance errors and can be almost unintelligible. Classifying non-structured comments in Portuguese is a complex task for a classifier for two reasons: the errors in comments and the scarcity of Classification Models for comments in Portuguese to be taken as examples. Those reasons make the Models developed in this work relevant for the research field of Sentiment Analysis and Opinion Mining. The performance evaluation of the Classification Models was performed using Kappa coefficient and the Confusion Matrix. The classification performance of the three models was analyzed by comparing it with the classification made by human judges, that in turn, had their agreement among them assessed using Kappa and Confusion Matrix. The non-structured characteristic of the comments caused divergence in the judges classification and also among the Classification Models. The agreement among the classifiers and the judges was moderate at best, with the best performance achieved by the Naïve Bayes based classifier. The models were applied to the database and, despite the characteristics of the comments the Opinion Mining was performed. The conclusion is that the performance of the classifiers in the Opinion Mining in a Brazilian online search company was positive and the goal of this work has been reached. It s worth to note that the Opinion Mining in non-structured comments in Portuguese is a complex task, that demands research and this scenario is open for new studies. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-09-28 |
dc.date.accessioned.fl_str_mv |
2015-04-07T21:10:40Z |
dc.date.available.fl_str_mv |
2015-02-11 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MIRANDA, Marcelo Drudi. Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos. 2014. 97 f. Dissertação (Mestrado em Engenharia) - Universidade Nove de Julho, São Paulo, 2014. |
dc.identifier.uri.fl_str_mv |
http://bibliotecatede.uninove.br/tede/handle/tede/225 |
identifier_str_mv |
MIRANDA, Marcelo Drudi. Comparando modelos de classificação dos comentários de clientes: mineração de opiniões em empresa brasileira de classificados online de empregos. 2014. 97 f. Dissertação (Mestrado em Engenharia) - Universidade Nove de Julho, São Paulo, 2014. |
url |
http://bibliotecatede.uninove.br/tede/handle/tede/225 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.cnpq.fl_str_mv |
2551182063231974631 |
dc.relation.confidence.fl_str_mv |
600 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Nove de Julho |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação de Mestrado e Doutorado em Engenharia de Produção |
dc.publisher.initials.fl_str_mv |
Uninove |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Engenharia |
publisher.none.fl_str_mv |
Universidade Nove de Julho |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Uninove instname:Universidade Nove de Julho (UNINOVE) instacron:UNINOVE |
instname_str |
Universidade Nove de Julho (UNINOVE) |
instacron_str |
UNINOVE |
institution |
UNINOVE |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Uninove |
collection |
Biblioteca Digital de Teses e Dissertações da Uninove |
bitstream.url.fl_str_mv |
http://localhost:8080/tede/bitstream/tede/225/1/Marcelo+Drudi+Miranda.pdf |
bitstream.checksum.fl_str_mv |
b450eef19b2c6a7289297f386cc74738 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Uninove - Universidade Nove de Julho (UNINOVE) |
repository.mail.fl_str_mv |
bibliotecatede@uninove.br||bibliotecatede@uninove.br |
_version_ |
1800312342608609280 |