Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento

Detalhes bibliográficos
Autor(a) principal: Ribeiro, Lucas Braga
Data de Publicação: 2015
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: http://bdm.unb.br/handle/10483/11042
Resumo: Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.
id UNB-2_e40cdfd7afa31b857b253f90170f5893
oai_identifier_str oai:bdm.unb.br:10483/11042
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Ribeiro, Lucas BragaLadeira, MarceloRIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015.http://bdm.unb.br/handle/10483/11042Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.Este trabalho apresenta a análise de sentimento em comentários em português e inglês e mostra os impactos do pré-processamento dos comentários nos resultados. A tarefa de identificar o sentimento expresso em um texto por seu autor é chamada análise de sentimento. Dentre as muitas fases da análise de sentimento destaca-se a etapa de pré-processamento. No decorrer do trabalho é analisado o impacto, na fase de pré- processamento do texto, da remoção de stop-words, remoção de repetições de letras nas palavras e pontuações, da correção de gírias e palavras escritas de maneira errada, da aplicação de uma ferramenta de stemming e ainda da representação do texto em unigramas, bigramas ou uma combinação de ambos. As técnicas são executadas sobre dois corpora com comentários sobre aplicativos móveis extraídos da Google Play, um contendo 2.031.480 comentários em português e outro contendo 4.843.110 comentários em inglês. É analisada, ainda, a curva de aprendizagem dos classificadores Support Vector Machine e Naive Bayes afim de averiguar qual é a quantidade mínima de comentários para que os classificadores atinjam níveis aceitáveis de performance. Observa-se empiricamente que não existe uma sequência de pré-processamento que se destaque das demais de forma conclusiva. Averigua-se, ainda, que a remoção de stop-words não melhora os resultados em nenhum caso estudado, que a a representação dos atributos em Unigrama + Bigrama mostrou-se melhor que as demais quando utilizado SVM, mas não houve evidência conclusiva para este aspecto quando se utiliza Naive Bayes, e que uma quantidade suficiente de comentários no corpus para resultados satisfatórios em português varia entre 182 mil e 510 mil, e em inglês varia entre 242 mil e 871 mil, de acordo com o classificador utilizado.Submitted by Cristiane Maria Mendes (mcristianem@gmail.com) on 2015-08-25T16:54:18Z No. of bitstreams: 1 2015_LucasBragaRibeiro.pdf: 2365465 bytes, checksum: 513d9deb798e010980a34d2b13d69363 (MD5)Approved for entry into archive by Ruthlea Nascimento(ruthlea.nascimento@gmail.com) on 2015-08-31T15:12:51Z (GMT) No. of bitstreams: 1 2015_LucasBragaRibeiro.pdf: 2365465 bytes, checksum: 513d9deb798e010980a34d2b13d69363 (MD5)Made available in DSpace on 2015-08-31T15:12:51Z (GMT). No. of bitstreams: 1 2015_LucasBragaRibeiro.pdf: 2365465 bytes, checksum: 513d9deb798e010980a34d2b13d69363 (MD5)This document shows the sentiment analysis of reviews in Porgutuese and English and shows the impacts of preprocessing the texts. The task of identifying the sentiment expressed in a text by its author is called sentiment analysis. Among many steps to perform sentiment analysis we can emphasize the text preprocessing. In this document we analyze the impact, within the text preprocessing step, of the stop words removal, the elimination of repeated characters, the spell checking and correction of misspellings and slang, the stemming technique and the role of text representation in unigrams, bigrams or a combination of both. The techniques are performed over two corpora with reviews of mobile applications extracted from Google Play, one containing 2.031.480 reviews in Portuguese and another containing 4.843.110 reviews in English. Furthermore the learning curves of Support Vector Machines and Naive Bayes classifiers are analyzed in order to verify if it is possible to determine a minimum amount of reviews that is suficient to reach an acceptable performance. We can empirically observe that there is no sequence of text preprocessing that is better than all others in a conclusive way. Moreover, the stop words removal did not improve the results in any of the studied cases, the Unigram + Bigram representation demonstrated to be the best option when we use the SVM but there is no conclusive evidence about this aspect when we use Naive Bayes classifiers. The amount of reviews that is su_cient for the analysis in Portuguese is between 182.000 and 507.000 and in English is between 242.000 and 871.000, accordingly to the classifier used.Mineração de dadosLinguagem naturalProcessamento de linguagem natural (Computação)Dispositivos móveisAnálise de sentimentosAnálise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamentoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2015-08-31T15:12:51Z2015-08-31T15:12:51Z2015-08-31T15:12:51Z2015info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2015_LucasBragaRibeiro.pdf2015_LucasBragaRibeiro.pdfapplication/pdf2365465http://bdm.unb.br/xmlui/bitstream/10483/11042/1/2015_LucasBragaRibeiro.pdf513d9deb798e010980a34d2b13d69363MD51CC-LICENSElicense_urllicense_urltext/plain49http://bdm.unb.br/xmlui/bitstream/10483/11042/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/11042/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream23148http://bdm.unb.br/xmlui/bitstream/10483/11042/4/license_rdf9da0b6dfac957114c6a7714714b86306MD54LICENSElicense.txtlicense.txttext/plain1857http://bdm.unb.br/xmlui/bitstream/10483/11042/5/license.txtda35606a60275e5d17d3fa253924f84cMD5510483/110422017-03-23 09:59:10.453oai:bdm.unb.br:10483/11042TGljZW5zZSBncmFudGVkIGJ5IENyaXN0aWFuZSAgTWFyaWEgTWVuZGVzIChtY3Jpc3RpYW5lbUBnbWFpbC5jb20pIG9uIDIwMTUtMDgtMjVUMTY6NTQ6MThaIChHTVQpOgoKw4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYQpsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0KY29udGF0byBhdHJhdsOpcyBkZTogYmRtQGJjZS51bmIuYnIgb3UgMzEwNy0yNjg3LgoKTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCBvL2EgU3IuL1NyYS4gKGF1dG9yIG91IGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvcik6CgphKSBDb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlCnJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhYmFpeG8pLCBjb211bmljYXIgZS9vdQpkaXN0cmlidWlyIG8gZG9jdW1lbnRvIGVudHJlZ3VlIChpbmNsdWluZG8gbyByZXN1bW8vYWJzdHJhY3QpIGVtCmZvcm1hdG8gZGlnaXRhbCBvdSBpbXByZXNzbyBlIGVtIHF1YWxxdWVyIG1laW8uCgpiKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlCmRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEKdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpCnBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlLgoKYykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgY29udMOpbSBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zCmRpcmVpdG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBvYnRldmUgYXV0b3JpemHDp8OjbyBkbyBkZXRlbnRvciBkb3MKZGlyZWl0b3MgZGUgYXV0b3IgcGFyYSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIG9zIGRpcmVpdG9zCnJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZQp0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdQpjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8KcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhLCBkZWNsYXJhIHF1ZQpjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91CmFjb3Jkby4KCkEgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBzZXUgKHMpIG5vbWUgKHMpCmNvbW8gbyAocykgYXV0b3IgKGVzKSBvdSBkZXRlbnRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8KZW50cmVndWUsIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgcGFyYSBhbMOpbSBkYXMgcGVybWl0aWRhcyBwb3IKZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712017-03-23T12:59:10Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.en.fl_str_mv Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
title Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
spellingShingle Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
Ribeiro, Lucas Braga
Mineração de dados
Linguagem natural
Processamento de linguagem natural (Computação)
Dispositivos móveis
Análise de sentimentos
title_short Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
title_full Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
title_fullStr Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
title_full_unstemmed Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
title_sort Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
author Ribeiro, Lucas Braga
author_facet Ribeiro, Lucas Braga
author_role author
dc.contributor.author.fl_str_mv Ribeiro, Lucas Braga
dc.contributor.advisor1.fl_str_mv Ladeira, Marcelo
contributor_str_mv Ladeira, Marcelo
dc.subject.keyword.en.fl_str_mv Mineração de dados
Linguagem natural
Processamento de linguagem natural (Computação)
Dispositivos móveis
Análise de sentimentos
topic Mineração de dados
Linguagem natural
Processamento de linguagem natural (Computação)
Dispositivos móveis
Análise de sentimentos
description Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.
publishDate 2015
dc.date.submitted.none.fl_str_mv 2015
dc.date.accessioned.fl_str_mv 2015-08-31T15:12:51Z
dc.date.available.fl_str_mv 2015-08-31T15:12:51Z
dc.date.issued.fl_str_mv 2015-08-31T15:12:51Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015.
dc.identifier.uri.fl_str_mv http://bdm.unb.br/handle/10483/11042
identifier_str_mv RIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015.
url http://bdm.unb.br/handle/10483/11042
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/11042/1/2015_LucasBragaRibeiro.pdf
http://bdm.unb.br/xmlui/bitstream/10483/11042/2/license_url
http://bdm.unb.br/xmlui/bitstream/10483/11042/3/license_text
http://bdm.unb.br/xmlui/bitstream/10483/11042/4/license_rdf
http://bdm.unb.br/xmlui/bitstream/10483/11042/5/license.txt
bitstream.checksum.fl_str_mv 513d9deb798e010980a34d2b13d69363
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
9da0b6dfac957114c6a7714714b86306
da35606a60275e5d17d3fa253924f84c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1801492970191454208