Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento
Autor(a) principal: | |
---|---|
Data de Publicação: | 2015 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Monografias da UnB |
Texto Completo: | http://bdm.unb.br/handle/10483/11042 |
Resumo: | Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. |
id |
UNB-2_e40cdfd7afa31b857b253f90170f5893 |
---|---|
oai_identifier_str |
oai:bdm.unb.br:10483/11042 |
network_acronym_str |
UNB-2 |
network_name_str |
Biblioteca Digital de Monografias da UnB |
repository_id_str |
11571 |
spelling |
Ribeiro, Lucas BragaLadeira, MarceloRIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015.http://bdm.unb.br/handle/10483/11042Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.Este trabalho apresenta a análise de sentimento em comentários em português e inglês e mostra os impactos do pré-processamento dos comentários nos resultados. A tarefa de identificar o sentimento expresso em um texto por seu autor é chamada análise de sentimento. Dentre as muitas fases da análise de sentimento destaca-se a etapa de pré-processamento. No decorrer do trabalho é analisado o impacto, na fase de pré- processamento do texto, da remoção de stop-words, remoção de repetições de letras nas palavras e pontuações, da correção de gírias e palavras escritas de maneira errada, da aplicação de uma ferramenta de stemming e ainda da representação do texto em unigramas, bigramas ou uma combinação de ambos. As técnicas são executadas sobre dois corpora com comentários sobre aplicativos móveis extraídos da Google Play, um contendo 2.031.480 comentários em português e outro contendo 4.843.110 comentários em inglês. É analisada, ainda, a curva de aprendizagem dos classificadores Support Vector Machine e Naive Bayes afim de averiguar qual é a quantidade mínima de comentários para que os classificadores atinjam níveis aceitáveis de performance. Observa-se empiricamente que não existe uma sequência de pré-processamento que se destaque das demais de forma conclusiva. Averigua-se, ainda, que a remoção de stop-words não melhora os resultados em nenhum caso estudado, que a a representação dos atributos em Unigrama + Bigrama mostrou-se melhor que as demais quando utilizado SVM, mas não houve evidência conclusiva para este aspecto quando se utiliza Naive Bayes, e que uma quantidade suficiente de comentários no corpus para resultados satisfatórios em português varia entre 182 mil e 510 mil, e em inglês varia entre 242 mil e 871 mil, de acordo com o classificador utilizado.Submitted by Cristiane Maria Mendes (mcristianem@gmail.com) on 2015-08-25T16:54:18Z No. of bitstreams: 1 2015_LucasBragaRibeiro.pdf: 2365465 bytes, checksum: 513d9deb798e010980a34d2b13d69363 (MD5)Approved for entry into archive by Ruthlea Nascimento(ruthlea.nascimento@gmail.com) on 2015-08-31T15:12:51Z (GMT) No. of bitstreams: 1 2015_LucasBragaRibeiro.pdf: 2365465 bytes, checksum: 513d9deb798e010980a34d2b13d69363 (MD5)Made available in DSpace on 2015-08-31T15:12:51Z (GMT). No. of bitstreams: 1 2015_LucasBragaRibeiro.pdf: 2365465 bytes, checksum: 513d9deb798e010980a34d2b13d69363 (MD5)This document shows the sentiment analysis of reviews in Porgutuese and English and shows the impacts of preprocessing the texts. The task of identifying the sentiment expressed in a text by its author is called sentiment analysis. Among many steps to perform sentiment analysis we can emphasize the text preprocessing. In this document we analyze the impact, within the text preprocessing step, of the stop words removal, the elimination of repeated characters, the spell checking and correction of misspellings and slang, the stemming technique and the role of text representation in unigrams, bigrams or a combination of both. The techniques are performed over two corpora with reviews of mobile applications extracted from Google Play, one containing 2.031.480 reviews in Portuguese and another containing 4.843.110 reviews in English. Furthermore the learning curves of Support Vector Machines and Naive Bayes classifiers are analyzed in order to verify if it is possible to determine a minimum amount of reviews that is suficient to reach an acceptable performance. We can empirically observe that there is no sequence of text preprocessing that is better than all others in a conclusive way. Moreover, the stop words removal did not improve the results in any of the studied cases, the Unigram + Bigram representation demonstrated to be the best option when we use the SVM but there is no conclusive evidence about this aspect when we use Naive Bayes classifiers. The amount of reviews that is su_cient for the analysis in Portuguese is between 182.000 and 507.000 and in English is between 242.000 and 871.000, accordingly to the classifier used.Mineração de dadosLinguagem naturalProcessamento de linguagem natural (Computação)Dispositivos móveisAnálise de sentimentosAnálise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamentoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2015-08-31T15:12:51Z2015-08-31T15:12:51Z2015-08-31T15:12:51Z2015info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2015_LucasBragaRibeiro.pdf2015_LucasBragaRibeiro.pdfapplication/pdf2365465http://bdm.unb.br/xmlui/bitstream/10483/11042/1/2015_LucasBragaRibeiro.pdf513d9deb798e010980a34d2b13d69363MD51CC-LICENSElicense_urllicense_urltext/plain49http://bdm.unb.br/xmlui/bitstream/10483/11042/2/license_url4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_textapplication/octet-stream0http://bdm.unb.br/xmlui/bitstream/10483/11042/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/octet-stream23148http://bdm.unb.br/xmlui/bitstream/10483/11042/4/license_rdf9da0b6dfac957114c6a7714714b86306MD54LICENSElicense.txtlicense.txttext/plain1857http://bdm.unb.br/xmlui/bitstream/10483/11042/5/license.txtda35606a60275e5d17d3fa253924f84cMD5510483/110422017-03-23 09:59:10.453oai:bdm.unb.br:10483/11042TGljZW5zZSBncmFudGVkIGJ5IENyaXN0aWFuZSAgTWFyaWEgTWVuZGVzIChtY3Jpc3RpYW5lbUBnbWFpbC5jb20pIG9uIDIwMTUtMDgtMjVUMTY6NTQ6MThaIChHTVQpOgoKw4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYQpsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0KY29udGF0byBhdHJhdsOpcyBkZTogYmRtQGJjZS51bmIuYnIgb3UgMzEwNy0yNjg3LgoKTElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCBvL2EgU3IuL1NyYS4gKGF1dG9yIG91IGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvcik6CgphKSBDb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlCnJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhYmFpeG8pLCBjb211bmljYXIgZS9vdQpkaXN0cmlidWlyIG8gZG9jdW1lbnRvIGVudHJlZ3VlIChpbmNsdWluZG8gbyByZXN1bW8vYWJzdHJhY3QpIGVtCmZvcm1hdG8gZGlnaXRhbCBvdSBpbXByZXNzbyBlIGVtIHF1YWxxdWVyIG1laW8uCgpiKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBzZXUgdHJhYmFsaG8gb3JpZ2luYWwsIGUgcXVlCmRldMOpbSBvIGRpcmVpdG8gZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIERlY2xhcmEKdGFtYsOpbSBxdWUgYSBlbnRyZWdhIGRvIGRvY3VtZW50byBuw6NvIGluZnJpbmdlLCB0YW50byBxdWFudG8gbGhlIMOpCnBvc3PDrXZlbCBzYWJlciwgb3MgZGlyZWl0b3MgZGUgcXVhbHF1ZXIgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlLgoKYykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgY29udMOpbSBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zCmRpcmVpdG9zIGRlIGF1dG9yLCBkZWNsYXJhIHF1ZSBvYnRldmUgYXV0b3JpemHDp8OjbyBkbyBkZXRlbnRvciBkb3MKZGlyZWl0b3MgZGUgYXV0b3IgcGFyYSBjb25jZWRlciDDoCBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIG9zIGRpcmVpdG9zCnJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZQp0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdQpjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8KcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhLCBkZWNsYXJhIHF1ZQpjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91CmFjb3Jkby4KCkEgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBzZXUgKHMpIG5vbWUgKHMpCmNvbW8gbyAocykgYXV0b3IgKGVzKSBvdSBkZXRlbnRvciAoZXMpIGRvcyBkaXJlaXRvcyBkbyBkb2N1bWVudG8KZW50cmVndWUsIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgcGFyYSBhbMOpbSBkYXMgcGVybWl0aWRhcyBwb3IKZXN0YSBsaWNlbsOnYS4KBiblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712017-03-23T12:59:10Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false |
dc.title.en.fl_str_mv |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
title |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
spellingShingle |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento Ribeiro, Lucas Braga Mineração de dados Linguagem natural Processamento de linguagem natural (Computação) Dispositivos móveis Análise de sentimentos |
title_short |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
title_full |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
title_fullStr |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
title_full_unstemmed |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
title_sort |
Análise de sentimento em comentários sobre aplicativos para dispositivos móveis : estudo do impacto do pré-processamento |
author |
Ribeiro, Lucas Braga |
author_facet |
Ribeiro, Lucas Braga |
author_role |
author |
dc.contributor.author.fl_str_mv |
Ribeiro, Lucas Braga |
dc.contributor.advisor1.fl_str_mv |
Ladeira, Marcelo |
contributor_str_mv |
Ladeira, Marcelo |
dc.subject.keyword.en.fl_str_mv |
Mineração de dados Linguagem natural Processamento de linguagem natural (Computação) Dispositivos móveis Análise de sentimentos |
topic |
Mineração de dados Linguagem natural Processamento de linguagem natural (Computação) Dispositivos móveis Análise de sentimentos |
description |
Monografia (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015. |
publishDate |
2015 |
dc.date.submitted.none.fl_str_mv |
2015 |
dc.date.accessioned.fl_str_mv |
2015-08-31T15:12:51Z |
dc.date.available.fl_str_mv |
2015-08-31T15:12:51Z |
dc.date.issued.fl_str_mv |
2015-08-31T15:12:51Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
RIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015. |
dc.identifier.uri.fl_str_mv |
http://bdm.unb.br/handle/10483/11042 |
identifier_str_mv |
RIBEIRO, Lucas Braga. Análise de sentimento em comentários sobre aplicativos para dispositivos móveis: estudo do impacto do pré-processamento. 2015. xiii, 70 f., il. Monografia (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2015. |
url |
http://bdm.unb.br/handle/10483/11042 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Monografias da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Biblioteca Digital de Monografias da UnB |
collection |
Biblioteca Digital de Monografias da UnB |
bitstream.url.fl_str_mv |
http://bdm.unb.br/xmlui/bitstream/10483/11042/1/2015_LucasBragaRibeiro.pdf http://bdm.unb.br/xmlui/bitstream/10483/11042/2/license_url http://bdm.unb.br/xmlui/bitstream/10483/11042/3/license_text http://bdm.unb.br/xmlui/bitstream/10483/11042/4/license_rdf http://bdm.unb.br/xmlui/bitstream/10483/11042/5/license.txt |
bitstream.checksum.fl_str_mv |
513d9deb798e010980a34d2b13d69363 4afdbb8c545fd630ea7db775da747b2f d41d8cd98f00b204e9800998ecf8427e 9da0b6dfac957114c6a7714714b86306 da35606a60275e5d17d3fa253924f84c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
bdm@bce.unb.br||patricia@bce.unb.br |
_version_ |
1801492970191454208 |