Análise de sentimento usando a representação distribuída de parágrafos para o português

Araújo, Filipe Santos

Análise de sentimento usando a representação distribuída de parágrafos para o português

Detalhes bibliográficos
Autor(a) principal:	Araújo, Filipe Santos
Data de Publicação:	2015
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UNIPAMPA
Texto Completo:	http://dspace.unipampa.edu.br/jspui/handle/riu/1601
Resumo:	Muito vem sendo discutido dentro da área de Processamento de Linguagem Natural (PLN), sobre a representação distribuída de palavras de um determinado texto. Com o contínuo crescimento de informação na internet nas últimas décadas, surge a necessidade de passar tarefas de análise desse grande volume de informação para a máquina, tarefas estas que antes eram realizadas manualmente, de modo a torná-las mais viáveis e eficientes. A representação distribuída de palavras consiste em obter uma estrutura de modelagem mais rica, que considera aspectos relevantes como ordenação, semântica e a composicionalidade das palavras de uma sentença. A dificuldade se agrava quando estas sentenças tendem a crescer no tamanho, que é o caso de textos com um grande número de parágrafos. Uma vez que se tem todas as sentenças de um determinado texto estruturadas em vetores, é possível, por exemplo, sumarizar um documento por completo, extrair sentimento, reconhecer expressões, traduzi-lo para outro idioma, dentre outros diversos tipos de tarefas. Trabalhos recentes, como o de (LE; MIKOLOV, 2014) têm apresentado técnicas como Word Vector e Paragraph Vector, que são capazes de pegar palavras, sentenças e até parágrafos e distribuí-los em vetores. Essas técnicas têm mostrado ganhos significativos em tarefas como a Análise Automática de Sentimentos (AS) e Recuperação de Informações em relação aos tradicionais modelos de linguagens utilizados como o Bagof-Words, N-grama e Skip-grama. Esse trabalho tem como meta replicar os experimentos realizados na tarefa de AS utilizando córpus para o português brasileiro. Os experimentos realizados com o córpus em português brasileiro ReLi utilizando o método 10-fold Crossvalidation atingiram uma acurácia combinada média de 82,99%. Esse resultado acima do esperado foi consequência de uma desigualdade no número de sentenças presente no córpus. Foram realizados mais experimentos com versões modificadas do ReLi buscando igualar o número de sentenças nas etapas de treinamento e teste, o que resultou numa acurácia combinada média 60,59% quando se iguala o número de sentenças com polaridade positiva e negativa.

Metadados do item

id	UNIP_25b6ae0529c3b4fad025941e3c04fac3
oai_identifier_str	oai:repositorio.unipampa.edu.br:riu/1601
network_acronym_str	UNIP
network_name_str	Repositório Institucional da UNIPAMPA
repository_id_str
spelling	Kepler, Fábio NatanaelAraújo, Filipe Santos2017-06-07T14:26:08Z2017-06-07T14:26:08Z2015http://dspace.unipampa.edu.br/jspui/handle/riu/1601Muito vem sendo discutido dentro da área de Processamento de Linguagem Natural (PLN), sobre a representação distribuída de palavras de um determinado texto. Com o contínuo crescimento de informação na internet nas últimas décadas, surge a necessidade de passar tarefas de análise desse grande volume de informação para a máquina, tarefas estas que antes eram realizadas manualmente, de modo a torná-las mais viáveis e eficientes. A representação distribuída de palavras consiste em obter uma estrutura de modelagem mais rica, que considera aspectos relevantes como ordenação, semântica e a composicionalidade das palavras de uma sentença. A dificuldade se agrava quando estas sentenças tendem a crescer no tamanho, que é o caso de textos com um grande número de parágrafos. Uma vez que se tem todas as sentenças de um determinado texto estruturadas em vetores, é possível, por exemplo, sumarizar um documento por completo, extrair sentimento, reconhecer expressões, traduzi-lo para outro idioma, dentre outros diversos tipos de tarefas. Trabalhos recentes, como o de (LE; MIKOLOV, 2014) têm apresentado técnicas como Word Vector e Paragraph Vector, que são capazes de pegar palavras, sentenças e até parágrafos e distribuí-los em vetores. Essas técnicas têm mostrado ganhos significativos em tarefas como a Análise Automática de Sentimentos (AS) e Recuperação de Informações em relação aos tradicionais modelos de linguagens utilizados como o Bagof-Words, N-grama e Skip-grama. Esse trabalho tem como meta replicar os experimentos realizados na tarefa de AS utilizando córpus para o português brasileiro. Os experimentos realizados com o córpus em português brasileiro ReLi utilizando o método 10-fold Crossvalidation atingiram uma acurácia combinada média de 82,99%. Esse resultado acima do esperado foi consequência de uma desigualdade no número de sentenças presente no córpus. Foram realizados mais experimentos com versões modificadas do ReLi buscando igualar o número de sentenças nas etapas de treinamento e teste, o que resultou numa acurácia combinada média 60,59% quando se iguala o número de sentenças com polaridade positiva e negativa.Distributed representation of words has been very discussed in the Natural Language Processing area (NLP). With the continuous growth of information on the Internet in recent decades, there is a need to in analysis tasks of this large volume of data to computers, tasks that were usually performed manually in order to make them more viable and efficient. Distributed representation of words consists of obtaining a richer modeling framework that considers relevant aspects like ordergin, semantics and compositionality of the words in a sentence. The difficulty increases when these sentences tend to grow in size, which is the case of texts with a large number paragraphs. Once you have all the sentences of a given text structured in vectors it is possible, for example, to sumarize an entire document, extract sentiment, recognize expressions, translate it into another language, among other various types of tasks. Recent studies, such as (LE; MIKOLOV, 2014) have presented techniques such as Word Vector and Paragraph Vector, which are able to take words, sentences and even paragraphs and distribute them into vectors. These techniques have shown significant gains in tasks such as Automatic Sentiment Analysis (SA) and Information Retrieval over traditional language models such as Bag-of-Words, N-gram and Skip-gram. This papaer aims to replicate the experiments made in SA task using a Brazilian Portuguese corpus.The experiments performed with the ReLi corpus in Brazilian Portuguese using the 10-fold Cross-validation method achieved a average combined accuracy of 82.99%. This higher than expected result was a consequence of an unequal number of sentences in this corpus. More experiments were performed with modified versions of the ReLi in attempt to make the number of sentences equal in the training and testing stages, resulting in a average combined accuracy 60.59% when the number of sentences with positive and negative polarity are equal.porUniversidade Federal do PampaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRACiência da computaçãoProcessamento de linguagem naturalParagraph VectorLíngua portuguesaSentimentosComputer scienceNatural language processingParagraph VectorPortuguese languageSentimentAnálise de sentimento usando a representação distribuída de parágrafos para o portuguêsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfreponame:Repositório Institucional da UNIPAMPAinstname:Universidade Federal do Pampa (UNIPAMPA)instacron:UNIPAMPAORIGINALAnálise de sentimento usando a representação distribuída de parágrafos para o português.pdfAnálise de sentimento usando a representação distribuída de parágrafos para o português.pdfapplication/pdf706587https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/1/An%c3%a1lise%20de%20sentimento%20usando%20a%20representa%c3%a7%c3%a3o%20distribu%c3%adda%20de%20par%c3%a1grafos%20para%20o%20portugu%c3%aas.pdfb648959eecd83515f47c66f496e24a4aMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTAnálise de sentimento usando a representação distribuída de parágrafos para o português.pdf.txtAnálise de sentimento usando a representação distribuída de parágrafos para o português.pdf.txtExtracted texttext/plain43005https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/4/An%c3%a1lise%20de%20sentimento%20usando%20a%20representa%c3%a7%c3%a3o%20distribu%c3%adda%20de%20par%c3%a1grafos%20para%20o%20portugu%c3%aas.pdf.txt72196a13395c21c2959475f7a7729b51MD54riu/16012021-04-12 15:57:02.704oai:repositorio.unipampa.edu.br:riu/1601Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://dspace.unipampa.edu.br:8080/oai/requestsisbi@unipampa.edu.bropendoar:2021-04-12T18:57:02Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)false
dc.title.pt_BR.fl_str_mv	Análise de sentimento usando a representação distribuída de parágrafos para o português
title	Análise de sentimento usando a representação distribuída de parágrafos para o português
spellingShingle	Análise de sentimento usando a representação distribuída de parágrafos para o português Araújo, Filipe Santos CNPQ::CIENCIAS EXATAS E DA TERRA Computer science Natural language processing Paragraph Vector Portuguese language Sentiment Ciência da computação Processamento de linguagem natural Paragraph Vector Língua portuguesa Sentimentos
title_short	Análise de sentimento usando a representação distribuída de parágrafos para o português
title_full	Análise de sentimento usando a representação distribuída de parágrafos para o português
title_fullStr	Análise de sentimento usando a representação distribuída de parágrafos para o português
title_full_unstemmed	Análise de sentimento usando a representação distribuída de parágrafos para o português
title_sort	Análise de sentimento usando a representação distribuída de parágrafos para o português
author	Araújo, Filipe Santos
author_facet	Araújo, Filipe Santos
author_role	author
dc.contributor.advisor1.fl_str_mv	Kepler, Fábio Natanael
dc.contributor.author.fl_str_mv	Araújo, Filipe Santos
contributor_str_mv	Kepler, Fábio Natanael
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA
topic	CNPQ::CIENCIAS EXATAS E DA TERRA Computer science Natural language processing Paragraph Vector Portuguese language Sentiment Ciência da computação Processamento de linguagem natural Paragraph Vector Língua portuguesa Sentimentos
dc.subject.eng.fl_str_mv	Computer science Natural language processing Paragraph Vector Portuguese language Sentiment
dc.subject.keyword.pt_BR.fl_str_mv	Ciência da computação Processamento de linguagem natural Paragraph Vector Língua portuguesa Sentimentos
description	Muito vem sendo discutido dentro da área de Processamento de Linguagem Natural (PLN), sobre a representação distribuída de palavras de um determinado texto. Com o contínuo crescimento de informação na internet nas últimas décadas, surge a necessidade de passar tarefas de análise desse grande volume de informação para a máquina, tarefas estas que antes eram realizadas manualmente, de modo a torná-las mais viáveis e eficientes. A representação distribuída de palavras consiste em obter uma estrutura de modelagem mais rica, que considera aspectos relevantes como ordenação, semântica e a composicionalidade das palavras de uma sentença. A dificuldade se agrava quando estas sentenças tendem a crescer no tamanho, que é o caso de textos com um grande número de parágrafos. Uma vez que se tem todas as sentenças de um determinado texto estruturadas em vetores, é possível, por exemplo, sumarizar um documento por completo, extrair sentimento, reconhecer expressões, traduzi-lo para outro idioma, dentre outros diversos tipos de tarefas. Trabalhos recentes, como o de (LE; MIKOLOV, 2014) têm apresentado técnicas como Word Vector e Paragraph Vector, que são capazes de pegar palavras, sentenças e até parágrafos e distribuí-los em vetores. Essas técnicas têm mostrado ganhos significativos em tarefas como a Análise Automática de Sentimentos (AS) e Recuperação de Informações em relação aos tradicionais modelos de linguagens utilizados como o Bagof-Words, N-grama e Skip-grama. Esse trabalho tem como meta replicar os experimentos realizados na tarefa de AS utilizando córpus para o português brasileiro. Os experimentos realizados com o córpus em português brasileiro ReLi utilizando o método 10-fold Crossvalidation atingiram uma acurácia combinada média de 82,99%. Esse resultado acima do esperado foi consequência de uma desigualdade no número de sentenças presente no córpus. Foram realizados mais experimentos com versões modificadas do ReLi buscando igualar o número de sentenças nas etapas de treinamento e teste, o que resultou numa acurácia combinada média 60,59% quando se iguala o número de sentenças com polaridade positiva e negativa.
publishDate	2015
dc.date.issued.fl_str_mv	2015
dc.date.accessioned.fl_str_mv	2017-06-07T14:26:08Z
dc.date.available.fl_str_mv	2017-06-07T14:26:08Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://dspace.unipampa.edu.br/jspui/handle/riu/1601
url	http://dspace.unipampa.edu.br/jspui/handle/riu/1601
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Pampa
publisher.none.fl_str_mv	Universidade Federal do Pampa
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIPAMPA instname:Universidade Federal do Pampa (UNIPAMPA) instacron:UNIPAMPA
instname_str	Universidade Federal do Pampa (UNIPAMPA)
instacron_str	UNIPAMPA
institution	UNIPAMPA
reponame_str	Repositório Institucional da UNIPAMPA
collection	Repositório Institucional da UNIPAMPA
bitstream.url.fl_str_mv	https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/1/An%c3%a1lise%20de%20sentimento%20usando%20a%20representa%c3%a7%c3%a3o%20distribu%c3%adda%20de%20par%c3%a1grafos%20para%20o%20portugu%c3%aas.pdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/2/license_rdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/3/license.txt https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1601/4/An%c3%a1lise%20de%20sentimento%20usando%20a%20representa%c3%a7%c3%a3o%20distribu%c3%adda%20de%20par%c3%a1grafos%20para%20o%20portugu%c3%aas.pdf.txt
bitstream.checksum.fl_str_mv	b648959eecd83515f47c66f496e24a4a 66e71c371cc565284e70f40736c94386 8a4605be74aa9ea9d79846c1fba20a33 72196a13395c21c2959475f7a7729b51
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)
repository.mail.fl_str_mv	sisbi@unipampa.edu.br
_version_	1801849029358780416

Análise de sentimento usando a representação distribuída de parágrafos para o português

Registros relacionados