Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) |
Texto Completo: | http://www.repositorio.mar.mil.br/handle/ripcmb/844785 |
Resumo: | Com o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores. |
id |
MB_dac54ad0c8bd9d01a440f51025834857 |
---|---|
oai_identifier_str |
oai:www.repositorio.mar.mil.br:ripcmb/844785 |
network_acronym_str |
MB |
network_name_str |
Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) |
repository_id_str |
|
spelling |
Guimarães, Eliseu Paz e Silva deCarvalho, Alexandre Plastino de2022-07-05T18:13:35Z2022-07-05T18:13:35Z2021GUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021.http://www.repositorio.mar.mil.br/handle/ripcmb/844785Com o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores.The advent and popularization of social networks have been leading more and more people to feel free to express their opinions on various issues in those environments. This type of attitude generates a growing volume of data, whose analysis is an important tool in the decision-making process of institutions, governments or people, that can assess their performance related to a desired target audience. The computational field of study that aims to meet this objective is called sentiment analysis, which has the polarity classification of texts as one of its most prominent tasks. To meet the need to classify texts as positive or negative, the use of approaches based on supervised machine learning is promising, in which a classifier is trained with a dataset from a given domain whose labels (positive or negative) are known. The idea behind this approach is that this classifier can predict the labels of new data from this same domain. However, labeled data are not always available as the domain of interest can be rare and data scarse, or manually labeling the data can be prohibitive. In this scenario, transfer learning strategies arise, seeking to take advantage of the knowledge acquired in a given source domain to adapt or reuse classifiers for a given target domain. One of the approaches used is based on data selection or enrichment from a source domain - which has been widely proposed in the literature. However, there is a lack of specific studies for instance selection in the challenging scenario of Twitter. This dissertation seeks to investigate data selection techniques for transfer learning in the scenario of sentiment analysis in tweets. For this, experiments are conducted using a set of 22 tweets datasets in English. These experiments propose techniques: (i.) to select source datasets to train classifiers for an unlabeled target dataset, (ii.) to select instances of the union of source datasets to train classifiers for an unlabeled target dataset and (iii.) to select instances of the union of source datasets to train classifiers for a labeled target dataset. With the proposed techniques, it is observed that the size of training set plays a fundamental role in the predictive capability of the classifiers and that using balanced and diverse training sets constitutes a good decision for transfer learning methods based on instance selection and reuse of classifiers.porUniversidade Federal Fluminense (UFF)Tecnologia da InformaçãoCiência da computaçãoAnálise de sentimentosTransferência de aprendizadoSeleção de dadosAprendizado de MáquinaTwitterSentiment analysisTransfer learningData selectionMachine LearningTwitterSeleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisBrasilinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)instname:Marinha do Brasil (MB)instacron:MBORIGINALCT_ELISEU_Autorizacao.pdfCT_ELISEU_Autorizacao.pdfapplication/pdf59334https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/1/CT_ELISEU_Autorizacao.pdf45d6ff74c4cc599d992c8ccc40fa4d21MD51CT_ELISEU_Dissertacao.pdfCT_ELISEU_Dissertacao.pdfapplication/pdf1441533https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/2/CT_ELISEU_Dissertacao.pdf7821eec77441a48ec1ed185beb9d40b0MD52TEXTCT_ELISEU_Autorizacao.pdf.txtCT_ELISEU_Autorizacao.pdf.txtExtracted texttext/plain1https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/3/CT_ELISEU_Autorizacao.pdf.txt68b329da9893e34099c7d8ad5cb9c940MD53CT_ELISEU_Dissertacao.pdf.txtCT_ELISEU_Dissertacao.pdf.txtExtracted texttext/plain200580https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/5/CT_ELISEU_Dissertacao.pdf.txt3b136f48b1a27b1a8da24e6cb754ff45MD55THUMBNAILCT_ELISEU_Autorizacao.pdf.jpgCT_ELISEU_Autorizacao.pdf.jpgGenerated Thumbnailimage/jpeg1734https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/4/CT_ELISEU_Autorizacao.pdf.jpg359bcf4e660a2b7051fd09a0e993f029MD54CT_ELISEU_Dissertacao.pdf.jpgCT_ELISEU_Dissertacao.pdf.jpgGenerated Thumbnailimage/jpeg1287https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/6/CT_ELISEU_Dissertacao.pdf.jpgc34c06b4be7ecede194b46c55d3c8ea5MD56ripcmb/8447852022-09-23 10:27:19.818oai:www.repositorio.mar.mil.br:ripcmb/844785Repositório InstitucionalPUBhttps://www.repositorio.mar.mil.br/oai/requestdphdm.repositorio@marinha.mil.bropendoar:2022-09-23T13:27:19Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)false |
dc.title.pt_BR.fl_str_mv |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
title |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
spellingShingle |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets Guimarães, Eliseu Paz e Silva de Análise de sentimentos Transferência de aprendizado Seleção de dados Aprendizado de Máquina Sentiment analysis Transfer learning Data selection Machine Learning Tecnologia da Informação Ciência da computação |
title_short |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
title_full |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
title_fullStr |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
title_full_unstemmed |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
title_sort |
Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets |
author |
Guimarães, Eliseu Paz e Silva de |
author_facet |
Guimarães, Eliseu Paz e Silva de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Guimarães, Eliseu Paz e Silva de |
dc.contributor.advisor1.fl_str_mv |
Carvalho, Alexandre Plastino de |
contributor_str_mv |
Carvalho, Alexandre Plastino de |
dc.subject.por.fl_str_mv |
Análise de sentimentos Transferência de aprendizado Seleção de dados Aprendizado de Máquina Sentiment analysis Transfer learning Data selection Machine Learning |
topic |
Análise de sentimentos Transferência de aprendizado Seleção de dados Aprendizado de Máquina Sentiment analysis Transfer learning Data selection Machine Learning Tecnologia da Informação Ciência da computação |
dc.subject.dgpm.pt_BR.fl_str_mv |
Tecnologia da Informação Ciência da computação |
description |
Com o advento e a popularização das redes sociais, cada vez mais pessoas sentem-se li- vres para expressarem suas opiniões sobre assuntos variados naqueles ambientes. Esse tipo de atitude gera um volume crescente de dados, cuja análise constitui importante ferramenta no processo de tomada de decisão de instituições, governos ou pessoas, que podem aferir seu desempenho em relação a um público-alvo desejado. O campo de estudo computacional que visa a atender este objetivo é a análise de sentimentos, que tem a classificação de polaridade de textos como uma de suas tarefas de maior destaque. Para atender à necessidade de classificar textos como positivos ou negativos, destaca-se o uso de abordagens baseadas em aprendizado de máquina supervisionado, nas quais um clas- sificador é treinado com um conjunto de dados de um determinado domínio cujos rótulos (positivos ou negativos) são conhecidos. A ideia por trás dessa abordagem é que este classificador seja capaz de predizer os rótulos de novos dados deste mesmo domínio. No entanto, dados rotulados nem sempre estão disponíveis, pois o domínio de interesse pode ser raro e ter dados escassos, ou ainda rotular manualmente os dados pode ser proibitivo. Nesse cenário, surgem estratégias de transferência de aprendizado, que buscam aprovei- tar o conhecimento adquirido em um determinado domínio-fonte para adaptar ou reusar classificadores para um determinado domínio-alvo. Uma das abordagens utilizadas se ba- seia na seleção ou enriquecimento de dados a partir de um domínio-fonte, o que tem sido amplamente proposto na literatura. No entanto, há carência de estudos específicos para a seleção de instâncias no desafiador cenário do Twitter. Esta masterThesis se propõe a inves- tigar técnicas de seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. Para isso, são realizados experimentos utilizando um conjunto de 22 bases de dados de tweets em inglês. Nestes experimentos, são propostas técnicas: (i.) de seleção de bases-fonte para treinar classificadores para uma base-alvo não-rotulada, (ii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo não-rotulada e (iii.) de seleção de instâncias da união das bases-fonte para treinar classificadores para uma base-alvo rotulada. Com as técnicas propostas, observa-se que o tamanho do conjunto de treinamento desempenha um papel fundamental na capa- cidade preditiva dos classificadores e que utilizar conjuntos de treinamento balanceados e diversos constitui-se uma boa decisão para os métodos de transferência de aprendizado que se baseiam em seleção de instâncias e reuso de classificadores. |
publishDate |
2021 |
dc.date.issued.fl_str_mv |
2021 |
dc.date.accessioned.fl_str_mv |
2022-07-05T18:13:35Z |
dc.date.available.fl_str_mv |
2022-07-05T18:13:35Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
GUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021. |
dc.identifier.uri.fl_str_mv |
http://www.repositorio.mar.mil.br/handle/ripcmb/844785 |
identifier_str_mv |
GUIMARÃES, Eliseu Paz e Silva de. Seleção de dados para transferência de aprendizado no contexto de análise de sentimentos em tweets. 2021. 75 f. masterThesis (Mestrado em Computação)-Universidade Federal Fluminense, Niterói, 2021. |
url |
http://www.repositorio.mar.mil.br/handle/ripcmb/844785 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal Fluminense (UFF) |
publisher.none.fl_str_mv |
Universidade Federal Fluminense (UFF) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) instname:Marinha do Brasil (MB) instacron:MB |
instname_str |
Marinha do Brasil (MB) |
instacron_str |
MB |
institution |
MB |
reponame_str |
Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) |
collection |
Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) |
bitstream.url.fl_str_mv |
https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/1/CT_ELISEU_Autorizacao.pdf https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/2/CT_ELISEU_Dissertacao.pdf https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/3/CT_ELISEU_Autorizacao.pdf.txt https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/5/CT_ELISEU_Dissertacao.pdf.txt https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/4/CT_ELISEU_Autorizacao.pdf.jpg https://www.repositorio.mar.mil.br/bitstream/ripcmb/844785/6/CT_ELISEU_Dissertacao.pdf.jpg |
bitstream.checksum.fl_str_mv |
45d6ff74c4cc599d992c8ccc40fa4d21 7821eec77441a48ec1ed185beb9d40b0 68b329da9893e34099c7d8ad5cb9c940 3b136f48b1a27b1a8da24e6cb754ff45 359bcf4e660a2b7051fd09a0e993f029 c34c06b4be7ecede194b46c55d3c8ea5 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB) |
repository.mail.fl_str_mv |
dphdm.repositorio@marinha.mil.br |
_version_ |
1813189017638797312 |