Classificação da utilidade de opiniões em português brasileiro

Detalhes bibliográficos
Autor(a) principal: Sousa, Rogério Figueredo de
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-29082023-162952/
Resumo: A quantidade de dados gerados pelos usuários na Web está aumentando. Entre esses conteúdos, as opiniões são consideradas um caso especial. Esse tipo de texto geralmente inclui coloquialismos, ruídos, erros, gírias, abreviações, etc. Portanto, eles são difíceis de serem processados por máquinas e podem ser difíceis de serem lidos até por seres humanos, em alguns casos. Particularmente, para um consumidor que procura conteúdo útil e de qualidade para ajudar nas suas decisões, como escolher um produto para comprar ou um filme para assistir, esta tarefa está se tornando cada vez mais complicada, devido aos problemas mencionados anteriormente e a grande oferta de opiniões na Web. Nesse contexto, surgiu a tarefa de Modelagem e Predição da Utilidade de Opiniões, cujo principal objetivo é estudar, modelar e processar opiniões geradas por usuários, a fim de selecionar automaticamente as mais úteis e destacá-las para ajudar outros usuários. Prever a utilidade das opiniões não é uma tarefa simples. Muita informação é necessária para caracterizar a utilidade das opiniões e, além disso, a utilidade é considerada um critério subjetivo, dependente de fatores extra-textuais, como a necessidade de informações do próprio leitor e o tempo disponível para leitura e avaliação de opiniões suficientes. Muitos trabalhos foram realizados desde a origem da área, mas, para a língua portuguesa, poucos avanços foram realizados até o momento. Este trabalho de doutorado teve como objetivo investigar e propor métodos para a tarefa de classificação automática da utilidade de opiniões para a língua portuguesa, utilizando informações linguísticas e de metadados disponíveis. Para atingir esse objetivo, um córpus de dois domínios, aplicativos para smartphones e filmes, foi coletado e anotado. Avaliou-se qualitativamente e quantitativamente uma ampla gama de atributos e técnicas que pudessem caracterizar a utilidade das opiniões e, dessa forma, foram descobertos fatores relevantes para a discriminação das opiniões úteis das não úteis. Nesta tese de doutorado, foram discutidos os principais desafios da área de pesquisa, e foi estabelecido um benchmark para a tarefa na língua portuguesa. Além disso, desenvolveu-se um novo método baseado em grafos que pode ser usado como alternativa para classificação da utilidade de opiniões. Por fim, elaboramos um método que pode classificar com excelente acurácia as opiniões de aplicativos e com boa acurácia as opiniões de filmes.
id USP_0bd55e8a93ff27d2c378c4791233169b
oai_identifier_str oai:teses.usp.br:tde-29082023-162952
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Classificação da utilidade de opiniões em português brasileiroHelpfulness classification of online reviews in brazilian portugueseMineração de opiniõesNatural language processingOpinion helpfulnessOpinion miningProcessamento de línguas naturaisUtilidade de opiniõesA quantidade de dados gerados pelos usuários na Web está aumentando. Entre esses conteúdos, as opiniões são consideradas um caso especial. Esse tipo de texto geralmente inclui coloquialismos, ruídos, erros, gírias, abreviações, etc. Portanto, eles são difíceis de serem processados por máquinas e podem ser difíceis de serem lidos até por seres humanos, em alguns casos. Particularmente, para um consumidor que procura conteúdo útil e de qualidade para ajudar nas suas decisões, como escolher um produto para comprar ou um filme para assistir, esta tarefa está se tornando cada vez mais complicada, devido aos problemas mencionados anteriormente e a grande oferta de opiniões na Web. Nesse contexto, surgiu a tarefa de Modelagem e Predição da Utilidade de Opiniões, cujo principal objetivo é estudar, modelar e processar opiniões geradas por usuários, a fim de selecionar automaticamente as mais úteis e destacá-las para ajudar outros usuários. Prever a utilidade das opiniões não é uma tarefa simples. Muita informação é necessária para caracterizar a utilidade das opiniões e, além disso, a utilidade é considerada um critério subjetivo, dependente de fatores extra-textuais, como a necessidade de informações do próprio leitor e o tempo disponível para leitura e avaliação de opiniões suficientes. Muitos trabalhos foram realizados desde a origem da área, mas, para a língua portuguesa, poucos avanços foram realizados até o momento. Este trabalho de doutorado teve como objetivo investigar e propor métodos para a tarefa de classificação automática da utilidade de opiniões para a língua portuguesa, utilizando informações linguísticas e de metadados disponíveis. Para atingir esse objetivo, um córpus de dois domínios, aplicativos para smartphones e filmes, foi coletado e anotado. Avaliou-se qualitativamente e quantitativamente uma ampla gama de atributos e técnicas que pudessem caracterizar a utilidade das opiniões e, dessa forma, foram descobertos fatores relevantes para a discriminação das opiniões úteis das não úteis. Nesta tese de doutorado, foram discutidos os principais desafios da área de pesquisa, e foi estabelecido um benchmark para a tarefa na língua portuguesa. Além disso, desenvolveu-se um novo método baseado em grafos que pode ser usado como alternativa para classificação da utilidade de opiniões. Por fim, elaboramos um método que pode classificar com excelente acurácia as opiniões de aplicativos e com boa acurácia as opiniões de filmes.The amount of user-generated data on the Web is increasing. Among these contents, opinions are considered a special case. This type of text usually includes colloquialisms, noise, errors, slangs, abreviations, etc. Therefore, they are difficult for machines to process and can be difficult for humans to read in some cases. Particularly, for a consumer looking for useful and quality content to help with their decisions, such as choosing a product to buy or a movie to watch, this task is becoming more and more complicated, due to the previously mentioned problems and the great offer of opinions on the Web. The task of Modeling and Prediction of Opinion Helpfulness aims at studying, modelling and processing user-generated opinions in order to automatically select the most useful ones and highlight them to assist other users. Predicting the usefulness of opinions is not a simple task. Much information is needed to characterize the helpfulness of opinions and, moreover, helpfulness is considered a subjective criterion, dependent on extratextual factors, such as the readers own information needs and the time available for reading and evaluating sufficient opinions. Many works have been done since the origin of the area, but, for the Portuguese language, few works have been published so far. This PhD work aimed to investigate and propose methods for the task of automatic classification of the helpfulness of opinions for the Portuguese language, using linguistic information and available metadata. To achieve this goal, a corpus of two domains, smartphone apps and movies, was collected and annotated. A wide range of attributes and techniques that could characterize the helpfulness of the opinions were evaluated qualitatively and quantitatively and, in this way, relevant factors were discovered for the discrimination of useful opinions from those that were not. In this doctoral thesis, the main challenges of the research area were discussed, and a benchmark for the task in the Portuguese language was established. In addition, a new graph-based method was developed that can be used as an alternative for classifying the helpfulness of opinions. Finally, we developed a method that can classify app reviews with excellent accuracy and movie reviews with good accuracy.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSousa, Rogério Figueredo de2023-04-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-29082023-162952/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-08-30T12:02:02Zoai:teses.usp.br:tde-29082023-162952Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-08-30T12:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Classificação da utilidade de opiniões em português brasileiro
Helpfulness classification of online reviews in brazilian portuguese
title Classificação da utilidade de opiniões em português brasileiro
spellingShingle Classificação da utilidade de opiniões em português brasileiro
Sousa, Rogério Figueredo de
Mineração de opiniões
Natural language processing
Opinion helpfulness
Opinion mining
Processamento de línguas naturais
Utilidade de opiniões
title_short Classificação da utilidade de opiniões em português brasileiro
title_full Classificação da utilidade de opiniões em português brasileiro
title_fullStr Classificação da utilidade de opiniões em português brasileiro
title_full_unstemmed Classificação da utilidade de opiniões em português brasileiro
title_sort Classificação da utilidade de opiniões em português brasileiro
author Sousa, Rogério Figueredo de
author_facet Sousa, Rogério Figueredo de
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Sousa, Rogério Figueredo de
dc.subject.por.fl_str_mv Mineração de opiniões
Natural language processing
Opinion helpfulness
Opinion mining
Processamento de línguas naturais
Utilidade de opiniões
topic Mineração de opiniões
Natural language processing
Opinion helpfulness
Opinion mining
Processamento de línguas naturais
Utilidade de opiniões
description A quantidade de dados gerados pelos usuários na Web está aumentando. Entre esses conteúdos, as opiniões são consideradas um caso especial. Esse tipo de texto geralmente inclui coloquialismos, ruídos, erros, gírias, abreviações, etc. Portanto, eles são difíceis de serem processados por máquinas e podem ser difíceis de serem lidos até por seres humanos, em alguns casos. Particularmente, para um consumidor que procura conteúdo útil e de qualidade para ajudar nas suas decisões, como escolher um produto para comprar ou um filme para assistir, esta tarefa está se tornando cada vez mais complicada, devido aos problemas mencionados anteriormente e a grande oferta de opiniões na Web. Nesse contexto, surgiu a tarefa de Modelagem e Predição da Utilidade de Opiniões, cujo principal objetivo é estudar, modelar e processar opiniões geradas por usuários, a fim de selecionar automaticamente as mais úteis e destacá-las para ajudar outros usuários. Prever a utilidade das opiniões não é uma tarefa simples. Muita informação é necessária para caracterizar a utilidade das opiniões e, além disso, a utilidade é considerada um critério subjetivo, dependente de fatores extra-textuais, como a necessidade de informações do próprio leitor e o tempo disponível para leitura e avaliação de opiniões suficientes. Muitos trabalhos foram realizados desde a origem da área, mas, para a língua portuguesa, poucos avanços foram realizados até o momento. Este trabalho de doutorado teve como objetivo investigar e propor métodos para a tarefa de classificação automática da utilidade de opiniões para a língua portuguesa, utilizando informações linguísticas e de metadados disponíveis. Para atingir esse objetivo, um córpus de dois domínios, aplicativos para smartphones e filmes, foi coletado e anotado. Avaliou-se qualitativamente e quantitativamente uma ampla gama de atributos e técnicas que pudessem caracterizar a utilidade das opiniões e, dessa forma, foram descobertos fatores relevantes para a discriminação das opiniões úteis das não úteis. Nesta tese de doutorado, foram discutidos os principais desafios da área de pesquisa, e foi estabelecido um benchmark para a tarefa na língua portuguesa. Além disso, desenvolveu-se um novo método baseado em grafos que pode ser usado como alternativa para classificação da utilidade de opiniões. Por fim, elaboramos um método que pode classificar com excelente acurácia as opiniões de aplicativos e com boa acurácia as opiniões de filmes.
publishDate 2023
dc.date.none.fl_str_mv 2023-04-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-29082023-162952/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-29082023-162952/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257484074418176