Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16112020-155518/ |
Resumo: | O aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL. |
id |
USP_161f9e59c0c3d9150379f00e8ebbc415 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-16112020-155518 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafosPositive and unlabeled learning through label propagation in graphsAprendizado baseado em grafoAprendizado semissupervisionado baseado em uma única classeAprendizado transdutivoClassificação de textosGraph-based learningLabel propagationPositive and unlabeled learningPropagação de rótulosText classificationTransductive learningO aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL.Positive and Unlabeled Learning (PUL) is an attractive learning approach for real applications since the user has to label only documents of his class of interest. Therefore, the user spends no effort to label documents of all classes in the collection, necessary task in the case of multiclass methods. In addition to the labeled interest documents, the PUL uses unlabeled documents to classify all the documents as documents of interest (positive documents) or not (negative documents). This learning approach can be used to train classification models, to perform information retrieval or recommendation systems. In the literature, the PUL approaches based on graphs are the minority, and the graph-based approaches used in the semi-supervised text classification task have proved to surpass the classification performance of the vector space model-based approaches. Based on these statements, we proposed a graph-based approach for PUL, called Label Propagation for Positive and Unlabeled Learning (LP-PUL). The proposed framework consists of three steps: (i) building a similarity graph, (ii) identifying reliable negative documents, and (iii) performing label propagation to classify the remaining unlabeled documents as positive or negative. We carried out an extensive empirical evaluation using several text collections and parameters for each algorithm. The empirical evaluation measured the impact of the different algorithms for each step of the proposed framework. We also compared the proposed algorithm with vector space-based and graph-based ones, and then was demonstrated that the proposal surpasses the classification performances of other PUL algorithms.Biblioteca Digitais de Teses e Dissertações da USPLopes, Alneu de AndradeCarnevali, Julio Cesar2020-10-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-16112020-155518/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-11-16T21:02:02Zoai:teses.usp.br:tde-16112020-155518Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-11-16T21:02:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos Positive and unlabeled learning through label propagation in graphs |
title |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos |
spellingShingle |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos Carnevali, Julio Cesar Aprendizado baseado em grafo Aprendizado semissupervisionado baseado em uma única classe Aprendizado transdutivo Classificação de textos Graph-based learning Label propagation Positive and unlabeled learning Propagação de rótulos Text classification Transductive learning |
title_short |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos |
title_full |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos |
title_fullStr |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos |
title_full_unstemmed |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos |
title_sort |
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos |
author |
Carnevali, Julio Cesar |
author_facet |
Carnevali, Julio Cesar |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lopes, Alneu de Andrade |
dc.contributor.author.fl_str_mv |
Carnevali, Julio Cesar |
dc.subject.por.fl_str_mv |
Aprendizado baseado em grafo Aprendizado semissupervisionado baseado em uma única classe Aprendizado transdutivo Classificação de textos Graph-based learning Label propagation Positive and unlabeled learning Propagação de rótulos Text classification Transductive learning |
topic |
Aprendizado baseado em grafo Aprendizado semissupervisionado baseado em uma única classe Aprendizado transdutivo Classificação de textos Graph-based learning Label propagation Positive and unlabeled learning Propagação de rótulos Text classification Transductive learning |
description |
O aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-10-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16112020-155518/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-16112020-155518/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257084976955392 |