Analysis of label noise in graph-based semi-supervised learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UNIFESP |
Texto Completo: | https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384 https://repositorio.unifesp.br/handle/11600/61373 |
Resumo: | Com o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui. |
id |
UFSP_550161db1e336c8bdb5faa7c271161c6 |
---|---|
oai_identifier_str |
oai:repositorio.unifesp.br/:11600/61373 |
network_acronym_str |
UFSP |
network_name_str |
Repositório Institucional da UNIFESP |
repository_id_str |
3465 |
spelling |
Analysis of label noise in graph-based semi-supervised learningAprendizado semissupervisionado;Ruído de rótuloPropagação de rótulosCom o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui.As the years go by, the number of devices connected to the web keeps increasing, each of them continuously producing data. In order to build a predictive model, a huge volume of raw data is not necessarily enough by itself, as it must have some kind of meaningful information related to the model’s output. Usually, we have to annotate data with labels and use them to supervise a model that will be able to generalize to unseen data. However, the labeling process can be tedious, long, costly, and error-prone. It is often the case that most of our data is unlabeled. Semi-supervised learning alleviates that by making strong assumptions about the relation between the labels and the input data distribution. This paradigm has been successful in practice, but most semi-supervised learning algorithms end up fully trusting the few available labels. In real life, both humans and automated systems are prone to mistakes. Though these mistakes may happen for different reasons, the result is the same: labels which are not desirable, containing false information. We call this label noise, which has been shown before to reduce classifier performance significantly. Algorithms must, therefore, ideally be able to work with labels that are both few and also unreliable. According to our systematic review, many of the existing approaches that consider this particular scenario are graph-based methods. As a result, our work aims to perform an extensive empirical evaluation of existing graph-based semi-supervised algorithms, while also trying to combine the most successful approaches in order to build a classifier that is robust to label noise. To do that, we compare the accuracy of classifiers while varying the amount of labeled data and label noise for many different samples. We test graph-based filters by evaluating metrics such as recall, precision, specificity and F1 score.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)#2018/15014-0Universidade Federal de São PauloBerton, Lilian [UNIFESP]http://lattes.cnpq.br/9064767888093340http://lattes.cnpq.br/5069552456805947Afonso, Bruno Klaus de Aquino [UNIFESP]2021-08-06T11:06:25Z2021-08-06T11:06:25Z2020-01-24info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion82 f.application/pdfhttps://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384@mastersthesis{BKthesis2020, author = {de Aquino Afonso, B. K.}, institution = {Dissertação (Mestrado) - UNIFESP}, title = {Analysis of Label Noise in Graph-Based Semi-Supervised Learning}, year = 2020 }https://repositorio.unifesp.br/handle/11600/61373engSão José dos Camposinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-03T13:49:21Zoai:repositorio.unifesp.br/:11600/61373Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-03T13:49:21Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false |
dc.title.none.fl_str_mv |
Analysis of label noise in graph-based semi-supervised learning |
title |
Analysis of label noise in graph-based semi-supervised learning |
spellingShingle |
Analysis of label noise in graph-based semi-supervised learning Afonso, Bruno Klaus de Aquino [UNIFESP] Aprendizado semissupervisionado; Ruído de rótulo Propagação de rótulos |
title_short |
Analysis of label noise in graph-based semi-supervised learning |
title_full |
Analysis of label noise in graph-based semi-supervised learning |
title_fullStr |
Analysis of label noise in graph-based semi-supervised learning |
title_full_unstemmed |
Analysis of label noise in graph-based semi-supervised learning |
title_sort |
Analysis of label noise in graph-based semi-supervised learning |
author |
Afonso, Bruno Klaus de Aquino [UNIFESP] |
author_facet |
Afonso, Bruno Klaus de Aquino [UNIFESP] |
author_role |
author |
dc.contributor.none.fl_str_mv |
Berton, Lilian [UNIFESP] http://lattes.cnpq.br/9064767888093340 http://lattes.cnpq.br/5069552456805947 |
dc.contributor.author.fl_str_mv |
Afonso, Bruno Klaus de Aquino [UNIFESP] |
dc.subject.por.fl_str_mv |
Aprendizado semissupervisionado; Ruído de rótulo Propagação de rótulos |
topic |
Aprendizado semissupervisionado; Ruído de rótulo Propagação de rótulos |
description |
Com o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-01-24 2021-08-06T11:06:25Z 2021-08-06T11:06:25Z |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384 @mastersthesis{BKthesis2020, author = {de Aquino Afonso, B. K.}, institution = {Dissertação (Mestrado) - UNIFESP}, title = {Analysis of Label Noise in Graph-Based Semi-Supervised Learning}, year = 2020 } https://repositorio.unifesp.br/handle/11600/61373 |
url |
https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384 https://repositorio.unifesp.br/handle/11600/61373 |
identifier_str_mv |
@mastersthesis{BKthesis2020, author = {de Aquino Afonso, B. K.}, institution = {Dissertação (Mestrado) - UNIFESP}, title = {Analysis of Label Noise in Graph-Based Semi-Supervised Learning}, year = 2020 } |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
82 f. application/pdf |
dc.coverage.none.fl_str_mv |
São José dos Campos |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP |
instname_str |
Universidade Federal de São Paulo (UNIFESP) |
instacron_str |
UNIFESP |
institution |
UNIFESP |
reponame_str |
Repositório Institucional da UNIFESP |
collection |
Repositório Institucional da UNIFESP |
repository.name.fl_str_mv |
Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP) |
repository.mail.fl_str_mv |
biblioteca.csp@unifesp.br |
_version_ |
1814268273611505664 |