Analysis of label noise in graph-based semi-supervised learning

Afonso, Bruno Klaus de Aquino [UNIFESP]

Analysis of label noise in graph-based semi-supervised learning

Detalhes bibliográficos
Autor(a) principal:	Afonso, Bruno Klaus de Aquino [UNIFESP]
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Institucional da UNIFESP
Texto Completo:	https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384 https://repositorio.unifesp.br/handle/11600/61373
Resumo:	Com o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui.

Metadados do item

id	UFSP_550161db1e336c8bdb5faa7c271161c6
oai_identifier_str	oai:repositorio.unifesp.br/:11600/61373
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str	3465
spelling	Analysis of label noise in graph-based semi-supervised learningAprendizado semissupervisionado;Ruído de rótuloPropagação de rótulosCom o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui.As the years go by, the number of devices connected to the web keeps increasing, each of them continuously producing data. In order to build a predictive model, a huge volume of raw data is not necessarily enough by itself, as it must have some kind of meaningful information related to the model’s output. Usually, we have to annotate data with labels and use them to supervise a model that will be able to generalize to unseen data. However, the labeling process can be tedious, long, costly, and error-prone. It is often the case that most of our data is unlabeled. Semi-supervised learning alleviates that by making strong assumptions about the relation between the labels and the input data distribution. This paradigm has been successful in practice, but most semi-supervised learning algorithms end up fully trusting the few available labels. In real life, both humans and automated systems are prone to mistakes. Though these mistakes may happen for different reasons, the result is the same: labels which are not desirable, containing false information. We call this label noise, which has been shown before to reduce classifier performance significantly. Algorithms must, therefore, ideally be able to work with labels that are both few and also unreliable. According to our systematic review, many of the existing approaches that consider this particular scenario are graph-based methods. As a result, our work aims to perform an extensive empirical evaluation of existing graph-based semi-supervised algorithms, while also trying to combine the most successful approaches in order to build a classifier that is robust to label noise. To do that, we compare the accuracy of classifiers while varying the amount of labeled data and label noise for many different samples. We test graph-based filters by evaluating metrics such as recall, precision, specificity and F1 score.Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)#2018/15014-0Universidade Federal de São PauloBerton, Lilian [UNIFESP]http://lattes.cnpq.br/9064767888093340http://lattes.cnpq.br/5069552456805947Afonso, Bruno Klaus de Aquino [UNIFESP]2021-08-06T11:06:25Z2021-08-06T11:06:25Z2020-01-24info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion82 f.application/pdfhttps://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384@mastersthesis{BKthesis2020, author = {de Aquino Afonso, B. K.}, institution = {Dissertação (Mestrado) - UNIFESP}, title = {Analysis of Label Noise in Graph-Based Semi-Supervised Learning}, year = 2020 }https://repositorio.unifesp.br/handle/11600/61373engSão José dos Camposinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-03T13:49:21Zoai:repositorio.unifesp.br/:11600/61373Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-03T13:49:21Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv	Analysis of label noise in graph-based semi-supervised learning
title	Analysis of label noise in graph-based semi-supervised learning
spellingShingle	Analysis of label noise in graph-based semi-supervised learning Afonso, Bruno Klaus de Aquino [UNIFESP] Aprendizado semissupervisionado; Ruído de rótulo Propagação de rótulos
title_short	Analysis of label noise in graph-based semi-supervised learning
title_full	Analysis of label noise in graph-based semi-supervised learning
title_fullStr	Analysis of label noise in graph-based semi-supervised learning
title_full_unstemmed	Analysis of label noise in graph-based semi-supervised learning
title_sort	Analysis of label noise in graph-based semi-supervised learning
author	Afonso, Bruno Klaus de Aquino [UNIFESP]
author_facet	Afonso, Bruno Klaus de Aquino [UNIFESP]
author_role	author
dc.contributor.none.fl_str_mv	Berton, Lilian [UNIFESP] http://lattes.cnpq.br/9064767888093340 http://lattes.cnpq.br/5069552456805947
dc.contributor.author.fl_str_mv	Afonso, Bruno Klaus de Aquino [UNIFESP]
dc.subject.por.fl_str_mv	Aprendizado semissupervisionado; Ruído de rótulo Propagação de rótulos
topic	Aprendizado semissupervisionado; Ruído de rótulo Propagação de rótulos
description	Com o passar dos anos, o número de dispositivos conectados à Web continua aumentando, cada um deles produzindo dados continuamente. Para construir um modelo preditivo, um enorme volume de dados brutos não é necessariamente suficiente por si só, pois deve ter algum tipo de informação significativa relacionada à saída do modelo. Normalmente, temos que anotar os dados com algum tipo de rótulo, e usá-los para supervisionar um modelo que será capaz de generalizar para dados não vistos. No entanto, o processo de rotulagem pode ser entediante, longo, dispendioso e propenso a erros. Muitas vezes, é o caso de a maioria dos nossos dados não estarem rotulados. O aprendizado semissupervisionado alivia isso ao fazer fortes suposições sobre a relação entre os rótulos e a distribuição dos dados de entrada. Esse paradigma é frequentemente bem-sucedido, mas muitos dos seus algoritmos acabam confiando demais nos poucos rótulos disponíveis. Na vida real, tanto os seres humanos quanto os sistemas automatizados são propensos a erros; portanto, é essencial que nossos algoritmos sejam capazes de trabalhar com rótulos que são poucos e também não confiáveis. De acordo com nossa revisão sistemática, muitas das abordagens existentes que consideram esse cenário específico são métodos baseados em grafos. Como resultado, esse trabalho tem como objetivo realizar uma extensa avaliação empírica dos atuais algoritmos semissupervisionados baseados em grafos, ao mesmo tempo tentando combinar as abordagens mais bem-sucedidas para construir um classificador que seja robusto ao ruído de rótulo. Para fazer isso, comparamos a precisão dos classificadores na ocasião em que variamos a quantidade de dados rotulados e o ruído de rótulos para muitas amostras diferentes. Também foram testados filtros baseados em grafos, avaliando-se métricas como revocação, precisão, especificidade e medida F1. Nossos resultados mostram que, se o conjunto de dados for consistente com nossas suposições, poderemos detectar a maioria das instâncias ruidosas, embora isso se torne mais difícil quando o número de rótulos disponíveis diminui.
publishDate	2020
dc.date.none.fl_str_mv	2020-01-24 2021-08-06T11:06:25Z 2021-08-06T11:06:25Z
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384 @mastersthesis{BKthesis2020, author = {de Aquino Afonso, B. K.}, institution = {Dissertação (Mestrado) - UNIFESP}, title = {Analysis of Label Noise in Graph-Based Semi-Supervised Learning}, year = 2020 } https://repositorio.unifesp.br/handle/11600/61373
url	https://sucupira.capes.gov.br/sucupira/public/consultas/coleta/trabalhoConclusao/viewTrabalhoConclusao.jsf?popup=true&id_trabalho=9233384 https://repositorio.unifesp.br/handle/11600/61373
identifier_str_mv	@mastersthesis{BKthesis2020, author = {de Aquino Afonso, B. K.}, institution = {Dissertação (Mestrado) - UNIFESP}, title = {Analysis of Label Noise in Graph-Based Semi-Supervised Learning}, year = 2020 }
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	82 f. application/pdf
dc.coverage.none.fl_str_mv	São José dos Campos
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo
publisher.none.fl_str_mv	Universidade Federal de São Paulo
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1814268273611505664

Analysis of label noise in graph-based semi-supervised learning

Registros relacionados