Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23032020-101746/ |
Resumo: | No uso dos algoritmos de aprendizado de máquina para as tarefas de classificação, admite-se a existência de um conjunto de exemplos rotulados conhecido como conjunto de treinamento. Este conjunto é utilizado para treinar um classificador. Porém em vários casos de aplicação real o conjunto de treinamento pode não ser suficiente para treinar um bom classificador. Existe uma variação dos algoritmos de aprendizado de máquina supervisionado, conhecida como algoritmos semi-supervisionados. Os algoritmos semi-supervisionados, assumem que, juntamente com o conjunto de treinamento, existe um segundo conjunto de exemplos não rotulados, também disponível durante o treinamento. Um dos objetivos dos algoritmos semisupervisionados é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível e o conjunto de exemplos rotulados é escasso. Para tratar o problema da escassez de dados rotulados propõe-se uma escolha estratégica de exemplos a rotular para uma classificação eficaz. Neste trabalho é generalizado o problema clássico da amostragem de sinais, considera-se o problema da amostragem de sinais definidos em grafos. A teoria de amostragem de sinais em grafos estuda o problema da escolha do melhor subconjunto de vértices para a reconstrução perfeita do sinal através de sua amostra. No estudo de sinais através de grafos a representação do domínio de frequência é dada através dos autovalores e autovetores do Laplaciano. Aplica-se o algoritmo de amostragem de sinais em grafos (ANIS; GADDE; ORTEGA, 2016) para selecionar o melhor conjunto de treinamento em um conjunto de dados. Estuda-se o efeito que a amostragem de sinais em grafos tem nos algoritmos de aprendizado semi-supervisionado. Propõe-se um algoritmo semi-supervisionado ativo baseado no algoritmo proposto por Anis, Gadde e Ortega (2016) e no algoritmo de propagação de rótulos LLGC (ZHOU et al., 2004). A proposta é modificar a matriz de similaridade dos dados, para considerar amostras da região de classificação incerta a cada iteração. Mostra-se através de experimentos numéricos que a proposta supera outras técnicas de aprendizado ativo, quando os dados rotulados são escassos. Nos experimentos são usados conjuntos de dados reais e artificiais. |
id |
USP_ee8d0651d5b3ff4b222cf80b92b46445 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-23032020-101746 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativoSignal Processing On Graphs: Sampling Theory and its Application in Active Semi-supervised LearningAprendizado semi-supervisionadoGraph Fourier TransformProcessamento de sinais sobre grafosSampling TheorySemi-supervised LearningSignal processing on graphsTeoria de amostragemTransformada de Fourier do grafoNo uso dos algoritmos de aprendizado de máquina para as tarefas de classificação, admite-se a existência de um conjunto de exemplos rotulados conhecido como conjunto de treinamento. Este conjunto é utilizado para treinar um classificador. Porém em vários casos de aplicação real o conjunto de treinamento pode não ser suficiente para treinar um bom classificador. Existe uma variação dos algoritmos de aprendizado de máquina supervisionado, conhecida como algoritmos semi-supervisionados. Os algoritmos semi-supervisionados, assumem que, juntamente com o conjunto de treinamento, existe um segundo conjunto de exemplos não rotulados, também disponível durante o treinamento. Um dos objetivos dos algoritmos semisupervisionados é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível e o conjunto de exemplos rotulados é escasso. Para tratar o problema da escassez de dados rotulados propõe-se uma escolha estratégica de exemplos a rotular para uma classificação eficaz. Neste trabalho é generalizado o problema clássico da amostragem de sinais, considera-se o problema da amostragem de sinais definidos em grafos. A teoria de amostragem de sinais em grafos estuda o problema da escolha do melhor subconjunto de vértices para a reconstrução perfeita do sinal através de sua amostra. No estudo de sinais através de grafos a representação do domínio de frequência é dada através dos autovalores e autovetores do Laplaciano. Aplica-se o algoritmo de amostragem de sinais em grafos (ANIS; GADDE; ORTEGA, 2016) para selecionar o melhor conjunto de treinamento em um conjunto de dados. Estuda-se o efeito que a amostragem de sinais em grafos tem nos algoritmos de aprendizado semi-supervisionado. Propõe-se um algoritmo semi-supervisionado ativo baseado no algoritmo proposto por Anis, Gadde e Ortega (2016) e no algoritmo de propagação de rótulos LLGC (ZHOU et al., 2004). A proposta é modificar a matriz de similaridade dos dados, para considerar amostras da região de classificação incerta a cada iteração. Mostra-se através de experimentos numéricos que a proposta supera outras técnicas de aprendizado ativo, quando os dados rotulados são escassos. Nos experimentos são usados conjuntos de dados reais e artificiais.In the use of machine learning algorithms for classification tasks, it is assumed that there is a set of labeled examples, known as the training set. This set is used to train a classifier. However in many cases of actual application the training set may not be sufficient to train a good classifier. There is a class of supervised machine learning algorithms, known as semi-supervised algorithms. Semi-supervised algorithms assume that, along with the training set, there is a second set of unlabeled examples also available during training. One of the goals of semi-supervised algorithms is to train classifiers when a large number of unlabeled examples are available and the set of labeled examples is scarce. To address the problem of labeled data scarcity, a strategic choice of data to label for effective classification is proposed. In this work it is generalized the classical problem of sampling, it is considered the problem of sampling signals defined on graphs. The theory of sampling signals on graphs studies the problem of choosing the best subset of vertices for the perfect reconstruction of the original signal through its sample. In the study of signals through graphs the representation of the frequency domain is given by the eigenvalues and eigenvectors of the Laplacian. The graph signal sampling algorithm Anis, Gadde e Ortega (2016) is applied to select the best training set from a data set. We study the effect that signal sampling on graphs can have on semi-supervised learning algorithms. An active semi-supervised algorithm based on the algorithm proposed by (ANIS; GADDE; ORTEGA, 2016) and the label propagation algorithm LLGC (ZHOU et al., 2004) is proposed. The proposal is to modify the data similarity matrix to consider samples from the uncertain classification region at each iteration. It is shown through numerical experiments that the proposal outperform other active learning techniques, when the labeled data is scarce. In the experiments real and artificial data sets are used.Biblioteca Digitais de Teses e Dissertações da USPCuminato, José AlbertoNhassengo, Evaristo Calisto2020-01-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-23032020-101746/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-03-26T13:47:02Zoai:teses.usp.br:tde-23032020-101746Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-03-26T13:47:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo Signal Processing On Graphs: Sampling Theory and its Application in Active Semi-supervised Learning |
title |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo |
spellingShingle |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo Nhassengo, Evaristo Calisto Aprendizado semi-supervisionado Graph Fourier Transform Processamento de sinais sobre grafos Sampling Theory Semi-supervised Learning Signal processing on graphs Teoria de amostragem Transformada de Fourier do grafo |
title_short |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo |
title_full |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo |
title_fullStr |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo |
title_full_unstemmed |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo |
title_sort |
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo |
author |
Nhassengo, Evaristo Calisto |
author_facet |
Nhassengo, Evaristo Calisto |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cuminato, José Alberto |
dc.contributor.author.fl_str_mv |
Nhassengo, Evaristo Calisto |
dc.subject.por.fl_str_mv |
Aprendizado semi-supervisionado Graph Fourier Transform Processamento de sinais sobre grafos Sampling Theory Semi-supervised Learning Signal processing on graphs Teoria de amostragem Transformada de Fourier do grafo |
topic |
Aprendizado semi-supervisionado Graph Fourier Transform Processamento de sinais sobre grafos Sampling Theory Semi-supervised Learning Signal processing on graphs Teoria de amostragem Transformada de Fourier do grafo |
description |
No uso dos algoritmos de aprendizado de máquina para as tarefas de classificação, admite-se a existência de um conjunto de exemplos rotulados conhecido como conjunto de treinamento. Este conjunto é utilizado para treinar um classificador. Porém em vários casos de aplicação real o conjunto de treinamento pode não ser suficiente para treinar um bom classificador. Existe uma variação dos algoritmos de aprendizado de máquina supervisionado, conhecida como algoritmos semi-supervisionados. Os algoritmos semi-supervisionados, assumem que, juntamente com o conjunto de treinamento, existe um segundo conjunto de exemplos não rotulados, também disponível durante o treinamento. Um dos objetivos dos algoritmos semisupervisionados é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível e o conjunto de exemplos rotulados é escasso. Para tratar o problema da escassez de dados rotulados propõe-se uma escolha estratégica de exemplos a rotular para uma classificação eficaz. Neste trabalho é generalizado o problema clássico da amostragem de sinais, considera-se o problema da amostragem de sinais definidos em grafos. A teoria de amostragem de sinais em grafos estuda o problema da escolha do melhor subconjunto de vértices para a reconstrução perfeita do sinal através de sua amostra. No estudo de sinais através de grafos a representação do domínio de frequência é dada através dos autovalores e autovetores do Laplaciano. Aplica-se o algoritmo de amostragem de sinais em grafos (ANIS; GADDE; ORTEGA, 2016) para selecionar o melhor conjunto de treinamento em um conjunto de dados. Estuda-se o efeito que a amostragem de sinais em grafos tem nos algoritmos de aprendizado semi-supervisionado. Propõe-se um algoritmo semi-supervisionado ativo baseado no algoritmo proposto por Anis, Gadde e Ortega (2016) e no algoritmo de propagação de rótulos LLGC (ZHOU et al., 2004). A proposta é modificar a matriz de similaridade dos dados, para considerar amostras da região de classificação incerta a cada iteração. Mostra-se através de experimentos numéricos que a proposta supera outras técnicas de aprendizado ativo, quando os dados rotulados são escassos. Nos experimentos são usados conjuntos de dados reais e artificiais. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-01-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23032020-101746/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-23032020-101746/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257295620145152 |