Novas abordagens de aprendizado semisupervisionado por conectividade ótima

Detalhes bibliográficos
Autor(a) principal: Amorim, Willian Paraguassu
Data de Publicação: 2016
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFGD
Texto Completo: http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916
Resumo: A anotação de grandes bases de dados por um classificador é um problema cujo desafio aumenta à medida que o número de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparação com o número de amostras não supervisionadas. Neste contexto, métodos de aprendizagem semisupervisionados visam a descoberta e propagação de rótulos para amostras informativas entre as não supervisionadas, de tal forma que a sua adição à classe correta no conjunto de treinamento possa melhorar o desempenho de classificação. Esta tese de doutorado apresenta uma série de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Ótimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padrões como um problema de busca em grafo, onde os nós são amostras de treinamento, os ar-cos são definidos por uma dada relação de adjacência, e os caminhos são avaliados por alguma função de conectividade. Nós protótipos são identificados entre as amostras de treinamento e a competição entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo protótipo que lhe oferece um caminho ótimo. O resultado é um classificador —floresta de caminhos ótimos enraizado no conjunto de protótipos. Classificadores podem ser criados por uma ou múltiplas execuções do algoritmo OPF para diferentes grafos e funções de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rótulo único, que diferem entre si em relação aos protótipos finais e ao número de execuções do algoritmo OPF. Também propomos uma abordagem semi-supervisionada mais adequada para o problema multirótulos do que as anteriores. Este é um problema desafiador, especialmente quando a solução adota a transformação de dados de multirótulos em dados de rótulo único, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuição de multitótulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O método, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos ótimos enraizada nos máximos de uma função de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O método seleciona amostras informativas para a supervisão de especialistas, de modo que o número de iterações no aprendizado ativo (esforço do usuário) é reduzido.
id UFGD-2_720fc101deb23160824e106785bf0b6f
oai_identifier_str oai:https://repositorio.ufgd.edu.br/jspui:prefix/2916
network_acronym_str UFGD-2
network_name_str Repositório Institucional da UFGD
repository_id_str 2116
spelling Carvalho, Marcelo Henriques dehttp://lattes.cnpq.br/4512658167877638Falcão, Alexandre Xavierhttp://lattes.cnpq.br/7533729699758819Ponte Junior, MoacirMiyazawa, Flávio Keidi0000-0002-1067-6421http://lattes.cnpq.br/8436515676441851Pistori, Hemerson0000-0001-8181-760Xhttp://lattes.cnpq.br/8684549377565696Matsubara, Edson Takashi0000-0002-4471-0886http://lattes.cnpq.br/1842905075999080http://lattes.cnpq.br/8746409982228678Amorim, Willian Paraguassu2020-04-27T12:40:09Z2020-04-27T12:40:09Z2016-12-19AMORIM, Willian P. Novas abordagens de aprendizado semisupervisionado por conectividade ótima. 2016. Tese (Doutorado em Ciência da Computação) – Faculdade de Computação, Universidade Federal de Mato Grosso do Sul, Campo Grande, MS, 2016.http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916A anotação de grandes bases de dados por um classificador é um problema cujo desafio aumenta à medida que o número de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparação com o número de amostras não supervisionadas. Neste contexto, métodos de aprendizagem semisupervisionados visam a descoberta e propagação de rótulos para amostras informativas entre as não supervisionadas, de tal forma que a sua adição à classe correta no conjunto de treinamento possa melhorar o desempenho de classificação. Esta tese de doutorado apresenta uma série de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Ótimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padrões como um problema de busca em grafo, onde os nós são amostras de treinamento, os ar-cos são definidos por uma dada relação de adjacência, e os caminhos são avaliados por alguma função de conectividade. Nós protótipos são identificados entre as amostras de treinamento e a competição entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo protótipo que lhe oferece um caminho ótimo. O resultado é um classificador —floresta de caminhos ótimos enraizado no conjunto de protótipos. Classificadores podem ser criados por uma ou múltiplas execuções do algoritmo OPF para diferentes grafos e funções de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rótulo único, que diferem entre si em relação aos protótipos finais e ao número de execuções do algoritmo OPF. Também propomos uma abordagem semi-supervisionada mais adequada para o problema multirótulos do que as anteriores. Este é um problema desafiador, especialmente quando a solução adota a transformação de dados de multirótulos em dados de rótulo único, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuição de multitótulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O método, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos ótimos enraizada nos máximos de uma função de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O método seleciona amostras informativas para a supervisão de especialistas, de modo que o número de iterações no aprendizado ativo (esforço do usuário) é reduzido.The annotation of large data sets by a classifier is a problem whose challenge increases as the number of supervised samples available to train the classifier reduces in comparison to the number of unsupervised samples. In this context, semi-supervised learning methods aim at discovering and propagating labels to informative samples among the unsupervised ones, such that their addition to the correct class in the training set can improve the classification performance. This PhD thesis presents a series of novel semi-supervised learning approaches based on the Optimum-Path Forest (OPF) methodology. This methodology interprets the pattern recognition problem as a graph search problem, where the nodes are the training samples, the arcs are defined by a given adjacency relation, and the paths are assessed by some connectivity function. It identifies key nodes (prototypes) among the training samples and performs a competition process among them, such that each sample is conquered by the prototype that offers an optimum path to it. The result is a classifier — optimum-path forest rooted at the prototype set — which assigns labels to new samples by assessing extended paths to them. Classifiers can be created by one or multiple executions of the OPF algorithm for different graphs and connectivity functions. We present two approaches (OPFSEMI and its optimized version, OPFSEMImst) for the single-label problem, which differ from one another with respect to the final prototypes and number of executions of the OPF algorithm. We also propose a semi-supervised approach more suitable for the multi-label problem than the previous ones. This is a challenging problem, especially when it relies on the transformation of multi-label data into single-label data, which might affect performance at the boundary between classes. To resolve this problem, we improve the multi-label assignment by adding a final step in the training process of OPFSEMImst. The method, called OPFSEMImst+knn, creates an optimum-path forest rooted at the maxima of a probability density function, as estimated from a k-NN graph. Finally, we propose an active learning approach based on OPFSEMImst (OPFSEMI). The method selects informative samples for expert supervision, such that the number of active learning iterations (user effort) is reduced.Submitted by Alison Souza (alisonsouza@ufgd.edu.br) on 2020-04-27T12:40:09Z No. of bitstreams: 1 UFMS - WillianParaguassuAmorim.pdf: 5875892 bytes, checksum: 1f671d439082a1e48511bd0b0a3f5127 (MD5)Made available in DSpace on 2020-04-27T12:40:09Z (GMT). No. of bitstreams: 1 UFMS - WillianParaguassuAmorim.pdf: 5875892 bytes, checksum: 1f671d439082a1e48511bd0b0a3f5127 (MD5) Previous issue date: 2016-12-19porUniversidade Federal de Mato Grosso do SulPrograma de pós-graduação em Ciência da ComputaçãoUFMSBrasilFaculdade de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOTecnologia educacionalCiência da computaçãoEducational TechnologyComputer scienceNovas abordagens de aprendizado semisupervisionado por conectividade ótimainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFGDinstname:Universidade Federal da Grande Dourados (UFGD)instacron:UFGDTEXTUFMS - WillianParaguassuAmorim.pdf.txtUFMS - WillianParaguassuAmorim.pdf.txtExtracted texttext/plain246562https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2916/3/UFMS%20-%20WillianParaguassuAmorim.pdf.txt281fa7a2a7a89ed6aace915be6df1356MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2916/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALUFMS - WillianParaguassuAmorim.pdfUFMS - WillianParaguassuAmorim.pdfapplication/pdf5875892https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2916/1/UFMS%20-%20WillianParaguassuAmorim.pdf1f671d439082a1e48511bd0b0a3f5127MD51prefix/29162023-09-14 02:17:55.446oai:https://repositorio.ufgd.edu.br/jspui:prefix/2916TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://repositorio.ufgd.edu.br/jspui:8080/oai/requestopendoar:21162023-09-14T06:17:55Repositório Institucional da UFGD - Universidade Federal da Grande Dourados (UFGD)false
dc.title.pt_BR.fl_str_mv Novas abordagens de aprendizado semisupervisionado por conectividade ótima
title Novas abordagens de aprendizado semisupervisionado por conectividade ótima
spellingShingle Novas abordagens de aprendizado semisupervisionado por conectividade ótima
Amorim, Willian Paraguassu
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Tecnologia educacional
Ciência da computação
Educational Technology
Computer science
title_short Novas abordagens de aprendizado semisupervisionado por conectividade ótima
title_full Novas abordagens de aprendizado semisupervisionado por conectividade ótima
title_fullStr Novas abordagens de aprendizado semisupervisionado por conectividade ótima
title_full_unstemmed Novas abordagens de aprendizado semisupervisionado por conectividade ótima
title_sort Novas abordagens de aprendizado semisupervisionado por conectividade ótima
author Amorim, Willian Paraguassu
author_facet Amorim, Willian Paraguassu
author_role author
dc.contributor.advisor1.fl_str_mv Carvalho, Marcelo Henriques de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4512658167877638
dc.contributor.advisor-co1.fl_str_mv Falcão, Alexandre Xavier
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/7533729699758819
dc.contributor.referee1.fl_str_mv Ponte Junior, Moacir
dc.contributor.referee2.fl_str_mv Miyazawa, Flávio Keidi
dc.contributor.referee2ID.fl_str_mv 0000-0002-1067-6421
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/8436515676441851
dc.contributor.referee3.fl_str_mv Pistori, Hemerson
dc.contributor.referee3ID.fl_str_mv 0000-0001-8181-760X
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/8684549377565696
dc.contributor.referee4.fl_str_mv Matsubara, Edson Takashi
dc.contributor.referee4ID.fl_str_mv 0000-0002-4471-0886
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/1842905075999080
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8746409982228678
dc.contributor.author.fl_str_mv Amorim, Willian Paraguassu
contributor_str_mv Carvalho, Marcelo Henriques de
Falcão, Alexandre Xavier
Ponte Junior, Moacir
Miyazawa, Flávio Keidi
Pistori, Hemerson
Matsubara, Edson Takashi
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Tecnologia educacional
Ciência da computação
Educational Technology
Computer science
dc.subject.por.fl_str_mv Tecnologia educacional
Ciência da computação
dc.subject.eng.fl_str_mv Educational Technology
Computer science
description A anotação de grandes bases de dados por um classificador é um problema cujo desafio aumenta à medida que o número de amostras supervisionadas usadas para treinar o clas-sificador reduz em comparação com o número de amostras não supervisionadas. Neste contexto, métodos de aprendizagem semisupervisionados visam a descoberta e propagação de rótulos para amostras informativas entre as não supervisionadas, de tal forma que a sua adição à classe correta no conjunto de treinamento possa melhorar o desempenho de classificação. Esta tese de doutorado apresenta uma série de novas abordagens de apren-dizado semisupervisionado com base na metodologia adotada por Floresta de Caminhos Ótimos (OPF). Esta metodologia interpreta o problema de reconhecimento de padrões como um problema de busca em grafo, onde os nós são amostras de treinamento, os ar-cos são definidos por uma dada relação de adjacência, e os caminhos são avaliados por alguma função de conectividade. Nós protótipos são identificados entre as amostras de treinamento e a competição entre eles faz com que cada amostra seja conquistada (rotu-lada) pelo protótipo que lhe oferece um caminho ótimo. O resultado é um classificador —floresta de caminhos ótimos enraizado no conjunto de protótipos. Classificadores podem ser criados por uma ou múltiplas execuções do algoritmo OPF para diferentes grafos e funções de conectividade. Apresentamos duas abordagens (OPFSEMI e OPFSEMI,„„t) para o problema de rótulo único, que diferem entre si em relação aos protótipos finais e ao número de execuções do algoritmo OPF. Também propomos uma abordagem semi-supervisionada mais adequada para o problema multirótulos do que as anteriores. Este é um problema desafiador, especialmente quando a solução adota a transformação de dados de multirótulos em dados de rótulo único, o que pode afetar o desempenho na fronteira entre classes. Para resolver este problema, melhoramos a atribuição de multitótulos adici-onando uma etapa final no processo de treinamento de OPFSEMI.d. O método, chamado OPFSEMI„,d+L.„„, cria uma floresta de caminhos ótimos enraizada nos máximos de uma função de densidade de probabilidade, estimada a partir de um grafo k-NN. Finalmente, propomos uma abordagem de aprendizagem ativa baseada em OPFSEMI„,d (OPFSEMI). O método seleciona amostras informativas para a supervisão de especialistas, de modo que o número de iterações no aprendizado ativo (esforço do usuário) é reduzido.
publishDate 2016
dc.date.issued.fl_str_mv 2016-12-19
dc.date.accessioned.fl_str_mv 2020-04-27T12:40:09Z
dc.date.available.fl_str_mv 2020-04-27T12:40:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv AMORIM, Willian P. Novas abordagens de aprendizado semisupervisionado por conectividade ótima. 2016. Tese (Doutorado em Ciência da Computação) – Faculdade de Computação, Universidade Federal de Mato Grosso do Sul, Campo Grande, MS, 2016.
dc.identifier.uri.fl_str_mv http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916
identifier_str_mv AMORIM, Willian P. Novas abordagens de aprendizado semisupervisionado por conectividade ótima. 2016. Tese (Doutorado em Ciência da Computação) – Faculdade de Computação, Universidade Federal de Mato Grosso do Sul, Campo Grande, MS, 2016.
url http://repositorio.ufgd.edu.br/jspui/handle/prefix/2916
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Mato Grosso do Sul
dc.publisher.program.fl_str_mv Programa de pós-graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFMS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Faculdade de Computação
publisher.none.fl_str_mv Universidade Federal de Mato Grosso do Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFGD
instname:Universidade Federal da Grande Dourados (UFGD)
instacron:UFGD
instname_str Universidade Federal da Grande Dourados (UFGD)
instacron_str UFGD
institution UFGD
reponame_str Repositório Institucional da UFGD
collection Repositório Institucional da UFGD
bitstream.url.fl_str_mv https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2916/3/UFMS%20-%20WillianParaguassuAmorim.pdf.txt
https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2916/2/license.txt
https://repositorio.ufgd.edu.br/jspui/bitstream/prefix/2916/1/UFMS%20-%20WillianParaguassuAmorim.pdf
bitstream.checksum.fl_str_mv 281fa7a2a7a89ed6aace915be6df1356
43cd690d6a359e86c1fe3d5b7cba0c9b
1f671d439082a1e48511bd0b0a3f5127
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFGD - Universidade Federal da Grande Dourados (UFGD)
repository.mail.fl_str_mv
_version_ 1798042075932917760