Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos

Detalhes bibliográficos
Autor(a) principal: Barreto, Cephas Alves da Silveira
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/55155
Resumo: Nos últimos anos, a utilização de técnicas de Aprendizado de Máquina (AM) para resolver problemas reais tem se tornado muito comum e um padrão tecnológico adotado em uma infinidade de domínios. Uma série desses domínios, entretanto, não possui dados rotulados suficientes para proporcionar aos métodos de AM um bom desempenho. Para tratar esse problema, foram desenvolvidos os métodos de aprendizado semissupervisionado, um tipo de método capaz de utilizar as instâncias rotuladas e não-rotuladas na construção de seu modelo. Dentre os métodos de aprendizado semissupervisionado, destacam-se os métodos indutivos. Os métodos do tipo wrapper, categoria particular dentre os métodos indutivos, utilizam um processo, muitas vezes iterativo, que envolve: treinamento do método com os dados rotulados; seleção dos melhores dados não-rotulados; e rotulagem dos dados selecionados. Apesar de se mostrar um processo simples e eficiente, é muito comum que erros na seleção ou na rotulagem ocorram, o que acaba por deteriorar o desempenho final do método. Buscando a diminuição dos erros de seleção e rotulagem em métodos indutivos, especialmente os métodos do tipo wrapper, esta pesquisa tem por objetivo estabelecer abordagens de seleção e rotulagem mais robustas e menos suscetíveis a erros. Para tal, são propostas uma abordagem de seleção e rotulagem de instâncias baseada em concordância de classificação e também uma abordagem de seleção e rotulagem baseada na utilização de métrica de distância como fator adicional a um critério de seleção já utilizado (e.g. confiança ou concordância). As abordagens propostas podem ser aplicadas a qualquer método wrapper e foram testadas sobre 42 datasets com os métodos Self-training, Co-training e Boosting. Os resultados obtidos apontam que as propostas trazem ganhos para os métodos em termos de acurácia e também de F-measure.
id UFRN_d58cc75d3b01a5c913ae09c3545c875a
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/55155
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Barreto, Cephas Alves da Silveirahttps://orcid.org/0000-0002-4756-8571http://lattes.cnpq.br/0693889560532640http://lattes.cnpq.br/1357887401899097Xavier Júnior, João Carloshttp://lattes.cnpq.br/5088238300241110Nascimento, Diego Silveira CostaCavalcanti, George Darmiton da CunhaVale, Karliane Medeiros OvidioBezerra, Leonardo César TeonácioCanuto, Anne Magaly de Paula2023-11-01T23:22:23Z2023-11-01T23:22:23Z2023-07-24BARRETO, Cephas Alves da Silveira. Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos. Orientador: Anne Magaly de Paula Canuto. 2023. 166f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/55155Nos últimos anos, a utilização de técnicas de Aprendizado de Máquina (AM) para resolver problemas reais tem se tornado muito comum e um padrão tecnológico adotado em uma infinidade de domínios. Uma série desses domínios, entretanto, não possui dados rotulados suficientes para proporcionar aos métodos de AM um bom desempenho. Para tratar esse problema, foram desenvolvidos os métodos de aprendizado semissupervisionado, um tipo de método capaz de utilizar as instâncias rotuladas e não-rotuladas na construção de seu modelo. Dentre os métodos de aprendizado semissupervisionado, destacam-se os métodos indutivos. Os métodos do tipo wrapper, categoria particular dentre os métodos indutivos, utilizam um processo, muitas vezes iterativo, que envolve: treinamento do método com os dados rotulados; seleção dos melhores dados não-rotulados; e rotulagem dos dados selecionados. Apesar de se mostrar um processo simples e eficiente, é muito comum que erros na seleção ou na rotulagem ocorram, o que acaba por deteriorar o desempenho final do método. Buscando a diminuição dos erros de seleção e rotulagem em métodos indutivos, especialmente os métodos do tipo wrapper, esta pesquisa tem por objetivo estabelecer abordagens de seleção e rotulagem mais robustas e menos suscetíveis a erros. Para tal, são propostas uma abordagem de seleção e rotulagem de instâncias baseada em concordância de classificação e também uma abordagem de seleção e rotulagem baseada na utilização de métrica de distância como fator adicional a um critério de seleção já utilizado (e.g. confiança ou concordância). As abordagens propostas podem ser aplicadas a qualquer método wrapper e foram testadas sobre 42 datasets com os métodos Self-training, Co-training e Boosting. Os resultados obtidos apontam que as propostas trazem ganhos para os métodos em termos de acurácia e também de F-measure.In recent years, the use of Machine Learning (ML) techniques to solve real problems has become very common and a technological pattern adopted in plenty of domains. However, several of these domains do not have enough labelled data to give ML methods a good performance. This problem led to the development of Semi-supervised methods, a type of method capable of using labelled and unlabelled instances in its model building. Among the semi-supervised learning techniques, the inductive methods stand out. The wrapper methods, a particular category within inductive methods, use a process, often iterative, that involves: training the method with labelled data; selection of the best data from the unlabelled set; and labelling the selected data. Despite showing a simple and efficient process, errors in the selection or labelling processes are common, which deteriorate the final performance of the method. This research aims to reduce selection and labelling errors in wrapper methods to establish selection and labelling approaches that are more robust and less susceptible to errors. To this end, this work proposes a selection and labelling approach based on classification agreement and a selection and agreement approach based on distance metric as an additional factor to an already used selection criterion (e.g. confidence or agreement). The proposed approaches can be applied to any wrapper method and were tested on 42 datasets with Self-training, Co-training and Boosting methods. The results obtained indicate that the proposals bring gains for both methods in terms of accuracy and F-measure.Universidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOComputaçãoAprendizado de máquinaAprendizado semissupervisionadoMétodos wrapperSeleção e rotulagem de instânciasSeleção e rotulagem de instâncias para métodos semissupervisionados indutivosSelection and labelling of instances for indictive semi-supervised methodsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALSelecaorotulageminstancias_Barreto_2023.pdfapplication/pdf4070509https://repositorio.ufrn.br/bitstream/123456789/55155/1/Selecaorotulageminstancias_Barreto_2023.pdf09baba33b59117894d32e3e2ed159f02MD51123456789/551552023-11-01 20:24:12.55oai:https://repositorio.ufrn.br:123456789/55155Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-11-01T23:24:12Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
dc.title.alternative.pt_BR.fl_str_mv Selection and labelling of instances for indictive semi-supervised methods
title Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
spellingShingle Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
Barreto, Cephas Alves da Silveira
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Computação
Aprendizado de máquina
Aprendizado semissupervisionado
Métodos wrapper
Seleção e rotulagem de instâncias
title_short Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
title_full Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
title_fullStr Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
title_full_unstemmed Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
title_sort Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos
author Barreto, Cephas Alves da Silveira
author_facet Barreto, Cephas Alves da Silveira
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv https://orcid.org/0000-0002-4756-8571
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/0693889560532640
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1357887401899097
dc.contributor.referees1.none.fl_str_mv Nascimento, Diego Silveira Costa
dc.contributor.referees2.none.fl_str_mv Cavalcanti, George Darmiton da Cunha
dc.contributor.referees3.none.fl_str_mv Vale, Karliane Medeiros Ovidio
dc.contributor.referees4.none.fl_str_mv Bezerra, Leonardo César Teonácio
dc.contributor.author.fl_str_mv Barreto, Cephas Alves da Silveira
dc.contributor.advisor-co1.fl_str_mv Xavier Júnior, João Carlos
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/5088238300241110
dc.contributor.advisor1.fl_str_mv Canuto, Anne Magaly de Paula
contributor_str_mv Xavier Júnior, João Carlos
Canuto, Anne Magaly de Paula
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Computação
Aprendizado de máquina
Aprendizado semissupervisionado
Métodos wrapper
Seleção e rotulagem de instâncias
dc.subject.por.fl_str_mv Computação
Aprendizado de máquina
Aprendizado semissupervisionado
Métodos wrapper
Seleção e rotulagem de instâncias
description Nos últimos anos, a utilização de técnicas de Aprendizado de Máquina (AM) para resolver problemas reais tem se tornado muito comum e um padrão tecnológico adotado em uma infinidade de domínios. Uma série desses domínios, entretanto, não possui dados rotulados suficientes para proporcionar aos métodos de AM um bom desempenho. Para tratar esse problema, foram desenvolvidos os métodos de aprendizado semissupervisionado, um tipo de método capaz de utilizar as instâncias rotuladas e não-rotuladas na construção de seu modelo. Dentre os métodos de aprendizado semissupervisionado, destacam-se os métodos indutivos. Os métodos do tipo wrapper, categoria particular dentre os métodos indutivos, utilizam um processo, muitas vezes iterativo, que envolve: treinamento do método com os dados rotulados; seleção dos melhores dados não-rotulados; e rotulagem dos dados selecionados. Apesar de se mostrar um processo simples e eficiente, é muito comum que erros na seleção ou na rotulagem ocorram, o que acaba por deteriorar o desempenho final do método. Buscando a diminuição dos erros de seleção e rotulagem em métodos indutivos, especialmente os métodos do tipo wrapper, esta pesquisa tem por objetivo estabelecer abordagens de seleção e rotulagem mais robustas e menos suscetíveis a erros. Para tal, são propostas uma abordagem de seleção e rotulagem de instâncias baseada em concordância de classificação e também uma abordagem de seleção e rotulagem baseada na utilização de métrica de distância como fator adicional a um critério de seleção já utilizado (e.g. confiança ou concordância). As abordagens propostas podem ser aplicadas a qualquer método wrapper e foram testadas sobre 42 datasets com os métodos Self-training, Co-training e Boosting. Os resultados obtidos apontam que as propostas trazem ganhos para os métodos em termos de acurácia e também de F-measure.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-11-01T23:22:23Z
dc.date.available.fl_str_mv 2023-11-01T23:22:23Z
dc.date.issued.fl_str_mv 2023-07-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BARRETO, Cephas Alves da Silveira. Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos. Orientador: Anne Magaly de Paula Canuto. 2023. 166f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/55155
identifier_str_mv BARRETO, Cephas Alves da Silveira. Seleção e rotulagem de instâncias para métodos semissupervisionados indutivos. Orientador: Anne Magaly de Paula Canuto. 2023. 166f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
url https://repositorio.ufrn.br/handle/123456789/55155
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/55155/1/Selecaorotulageminstancias_Barreto_2023.pdf
bitstream.checksum.fl_str_mv 09baba33b59117894d32e3e2ed159f02
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117720302419968