Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado

Detalhes bibliográficos
Autor(a) principal: Alves, Cainan
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/42863
Resumo: Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.
id UFRN_e5500968927cfe720aa100843efd4c40
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/42863
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Alves, CainanKarliane Medeiros Ovidio ValeCanuto, AnneSantos, ArakenVale, KarlianeLucena, Amarildo2018-12-27T16:35:17Z2021-10-05T15:39:32Z2018-12-27T16:35:17Z2021-10-05T15:39:32Z2018-12-122015076386ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.https://repositorio.ufrn.br/handle/123456789/42863Universidade Federal do Rio Grande do NorteUFRNBrasilSistemas de InformaçãoCiência da ComputaçãoAprendizado semissupervisionadoFlexCon-CEstratificação de dadosUma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionadoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisAlgoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.porreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALUmaPropostaDeEstratificaçãoDeDados_Alves_2018.pdfapplication/pdf883870https://repositorio.ufrn.br/bitstream/123456789/42863/1/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf425f34c15da826fb837688f7764124dcMD51CC-LICENSElicense_rdfapplication/octet-stream701https://repositorio.ufrn.br/bitstream/123456789/42863/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txttext/plain714https://repositorio.ufrn.br/bitstream/123456789/42863/3/license.txt7278bab9c5c886812fa7d225dc807888MD53TEXTUmaPropostaDeEstratificaçãoDeDados_Alves_2018.pdf.txtExtracted texttext/plain132956https://repositorio.ufrn.br/bitstream/123456789/42863/4/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf.txt054ebf27e55bd1d7b8dc71e6084442b4MD54123456789/428632023-03-06 18:38:16.374oai:https://repositorio.ufrn.br:123456789/42863PGNlbnRlcj48c3Ryb25nPkZFREVSQUwgVU5JVkVSU0lUWSBPRiBSSU8gR1JBTkRFIERPIE5PUlRFPC9zdHJvbmc+PC9jZW50ZXI+CjxjZW50ZXI+PHN0cm9uZz5ESUdJVEFMIE1PTk9HUkFQSFMgTElCUkFSWTwvc3Ryb25nPjwvY2VudGVyPgoKPGNlbnRlcj5BdXRob3JpemF0aW9uIFRlcm0gZm9yIHRoZSBhdmFpbGFiaWxpdHkgb2YgTW9ub2dyYXBocyBmb3IgVW5kZXJncmFkdWF0ZSBhbmQgU3BlY2lhbGl6YXRpb24gaW4gdGhlIERpZ2l0YWwgTGlicmFyeSBvZiBNb25vZ3JhcGhzIChCRE0pPC9jZW50ZXI+CgpBcyB0aGUgY29weXJpZ2h0IG93bmVyIG9mIHRoZSBtb25vZ3JhcGgsIEkgYXV0aG9yaXplIHRoZSBGZWRlcmFsIFVuaXZlcnNpdHkgb2YgUmlvIEdyYW5kZSBkbyBOb3J0ZSAoVUZSTikgdG8gbWFrZSBhdmFpbGFibGUgdGhyb3VnaCB0aGUgRGlnaXRhbCBMaWJyYXJ5IG9mIE1vbm9ncmFwaHMgb2YgVUZSTiwgd2l0aG91dCByZWltYnVyc2VtZW50IG9mIGNvcHlyaWdodCwgYWNjb3JkaW5nIHRvIExhdyA5NjEwLzk4ICwgdGhlIGZ1bGwgdGV4dCBvZiB0aGUgd29yayBzdWJtaXR0ZWQgZm9yIHRoZSBwdXJwb3NlIG9mIHJlYWRpbmcsIHByaW50aW5nIGFuZCAvIG9yIGRvd25sb2FkaW5nLCBhcyBhIG1lYW5zIG9mIGRpc3NlbWluYXRpbmcgQnJhemlsaWFuIHNjaWVudGlmaWMgcHJvZHVjdGlvbiwgYXMgb2YgdGhlIGRhdGUgb2Ygc3VibWlzc2lvbi4KRepositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-03-06T21:38:16Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
spellingShingle Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
Alves, Cainan
Ciência da Computação
Aprendizado semissupervisionado
FlexCon-C
Estratificação de dados
title_short Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_full Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_fullStr Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_full_unstemmed Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_sort Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
author Alves, Cainan
author_facet Alves, Cainan
author_role author
dc.contributor.referees1.none.fl_str_mv Canuto, Anne
dc.contributor.referees2.none.fl_str_mv Santos, Araken
dc.contributor.referees3.none.fl_str_mv Vale, Karliane
dc.contributor.author.fl_str_mv Alves, Cainan
dc.contributor.advisor-co1.fl_str_mv Karliane Medeiros Ovidio Vale
dc.contributor.advisor1.fl_str_mv Lucena, Amarildo
contributor_str_mv Karliane Medeiros Ovidio Vale
Lucena, Amarildo
dc.subject.cnpq.fl_str_mv Ciência da Computação
topic Ciência da Computação
Aprendizado semissupervisionado
FlexCon-C
Estratificação de dados
dc.subject.por.fl_str_mv Aprendizado semissupervisionado
FlexCon-C
Estratificação de dados
description Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-12-27T16:35:17Z
2021-10-05T15:39:32Z
dc.date.available.fl_str_mv 2018-12-27T16:35:17Z
2021-10-05T15:39:32Z
dc.date.issued.fl_str_mv 2018-12-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.pt_BR.fl_str_mv 2015076386
dc.identifier.citation.fl_str_mv ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/42863
identifier_str_mv 2015076386
ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.
url https://repositorio.ufrn.br/handle/123456789/42863
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Sistemas de Informação
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/42863/1/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf
https://repositorio.ufrn.br/bitstream/123456789/42863/2/license_rdf
https://repositorio.ufrn.br/bitstream/123456789/42863/3/license.txt
https://repositorio.ufrn.br/bitstream/123456789/42863/4/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf.txt
bitstream.checksum.fl_str_mv 425f34c15da826fb837688f7764124dc
42fd4ad1e89814f5e4a476b409eb708c
7278bab9c5c886812fa7d225dc807888
054ebf27e55bd1d7b8dc71e6084442b4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117636442554368