Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado

Alves, Cainan

Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado

Detalhes bibliográficos
Autor(a) principal:	Alves, Cainan
Data de Publicação:	2018
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRN
Texto Completo:	https://repositorio.ufrn.br/handle/123456789/42863
Resumo:	Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.

Metadados do item

id	UFRN_e5500968927cfe720aa100843efd4c40
oai_identifier_str	oai:https://repositorio.ufrn.br:123456789/42863
network_acronym_str	UFRN
network_name_str	Repositório Institucional da UFRN
repository_id_str
spelling	Alves, CainanKarliane Medeiros Ovidio ValeCanuto, AnneSantos, ArakenVale, KarlianeLucena, Amarildo2018-12-27T16:35:17Z2021-10-05T15:39:32Z2018-12-27T16:35:17Z2021-10-05T15:39:32Z2018-12-122015076386ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.https://repositorio.ufrn.br/handle/123456789/42863Universidade Federal do Rio Grande do NorteUFRNBrasilSistemas de InformaçãoCiência da ComputaçãoAprendizado semissupervisionadoFlexCon-CEstratificação de dadosUma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionadoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisAlgoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.porreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALUmaPropostaDeEstratificaçãoDeDados_Alves_2018.pdfapplication/pdf883870https://repositorio.ufrn.br/bitstream/123456789/42863/1/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf425f34c15da826fb837688f7764124dcMD51CC-LICENSElicense_rdfapplication/octet-stream701https://repositorio.ufrn.br/bitstream/123456789/42863/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txttext/plain714https://repositorio.ufrn.br/bitstream/123456789/42863/3/license.txt7278bab9c5c886812fa7d225dc807888MD53TEXTUmaPropostaDeEstratificaçãoDeDados_Alves_2018.pdf.txtExtracted texttext/plain132956https://repositorio.ufrn.br/bitstream/123456789/42863/4/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf.txt054ebf27e55bd1d7b8dc71e6084442b4MD54123456789/428632023-03-06 18:38:16.374oai:https://repositorio.ufrn.br:123456789/42863PGNlbnRlcj48c3Ryb25nPkZFREVSQUwgVU5JVkVSU0lUWSBPRiBSSU8gR1JBTkRFIERPIE5PUlRFPC9zdHJvbmc+PC9jZW50ZXI+CjxjZW50ZXI+PHN0cm9uZz5ESUdJVEFMIE1PTk9HUkFQSFMgTElCUkFSWTwvc3Ryb25nPjwvY2VudGVyPgoKPGNlbnRlcj5BdXRob3JpemF0aW9uIFRlcm0gZm9yIHRoZSBhdmFpbGFiaWxpdHkgb2YgTW9ub2dyYXBocyBmb3IgVW5kZXJncmFkdWF0ZSBhbmQgU3BlY2lhbGl6YXRpb24gaW4gdGhlIERpZ2l0YWwgTGlicmFyeSBvZiBNb25vZ3JhcGhzIChCRE0pPC9jZW50ZXI+CgpBcyB0aGUgY29weXJpZ2h0IG93bmVyIG9mIHRoZSBtb25vZ3JhcGgsIEkgYXV0aG9yaXplIHRoZSBGZWRlcmFsIFVuaXZlcnNpdHkgb2YgUmlvIEdyYW5kZSBkbyBOb3J0ZSAoVUZSTikgdG8gbWFrZSBhdmFpbGFibGUgdGhyb3VnaCB0aGUgRGlnaXRhbCBMaWJyYXJ5IG9mIE1vbm9ncmFwaHMgb2YgVUZSTiwgd2l0aG91dCByZWltYnVyc2VtZW50IG9mIGNvcHlyaWdodCwgYWNjb3JkaW5nIHRvIExhdyA5NjEwLzk4ICwgdGhlIGZ1bGwgdGV4dCBvZiB0aGUgd29yayBzdWJtaXR0ZWQgZm9yIHRoZSBwdXJwb3NlIG9mIHJlYWRpbmcsIHByaW50aW5nIGFuZCAvIG9yIGRvd25sb2FkaW5nLCBhcyBhIG1lYW5zIG9mIGRpc3NlbWluYXRpbmcgQnJhemlsaWFuIHNjaWVudGlmaWMgcHJvZHVjdGlvbiwgYXMgb2YgdGhlIGRhdGUgb2Ygc3VibWlzc2lvbi4KRepositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-03-06T21:38:16Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
spellingShingle	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado Alves, Cainan Ciência da Computação Aprendizado semissupervisionado FlexCon-C Estratificação de dados
title_short	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_full	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_fullStr	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_full_unstemmed	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
title_sort	Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
author	Alves, Cainan
author_facet	Alves, Cainan
author_role	author
dc.contributor.referees1.none.fl_str_mv	Canuto, Anne
dc.contributor.referees2.none.fl_str_mv	Santos, Araken
dc.contributor.referees3.none.fl_str_mv	Vale, Karliane
dc.contributor.author.fl_str_mv	Alves, Cainan
dc.contributor.advisor-co1.fl_str_mv	Karliane Medeiros Ovidio Vale
dc.contributor.advisor1.fl_str_mv	Lucena, Amarildo
contributor_str_mv	Karliane Medeiros Ovidio Vale Lucena, Amarildo
dc.subject.cnpq.fl_str_mv	Ciência da Computação
topic	Ciência da Computação Aprendizado semissupervisionado FlexCon-C Estratificação de dados
dc.subject.por.fl_str_mv	Aprendizado semissupervisionado FlexCon-C Estratificação de dados
description	Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.
publishDate	2018
dc.date.accessioned.fl_str_mv	2018-12-27T16:35:17Z 2021-10-05T15:39:32Z
dc.date.available.fl_str_mv	2018-12-27T16:35:17Z 2021-10-05T15:39:32Z
dc.date.issued.fl_str_mv	2018-12-12
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.pt_BR.fl_str_mv	2015076386
dc.identifier.citation.fl_str_mv	ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.
dc.identifier.uri.fl_str_mv	https://repositorio.ufrn.br/handle/123456789/42863
identifier_str_mv	2015076386 ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.
url	https://repositorio.ufrn.br/handle/123456789/42863
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte
dc.publisher.initials.fl_str_mv	UFRN
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Sistemas de Informação
publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN
instname_str	Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str	UFRN
institution	UFRN
reponame_str	Repositório Institucional da UFRN
collection	Repositório Institucional da UFRN
bitstream.url.fl_str_mv	https://repositorio.ufrn.br/bitstream/123456789/42863/1/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf https://repositorio.ufrn.br/bitstream/123456789/42863/2/license_rdf https://repositorio.ufrn.br/bitstream/123456789/42863/3/license.txt https://repositorio.ufrn.br/bitstream/123456789/42863/4/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf.txt
bitstream.checksum.fl_str_mv	425f34c15da826fb837688f7764124dc 42fd4ad1e89814f5e4a476b409eb708c 7278bab9c5c886812fa7d225dc807888 054ebf27e55bd1d7b8dc71e6084442b4
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_	1823686523306901504

Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado

Registros relacionados