Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/42863 |
Resumo: | Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados. |
id |
UFRN_e5500968927cfe720aa100843efd4c40 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/42863 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Alves, CainanKarliane Medeiros Ovidio ValeCanuto, AnneSantos, ArakenVale, KarlianeLucena, Amarildo2018-12-27T16:35:17Z2021-10-05T15:39:32Z2018-12-27T16:35:17Z2021-10-05T15:39:32Z2018-12-122015076386ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018.https://repositorio.ufrn.br/handle/123456789/42863Universidade Federal do Rio Grande do NorteUFRNBrasilSistemas de InformaçãoCiência da ComputaçãoAprendizado semissupervisionadoFlexCon-CEstratificação de dadosUma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionadoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisAlgoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados.porreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALUmaPropostaDeEstratificaçãoDeDados_Alves_2018.pdfapplication/pdf883870https://repositorio.ufrn.br/bitstream/123456789/42863/1/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf425f34c15da826fb837688f7764124dcMD51CC-LICENSElicense_rdfapplication/octet-stream701https://repositorio.ufrn.br/bitstream/123456789/42863/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txttext/plain714https://repositorio.ufrn.br/bitstream/123456789/42863/3/license.txt7278bab9c5c886812fa7d225dc807888MD53TEXTUmaPropostaDeEstratificaçãoDeDados_Alves_2018.pdf.txtExtracted texttext/plain132956https://repositorio.ufrn.br/bitstream/123456789/42863/4/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf.txt054ebf27e55bd1d7b8dc71e6084442b4MD54123456789/428632023-03-06 18:38:16.374oai:https://repositorio.ufrn.br:123456789/42863PGNlbnRlcj48c3Ryb25nPkZFREVSQUwgVU5JVkVSU0lUWSBPRiBSSU8gR1JBTkRFIERPIE5PUlRFPC9zdHJvbmc+PC9jZW50ZXI+CjxjZW50ZXI+PHN0cm9uZz5ESUdJVEFMIE1PTk9HUkFQSFMgTElCUkFSWTwvc3Ryb25nPjwvY2VudGVyPgoKPGNlbnRlcj5BdXRob3JpemF0aW9uIFRlcm0gZm9yIHRoZSBhdmFpbGFiaWxpdHkgb2YgTW9ub2dyYXBocyBmb3IgVW5kZXJncmFkdWF0ZSBhbmQgU3BlY2lhbGl6YXRpb24gaW4gdGhlIERpZ2l0YWwgTGlicmFyeSBvZiBNb25vZ3JhcGhzIChCRE0pPC9jZW50ZXI+CgpBcyB0aGUgY29weXJpZ2h0IG93bmVyIG9mIHRoZSBtb25vZ3JhcGgsIEkgYXV0aG9yaXplIHRoZSBGZWRlcmFsIFVuaXZlcnNpdHkgb2YgUmlvIEdyYW5kZSBkbyBOb3J0ZSAoVUZSTikgdG8gbWFrZSBhdmFpbGFibGUgdGhyb3VnaCB0aGUgRGlnaXRhbCBMaWJyYXJ5IG9mIE1vbm9ncmFwaHMgb2YgVUZSTiwgd2l0aG91dCByZWltYnVyc2VtZW50IG9mIGNvcHlyaWdodCwgYWNjb3JkaW5nIHRvIExhdyA5NjEwLzk4ICwgdGhlIGZ1bGwgdGV4dCBvZiB0aGUgd29yayBzdWJtaXR0ZWQgZm9yIHRoZSBwdXJwb3NlIG9mIHJlYWRpbmcsIHByaW50aW5nIGFuZCAvIG9yIGRvd25sb2FkaW5nLCBhcyBhIG1lYW5zIG9mIGRpc3NlbWluYXRpbmcgQnJhemlsaWFuIHNjaWVudGlmaWMgcHJvZHVjdGlvbiwgYXMgb2YgdGhlIGRhdGUgb2Ygc3VibWlzc2lvbi4KRepositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-03-06T21:38:16Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
title |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
spellingShingle |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado Alves, Cainan Ciência da Computação Aprendizado semissupervisionado FlexCon-C Estratificação de dados |
title_short |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
title_full |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
title_fullStr |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
title_full_unstemmed |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
title_sort |
Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado |
author |
Alves, Cainan |
author_facet |
Alves, Cainan |
author_role |
author |
dc.contributor.referees1.none.fl_str_mv |
Canuto, Anne |
dc.contributor.referees2.none.fl_str_mv |
Santos, Araken |
dc.contributor.referees3.none.fl_str_mv |
Vale, Karliane |
dc.contributor.author.fl_str_mv |
Alves, Cainan |
dc.contributor.advisor-co1.fl_str_mv |
Karliane Medeiros Ovidio Vale |
dc.contributor.advisor1.fl_str_mv |
Lucena, Amarildo |
contributor_str_mv |
Karliane Medeiros Ovidio Vale Lucena, Amarildo |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
topic |
Ciência da Computação Aprendizado semissupervisionado FlexCon-C Estratificação de dados |
dc.subject.por.fl_str_mv |
Aprendizado semissupervisionado FlexCon-C Estratificação de dados |
description |
Algoritmos e métodos capazes de aprender por meio de poucos exemplos rotulados são de grande necessidade em aplicações reais, devido a dificuldade para conseguir conjuntos com dados relevantes e corretamente rotulados para a tarefa de classificação. Estes algoritmos normalmente complementam suas bases de dados com uma quantidade maior de instâncias até então sem rótulo, de forma que os classificadores possam gerar predições mais precisas. Contudo, é necessário que haja uma automatização do processo de rotulação dos exemplos sem rótulo. O Flexible Confidence with Classifier (FlexCon-C), método baseado no algoritmo self-training, utiliza um limiar flexível que rotula de acordo com a confiança das instâncias previstas. No entanto, a escolha dos rótulos se concentra apenas na confiabilidade pertinente aos exemplos, demonstrando uma falta de controle com relação as classes inseridas. Com base nisso, este estudo teve como objetivo adaptar o FlexCon-C para o uso de estratificação durante a inclusão dos exemplos no conjunto de treinamento. Para a realização de experimentos, a fim de obter resultados propícios a uma avaliação, foram elencadas trinta e uma bases de dados e atribuídas cinco configurações para dados rotulados inicialmente, onde foram aplicados quatro classificadores para obtenção de resultados relacionados ao desempenho. Os resultados mostraram que o método proposto obteve melhor desempenho quando os experimentos foram aplicados a poucos dos dados rotulados inicialmente, evidenciando que a estratificação é mais eficaz quando se tem pouquíssimos exemplos rotulados. |
publishDate |
2018 |
dc.date.accessioned.fl_str_mv |
2018-12-27T16:35:17Z 2021-10-05T15:39:32Z |
dc.date.available.fl_str_mv |
2018-12-27T16:35:17Z 2021-10-05T15:39:32Z |
dc.date.issued.fl_str_mv |
2018-12-12 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.pt_BR.fl_str_mv |
2015076386 |
dc.identifier.citation.fl_str_mv |
ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/42863 |
identifier_str_mv |
2015076386 ALVES, Cainan Teixeira. Uma proposta de estratificação de dados para seleção de instâncias em aprendizado de máquina semissupervisionado. 2018. 79 f. TCC (Graduação) - Curso de Sistemas de Informação, Departamento de Computação e Tecnologia, Universidade Federal do Rio Grande do Norte, Caicó, 2018. |
url |
https://repositorio.ufrn.br/handle/123456789/42863 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Sistemas de Informação |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/42863/1/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf https://repositorio.ufrn.br/bitstream/123456789/42863/2/license_rdf https://repositorio.ufrn.br/bitstream/123456789/42863/3/license.txt https://repositorio.ufrn.br/bitstream/123456789/42863/4/UmaPropostaDeEstratifica%c3%a7%c3%a3oDeDados_Alves_2018.pdf.txt |
bitstream.checksum.fl_str_mv |
425f34c15da826fb837688f7764124dc 42fd4ad1e89814f5e4a476b409eb708c 7278bab9c5c886812fa7d225dc807888 054ebf27e55bd1d7b8dc71e6084442b4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1814832772343136256 |