Aprendizado de mudança de conceito por floresta de caminhos ótimos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/14192 |
Resumo: | Classification algorithms take their decisions according to a learning process on the training set. Therefore, the data to be classified in the test set must have the same distribution as the training set to be correctly identified. Nowadays, industrial and enterprise applications generate a huge amount of data streams, such as sensor network data, and call records, among others. Also, with the new technologies being developed in internet services, data can stream from diverse domains, including internet transactions and web searches. These data streams present characteristics that traditional data mining methods have to deal with, which are databases with high volume and susceptible to concept drift, which refers to a non-stationary learning problem over time, i.e., the classifier of a certain problem may not be suitable as time goes by for being "outdated." This occurs because a concept may change over time. For example, a reader might like news articles on "sports"; but over time your reading preference may change to "economy" and the previous topic becomes irrelevant, i.e., the concept of an article relevant to this reader has changed. The present research proposes the study of Optimum-Path Forest (OPF) classifier in dynamic environments, both in supervised approach (using some methods to deal with concept drift as data windows and decision committees) as in the unsupervised approach, and we conducted experiments on databases observed in the literature. |
id |
SCAR_2195256e5918d976a082440aa5c285d9 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/14192 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Iwashita, Adriana SayuriPapa, João Paulohttp://lattes.cnpq.br/9039182932747194http://lattes.cnpq.br/10776858550442020071b9d3-ff82-4b5b-9c50-608d7875debd2021-04-29T13:39:45Z2021-04-29T13:39:45Z2020-12-17IWASHITA, Adriana Sayuri. Aprendizado de mudança de conceito por floresta de caminhos ótimos. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14192.https://repositorio.ufscar.br/handle/ufscar/14192Classification algorithms take their decisions according to a learning process on the training set. Therefore, the data to be classified in the test set must have the same distribution as the training set to be correctly identified. Nowadays, industrial and enterprise applications generate a huge amount of data streams, such as sensor network data, and call records, among others. Also, with the new technologies being developed in internet services, data can stream from diverse domains, including internet transactions and web searches. These data streams present characteristics that traditional data mining methods have to deal with, which are databases with high volume and susceptible to concept drift, which refers to a non-stationary learning problem over time, i.e., the classifier of a certain problem may not be suitable as time goes by for being "outdated." This occurs because a concept may change over time. For example, a reader might like news articles on "sports"; but over time your reading preference may change to "economy" and the previous topic becomes irrelevant, i.e., the concept of an article relevant to this reader has changed. The present research proposes the study of Optimum-Path Forest (OPF) classifier in dynamic environments, both in supervised approach (using some methods to deal with concept drift as data windows and decision committees) as in the unsupervised approach, and we conducted experiments on databases observed in the literature.Algoritmos de classificação baseiam sua decisão de acordo com o seu aprendizado na base de dados sobre um conjunto de treinamento. Logo, os dados a serem classificados no conjunto de teste devem possuir distribuição igual do conjunto de treinamento para que sejam corretamente identificados. Atualmente, as aplicações industriais e de empresas geram uma enorme quantidade de fluxo de dados, tais como os dados de uma rede de sensores, registros de chamadas, entre outros. Ainda, com as novas tecnologias sendo desenvolvidas em serviços de internet, surgem fluxo de dados dos mais diversos domínios, incluindo transações de compras na internet e pesquisas na web. Esses fluxos de dados apresentam características que os métodos tradicionais em mineração de dados agora precisam lidar, que são bases de dados com grande volume e que estão sujeitas à mudança de conceito, a qual refere-se a um problema de aprendizagem não estacionário ao longo do tempo, ou seja, o classificador de determinado problema pode não ser mais útil após decorrido algum tempo, por estar "desatualizado". Isso ocorre pois um conceito pode sofrer modificações com o tempo. Por exemplo, um leitor pode gostar de artigos com notícias relativas à "esportes"; mas com o passar do tempo sua preferência de leitura pode mudar para "economia" e o tópico anterior se tornar irrelevante para ele, ou seja, o conceito de artigo relevante para este leitor foi alterado. O presente trabalho de pesquisa propõe o estudo do classificador Optimum-Path Forest (OPF) em ambientes com mudança de conceito, tanto na abordagem supervisionada (utilizando alguns métodos para lidar com mudança de conceito como o uso de janelas nos dados e comitês de decisão) como na abordagem não supervisionada, e realizamos experimentos em bases de dados encontrados na literatura.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: código de financiamento - 001engUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessOPFMudança de conceitoConcept driftCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAprendizado de mudança de conceito por floresta de caminhos ótimosLearning concept drift with optimum-path forestinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis600600a26a6b97-f6e5-4bd7-9c5a-876ad8cf02fdreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALTextoDefesaAdriana.pdfTextoDefesaAdriana.pdfapplication/pdf15640573https://repositorio.ufscar.br/bitstream/ufscar/14192/1/TextoDefesaAdriana.pdf1af82f1a679f1db9b4d765e2e2302020MD51CartaAdriana.pdfCartaAdriana.pdfCarta Comprovanteapplication/pdf89783https://repositorio.ufscar.br/bitstream/ufscar/14192/2/CartaAdriana.pdf6f10bede7b8fec5e0691c6ae42d766b1MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/14192/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTTextoDefesaAdriana.pdf.txtTextoDefesaAdriana.pdf.txtExtracted texttext/plain260059https://repositorio.ufscar.br/bitstream/ufscar/14192/4/TextoDefesaAdriana.pdf.txt6de73d064cbf285f1d2a6f45a1ee7c74MD54CartaAdriana.pdf.txtCartaAdriana.pdf.txtExtracted texttext/plain1507https://repositorio.ufscar.br/bitstream/ufscar/14192/6/CartaAdriana.pdf.txt74fdf0da2065c275f23d353fe46c3947MD56THUMBNAILTextoDefesaAdriana.pdf.jpgTextoDefesaAdriana.pdf.jpgIM Thumbnailimage/jpeg7936https://repositorio.ufscar.br/bitstream/ufscar/14192/5/TextoDefesaAdriana.pdf.jpgd069ca5f29f42cc94854f66e03cd7acaMD55CartaAdriana.pdf.jpgCartaAdriana.pdf.jpgIM Thumbnailimage/jpeg14530https://repositorio.ufscar.br/bitstream/ufscar/14192/7/CartaAdriana.pdf.jpg792432595841ddc72c8665bf68eba3b8MD57ufscar/141922023-09-18 18:32:09.834oai:repositorio.ufscar.br:ufscar/14192Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:09Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
dc.title.alternative.eng.fl_str_mv |
Learning concept drift with optimum-path forest |
title |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
spellingShingle |
Aprendizado de mudança de conceito por floresta de caminhos ótimos Iwashita, Adriana Sayuri OPF Mudança de conceito Concept drift CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
title_full |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
title_fullStr |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
title_full_unstemmed |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
title_sort |
Aprendizado de mudança de conceito por floresta de caminhos ótimos |
author |
Iwashita, Adriana Sayuri |
author_facet |
Iwashita, Adriana Sayuri |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1077685855044202 |
dc.contributor.author.fl_str_mv |
Iwashita, Adriana Sayuri |
dc.contributor.advisor1.fl_str_mv |
Papa, João Paulo |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/9039182932747194 |
dc.contributor.authorID.fl_str_mv |
0071b9d3-ff82-4b5b-9c50-608d7875debd |
contributor_str_mv |
Papa, João Paulo |
dc.subject.por.fl_str_mv |
OPF Mudança de conceito |
topic |
OPF Mudança de conceito Concept drift CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Concept drift |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Classification algorithms take their decisions according to a learning process on the training set. Therefore, the data to be classified in the test set must have the same distribution as the training set to be correctly identified. Nowadays, industrial and enterprise applications generate a huge amount of data streams, such as sensor network data, and call records, among others. Also, with the new technologies being developed in internet services, data can stream from diverse domains, including internet transactions and web searches. These data streams present characteristics that traditional data mining methods have to deal with, which are databases with high volume and susceptible to concept drift, which refers to a non-stationary learning problem over time, i.e., the classifier of a certain problem may not be suitable as time goes by for being "outdated." This occurs because a concept may change over time. For example, a reader might like news articles on "sports"; but over time your reading preference may change to "economy" and the previous topic becomes irrelevant, i.e., the concept of an article relevant to this reader has changed. The present research proposes the study of Optimum-Path Forest (OPF) classifier in dynamic environments, both in supervised approach (using some methods to deal with concept drift as data windows and decision committees) as in the unsupervised approach, and we conducted experiments on databases observed in the literature. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-12-17 |
dc.date.accessioned.fl_str_mv |
2021-04-29T13:39:45Z |
dc.date.available.fl_str_mv |
2021-04-29T13:39:45Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
IWASHITA, Adriana Sayuri. Aprendizado de mudança de conceito por floresta de caminhos ótimos. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14192. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/14192 |
identifier_str_mv |
IWASHITA, Adriana Sayuri. Aprendizado de mudança de conceito por floresta de caminhos ótimos. 2020. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14192. |
url |
https://repositorio.ufscar.br/handle/ufscar/14192 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
a26a6b97-f6e5-4bd7-9c5a-876ad8cf02fd |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/14192/1/TextoDefesaAdriana.pdf https://repositorio.ufscar.br/bitstream/ufscar/14192/2/CartaAdriana.pdf https://repositorio.ufscar.br/bitstream/ufscar/14192/3/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/14192/4/TextoDefesaAdriana.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/14192/6/CartaAdriana.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/14192/5/TextoDefesaAdriana.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/14192/7/CartaAdriana.pdf.jpg |
bitstream.checksum.fl_str_mv |
1af82f1a679f1db9b4d765e2e2302020 6f10bede7b8fec5e0691c6ae42d766b1 e39d27027a6cc9cb039ad269a5db8e34 6de73d064cbf285f1d2a6f45a1ee7c74 74fdf0da2065c275f23d353fe46c3947 d069ca5f29f42cc94854f66e03cd7aca 792432595841ddc72c8665bf68eba3b8 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715629875658752 |