KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/84571 |
Resumo: | Dissertação de mestrado em Estatística para Ciência de Dados |
id |
RCAP_b01c07d622be89a22180764465ef8eee |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/84571 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicionalK-Nearest neighborPythonSklearnRelevânciaMachine learningRelevanceCiências Naturais::MatemáticasDissertação de mestrado em Estatística para Ciência de DadosÀ medida que o tempo avança, cada vez mais o Machine Learning (ML) está presente no nosso quotidiano, mesmo sem nos apercebermos disso numa primeira instância. Desde as recomendações de filmes na Netflix, ao reconhecimento dos nossos amigos nas fotos do Facebook. ML ou aprendizado das máquinas são métodos computacionais que utilizam conhecimento através de experiências passadas fornecidas por um utilizador. Os algoritmos de ML de classificação têm como output a classe de um objeto. Um dos mais conhecidos algoritmos deste tipo é o K-Nearest Neighbour (KNN). De uma forma abrangente, é fornecido a este classificador um conjunto de dados com características e os respetivos rótulos (ou classes). Com esses dados o modelo aprende e, posteriormente, torna-se capaz de classificar qualquer objeto, apenas com o fornecimento das suas características. Para essa classificação, o KNN utiliza os K dados rotulados mais próximos do objeto a classificar e classifica-o com a classe mais frequente encontrada. Muitos são os estudos que comprovam a eficácia deste classificador. Porém, existem casos em que poderá ser mais útil utilizar uma extensão deste classificador: o KNN com relevância. Este classificador calcula a relevância das classes dos vizinhos, através de funções de relevância, atribuindo uma relevância maior aos dados mais próximos e uma relevância menor aos dados mais longínquos. Ao longo deste trabalho será feita uma análise detalhada deste novo método e será estudada a sua eficácia em duas bases de dados da biblioteca Sklearn presente na linguagem de programação Python. A biblioteca Sklearn fornece algoritmos de ML. Porém, a extensão do modelo KNN tradicional, o algoritmo KNN com relevância, não está presente na mesma. Neste sentido, serão, também, construídos três classificadores, cada um com uma função de relevância diferente: o Inverso da Distância entre os dados, a Função Gaussian Kernel e a Função Característica de uma esfera.As time progresses, Machine Learning (ML) is increasingly present in our daily lives, even without realizing it in the first instance. From movie recommendations on Netflix to recognition of our friends in Facebook photos, ML is computational methods that use knowledge through past experiences provided by a user. Classification ML algorithms have as output the class of an object. One of the best-known algorithms of this type is K-Nearest Neighbour (KNN). In a comprehensive way, this classifier is provided with a set of data with characteristics and their labels (or classes). Through this data the model learns and later becomes able to classify any object, only with the provision of its characteristics. For this classification, KNN uses the K data labelled closest to the object to sort, doing it with the most frequent class found. There are many studies that prove the efficacy of this classifier. However, there are cases where it may be more useful to use an extension of this classifier: the KNN with relevance. This classifier calculates the relevance of neighbouring classes through relevance functions, attributing greater relevance to the closest data and a lower relevance to the more distant data. Throughout this work a detailed analysis of this new method will be made and its effectiveness will be studied in two databases of the Sklearn library present in the Python programming language. The Sklearn library provides ML algorithms. However, the extension of the traditional KNN model, KNN with relevance is not present in it. In this sense, three classifiers will also be constructed, each with a different relevance function: the Inverse of the Distance between the data, the Gaussian Kernel Function, and the Characteristic Function of a sphere.Clain, StéphaneUniversidade do MinhoLopes, Diana Filipa Rodrigues20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/84571por203232925info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:01:35Zoai:repositorium.sdum.uminho.pt:1822/84571Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:51:30.357077Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
title |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
spellingShingle |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional Lopes, Diana Filipa Rodrigues K-Nearest neighbor Python Sklearn Relevância Machine learning Relevance Ciências Naturais::Matemáticas |
title_short |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
title_full |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
title_fullStr |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
title_full_unstemmed |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
title_sort |
KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional |
author |
Lopes, Diana Filipa Rodrigues |
author_facet |
Lopes, Diana Filipa Rodrigues |
author_role |
author |
dc.contributor.none.fl_str_mv |
Clain, Stéphane Universidade do Minho |
dc.contributor.author.fl_str_mv |
Lopes, Diana Filipa Rodrigues |
dc.subject.por.fl_str_mv |
K-Nearest neighbor Python Sklearn Relevância Machine learning Relevance Ciências Naturais::Matemáticas |
topic |
K-Nearest neighbor Python Sklearn Relevância Machine learning Relevance Ciências Naturais::Matemáticas |
description |
Dissertação de mestrado em Estatística para Ciência de Dados |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 2022-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/84571 |
url |
https://hdl.handle.net/1822/84571 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
203232925 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132287678283776 |