KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional

Detalhes bibliográficos
Autor(a) principal: Lopes, Diana Filipa Rodrigues
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/84571
Resumo: Dissertação de mestrado em Estatística para Ciência de Dados
id RCAP_b01c07d622be89a22180764465ef8eee
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/84571
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicionalK-Nearest neighborPythonSklearnRelevânciaMachine learningRelevanceCiências Naturais::MatemáticasDissertação de mestrado em Estatística para Ciência de DadosÀ medida que o tempo avança, cada vez mais o Machine Learning (ML) está presente no nosso quotidiano, mesmo sem nos apercebermos disso numa primeira instância. Desde as recomendações de filmes na Netflix, ao reconhecimento dos nossos amigos nas fotos do Facebook. ML ou aprendizado das máquinas são métodos computacionais que utilizam conhecimento através de experiências passadas fornecidas por um utilizador. Os algoritmos de ML de classificação têm como output a classe de um objeto. Um dos mais conhecidos algoritmos deste tipo é o K-Nearest Neighbour (KNN). De uma forma abrangente, é fornecido a este classificador um conjunto de dados com características e os respetivos rótulos (ou classes). Com esses dados o modelo aprende e, posteriormente, torna-se capaz de classificar qualquer objeto, apenas com o fornecimento das suas características. Para essa classificação, o KNN utiliza os K dados rotulados mais próximos do objeto a classificar e classifica-o com a classe mais frequente encontrada. Muitos são os estudos que comprovam a eficácia deste classificador. Porém, existem casos em que poderá ser mais útil utilizar uma extensão deste classificador: o KNN com relevância. Este classificador calcula a relevância das classes dos vizinhos, através de funções de relevância, atribuindo uma relevância maior aos dados mais próximos e uma relevância menor aos dados mais longínquos. Ao longo deste trabalho será feita uma análise detalhada deste novo método e será estudada a sua eficácia em duas bases de dados da biblioteca Sklearn presente na linguagem de programação Python. A biblioteca Sklearn fornece algoritmos de ML. Porém, a extensão do modelo KNN tradicional, o algoritmo KNN com relevância, não está presente na mesma. Neste sentido, serão, também, construídos três classificadores, cada um com uma função de relevância diferente: o Inverso da Distância entre os dados, a Função Gaussian Kernel e a Função Característica de uma esfera.As time progresses, Machine Learning (ML) is increasingly present in our daily lives, even without realizing it in the first instance. From movie recommendations on Netflix to recognition of our friends in Facebook photos, ML is computational methods that use knowledge through past experiences provided by a user. Classification ML algorithms have as output the class of an object. One of the best-known algorithms of this type is K-Nearest Neighbour (KNN). In a comprehensive way, this classifier is provided with a set of data with characteristics and their labels (or classes). Through this data the model learns and later becomes able to classify any object, only with the provision of its characteristics. For this classification, KNN uses the K data labelled closest to the object to sort, doing it with the most frequent class found. There are many studies that prove the efficacy of this classifier. However, there are cases where it may be more useful to use an extension of this classifier: the KNN with relevance. This classifier calculates the relevance of neighbouring classes through relevance functions, attributing greater relevance to the closest data and a lower relevance to the more distant data. Throughout this work a detailed analysis of this new method will be made and its effectiveness will be studied in two databases of the Sklearn library present in the Python programming language. The Sklearn library provides ML algorithms. However, the extension of the traditional KNN model, KNN with relevance is not present in it. In this sense, three classifiers will also be constructed, each with a different relevance function: the Inverse of the Distance between the data, the Gaussian Kernel Function, and the Characteristic Function of a sphere.Clain, StéphaneUniversidade do MinhoLopes, Diana Filipa Rodrigues20222022-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/84571por203232925info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:01:35Zoai:repositorium.sdum.uminho.pt:1822/84571Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:51:30.357077Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
title KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
spellingShingle KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
Lopes, Diana Filipa Rodrigues
K-Nearest neighbor
Python
Sklearn
Relevância
Machine learning
Relevance
Ciências Naturais::Matemáticas
title_short KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
title_full KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
title_fullStr KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
title_full_unstemmed KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
title_sort KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional
author Lopes, Diana Filipa Rodrigues
author_facet Lopes, Diana Filipa Rodrigues
author_role author
dc.contributor.none.fl_str_mv Clain, Stéphane
Universidade do Minho
dc.contributor.author.fl_str_mv Lopes, Diana Filipa Rodrigues
dc.subject.por.fl_str_mv K-Nearest neighbor
Python
Sklearn
Relevância
Machine learning
Relevance
Ciências Naturais::Matemáticas
topic K-Nearest neighbor
Python
Sklearn
Relevância
Machine learning
Relevance
Ciências Naturais::Matemáticas
description Dissertação de mestrado em Estatística para Ciência de Dados
publishDate 2022
dc.date.none.fl_str_mv 2022
2022-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/84571
url https://hdl.handle.net/1822/84571
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 203232925
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132287678283776