Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos

Detalhes bibliográficos
Autor(a) principal: Martínez Muñoz, Rubén Alex
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/253974
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2023.
id UFSC_542110bf89ec119bcc0fee8d1c8a3200
oai_identifier_str oai:repositorio.ufsc.br:123456789/253974
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicosMatemáticaAprendizado do computadorTese (doutorado) - Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2023.No presente trabalho, desenvolvemos novos algoritmos de aprendizagem supervisionados (não paramétricos) num domínio boreliano padrão, onde o nosso principal exemplo será o espaço euclidiano de dimensão finita; utilizando para tomar a decisão a estrutura métrica dos números p-ádicos em lugar da estrutura métrica dos números reais. Analisando de perto o modelo teórico da aprendizagem estatística, nota-se que a noção de consistência universal de um algoritmo depende apenas da estrutura boreliana do domínio e portanto ela é insensível à estrutura métrica ou mesmo topológica no domínio, visto que a estrutura boreliana sobrevive intacta . Isto permite, através de uma injeção boreliana, reduzir os dados para um outro domínio onde os algoritmos sejam universalmente consistentes e mais eficientes, após o qual o algoritmo de aprendizagem composto com a redução boreliana continua a ser universalmente consistente. Esta ideia foi sugerida no artigo de um dos orientadores. A ideia principal de nossa abordagem é construir uma redução do domínio original (tipicamente o espaço euclidiano) para um espaço vetorial sobre o corpo Qp de números p-ádicos, e experimentar as novas possibilidades que uma estrutura p-ádica oferece. A principal diferença com o espaço euclidiano é que o espaço p-ádico é não-arquimediano, o que implica uma propriedade muito particular: duas bolas ou são disjuntas, ou uma está contida na outra. Como consequência, as árvores de busca são muito mais eficientes. Ao mesmo tempo, o espaço p-ádico possui uma estrutura linear rica, permitindo usar ferramentas de teoria de matrizes, análise funcional, etc. O algoritmo principal, que é universalmente consistente, é definido nos números p-ádicos e combinado como características de algoritmos clássicos no espaço euclidiano, tais como o classificador k-NN de k vizinhos mais próximos, regra do histograma e árvores de decisão. Embora no espaço euclidiano todos esses algoritmos sejam bastante diferentes, uma geometria específica do espaço p-ádico permite combinar as vantagens deles em um algoritmo de aprendizagem só, e fazendo a composição do algoritmo p-ádico com uma injeção boreliana, obtemos um algoritmo universalmente consistente no espaço euclidiano que de certa maneira transporta também esse tipo de comportamento combinado. Finalizamos o plano teórico utilizando as novas regras elaboradas para construir algoritmos do tipo conjunto que preservam a consistência universal. Simples experimentos numéricos sobre alguns conjuntos de dados foram realizados, e mesmo não sendo extensivos nem aprofundados, eles mostram que para alguns tipos de dados o desempenho do novo algoritmo foi melhor que o de alguns classificados tradicionais. Parece que a ideia de pesquisar algoritmos de aprendizagem no espaço p-ádico foi apenas usada antes na área de aprendizagem não supervisionada especificamente na classificação via clusters e na aprendizagem de máquina supervisionada paramétrica especificamente em redes neurais p-ádicas; ideias que são bem diferentes das nossas, pois vencemos no contexto da aprendizagem estatística supervisionada não paramétrica.Abstract: In the present work, we develop certain new (nonparametric) supervised learning algorithms in a domain which is a standard Borel space, with the finite-dimensional Euclidean space as the main example. Our algorithms are using the metric structure of p-adic numbers instead of the metric structure of real numbers. Taking a closer look at the theoretical model of statistical learning, it can be noted that the notion of universal consistency of an algorithm depends only on the Borel structure of the domain and therefore it is insensitive to the metric or even topological structure in the domain, as long as the Borel structure remains intact. This allows, through a Borel measurable injection, to reduce the data to another domain where the algorithms are universally consistent yet more efficient, after which the learning algorithm composed with the Borel dimensionality reduction continues to be universally consistent. This idea was suggested in an article by one of the advisors [53]. The main idea of our approach is to construct a reduction of the original domain (typically a Euclidean space) to a vector space over the field Qp of p-adic numbers, and to experiment with the new possibilities that the p-adic structure provides. The main difference with Euclidean space is that p-adic space is non-archimedean, which implies a very particular geometric property: two balls are either disjoint, or one is contained in the other. As a consequence, search trees are much more efficient. At the same time, p-adic space has a rich linear structure, allowing to use the tools of matrix theory, functional analysis, etc. Our main learning algorithm, which is universally consistent, is defined in p-adic numbers and combines the features of classical algorithms in Euclidean space, such as the k-NN classifier, histogram rule and decision trees. While in Euclidean space all these algorithms are quite distinct, the specific geometry of the p-adic space allows us to combine their advantages in a single learning algorithm, and by composing the p-adic algorithm with a Borel injection, we obtain a universally consistent algorithm in Euclidean space that in a certain way also transports this type of combined behavior. We finalize the theoretical part by using the new rules to build ensemble-type algorithms that preserve universal consistency. Simple numerical experiments on some data sets were carried out, and although they were not extensive or in-depth, they showed that for some types of data the performance of the new algorithm was better than that of some traditional classifiers. It appears that the idea of constructing learning algorithms in p-adic space has only been used before in the area of unsupervised learning, specifically in classification via clusters [11, 12, 25], and in parametric supervised machine learning, specifically in the so-called p-adic neural networks [38]. Those ideas are very different from ours, as we work in the context of nonparametric supervised statistical learning.Pestov, Vladimir G.Vargas Júnior, Edson CilosUniversidade Federal de Santa CatarinaMartínez Muñoz, Rubén Alex2024-01-11T23:24:55Z2024-01-11T23:24:55Z2023info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis190 p.| gráfs.application/pdf385719https://repositorio.ufsc.br/handle/123456789/253974porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2024-01-11T23:24:55Zoai:repositorio.ufsc.br:123456789/253974Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732024-01-11T23:24:55Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
title Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
spellingShingle Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
Martínez Muñoz, Rubén Alex
Matemática
Aprendizado do computador
title_short Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
title_full Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
title_fullStr Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
title_full_unstemmed Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
title_sort Novas regras de aprendizagem supervisionada utilizando a estrutura dos números p-ádicos
author Martínez Muñoz, Rubén Alex
author_facet Martínez Muñoz, Rubén Alex
author_role author
dc.contributor.none.fl_str_mv Pestov, Vladimir G.
Vargas Júnior, Edson Cilos
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Martínez Muñoz, Rubén Alex
dc.subject.por.fl_str_mv Matemática
Aprendizado do computador
topic Matemática
Aprendizado do computador
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro de Ciências Físicas e Matemáticas, Programa de Pós-Graduação em Matemática Pura e Aplicada, Florianópolis, 2023.
publishDate 2023
dc.date.none.fl_str_mv 2023
2024-01-11T23:24:55Z
2024-01-11T23:24:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 385719
https://repositorio.ufsc.br/handle/123456789/253974
identifier_str_mv 385719
url https://repositorio.ufsc.br/handle/123456789/253974
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 190 p.| gráfs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652262136872960