Análise do erro de estimação em Filtros de Bloom Lineares

Detalhes bibliográficos
Autor(a) principal: Ferreira, Célia Catarina Silva
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/46684
Resumo: Dissertação de mestrado em Estatística
id RCAP_4e4353e32c865f949115b771220c878c
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/46684
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Análise do erro de estimação em Filtros de Bloom LinearesFiltros de Bloom LinearesTeoria dos Valores ExtremosMínimosMáximosGrau de confiançaFalsos positivosExtremes Value TheoryLinear Bloom FiltersMinimaMaximaMaxima minimaQuality degreeFalse positiveCiências Naturais::MatemáticasDissertação de mestrado em EstatísticaO registo preciso de grandes volumes de dados requer uma, proporcionalmente, grande quantidade de memória. Uma forma de reduzir esta necessidade passa por fazer um registo probabilístico com recurso à técnica de Filtros de Bloom. Esta técnica permite detetar, com uma determinada probabilidade de erro por falsos positivos, a pertença de um elemento a um conjunto. Pretende-se, nos Filtros de Bloom Lineares, generalizar esta técnica para associar um valor numérico a cada elemento e permitir a consulta desse valor. Torna-se assim possível a sua aplicação a situações onde se pretende qualificar numericamente os valores registados, como por exemplo na atribuição de um grau de confiança numérico a uma observação registada. Neste projeto é feito um estudo analítico do erro esperado na consulta, em função da distribuição dos valores inseridos, nomeadamente para as distribuições: Uniforme, Exponencial ou Normal. Este estudo envolve a aplicação da teoria de valores extremos, usando a função generalizada de valores extremos e a função densidade de mínimos de máximos deduzida. Com a ajuda do software estatístico R, efetuaram-se estudos de simulação do funcionamento dos Filtros de Bloom Lineares. Comparando o resultado dessas simulações face ao estudo analítico baseado na teoria de valores extremos, concluiu-se com ótimos resultados que o erro esperado é reduzido, para enchimentos convencionais do filtro, e que há um bom ajuste entre as funções teóricas e os resultados experimentais.The precise recording of large volumes of data requires a proportionally big amount of memory. Memory usage can be reduced by using Bloom Filters as a probabilistic representation of the data to be stored. This technique allows detecting, with a given probability for false positives, if an element belongs, or not, to a set. In an extension of the technique, Linear Bloom Filters, set membership is generalized in order to associate a numerical value to each element and allow the query to retrieve that value. This permits the application to settings where one intends to qualify numerically the registered values, for example in the attribution of a numeric quality degree to a registered observation. In this project the analytic study of the query’s expected error is done, depending on the distribution of the inserted values, for the Uniform, Exponential and Normal distributions. This study applies the extreme values theory, using the generalized function of extreme values and the derived density function of maxima minima. With the help of R statistical software, several simulation studies of the operation of Bloom Linear Filters were made. By comparing the result of the simulations with the analytic study based on the extreme values theory, it was possible to conclude with good confidence that the expected error is small, for conventional fillings of the filter, and that there exists a good adjustment between the theoretical functions and the experimental results.Menezes, RaquelBaquero, CarlosUniversidade do MinhoFerreira, Célia Catarina Silva2017-03-222017-03-22T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/46684por201736365info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:24:39Zoai:repositorium.sdum.uminho.pt:1822/46684Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:18:42.917532Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Análise do erro de estimação em Filtros de Bloom Lineares
title Análise do erro de estimação em Filtros de Bloom Lineares
spellingShingle Análise do erro de estimação em Filtros de Bloom Lineares
Ferreira, Célia Catarina Silva
Filtros de Bloom Lineares
Teoria dos Valores Extremos
Mínimos
Máximos
Grau de confiança
Falsos positivos
Extremes Value Theory
Linear Bloom Filters
Minima
Maxima
Maxima minima
Quality degree
False positive
Ciências Naturais::Matemáticas
title_short Análise do erro de estimação em Filtros de Bloom Lineares
title_full Análise do erro de estimação em Filtros de Bloom Lineares
title_fullStr Análise do erro de estimação em Filtros de Bloom Lineares
title_full_unstemmed Análise do erro de estimação em Filtros de Bloom Lineares
title_sort Análise do erro de estimação em Filtros de Bloom Lineares
author Ferreira, Célia Catarina Silva
author_facet Ferreira, Célia Catarina Silva
author_role author
dc.contributor.none.fl_str_mv Menezes, Raquel
Baquero, Carlos
Universidade do Minho
dc.contributor.author.fl_str_mv Ferreira, Célia Catarina Silva
dc.subject.por.fl_str_mv Filtros de Bloom Lineares
Teoria dos Valores Extremos
Mínimos
Máximos
Grau de confiança
Falsos positivos
Extremes Value Theory
Linear Bloom Filters
Minima
Maxima
Maxima minima
Quality degree
False positive
Ciências Naturais::Matemáticas
topic Filtros de Bloom Lineares
Teoria dos Valores Extremos
Mínimos
Máximos
Grau de confiança
Falsos positivos
Extremes Value Theory
Linear Bloom Filters
Minima
Maxima
Maxima minima
Quality degree
False positive
Ciências Naturais::Matemáticas
description Dissertação de mestrado em Estatística
publishDate 2017
dc.date.none.fl_str_mv 2017-03-22
2017-03-22T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/46684
url http://hdl.handle.net/1822/46684
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 201736365
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132642621259776