Data quality monitoring at scale with automated anomaly detection: a profiling-based framework

Pereira, Rafael Leinio [UNIFESP]

Data quality monitoring at scale with automated anomaly detection: a profiling-based framework

Detalhes bibliográficos
Autor(a) principal:	Pereira, Rafael Leinio [UNIFESP]
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Institucional da UNIFESP
Texto Completo:	https://repositorio.unifesp.br/handle/11600/67320
Resumo:	Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia.

Metadados do item

id	UFSP_6e59f2e52de8090d4ffb88f77cd82c3c
oai_identifier_str	oai:repositorio.unifesp.br/:11600/67320
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str	3465
spelling	Data quality monitoring at scale with automated anomaly detection: a profiling-based frameworkData QualityData ProfilingMetrics RepositoryAutomated Anomaly DetectionTime SeriesEmbora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia.While the data and AI-driven culture emerge in several organizations, it is well known that there are still many challenges in creating an efficient data operation. One of the main barriers is achieving high-quality data. While more data brings more opportunities within the context of analytics and machine learning products, covering this growing range of assets with quality checks becomes a real scalability issue. So the big question is: how to create an efficient data quality service that covers as many datasets as possible, does not require a lot of manual tuning, can handle scalability, and with results that are easy to interpret? This dissertation explores how to build a profiling-based data quality monitoring operation with metrics computation, model optimization, anomaly detection, and generation of reports with high explainability. By employing the most recent tools for data processing and AutoML aligned with modern data platform patterns it was possible to develop an easy-to-use framework to empower developers and data users to build this solution. Tests were performed considering two real e-commerce datasets comparing the results with another common framework in the literature. The results show that our proposal was able to achieve much better accuracy while maintaining a high recall score, which is important to minimize false anomaly alerts.Não recebi financiamentoUniversidade Federal de São PauloBerton, Lilian [UNIFESP]http://lattes.cnpq.br/9064767888093340http://lattes.cnpq.br/6805465873224981Pereira, Rafael Leinio [UNIFESP]2023-04-03T12:52:42Z2023-04-03T12:52:42Z2023-02-27info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion103 f.application/pdfhttps://repositorio.unifesp.br/handle/11600/67320enginfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-12T15:09:26Zoai:repositorio.unifesp.br/:11600/67320Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-12T15:09:26Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
title	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
spellingShingle	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework Pereira, Rafael Leinio [UNIFESP] Data Quality Data Profiling Metrics Repository Automated Anomaly Detection Time Series
title_short	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
title_full	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
title_fullStr	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
title_full_unstemmed	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
title_sort	Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
author	Pereira, Rafael Leinio [UNIFESP]
author_facet	Pereira, Rafael Leinio [UNIFESP]
author_role	author
dc.contributor.none.fl_str_mv	Berton, Lilian [UNIFESP] http://lattes.cnpq.br/9064767888093340 http://lattes.cnpq.br/6805465873224981
dc.contributor.author.fl_str_mv	Pereira, Rafael Leinio [UNIFESP]
dc.subject.por.fl_str_mv	Data Quality Data Profiling Metrics Repository Automated Anomaly Detection Time Series
topic	Data Quality Data Profiling Metrics Repository Automated Anomaly Detection Time Series
description	Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia.
publishDate	2023
dc.date.none.fl_str_mv	2023-04-03T12:52:42Z 2023-04-03T12:52:42Z 2023-02-27
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.unifesp.br/handle/11600/67320
url	https://repositorio.unifesp.br/handle/11600/67320
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	103 f. application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo
publisher.none.fl_str_mv	Universidade Federal de São Paulo
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1814268333585858560

Data quality monitoring at scale with automated anomaly detection: a profiling-based framework

Registros relacionados