Data quality monitoring at scale with automated anomaly detection: a profiling-based framework
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UNIFESP |
Texto Completo: | https://repositorio.unifesp.br/11600/67320 |
Resumo: | Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia. |
id |
UFSP_76fa78667d1f7fd825fbbd782cf280ef |
---|---|
oai_identifier_str |
oai:repositorio.unifesp.br:11600/67320 |
network_acronym_str |
UFSP |
network_name_str |
Repositório Institucional da UNIFESP |
repository_id_str |
3465 |
spelling |
Pereira, Rafael Leinio [UNIFESP]http://lattes.cnpq.br/6805465873224981http://lattes.cnpq.br/9064767888093340Berton, Lilian [UNIFESP]2023-04-03T12:52:42Z2023-04-03T12:52:42Z2023-02-27https://repositorio.unifesp.br/11600/67320Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia.While the data and AI-driven culture emerge in several organizations, it is well known that there are still many challenges in creating an efficient data operation. One of the main barriers is achieving high-quality data. While more data brings more opportunities within the context of analytics and machine learning products, covering this growing range of assets with quality checks becomes a real scalability issue. So the big question is: how to create an efficient data quality service that covers as many datasets as possible, does not require a lot of manual tuning, can handle scalability, and with results that are easy to interpret? This dissertation explores how to build a profiling-based data quality monitoring operation with metrics computation, model optimization, anomaly detection, and generation of reports with high explainability. By employing the most recent tools for data processing and AutoML aligned with modern data platform patterns it was possible to develop an easy-to-use framework to empower developers and data users to build this solution. Tests were performed considering two real e-commerce datasets comparing the results with another common framework in the literature. The results show that our proposal was able to achieve much better accuracy while maintaining a high recall score, which is important to minimize false anomaly alerts.Não recebi financiamento103 f.engUniversidade Federal de São PauloData QualityData ProfilingMetrics RepositoryAutomated Anomaly DetectionTime SeriesData quality monitoring at scale with automated anomaly detection: a profiling-based frameworkinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESPInstituto de Ciência e Tecnologia (ICT)Ciência da ComputaçãoSistemas de InformaçãoSistemas InteligentesTEXTMestrado_Rafael_Leinio___PPGCC.pdf.txtMestrado_Rafael_Leinio___PPGCC.pdf.txtExtracted texttext/plain161279${dspace.ui.url}/bitstream/11600/67320/6/Mestrado_Rafael_Leinio___PPGCC.pdf.txt62eadb8c258f3f29f1557e5e28c67625MD56open accessTHUMBNAILMestrado_Rafael_Leinio___PPGCC.pdf.jpgMestrado_Rafael_Leinio___PPGCC.pdf.jpgIM Thumbnailimage/jpeg3883${dspace.ui.url}/bitstream/11600/67320/8/Mestrado_Rafael_Leinio___PPGCC.pdf.jpgcee5653682a534d6f1c95db420d21197MD58open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-85847${dspace.ui.url}/bitstream/11600/67320/2/license.txt0d53b342fc3f1b1ef7b05d89eeadf817MD52open accessORIGINALMestrado_Rafael_Leinio___PPGCC.pdfMestrado_Rafael_Leinio___PPGCC.pdfDissertação de mestradoapplication/pdf5750850${dspace.ui.url}/bitstream/11600/67320/1/Mestrado_Rafael_Leinio___PPGCC.pdf5e54063debfe982783bfe1d9b3b20856MD51open access11600/673202023-10-21 01:00:33.777open accessoai:repositorio.unifesp.br:11600/67320VEVSTU9TIEUgQ09OREnDh8OVRVMgUEFSQSBPIExJQ0VOQ0lBTUVOVE8gRE8gQVJRVUlWQU1FTlRPLCBSRVBST0RVw4fDg08gRSBESVZVTEdBw4fDg08gUMOaQkxJQ0EgREUgQ09OVEXDmkRPIE5PIFJFUE9TSVTDk1JJTyBJTlNUSVRVQ0lPTkFMIFVOSUZFU1AKCjEuIEV1LCBSYWZhZWwgUGVyZWlyYSAocmFmYWVsLmxlaW5pb0B1bmlmZXNwLmJyKSwgcmVzcG9uc8OhdmVsIHBlbG8gdHJhYmFsaG8g4oCcRGF0YSBxdWFsaXR5IG1vbml0b3JpbmcgYXQgc2NhbGUgd2l0aCBhdXRvbWF0ZWQgYW5vbWFseSBkZXRlY3Rpb246IGEgcHJvZmlsaW5nLWJhc2VkIGZyYW1ld29ya+KAnSBlL291IHVzdcOhcmlvLWRlcG9zaXRhbnRlIG5vIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsYXNzZWd1cm8gbm8gcHJlc2VudGUgYXRvIHF1ZSBzb3UgdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGF0cmltb25pYWlzIGUvb3UgZGlyZWl0b3MgY29uZXhvcyByZWZlcmVudGVzIMOgIHRvdGFsaWRhZGUgZGEgT2JyYSBvcmEgZGVwb3NpdGFkYSBlbSBmb3JtYXRvIGRpZ2l0YWwsIGJlbSBjb21vIGRlIHNldXMgY29tcG9uZW50ZXMgbWVub3JlcywgZW0gc2UgdHJhdGFuZG8gZGUgb2JyYSBjb2xldGl2YSwgY29uZm9ybWUgbyBwcmVjZWl0dWFkbyBwZWxhIExlaSA5LjYxMC85OCBlL291IExlaSA5LjYwOS85OC4gTsOjbyBzZW5kbyBlc3RlIG8gY2FzbywgYXNzZWd1cm8gdGVyIG9idGlkbyBkaXJldGFtZW50ZSBkb3MgZGV2aWRvcyB0aXR1bGFyZXMgYXV0b3JpemHDp8OjbyBwcsOpdmlhIGUgZXhwcmVzc2EgcGFyYSBvIGRlcMOzc2l0byBlIHBhcmEgYSBkaXZ1bGdhw6fDo28gZGEgT2JyYSwgYWJyYW5nZW5kbyB0b2RvcyBvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmV4b3MgYWZldGFkb3MgcGVsYSBhc3NpbmF0dXJhIGRvIHByZXNlbnRlIHRlcm1vIGRlIGxpY2VuY2lhbWVudG8sIGRlIG1vZG8gYSBlZmV0aXZhbWVudGUgaXNlbnRhciBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIGUgc2V1cyBmdW5jaW9uw6FyaW9zIGRlIHF1YWxxdWVyIHJlc3BvbnNhYmlsaWRhZGUgcGVsbyB1c28gbsOjby1hdXRvcml6YWRvIGRvIG1hdGVyaWFsIGRlcG9zaXRhZG8sIHNlamEgZW0gdmluY3VsYcOnw6NvIGFvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIFVOSUZFU1AsIHNlamEgZW0gdmluY3VsYcOnw6NvIGEgcXVhaXNxdWVyIHNlcnZpw6dvcyBkZSBidXNjYSBlIGRlIGRpc3RyaWJ1acOnw6NvIGRlIGNvbnRlw7pkbyBxdWUgZmHDp2FtIHVzbyBkYXMgaW50ZXJmYWNlcyBlIGVzcGHDp28gZGUgYXJtYXplbmFtZW50byBwcm92aWRlbmNpYWRvcyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApIHBvciBtZWlvIGRlIHNldXMgc2lzdGVtYXMgaW5mb3JtYXRpemFkb3MuCgoyLiBBIGNvbmNvcmTDom5jaWEgY29tIGVzdGEgbGljZW7Dp2EgdGVtIGNvbW8gY29uc2VxdcOqbmNpYSBhIHRyYW5zZmVyw6puY2lhLCBhIHTDrXR1bG8gbsOjby1leGNsdXNpdm8gZSBuw6NvLW9uZXJvc28sIGlzZW50YSBkbyBwYWdhbWVudG8gZGUgcm95YWx0aWVzIG91IHF1YWxxdWVyIG91dHJhIGNvbnRyYXByZXN0YcOnw6NvLCBwZWN1bmnDoXJpYSBvdSBuw6NvLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBkb3MgZGlyZWl0b3MgZGUgYXJtYXplbmFyIGRpZ2l0YWxtZW50ZSwgZGUgcmVwcm9kdXppciBlIGRlIGRpc3RyaWJ1aXIgbmFjaW9uYWwgZSBpbnRlcm5hY2lvbmFsbWVudGUgYSBPYnJhLCBpbmNsdWluZG8tc2UgbyBzZXUgcmVzdW1vL2Fic3RyYWN0LCBwb3IgbWVpb3MgZWxldHLDtG5pY29zIGFvIHDDumJsaWNvIGVtIGdlcmFsLCBlbSByZWdpbWUgZGUgYWNlc3NvIGFiZXJ0by4KCjMuIEEgcHJlc2VudGUgbGljZW7Dp2EgdGFtYsOpbSBhYnJhbmdlLCBub3MgbWVzbW9zIHRlcm1vcyBlc3RhYmVsZWNpZG9zIG5vIGl0ZW0gMiwgc3VwcmEsIHF1YWxxdWVyIGRpcmVpdG8gZGUgY29tdW5pY2HDp8OjbyBhbyBww7pibGljbyBjYWLDrXZlbCBlbSByZWxhw6fDo28gw6AgT2JyYSBvcmEgZGVwb3NpdGFkYSwgaW5jbHVpbmRvLXNlIG9zIHVzb3MgcmVmZXJlbnRlcyDDoCByZXByZXNlbnRhw6fDo28gcMO6YmxpY2EgZS9vdSBleGVjdcOnw6NvIHDDumJsaWNhLCBiZW0gY29tbyBxdWFscXVlciBvdXRyYSBtb2RhbGlkYWRlIGRlIGNvbXVuaWNhw6fDo28gYW8gcMO6YmxpY28gcXVlIGV4aXN0YSBvdSB2ZW5oYSBhIGV4aXN0aXIsIG5vcyB0ZXJtb3MgZG8gYXJ0aWdvIDY4IGUgc2VndWludGVzIGRhIExlaSA5LjYxMC85OCwgbmEgZXh0ZW5zw6NvIHF1ZSBmb3IgYXBsaWPDoXZlbCBhb3Mgc2VydmnDp29zIHByZXN0YWRvcyBhbyBww7pibGljbyBwZWxhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFPDo28gUGF1bG8gKFVOSUZFU1ApLgoKNC4gRXN0YSBsaWNlbsOnYSBhYnJhbmdlLCBhaW5kYSwgbm9zIG1lc21vcyB0ZXJtb3MgZXN0YWJlbGVjaWRvcyBubyBpdGVtIDIsIHN1cHJhLCB0b2RvcyBvcyBkaXJlaXRvcyBjb25leG9zIGRlIGFydGlzdGFzIGludMOpcnByZXRlcyBvdSBleGVjdXRhbnRlcywgcHJvZHV0b3JlcyBmb25vZ3LDoWZpY29zIG91IGVtcHJlc2FzIGRlIHJhZGlvZGlmdXPDo28gcXVlIGV2ZW50dWFsbWVudGUgc2VqYW0gYXBsaWPDoXZlaXMgZW0gcmVsYcOnw6NvIMOgIG9icmEgZGVwb3NpdGFkYSwgZW0gY29uZm9ybWlkYWRlIGNvbSBvIHJlZ2ltZSBmaXhhZG8gbm8gVMOtdHVsbyBWIGRhIExlaSA5LjYxMC85OC4KCjUuIFNlIGEgT2JyYSBkZXBvc2l0YWRhIGZvaSBvdSDDqSBvYmpldG8gZGUgZmluYW5jaWFtZW50byBwb3IgaW5zdGl0dWnDp8O1ZXMgZGUgZm9tZW50byDDoCBwZXNxdWlzYSBvdSBxdWFscXVlciBvdXRyYSBzZW1lbGhhbnRlLCB2b2PDqiBvdSBvIHRpdHVsYXIgYXNzZWd1cmEgcXVlIGN1bXByaXUgdG9kYXMgYXMgb2JyaWdhw6fDtWVzIHF1ZSBsaGUgZm9yYW0gaW1wb3N0YXMgcGVsYSBpbnN0aXR1acOnw6NvIGZpbmFuY2lhZG9yYSBlbSByYXrDo28gZG8gZmluYW5jaWFtZW50bywgZSBxdWUgbsOjbyBlc3TDoSBjb250cmFyaWFuZG8gcXVhbHF1ZXIgZGlzcG9zacOnw6NvIGNvbnRyYXR1YWwgcmVmZXJlbnRlIMOgIHB1YmxpY2HDp8OjbyBkbyBjb250ZcO6ZG8gb3JhIHN1Ym1ldGlkbyBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLgogCjYuIEF1dG9yaXphIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU8OjbyBQYXVsbyBhIGRpc3BvbmliaWxpemFyIGEgb2JyYSBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQIGRlIGZvcm1hIGdyYXR1aXRhLCBkZSBhY29yZG8gY29tIGEgbGljZW7Dp2EgcMO6YmxpY2EgQ3JlYXRpdmUgQ29tbW9uczogQXRyaWJ1acOnw6NvLVNlbSBEZXJpdmHDp8O1ZXMtU2VtIERlcml2YWRvcyA0LjAgSW50ZXJuYWNpb25hbCAoQ0MgQlktTkMtTkQpLCBwZXJtaXRpbmRvIHNldSBsaXZyZSBhY2Vzc28sIHVzbyBlIGNvbXBhcnRpbGhhbWVudG8sIGRlc2RlIHF1ZSBjaXRhZGEgYSBmb250ZS4gQSBvYnJhIGNvbnRpbnVhIHByb3RlZ2lkYSBwb3IgRGlyZWl0b3MgQXV0b3JhaXMgZS9vdSBwb3Igb3V0cmFzIGxlaXMgYXBsaWPDoXZlaXMuIFF1YWxxdWVyIHVzbyBkYSBvYnJhLCBxdWUgbsOjbyBvIGF1dG9yaXphZG8gc29iIGVzdGEgbGljZW7Dp2Egb3UgcGVsYSBsZWdpc2xhw6fDo28gYXV0b3JhbCwgw6kgcHJvaWJpZG8uICAKCjcuIEF0ZXN0YSBxdWUgYSBPYnJhIHN1Ym1ldGlkYSBuw6NvIGNvbnTDqW0gcXVhbHF1ZXIgaW5mb3JtYcOnw6NvIGNvbmZpZGVuY2lhbCBzdWEgb3UgZGUgdGVyY2Vpcm9zLgoKOC4gQXRlc3RhIHF1ZSBvIHRyYWJhbGhvIHN1Ym1ldGlkbyDDqSBvcmlnaW5hbCBlIGZvaSBlbGFib3JhZG8gcmVzcGVpdGFuZG8gb3MgcHJpbmPDrXBpb3MgZGEgbW9yYWwgZSBkYSDDqXRpY2EgZSBuw6NvIHZpb2xvdSBxdWFscXVlciBkaXJlaXRvIGRlIHByb3ByaWVkYWRlIGludGVsZWN0dWFsLCBzb2IgcGVuYSBkZSByZXNwb25kZXIgY2l2aWwsIGNyaW1pbmFsLCDDqXRpY2EgZSBwcm9maXNzaW9uYWxtZW50ZSBwb3IgbWV1cyBhdG9zOwoKOS4gQXRlc3RhIHF1ZSBhIHZlcnPDo28gZG8gdHJhYmFsaG8gcHJlc2VudGUgbm8gYXJxdWl2byBzdWJtZXRpZG8gw6kgYSB2ZXJzw6NvIGRlZmluaXRpdmEgcXVlIGluY2x1aSBhcyBhbHRlcmHDp8O1ZXMgZGVjb3JyZW50ZXMgZGEgZGVmZXNhLCBzb2xpY2l0YWRhcyBwZWxhIGJhbmNhLCBzZSBob3V2ZSBhbGd1bWEsIG91IHNvbGljaXRhZGFzIHBvciBwYXJ0ZSBkZSBvcmllbnRhw6fDo28gZG9jZW50ZSByZXNwb25zw6F2ZWw7CgoxMC4gQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTw6NvIFBhdWxvIChVTklGRVNQKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgcmVhbGl6YXIgcXVhaXNxdWVyIGFsdGVyYcOnw7VlcyBuYSBtw61kaWEgb3Ugbm8gZm9ybWF0byBkbyBhcnF1aXZvIHBhcmEgcHJvcMOzc2l0b3MgZGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLCBkZSBhY2Vzc2liaWxpZGFkZSBlIGRlIG1lbGhvciBpZGVudGlmaWNhw6fDo28gZG8gdHJhYmFsaG8gc3VibWV0aWRvLCBkZXNkZSBxdWUgbsOjbyBzZWphIGFsdGVyYWRvIHNldSBjb250ZcO6ZG8gaW50ZWxlY3R1YWwuCgpBbyBjb25jbHVpciBhcyBldGFwYXMgZG8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbyBkZSBhcnF1aXZvcyBubyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBVTklGRVNQLCBhdGVzdG8gcXVlIGxpIGUgY29uY29yZGVpIGludGVncmFsbWVudGUgY29tIG9zIHRlcm1vcyBhY2ltYSBkZWxpbWl0YWRvcywgc2VtIGZhemVyIHF1YWxxdWVyIHJlc2VydmEgZSBub3ZhbWVudGUgY29uZmlybWFuZG8gcXVlIGN1bXBybyBvcyByZXF1aXNpdG9zIGluZGljYWRvcyBub3MgaXRlbnMgbWVuY2lvbmFkb3MgYW50ZXJpb3JtZW50ZS4KCkhhdmVuZG8gcXVhbHF1ZXIgZGlzY29yZMOibmNpYSBlbSByZWxhw6fDo28gYSBwcmVzZW50ZSBsaWNlbsOnYSBvdSBuw6NvIHNlIHZlcmlmaWNhbmRvIG8gZXhpZ2lkbyBub3MgaXRlbnMgYW50ZXJpb3Jlcywgdm9jw6ogZGV2ZSBpbnRlcnJvbXBlciBpbWVkaWF0YW1lbnRlIG8gcHJvY2Vzc28gZGUgc3VibWlzc8Ojby4gQSBjb250aW51aWRhZGUgZG8gcHJvY2Vzc28gZXF1aXZhbGUgw6AgY29uY29yZMOibmNpYSBlIMOgIGFzc2luYXR1cmEgZGVzdGUgZG9jdW1lbnRvLCBjb20gdG9kYXMgYXMgY29uc2VxdcOqbmNpYXMgbmVsZSBwcmV2aXN0YXMsIHN1amVpdGFuZG8tc2UgbyBzaWduYXTDoXJpbyBhIHNhbsOnw7VlcyBjaXZpcyBlIGNyaW1pbmFpcyBjYXNvIG7Do28gc2VqYSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXRyaW1vbmlhaXMgZS9vdSBjb25leG9zIGFwbGljw6F2ZWlzIMOgIE9icmEgZGVwb3NpdGFkYSBkdXJhbnRlIGVzdGUgcHJvY2Vzc28sIG91IGNhc28gbsOjbyB0ZW5oYSBvYnRpZG8gcHLDqXZpYSBlIGV4cHJlc3NhIGF1dG9yaXphw6fDo28gZG8gdGl0dWxhciBwYXJhIG8gZGVww7NzaXRvIGUgdG9kb3Mgb3MgdXNvcyBkYSBPYnJhIGVudm9sdmlkb3MuCgpTZSB0aXZlciBxdWFscXVlciBkw7p2aWRhIHF1YW50byBhb3MgdGVybW9zIGRlIGxpY2VuY2lhbWVudG8gZSBxdWFudG8gYW8gcHJvY2Vzc28gZGUgc3VibWlzc8OjbywgZW50cmUgZW0gY29udGF0byBjb20gYSBiaWJsaW90ZWNhIGRvIHNldSBjYW1wdXMgKGNvbnN1bHRlIGVtOiBodHRwczovL2JpYmxpb3RlY2FzLnVuaWZlc3AuYnIvYmlibGlvdGVjYXMtZGEtcmVkZSkuIAoKU8OjbyBQYXVsbywgTW9uIE1hciAyMCAxMjoyMToyMSBCUlQgMjAyMy4KRepositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestopendoar:34652023-10-21T04:00:33Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false |
dc.title.pt_BR.fl_str_mv |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
title |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
spellingShingle |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework Pereira, Rafael Leinio [UNIFESP] Data Quality Data Profiling Metrics Repository Automated Anomaly Detection Time Series |
title_short |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
title_full |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
title_fullStr |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
title_full_unstemmed |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
title_sort |
Data quality monitoring at scale with automated anomaly detection: a profiling-based framework |
author |
Pereira, Rafael Leinio [UNIFESP] |
author_facet |
Pereira, Rafael Leinio [UNIFESP] |
author_role |
author |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/6805465873224981 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9064767888093340 |
dc.contributor.author.fl_str_mv |
Pereira, Rafael Leinio [UNIFESP] |
dc.contributor.advisor1.fl_str_mv |
Berton, Lilian [UNIFESP] |
contributor_str_mv |
Berton, Lilian [UNIFESP] |
dc.subject.por.fl_str_mv |
Data Quality Data Profiling Metrics Repository Automated Anomaly Detection Time Series |
topic |
Data Quality Data Profiling Metrics Repository Automated Anomaly Detection Time Series |
description |
Embora a cultura orientada por dados e abordagens de Inteligência Artificial sejam empregadas em várias organizações, é sabido que ainda existem muitos desafios na criação de uma operação de dados eficiente. Uma das principais barreiras é obter dados de alta qualidade. Embora mais dados tragam mais oportunidades no contexto de produtos analíticos e de aprendizado de máquina, cobrir essa gama crescente de ativos com verificações de qualidade torna-se um problema real de escalabilidade. Então a grande questão é: como criar um serviço de qualidade de dados eficiente que cubra o maior número possível de conjuntos de dados, não exija muito ajuste manual, possa lidar com escalabilidade e com resultados fáceis de interpretar? Esta dissertação explora como construir uma operação de monitoramento de qualidade de dados baseada em perfis com computação de métricas, otimização de modelos, detecção de anomalias e geração de relatórios com alta explicabilidade. Ao empregar as ferramentas mais recentes para processamento de dados e AutoML alinhadas com padrões modernos de plataforma de dados, foi possível desenvolver um framework fácil de usar para capacitar desenvolvedores e usuários de dados a construir essa solução. Os testes foram realizados considerando dois conjuntos de dados reais de e-commerce comparando os resultados com outro framework comum na literatura. Os resultados mostram que nossa proposta foi capaz de alcançar uma precisão muito melhor, mantendo uma pontuação de recall alta, o que é importante para minimizar falsos alertas de anomalia. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-04-03T12:52:42Z |
dc.date.available.fl_str_mv |
2023-04-03T12:52:42Z |
dc.date.issued.fl_str_mv |
2023-02-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.unifesp.br/11600/67320 |
url |
https://repositorio.unifesp.br/11600/67320 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
103 f. |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP |
instname_str |
Universidade Federal de São Paulo (UNIFESP) |
instacron_str |
UNIFESP |
institution |
UNIFESP |
reponame_str |
Repositório Institucional da UNIFESP |
collection |
Repositório Institucional da UNIFESP |
bitstream.url.fl_str_mv |
${dspace.ui.url}/bitstream/11600/67320/6/Mestrado_Rafael_Leinio___PPGCC.pdf.txt ${dspace.ui.url}/bitstream/11600/67320/8/Mestrado_Rafael_Leinio___PPGCC.pdf.jpg ${dspace.ui.url}/bitstream/11600/67320/2/license.txt ${dspace.ui.url}/bitstream/11600/67320/1/Mestrado_Rafael_Leinio___PPGCC.pdf |
bitstream.checksum.fl_str_mv |
62eadb8c258f3f29f1557e5e28c67625 cee5653682a534d6f1c95db420d21197 0d53b342fc3f1b1ef7b05d89eeadf817 5e54063debfe982783bfe1d9b3b20856 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP) |
repository.mail.fl_str_mv |
|
_version_ |
1802764194671493120 |