Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados

Detalhes bibliográficos
Autor(a) principal: Jardini, Toni [UNESP]
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/98702
Resumo: Um dos grandes desa os e di culdades para se obter conhecimento de fontes de dados e garantir consistência e a não duplicidade das informações armazenadas. Diversas técnicas e algoritmos têm sido propostos para minimizar o custoso trabalho de permitir que os dados sejam analisados e corrigidos. Porém, ainda há outras vertentes essenciais para se obter sucesso no processo de limpeza de dados, e envolvem diversas areas tecnológicas: desempenho computacional, semântica e autonomia do processo. Diante desse cenário, foi desenvolvido um ambiente data cleaningque contempla uma coleção de ferramentas de suporte a análise e transformação de dados de forma automática, extensível, com suporte semântico e aprendizado, independente de idioma. O objetivo deste trabalho e propor um ambiente cujas contribuições cobrem problemas ainda pouco explorados pela comunidade científica area de limpeza de dados como semântica e autonomia na execução da limpeza e possui, dentre seus objetivos, diminuir a interação do usuário no processo de análise e correção de inconsistências e duplicidades. Dentre as contribuições do ambiente desenvolvido, a eficácia se mostras significativa, cobrindo aproximadamente 90% do total de inconsistências presentes na base de dados, com percentual de casos de falsos-positivos 0% sem necessidade da interação do usuário
id UNSP_b817f987cc16b624bf203ca05211e0b5
oai_identifier_str oai:repositorio.unesp.br:11449/98702
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dadosSistemas de computaçãoBanco de dadosDatabaseComputer systemsUm dos grandes desa os e di culdades para se obter conhecimento de fontes de dados e garantir consistência e a não duplicidade das informações armazenadas. Diversas técnicas e algoritmos têm sido propostos para minimizar o custoso trabalho de permitir que os dados sejam analisados e corrigidos. Porém, ainda há outras vertentes essenciais para se obter sucesso no processo de limpeza de dados, e envolvem diversas areas tecnológicas: desempenho computacional, semântica e autonomia do processo. Diante desse cenário, foi desenvolvido um ambiente data cleaningque contempla uma coleção de ferramentas de suporte a análise e transformação de dados de forma automática, extensível, com suporte semântico e aprendizado, independente de idioma. O objetivo deste trabalho e propor um ambiente cujas contribuições cobrem problemas ainda pouco explorados pela comunidade científica area de limpeza de dados como semântica e autonomia na execução da limpeza e possui, dentre seus objetivos, diminuir a interação do usuário no processo de análise e correção de inconsistências e duplicidades. Dentre as contribuições do ambiente desenvolvido, a eficácia se mostras significativa, cobrindo aproximadamente 90% do total de inconsistências presentes na base de dados, com percentual de casos de falsos-positivos 0% sem necessidade da interação do usuárioOne of the great challenges and di culties to obtain knowledge from data sources is to ensure consistency and non-duplication of stored data. Many techniques and algorithms have been proposed to minimize the hard work to allow data to be analyzed and corrected. However, there are still other essential aspects for the data cleaning process success which involve many technological areas: performance, semantic and process autonomy. Against this backdrop, an data cleaning environment has been developed which includes a collec-tion of tools for automatic data analysis and processing, extensible, with multi-language semantic and learning support. The objective of this work is to propose an environment whose contributions cover problems yet explored by data cleaning scienti c community as semantic and autonomy in data cleaning process and it has, among its objectives, to re-duce user interaction in the process of analyzing and correcting data inconsistencies and duplications. Among the contributions of the developed environment, e ciency is signi -cant exhibitions, covering approximately 90% of database inconsistencies, with the 0% of false positives cases without the user interaction needUniversidade Estadual Paulista (Unesp)Valêncio, Carlos Roberto [UNESP]Universidade Estadual Paulista (Unesp)Jardini, Toni [UNESP]2014-06-11T19:29:41Z2014-06-11T19:29:41Z2012-11-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis99 f. : il. color.application/pdfJARDINI, Toni. Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados. 2012. 99 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.http://hdl.handle.net/11449/98702000707429jardini_t_me_sjrp.pdf33004153073P2Alephreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESPporinfo:eu-repo/semantics/openAccess2023-10-21T06:05:41Zoai:repositorio.unesp.br:11449/98702Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T15:30:33.851260Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
title Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
spellingShingle Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
Jardini, Toni [UNESP]
Sistemas de computação
Banco de dados
Database
Computer systems
title_short Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
title_full Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
title_fullStr Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
title_full_unstemmed Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
title_sort Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados
author Jardini, Toni [UNESP]
author_facet Jardini, Toni [UNESP]
author_role author
dc.contributor.none.fl_str_mv Valêncio, Carlos Roberto [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Jardini, Toni [UNESP]
dc.subject.por.fl_str_mv Sistemas de computação
Banco de dados
Database
Computer systems
topic Sistemas de computação
Banco de dados
Database
Computer systems
description Um dos grandes desa os e di culdades para se obter conhecimento de fontes de dados e garantir consistência e a não duplicidade das informações armazenadas. Diversas técnicas e algoritmos têm sido propostos para minimizar o custoso trabalho de permitir que os dados sejam analisados e corrigidos. Porém, ainda há outras vertentes essenciais para se obter sucesso no processo de limpeza de dados, e envolvem diversas areas tecnológicas: desempenho computacional, semântica e autonomia do processo. Diante desse cenário, foi desenvolvido um ambiente data cleaningque contempla uma coleção de ferramentas de suporte a análise e transformação de dados de forma automática, extensível, com suporte semântico e aprendizado, independente de idioma. O objetivo deste trabalho e propor um ambiente cujas contribuições cobrem problemas ainda pouco explorados pela comunidade científica area de limpeza de dados como semântica e autonomia na execução da limpeza e possui, dentre seus objetivos, diminuir a interação do usuário no processo de análise e correção de inconsistências e duplicidades. Dentre as contribuições do ambiente desenvolvido, a eficácia se mostras significativa, cobrindo aproximadamente 90% do total de inconsistências presentes na base de dados, com percentual de casos de falsos-positivos 0% sem necessidade da interação do usuário
publishDate 2012
dc.date.none.fl_str_mv 2012-11-30
2014-06-11T19:29:41Z
2014-06-11T19:29:41Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv JARDINI, Toni. Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados. 2012. 99 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.
http://hdl.handle.net/11449/98702
000707429
jardini_t_me_sjrp.pdf
33004153073P2
identifier_str_mv JARDINI, Toni. Ambiente data cleaning: suporte extensível, semântico e automático para análise e transformação de dados. 2012. 99 f. Dissertação (mestrado) - Universidade Estadual Paulista, Instituto de Biociências, Letras e Ciências Exatas, 2012.
000707429
jardini_t_me_sjrp.pdf
33004153073P2
url http://hdl.handle.net/11449/98702
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 99 f. : il. color.
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv Aleph
reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128524442140672