DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web

Detalhes bibliográficos
Autor(a) principal: Souza, Augusto Ferreira de
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/xmlui/handle/123456789/122641
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013.
id UFSC_ca3ce714902382f22721911614158bd3
oai_identifier_str oai:repositorio.ufsc.br:123456789/122641
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep WebInformaticaComputaçãoMineração de dados (Computação)Banco de dadosDissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013.Esta dissertação apresenta uma solução chamada DeepEC (DeepWeb Extraction and Cataloguing Process) para realizar a extração e catalogação de dados relevantes em bancos de dados presentes na Deep Web, também denominados de bancos de dados escondidos. Essas informações são extraídas a partir de um conjunto de páginas HTML geradas a partir de consultas definidas sobre formulários Web. A intenção é adquirir conhecimento sobre esses bancos de dados e, consequentemente, permitir buscas estruturadas sobre esse conteúdo escondido. Experimentos comprovaram a eficácia da abordagem proposta. Comparado com trabalhos relacionados, as contribuições desta dissertação são a realização conjunta e sequencial de um processo de extração e catalogação dos dados de bancos de dados escondidos, um processo de extração automático com suporte de uma base de conhecimento e um processo de catalogação que gera registros estruturados e é capaz de realizar a detecção de atributos cujos valores não estão presentes nos dados extraídos. <br>Abstract : This work presents an approach called DeepEC (Deep Web Extraction and Cataloguing Process) that performs the extraction and cataloging of relevant data presented in Deep Web databases, also called hidden databases. This information is extracted from a set of HTML pages generated by queries posed on web forms. The intention is to obtain knowledge about these databases and thus enable structured queries over this hidden content. Experiments have shown the effectiveness of the proposed approach. Compared to related work, the contributions of this paper are the simultaneous process of data extraction and cataloging of hidden databases, an automatic extraction process with a knowledge base support, and a cataloging process that generates structured records and it is able to detect attribute values that are missing in the extracted data.Mello, Ronaldo dos SantosUniversidade Federal de Santa CatarinaSouza, Augusto Ferreira de2014-08-06T17:11:02Z2014-08-06T17:11:02Z2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis63 p.| il.application/pdf323922https://repositorio.ufsc.br/xmlui/handle/123456789/122641porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2014-08-06T17:11:02Zoai:repositorio.ufsc.br:123456789/122641Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732014-08-06T17:11:02Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
title DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
spellingShingle DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
Souza, Augusto Ferreira de
Informatica
Computação
Mineração de dados (Computação)
Banco de dados
title_short DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
title_full DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
title_fullStr DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
title_full_unstemmed DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
title_sort DeepEC: uma abordagem para extração e catalogação de conteúdo presente na Deep Web
author Souza, Augusto Ferreira de
author_facet Souza, Augusto Ferreira de
author_role author
dc.contributor.none.fl_str_mv Mello, Ronaldo dos Santos
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Souza, Augusto Ferreira de
dc.subject.por.fl_str_mv Informatica
Computação
Mineração de dados (Computação)
Banco de dados
topic Informatica
Computação
Mineração de dados (Computação)
Banco de dados
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2013.
publishDate 2013
dc.date.none.fl_str_mv 2013
2014-08-06T17:11:02Z
2014-08-06T17:11:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 323922
https://repositorio.ufsc.br/xmlui/handle/123456789/122641
identifier_str_mv 323922
url https://repositorio.ufsc.br/xmlui/handle/123456789/122641
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 63 p.| il.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652024457199617