Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web

Detalhes bibliográficos
Autor(a) principal: Marcelo Dias Correa
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/RVMR-7KXND4
Resumo: A crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.
id UFMG_d54afc40f79e5da694af771772fd6e8c
oai_identifier_str oai:repositorio.ufmg.br:1843/RVMR-7KXND4
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Alberto Henrique Frade LaenderAltigran Soares da SilvaWagner Meira JuniorMarcelo Dias Correa2019-08-09T15:13:20Z2019-08-09T15:13:20Z2008-03-28http://hdl.handle.net/1843/RVMR-7KXND4A crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.The increasing demand for valuable information to be used in the analysis and decision-making processes favors the development of tools and methods that automate the extraction and treatment of web data. The rise in Web's popularity has given place for an enormous quantity of documents widely spread over the Web. The centralization of the data is important because it reduces the efforts on retrieving the useful information from the vast repositories, allowing the efforts to focus more on the analysis and decision-making processes rather than lower-level data-handling techniques. In many cases the interest resides in an effective way to search for information rather than visiting unstructured web pages hoping to find the right data.The motivation for this work started from the need to create a process that would permit the collection of web pages containing the desired user data and the extraction of the data based on a relational representation previously configured. The resulting relational database could be analyzed and manipulated according to the needs of many applications. In this context it was designed Web2DB, a tool that, giving a model for a web site, permits the configuration and execution of page data collection and then the extraction of the data to a database. The user can customize the types of pages to be collected, the extraction interest data and the way which the database will be populated. The tool also permits the generation of views so the extracted data can the visualized in the most convenient way.The tool uses the example-based data extraction strategy. The user participation in the process-mapping phase is intended to aggregate value from the business model into the process. The following activities after the mapping phase are done automatically by the tool. This is a practical approach to the data extraction problem aiming the analysis of a vast diffuse data spread on web sites. The tool is suitable for relational representations of big web sites and, for being customizable, can be applied in most electronic sites that meet a list of requisites for the extraction.Universidade Federal de Minas GeraisUFMGBanco de dados relacionaisWorld Wide Web (Sistema de recuperação da informação)Recuperação de dados (Computação)ComputaçãowebRepresentações relacionaisRecuperação de dadosWeb2DB : uma ferramenta para a construção de representações relacionais de sitios da webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertacao_marcelodias_correa.pdfapplication/pdf1860414https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/1/dissertacao_marcelodias_correa.pdfc88d57b291cc68e2cd9e779169778292MD51TEXTdissertacao_marcelodias_correa.pdf.txtdissertacao_marcelodias_correa.pdf.txtExtracted texttext/plain142199https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/2/dissertacao_marcelodias_correa.pdf.txtc02d50293f0c4f43569ec0b19ca0c4ecMD521843/RVMR-7KXND42019-11-14 04:35:46.244oai:repositorio.ufmg.br:1843/RVMR-7KXND4Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:35:46Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
spellingShingle Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
Marcelo Dias Correa
web
Representações relacionais
Recuperação de dados
Banco de dados relacionais
World Wide Web (Sistema de recuperação da informação)
Recuperação de dados (Computação)
Computação
title_short Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_full Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_fullStr Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_full_unstemmed Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_sort Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
author Marcelo Dias Correa
author_facet Marcelo Dias Correa
author_role author
dc.contributor.advisor1.fl_str_mv Alberto Henrique Frade Laender
dc.contributor.referee1.fl_str_mv Altigran Soares da Silva
dc.contributor.referee2.fl_str_mv Wagner Meira Junior
dc.contributor.author.fl_str_mv Marcelo Dias Correa
contributor_str_mv Alberto Henrique Frade Laender
Altigran Soares da Silva
Wagner Meira Junior
dc.subject.por.fl_str_mv web
Representações relacionais
Recuperação de dados
topic web
Representações relacionais
Recuperação de dados
Banco de dados relacionais
World Wide Web (Sistema de recuperação da informação)
Recuperação de dados (Computação)
Computação
dc.subject.other.pt_BR.fl_str_mv Banco de dados relacionais
World Wide Web (Sistema de recuperação da informação)
Recuperação de dados (Computação)
Computação
description A crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.
publishDate 2008
dc.date.issued.fl_str_mv 2008-03-28
dc.date.accessioned.fl_str_mv 2019-08-09T15:13:20Z
dc.date.available.fl_str_mv 2019-08-09T15:13:20Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/RVMR-7KXND4
url http://hdl.handle.net/1843/RVMR-7KXND4
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/1/dissertacao_marcelodias_correa.pdf
https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/2/dissertacao_marcelodias_correa.pdf.txt
bitstream.checksum.fl_str_mv c88d57b291cc68e2cd9e779169778292
c02d50293f0c4f43569ec0b19ca0c4ec
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1801676892812607488