Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web

Marcelo Dias Correa

Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web

Detalhes bibliográficos
Autor(a) principal:	Marcelo Dias Correa
Data de Publicação:	2008
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/RVMR-7KXND4
Resumo:	A crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.

Metadados do item

id	UFMG_d54afc40f79e5da694af771772fd6e8c
oai_identifier_str	oai:repositorio.ufmg.br:1843/RVMR-7KXND4
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Alberto Henrique Frade LaenderAltigran Soares da SilvaWagner Meira JuniorMarcelo Dias Correa2019-08-09T15:13:20Z2019-08-09T15:13:20Z2008-03-28http://hdl.handle.net/1843/RVMR-7KXND4A crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.The increasing demand for valuable information to be used in the analysis and decision-making processes favors the development of tools and methods that automate the extraction and treatment of web data. The rise in Web's popularity has given place for an enormous quantity of documents widely spread over the Web. The centralization of the data is important because it reduces the efforts on retrieving the useful information from the vast repositories, allowing the efforts to focus more on the analysis and decision-making processes rather than lower-level data-handling techniques. In many cases the interest resides in an effective way to search for information rather than visiting unstructured web pages hoping to find the right data.The motivation for this work started from the need to create a process that would permit the collection of web pages containing the desired user data and the extraction of the data based on a relational representation previously configured. The resulting relational database could be analyzed and manipulated according to the needs of many applications. In this context it was designed Web2DB, a tool that, giving a model for a web site, permits the configuration and execution of page data collection and then the extraction of the data to a database. The user can customize the types of pages to be collected, the extraction interest data and the way which the database will be populated. The tool also permits the generation of views so the extracted data can the visualized in the most convenient way.The tool uses the example-based data extraction strategy. The user participation in the process-mapping phase is intended to aggregate value from the business model into the process. The following activities after the mapping phase are done automatically by the tool. This is a practical approach to the data extraction problem aiming the analysis of a vast diffuse data spread on web sites. The tool is suitable for relational representations of big web sites and, for being customizable, can be applied in most electronic sites that meet a list of requisites for the extraction.Universidade Federal de Minas GeraisUFMGBanco de dados relacionaisWorld Wide Web (Sistema de recuperação da informação)Recuperação de dados (Computação)ComputaçãowebRepresentações relacionaisRecuperação de dadosWeb2DB : uma ferramenta para a construção de representações relacionais de sitios da webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertacao_marcelodias_correa.pdfapplication/pdf1860414https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/1/dissertacao_marcelodias_correa.pdfc88d57b291cc68e2cd9e779169778292MD51TEXTdissertacao_marcelodias_correa.pdf.txtdissertacao_marcelodias_correa.pdf.txtExtracted texttext/plain142199https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/2/dissertacao_marcelodias_correa.pdf.txtc02d50293f0c4f43569ec0b19ca0c4ecMD521843/RVMR-7KXND42019-11-14 04:35:46.244oai:repositorio.ufmg.br:1843/RVMR-7KXND4Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T07:35:46Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
spellingShingle	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web Marcelo Dias Correa web Representações relacionais Recuperação de dados Banco de dados relacionais World Wide Web (Sistema de recuperação da informação) Recuperação de dados (Computação) Computação
title_short	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_full	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_fullStr	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_full_unstemmed	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
title_sort	Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web
author	Marcelo Dias Correa
author_facet	Marcelo Dias Correa
author_role	author
dc.contributor.advisor1.fl_str_mv	Alberto Henrique Frade Laender
dc.contributor.referee1.fl_str_mv	Altigran Soares da Silva
dc.contributor.referee2.fl_str_mv	Wagner Meira Junior
dc.contributor.author.fl_str_mv	Marcelo Dias Correa
contributor_str_mv	Alberto Henrique Frade Laender Altigran Soares da Silva Wagner Meira Junior
dc.subject.por.fl_str_mv	web Representações relacionais Recuperação de dados
topic	web Representações relacionais Recuperação de dados Banco de dados relacionais World Wide Web (Sistema de recuperação da informação) Recuperação de dados (Computação) Computação
dc.subject.other.pt_BR.fl_str_mv	Banco de dados relacionais World Wide Web (Sistema de recuperação da informação) Recuperação de dados (Computação) Computação
description	A crescente demanda por informação de qualidade, para análise e tomada de decisão, favorece o crescimento de ferramentas e métodos de automação do processo de extração e tratamento de dados da Web. O advento da Web trouxe consigo uma infindável quantidade de documentos e dados que se encontram difusos na Web. A centralização desses dados é de suma importância, pois reduz esforços na obtenção de dados de grandes repositórios, permitindo que esses esforços sejam dispendidos na análise e tomada de decisão, ou seja, retirar informação dos dados. Em muitos casos o interesse reside em uma forma efetiva de buscar informação ao invés de navegar por páginas da Web procurando dados de interesse, que muitas vezes não estão estruturados da melhor forma.A motivação para este trabalho surgiu da necessidade de se criar um processo que permita a coleta de páginas contendo dados de interesse e efetue a extração desses dados a partir de uma representação relacional previamente criada pelo usuário. O banco de dados relacional gerado como resultado desse processo permite que dados contidos na Web possam ser analisados e manipulados de acordo com as necessidades de uma determinada aplicação. Neste contexto foi desenvolvida a Web2DB, uma ferramenta que, a partir da modelagem de um sítio eletrônico da Web, permite o planejamento e execução da coleta das páginas e posteriormente a extração dos dados, armazenando-os em um banco de dados relacional. O usuário configura os tipos de página a serem coletados, os dados de interesse para a extração e a forma de carregamento dos dados no banco de dados. A ferramenta permite ainda a geração de visões para que os dados extraídos das páginas possam ser visualizados de forma mais aderente às necessidades dos usuários da ferramenta.É utilizada uma estratégia de extração dos dados baseada em exemplos. O foco na participação do usuário, nas fases de mapeamento do processo como um todo, visa agregar valor com o conhecimento do negócio envolvido. O restante das atividades é feita de forma automática. Trata-se de uma nova abordagem prática para o problema de extração de dados da Web, quando o objetivo é a análise de uma grande massa de dados difusa em vários sítios eletrônicos na Web. A ferramenta permite a construção de representações relacionais de grandes sítios da Web e, por ser genérica, pode ser aplicada a qualquer sítio eletrônico que contemple os requsitos da ferramenta.
publishDate	2008
dc.date.issued.fl_str_mv	2008-03-28
dc.date.accessioned.fl_str_mv	2019-08-09T15:13:20Z
dc.date.available.fl_str_mv	2019-08-09T15:13:20Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/RVMR-7KXND4
url	http://hdl.handle.net/1843/RVMR-7KXND4
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/1/dissertacao_marcelodias_correa.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-7KXND4/2/dissertacao_marcelodias_correa.pdf.txt
bitstream.checksum.fl_str_mv	c88d57b291cc68e2cd9e779169778292 c02d50293f0c4f43569ec0b19ca0c4ec
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1801676892812607488

Web2DB : uma ferramenta para a construção de representações relacionais de sitios da web

Registros relacionados