Um modelo para prototipagem rápida de aplicações de mineração na web

Alvaro Rodrigues Pereira Junior

Um modelo para prototipagem rápida de aplicações de mineração na web

Detalhes bibliográficos
Autor(a) principal:	Alvaro Rodrigues Pereira Junior
Data de Publicação:	2008
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/RVMR-7P8NTM
Resumo:	Mineração Web pode ser vista como o processo de encontrarpadrões na Web por meio de técnicas de mineração de dados.Mineração Web é uma tarefa computacionalmente intensiva, e amaioria dos softwares de mineração são desenvolvidosisoladamente, o que torna escalabilidade e reusabilidadedifícil para outras tarefas de mineração. Mineração Web é umprocesso iterativo onde prototipagem tem um papel essencialpara experimentar com diferentes alternativas, bem como paraincorporar o conhecimento adquirido em iterações anteriores doprocesso. O objetivo desta tese é o desenvolvimento de ummodelo para prototipagem rápida em mineração Web, chamado WIM -Web Information Mining. A principal motivação para desenvolvero WIM é o fato de que seu modelo conceitual provê os seususuários com um nível de abstração apropriado para prototipageme experimentação durante a tarefa de mineração.WIM é composto de um modelo de dados e de uma álgebra. O modelode dados WIM é uma visão relacional dos dados Web. Os trêstipos de dados existentes na Web, chamados de conteúdo, deestrutura e dados de uso, são representados por relações. Osprincipais componentes de entrada do modelo de dados WIM são aspáginas Web, a estrutura de hiperlinks que interliga as páginasWeb, e os históricos (logs) de consultas obtidos de máquinas debusca da Web. A programação WIM é baseada em fluxos de dados(dataflows), onde sequências de operações são aplicadas àsrelações. As operações são definidas pela álgebra WIM, quecontém operadores para manipulação de dados e para mineração dedados. WIM está implementado contendo uma linguagem deprogramação declarativa provida por sua álgebra. A arquiteturado software WIM é apresentada, juntamente com suas questões deimplementação, e projetos de arquiteturas alternativas sãodiscutidos, sobre o qual uma versão futura do software WIM paraescala industrial poderia ser implementada.WIM é aplicado a um conjunto de cinco casos de uso reais emmineração Web, como uma maneira de demonstrar os recursos doWIM. O principal caso de uso, chamado Árvores Genealógicas naWeb, é um estudo de como o conteúdo da Web evolui com o tempo.Esse caso de uso foi escolhido para realização de uma análisecompleta dos resultados, os quais apresentam evidências de queparte dos usuários editores de conteúdo na Web realizamconsultas em máquinas de busca para encontrar conteúdo e entãorepublicar o que foi encontrado como resultado de consulta. Aconclusão é que máquinas de busca influenciam o conteúdo daWeb. A experimentação do WIM nos cinco casos de uso mostrou queo seu uso facilita significantemente a prototipagem rápida emmineração Web. O uso experimental da linguagem de programaçãoWIM mostrou que ela reduz o tamanho do código escrito para umaaplicação em ordens de magnitude, quando comparada comimplementações isoladas.

Metadados do item

id	UFMG_b030511807656226e523afd208c95616
oai_identifier_str	oai:repositorio.ufmg.br:1843/RVMR-7P8NTM
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Ricardo Baeza-yatesNivio ZivianiCarlos Alberto HeuserMariano P ConsensAlberto Henrique Frade LaenderClodoveu Augusto Davis JuniorAlvaro Rodrigues Pereira Junior2019-08-10T16:44:10Z2019-08-10T16:44:10Z2008-10-31http://hdl.handle.net/1843/RVMR-7P8NTMMineração Web pode ser vista como o processo de encontrarpadrões na Web por meio de técnicas de mineração de dados.Mineração Web é uma tarefa computacionalmente intensiva, e amaioria dos softwares de mineração são desenvolvidosisoladamente, o que torna escalabilidade e reusabilidadedifícil para outras tarefas de mineração. Mineração Web é umprocesso iterativo onde prototipagem tem um papel essencialpara experimentar com diferentes alternativas, bem como paraincorporar o conhecimento adquirido em iterações anteriores doprocesso. O objetivo desta tese é o desenvolvimento de ummodelo para prototipagem rápida em mineração Web, chamado WIM -Web Information Mining. A principal motivação para desenvolvero WIM é o fato de que seu modelo conceitual provê os seususuários com um nível de abstração apropriado para prototipageme experimentação durante a tarefa de mineração.WIM é composto de um modelo de dados e de uma álgebra. O modelode dados WIM é uma visão relacional dos dados Web. Os trêstipos de dados existentes na Web, chamados de conteúdo, deestrutura e dados de uso, são representados por relações. Osprincipais componentes de entrada do modelo de dados WIM são aspáginas Web, a estrutura de hiperlinks que interliga as páginasWeb, e os históricos (logs) de consultas obtidos de máquinas debusca da Web. A programação WIM é baseada em fluxos de dados(dataflows), onde sequências de operações são aplicadas àsrelações. As operações são definidas pela álgebra WIM, quecontém operadores para manipulação de dados e para mineração dedados. WIM está implementado contendo uma linguagem deprogramação declarativa provida por sua álgebra. A arquiteturado software WIM é apresentada, juntamente com suas questões deimplementação, e projetos de arquiteturas alternativas sãodiscutidos, sobre o qual uma versão futura do software WIM paraescala industrial poderia ser implementada.WIM é aplicado a um conjunto de cinco casos de uso reais emmineração Web, como uma maneira de demonstrar os recursos doWIM. O principal caso de uso, chamado Árvores Genealógicas naWeb, é um estudo de como o conteúdo da Web evolui com o tempo.Esse caso de uso foi escolhido para realização de uma análisecompleta dos resultados, os quais apresentam evidências de queparte dos usuários editores de conteúdo na Web realizamconsultas em máquinas de busca para encontrar conteúdo e entãorepublicar o que foi encontrado como resultado de consulta. Aconclusão é que máquinas de busca influenciam o conteúdo daWeb. A experimentação do WIM nos cinco casos de uso mostrou queo seu uso facilita significantemente a prototipagem rápida emmineração Web. O uso experimental da linguagem de programaçãoWIM mostrou que ela reduz o tamanho do código escrito para umaaplicação em ordens de magnitude, quando comparada comimplementações isoladas.Web mining can be seen as the process of discovering patterns from the Web by means of data mining techniques. Web mining is a computation-intensive task and most mining software is developed ad-hoc, which makes scalability and reusability difficult for other mining tasks. Web mining is an iterative process and prototyping plays an essential role in experimenting with different alternatives, as well as in incorporating knowledge acquired in previous iterations of the process. The objective of this thesis is the development of a model for fast Web mining prototyping, referred to as WIM -- Web Information Mining. The main motivation for developing the WIM model is the fact that its underlying conceptual model provides its users with a level of abstraction appropriate for prototyping and experimentation during the Web mining task. WIM is composed of a data model and an algebra. The WIM data model is a relational view of Web data. The three types of existing Web data, namely Web content, Web structure and Web usage, are represented by relations. The main input components for the WIM data model are the Web pages, the hyperlink structure linking Web pages and the query logs obtained from Web search engines. WIM is implemented with a declarative programming language provided by its algebra. The WIM programming language is based on dataflows, where sequences of operations are applied to relations. The operations are defined by the WIM algebra, which contains operators for data manipulation and for data mining. We present the WIM softwarearchitecture, its implementation issues, and discuss alternative architecture designs on which a forthcomingindustrial-scale WIM software version could be implemented.We have applied WIM to a set of five real Web mining use cases, as a means to demonstrate the WIM features. The main use case,called Genealogical Trees on the Web, is a study of how Web content evolves in time. We have elected this use case to perform a complete analysis of its results, which present evidence that some Web publishers actually performed queries using search engines in order to find content and then republish what was found as answer to the query. The conclusion is that search engines bias the content of the Web. Theexperimentation of WIM in five real use cases has been shown to significantly facilitate fast Web mining prototyping.Experimental use of the WIM programming language has shown thatit reduces the code size written for an application by orders of magnitude when compared with ad-hoc implementations.Universidade Federal de Minas GeraisUFMGWorld Wide Web (Sistema de recuperação da informação)ComputaçãoMineração de dados (Computação)Banco de dados da Webwebmineração de dadosUm modelo para prototipagem rápida de aplicações de mineração na webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALalvarorodriguespereirajunior.pdfapplication/pdf4627190https://repositorio.ufmg.br/bitstream/1843/RVMR-7P8NTM/1/alvarorodriguespereirajunior.pdf9d8aeb2d811f606239483ec3b0a1fd5fMD51TEXTalvarorodriguespereirajunior.pdf.txtalvarorodriguespereirajunior.pdf.txtExtracted texttext/plain330918https://repositorio.ufmg.br/bitstream/1843/RVMR-7P8NTM/2/alvarorodriguespereirajunior.pdf.txt14b96a6a52e1c3c08be6be54281a759fMD521843/RVMR-7P8NTM2019-11-14 07:11:52.76oai:repositorio.ufmg.br:1843/RVMR-7P8NTMRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T10:11:52Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Um modelo para prototipagem rápida de aplicações de mineração na web
title	Um modelo para prototipagem rápida de aplicações de mineração na web
spellingShingle	Um modelo para prototipagem rápida de aplicações de mineração na web Alvaro Rodrigues Pereira Junior web mineração de dados World Wide Web (Sistema de recuperação da informação) Computação Mineração de dados (Computação) Banco de dados da Web
title_short	Um modelo para prototipagem rápida de aplicações de mineração na web
title_full	Um modelo para prototipagem rápida de aplicações de mineração na web
title_fullStr	Um modelo para prototipagem rápida de aplicações de mineração na web
title_full_unstemmed	Um modelo para prototipagem rápida de aplicações de mineração na web
title_sort	Um modelo para prototipagem rápida de aplicações de mineração na web
author	Alvaro Rodrigues Pereira Junior
author_facet	Alvaro Rodrigues Pereira Junior
author_role	author
dc.contributor.advisor1.fl_str_mv	Ricardo Baeza-yates
dc.contributor.advisor-co1.fl_str_mv	Nivio Ziviani
dc.contributor.referee1.fl_str_mv	Carlos Alberto Heuser
dc.contributor.referee2.fl_str_mv	Mariano P Consens
dc.contributor.referee3.fl_str_mv	Alberto Henrique Frade Laender
dc.contributor.referee4.fl_str_mv	Clodoveu Augusto Davis Junior
dc.contributor.author.fl_str_mv	Alvaro Rodrigues Pereira Junior
contributor_str_mv	Ricardo Baeza-yates Nivio Ziviani Carlos Alberto Heuser Mariano P Consens Alberto Henrique Frade Laender Clodoveu Augusto Davis Junior
dc.subject.por.fl_str_mv	web mineração de dados
topic	web mineração de dados World Wide Web (Sistema de recuperação da informação) Computação Mineração de dados (Computação) Banco de dados da Web
dc.subject.other.pt_BR.fl_str_mv	World Wide Web (Sistema de recuperação da informação) Computação Mineração de dados (Computação) Banco de dados da Web
description	Mineração Web pode ser vista como o processo de encontrarpadrões na Web por meio de técnicas de mineração de dados.Mineração Web é uma tarefa computacionalmente intensiva, e amaioria dos softwares de mineração são desenvolvidosisoladamente, o que torna escalabilidade e reusabilidadedifícil para outras tarefas de mineração. Mineração Web é umprocesso iterativo onde prototipagem tem um papel essencialpara experimentar com diferentes alternativas, bem como paraincorporar o conhecimento adquirido em iterações anteriores doprocesso. O objetivo desta tese é o desenvolvimento de ummodelo para prototipagem rápida em mineração Web, chamado WIM -Web Information Mining. A principal motivação para desenvolvero WIM é o fato de que seu modelo conceitual provê os seususuários com um nível de abstração apropriado para prototipageme experimentação durante a tarefa de mineração.WIM é composto de um modelo de dados e de uma álgebra. O modelode dados WIM é uma visão relacional dos dados Web. Os trêstipos de dados existentes na Web, chamados de conteúdo, deestrutura e dados de uso, são representados por relações. Osprincipais componentes de entrada do modelo de dados WIM são aspáginas Web, a estrutura de hiperlinks que interliga as páginasWeb, e os históricos (logs) de consultas obtidos de máquinas debusca da Web. A programação WIM é baseada em fluxos de dados(dataflows), onde sequências de operações são aplicadas àsrelações. As operações são definidas pela álgebra WIM, quecontém operadores para manipulação de dados e para mineração dedados. WIM está implementado contendo uma linguagem deprogramação declarativa provida por sua álgebra. A arquiteturado software WIM é apresentada, juntamente com suas questões deimplementação, e projetos de arquiteturas alternativas sãodiscutidos, sobre o qual uma versão futura do software WIM paraescala industrial poderia ser implementada.WIM é aplicado a um conjunto de cinco casos de uso reais emmineração Web, como uma maneira de demonstrar os recursos doWIM. O principal caso de uso, chamado Árvores Genealógicas naWeb, é um estudo de como o conteúdo da Web evolui com o tempo.Esse caso de uso foi escolhido para realização de uma análisecompleta dos resultados, os quais apresentam evidências de queparte dos usuários editores de conteúdo na Web realizamconsultas em máquinas de busca para encontrar conteúdo e entãorepublicar o que foi encontrado como resultado de consulta. Aconclusão é que máquinas de busca influenciam o conteúdo daWeb. A experimentação do WIM nos cinco casos de uso mostrou queo seu uso facilita significantemente a prototipagem rápida emmineração Web. O uso experimental da linguagem de programaçãoWIM mostrou que ela reduz o tamanho do código escrito para umaaplicação em ordens de magnitude, quando comparada comimplementações isoladas.
publishDate	2008
dc.date.issued.fl_str_mv	2008-10-31
dc.date.accessioned.fl_str_mv	2019-08-10T16:44:10Z
dc.date.available.fl_str_mv	2019-08-10T16:44:10Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/RVMR-7P8NTM
url	http://hdl.handle.net/1843/RVMR-7P8NTM
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/RVMR-7P8NTM/1/alvarorodriguespereirajunior.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-7P8NTM/2/alvarorodriguespereirajunior.pdf.txt
bitstream.checksum.fl_str_mv	9d8aeb2d811f606239483ec3b0a1fd5f 14b96a6a52e1c3c08be6be54281a759f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1797971004189835264

Um modelo para prototipagem rápida de aplicações de mineração na web

Registros relacionados