Distância de edição de árvores aplicada à extração de dados da web
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/RVMR-6EAG8V |
Resumo: | A World Wide Web é hoje um dos maiores repositório de informação existentes e bilhões de páginas web, tratando dos mais variados tópicos, estão ao alcance de pessoas das mais diferentes nacionalidades. Esse conteúdo, porém, é formatado para o consumo humano, e agentes computacionais têm grande dificuldade em acessar e manipular os dados contidos nas páginas da Web. Uma das opções para se contornar esse problema é escrever manualmente extratores para todas as páginas web das quais se deseja extrair dados e,portanto, torná-las adequadas para o consumo por agentes computacionais. Porém, mesmo com o advento de novas ferramentas para geração semi-automática desses extratores, ainda assim não é possível fazer a extração de dados de um grande volume de páginas web, pois, dada a necessidade da intervenção humana, essas ferramentas têm escalabilidade limitada. Esta dissertação apresenta uma nova estratégia para construção de sistemas de extração da dados da Web. Os sistemas criados a partir da estratégia proposta são completamente automáticos e podem ser usados para extração de grandes quantidades de páginas. Em nossos experimentos, realizamos a extração, de forma completamente automática, das notícias de 35 dos principais veículos de comunicação brasileiros, totalizando 4088 páginas, e atingimos um grau de precisão de 87,71%.A chave para obtenção desse resultado é o uso da técnica de distância de edição árvores. Uma vez que páginas Web são árvores serializadas, pode-se usar essa técnica para obter as variações entre as páginas e, então, extrair os dados contidos nestas páginas. Além de uma revisão extensiva do problema de distância de edição em árvores, esta dissertação apresenta um novo algoritmo para o problema. O algoritmo, denominado Restricted Top-Down Mapping, ou simplesmente RTDM, é descrito em detalhes, incluindo pseudo-código, estudo dos limites assintóticos e análise empírica, o que nos levou a conclusão que oalgoritmo supera todos os outros algoritmos, com aplicações a extração de dados da Web, existentes na literatura. |
id |
UFMG_0af4eb37b71d1b928fddc4847317327a |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/RVMR-6EAG8V |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Alberto Henrique Frade LaenderAltigran Soares da SilvaCaetano Traina JúniorMarcos André GonçalvesDavi de Castro Reis2019-08-11T18:00:59Z2019-08-11T18:00:59Z2005-04-29http://hdl.handle.net/1843/RVMR-6EAG8VA World Wide Web é hoje um dos maiores repositório de informação existentes e bilhões de páginas web, tratando dos mais variados tópicos, estão ao alcance de pessoas das mais diferentes nacionalidades. Esse conteúdo, porém, é formatado para o consumo humano, e agentes computacionais têm grande dificuldade em acessar e manipular os dados contidos nas páginas da Web. Uma das opções para se contornar esse problema é escrever manualmente extratores para todas as páginas web das quais se deseja extrair dados e,portanto, torná-las adequadas para o consumo por agentes computacionais. Porém, mesmo com o advento de novas ferramentas para geração semi-automática desses extratores, ainda assim não é possível fazer a extração de dados de um grande volume de páginas web, pois, dada a necessidade da intervenção humana, essas ferramentas têm escalabilidade limitada. Esta dissertação apresenta uma nova estratégia para construção de sistemas de extração da dados da Web. Os sistemas criados a partir da estratégia proposta são completamente automáticos e podem ser usados para extração de grandes quantidades de páginas. Em nossos experimentos, realizamos a extração, de forma completamente automática, das notícias de 35 dos principais veículos de comunicação brasileiros, totalizando 4088 páginas, e atingimos um grau de precisão de 87,71%.A chave para obtenção desse resultado é o uso da técnica de distância de edição árvores. Uma vez que páginas Web são árvores serializadas, pode-se usar essa técnica para obter as variações entre as páginas e, então, extrair os dados contidos nestas páginas. Além de uma revisão extensiva do problema de distância de edição em árvores, esta dissertação apresenta um novo algoritmo para o problema. O algoritmo, denominado Restricted Top-Down Mapping, ou simplesmente RTDM, é descrito em detalhes, incluindo pseudo-código, estudo dos limites assintóticos e análise empírica, o que nos levou a conclusão que oalgoritmo supera todos os outros algoritmos, com aplicações a extração de dados da Web, existentes na literatura.The World Wide Web is the largest information repository nowadays, with billions of pages, dealing with several topics, available to people of different nationalities. The content of these pages, however, is formatted for human consumption, and computer agents have a lot of difficulties to access and manipulate the data in these web pages. One of the options to circumnvent this problem is to write, manually, extractors for all web pages one is interested in, and, therefore, make them suitable for computer agents. Recently, new semi-automatic extractor generation tools have been developed, but, even with these tools, it is still not possible to extract data from a large collection of web pages, due to the need of human intervention.This dissertation presents a new strategy for the construction of web data extraction systems. The systems created using the proposed strategy are completely automatic and can be used for large extractions tasks. In our experiments, we extracted in a completely automatic fashion, the news found in the pages of 35 of the main Brazilian media vehicles present on the Web, summing up a total of 4088 pages, with correctness precision of 87.71%. The key to achieve this result is the use of the tree edit distance technique. Given that web pages are serialized trees, we can use this technique to find the differences between the trees and, then, extract the data from the pages. Besides an extensive revision of the tree edit distance problem, this dissertation presents a new algorithm for the problem. The algorithm, named Restricted Top-Down Mapping, or simply RTDM, is described in details, including pseudo-code, assyntotical limits and empirical analysis, which led to the conclusion that this algorithm surpasses all other algorithms, with applications to web data extraction, available in the literature.Universidade Federal de Minas GeraisUFMGWorld Wide Web (Sistema de recuperação da informação)ComputaçãoSistemas de recuperação da informaçãoMineração de dados (Computação)extração de dados da webDistância de edição de árvores aplicada à extração de dados da webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese.pdfapplication/pdf1488082https://repositorio.ufmg.br/bitstream/1843/RVMR-6EAG8V/1/tese.pdf73d6223ddd0b3b780ef3d73fbdf584d9MD51TEXTtese.pdf.txttese.pdf.txtExtracted texttext/plain125360https://repositorio.ufmg.br/bitstream/1843/RVMR-6EAG8V/2/tese.pdf.txt14f09d37208a280ed130dcd8656d852aMD521843/RVMR-6EAG8V2019-11-14 08:32:52.941oai:repositorio.ufmg.br:1843/RVMR-6EAG8VRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T11:32:52Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Distância de edição de árvores aplicada à extração de dados da web |
title |
Distância de edição de árvores aplicada à extração de dados da web |
spellingShingle |
Distância de edição de árvores aplicada à extração de dados da web Davi de Castro Reis extração de dados da web World Wide Web (Sistema de recuperação da informação) Computação Sistemas de recuperação da informação Mineração de dados (Computação) |
title_short |
Distância de edição de árvores aplicada à extração de dados da web |
title_full |
Distância de edição de árvores aplicada à extração de dados da web |
title_fullStr |
Distância de edição de árvores aplicada à extração de dados da web |
title_full_unstemmed |
Distância de edição de árvores aplicada à extração de dados da web |
title_sort |
Distância de edição de árvores aplicada à extração de dados da web |
author |
Davi de Castro Reis |
author_facet |
Davi de Castro Reis |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Alberto Henrique Frade Laender |
dc.contributor.advisor-co1.fl_str_mv |
Altigran Soares da Silva |
dc.contributor.referee1.fl_str_mv |
Caetano Traina Júnior |
dc.contributor.referee2.fl_str_mv |
Marcos André Gonçalves |
dc.contributor.author.fl_str_mv |
Davi de Castro Reis |
contributor_str_mv |
Alberto Henrique Frade Laender Altigran Soares da Silva Caetano Traina Júnior Marcos André Gonçalves |
dc.subject.por.fl_str_mv |
extração de dados da web |
topic |
extração de dados da web World Wide Web (Sistema de recuperação da informação) Computação Sistemas de recuperação da informação Mineração de dados (Computação) |
dc.subject.other.pt_BR.fl_str_mv |
World Wide Web (Sistema de recuperação da informação) Computação Sistemas de recuperação da informação Mineração de dados (Computação) |
description |
A World Wide Web é hoje um dos maiores repositório de informação existentes e bilhões de páginas web, tratando dos mais variados tópicos, estão ao alcance de pessoas das mais diferentes nacionalidades. Esse conteúdo, porém, é formatado para o consumo humano, e agentes computacionais têm grande dificuldade em acessar e manipular os dados contidos nas páginas da Web. Uma das opções para se contornar esse problema é escrever manualmente extratores para todas as páginas web das quais se deseja extrair dados e,portanto, torná-las adequadas para o consumo por agentes computacionais. Porém, mesmo com o advento de novas ferramentas para geração semi-automática desses extratores, ainda assim não é possível fazer a extração de dados de um grande volume de páginas web, pois, dada a necessidade da intervenção humana, essas ferramentas têm escalabilidade limitada. Esta dissertação apresenta uma nova estratégia para construção de sistemas de extração da dados da Web. Os sistemas criados a partir da estratégia proposta são completamente automáticos e podem ser usados para extração de grandes quantidades de páginas. Em nossos experimentos, realizamos a extração, de forma completamente automática, das notícias de 35 dos principais veículos de comunicação brasileiros, totalizando 4088 páginas, e atingimos um grau de precisão de 87,71%.A chave para obtenção desse resultado é o uso da técnica de distância de edição árvores. Uma vez que páginas Web são árvores serializadas, pode-se usar essa técnica para obter as variações entre as páginas e, então, extrair os dados contidos nestas páginas. Além de uma revisão extensiva do problema de distância de edição em árvores, esta dissertação apresenta um novo algoritmo para o problema. O algoritmo, denominado Restricted Top-Down Mapping, ou simplesmente RTDM, é descrito em detalhes, incluindo pseudo-código, estudo dos limites assintóticos e análise empírica, o que nos levou a conclusão que oalgoritmo supera todos os outros algoritmos, com aplicações a extração de dados da Web, existentes na literatura. |
publishDate |
2005 |
dc.date.issued.fl_str_mv |
2005-04-29 |
dc.date.accessioned.fl_str_mv |
2019-08-11T18:00:59Z |
dc.date.available.fl_str_mv |
2019-08-11T18:00:59Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/RVMR-6EAG8V |
url |
http://hdl.handle.net/1843/RVMR-6EAG8V |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/RVMR-6EAG8V/1/tese.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-6EAG8V/2/tese.pdf.txt |
bitstream.checksum.fl_str_mv |
73d6223ddd0b3b780ef3d73fbdf584d9 14f09d37208a280ed130dcd8656d852a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589259618156544 |