Estratégias baseadas em exemplos para extração de dados semi-estruturados da web
Autor(a) principal: | |
---|---|
Data de Publicação: | 2002 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/SLBS-5KKKXX |
Resumo: | Neste trabalho, são propostas, implementadas e avaliadas estratégias e técnicas para o problema de extração de dados semi-estruturados de fontes de dados da Web, dentro do contexto de uma abordagem chamada DEByE (Data Extraction By Example). Os resultados obtidos com o trabalho foram usados na implementação de um ferramenta de extração de dados, também chamada DEByE, e tiveram sua eficácia verificada através de experimentação.A abordagem DEByE é dita semi-automática, no sentido em que o papel dos usuários (ou seja, dos desenvolvedores de extratores) é limitado ao fornecimento de exemplos dos dados a serem extraídos, o que os isola de ter que conhecer as características especifícas de formação das páginas alvo. Os exemplos fornecidos descrevem a estrutura dos objetos a serem extraídos por meio de tabelas aninhadas, as quais são simples, intuitivas e expressivas o suficiente para representar a estrutura dos dados normalmente presentes empáginas Web.Para lidar com variações típicas de objetos complexos semi-estruturados, estendemos o conceito original de tabelas aninhadas, relaxando a restrição original de que as tabelas aninhadas em uma mesma coluna devem todas ter a mesma estrutura interna.Com base nesta forma estendida de tabelas aninhadas, formalizamos o conceito de wrapper através de gramáticas tabulares. Tais gramáticas livres de contexto são compostas por produções que levam a árvores de parsing que podem ser diretamente mapeadas para tabelas aninhadas. Foram desenvolvidas estratégias para gerar gramáticas tabulares a partir de um conjunto de objetos de exemplo fornecidos por um usuário que os seleciona de uma página de amostra. O processo de geração inclui: (1) geração de produções terminais para extrair valores atômicos pertencentes a um domínio específico (por exemplo, uma descrição de um item, um preço, etc.) e (2) a geração de produções não-terminais que representam a estrutura de objetos complexos a serem extraídos.A extração dos dados das páginas alvo é feita através de um processo de parsing sobre estas páginas usando a gramática tabular. Para isso, desenvolvemos uma eficiente estratégia bottom-up, a qual envolve duas fases distintas: uma fase de extração, na qual os valores atômicos dos atributos são extraídos como base na informação de contexto local disponível nas produções de extração, e uma fase de montagem, na qual os valores atômicos extraídos são montados de acordo com a estrutura alvo fornecida pelo usuário através de exemplos e que está representada nas produções não terminais. A eficácia da estratégia bottom-up foi comprovada experimentalmente, em especial para tratar objetos complexosmulti-nível que apresentam variações estruturais. O principio geral utilizado pela estratégia bottom-up, ou seja, primeiro extrair valores atômicos e depois agrupar estes valores para montar objetos complexos, foi também explorado por um outro algoritmo que desenvolvemos chamado Hot Cycles. Este algoritmo temcomo objetivo descobrir estruturas tabulares plausíveis para montar objetos complexos com um conjunto de valores atômicos extraídos de uma página alvo. Ele é útil para o emprego da abordagem DEByE em aplicações onde não se pode depender do usuário para montar tabelas de exemplo. |
id |
UFMG_e4c2982745e17a3cd7677f0b99e4a0d1 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/SLBS-5KKKXX |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Alberto Henrique Frade LaenderBerthier Ribeiro de Araujo NetoNivio ZivianiCarlos Alberto HeuserMarco Antonio CasanovaAltigran Soares da Silva2019-08-09T21:53:21Z2019-08-09T21:53:21Z2002-06-21http://hdl.handle.net/1843/SLBS-5KKKXXNeste trabalho, são propostas, implementadas e avaliadas estratégias e técnicas para o problema de extração de dados semi-estruturados de fontes de dados da Web, dentro do contexto de uma abordagem chamada DEByE (Data Extraction By Example). Os resultados obtidos com o trabalho foram usados na implementação de um ferramenta de extração de dados, também chamada DEByE, e tiveram sua eficácia verificada através de experimentação.A abordagem DEByE é dita semi-automática, no sentido em que o papel dos usuários (ou seja, dos desenvolvedores de extratores) é limitado ao fornecimento de exemplos dos dados a serem extraídos, o que os isola de ter que conhecer as características especifícas de formação das páginas alvo. Os exemplos fornecidos descrevem a estrutura dos objetos a serem extraídos por meio de tabelas aninhadas, as quais são simples, intuitivas e expressivas o suficiente para representar a estrutura dos dados normalmente presentes empáginas Web.Para lidar com variações típicas de objetos complexos semi-estruturados, estendemos o conceito original de tabelas aninhadas, relaxando a restrição original de que as tabelas aninhadas em uma mesma coluna devem todas ter a mesma estrutura interna.Com base nesta forma estendida de tabelas aninhadas, formalizamos o conceito de wrapper através de gramáticas tabulares. Tais gramáticas livres de contexto são compostas por produções que levam a árvores de parsing que podem ser diretamente mapeadas para tabelas aninhadas. Foram desenvolvidas estratégias para gerar gramáticas tabulares a partir de um conjunto de objetos de exemplo fornecidos por um usuário que os seleciona de uma página de amostra. O processo de geração inclui: (1) geração de produções terminais para extrair valores atômicos pertencentes a um domínio específico (por exemplo, uma descrição de um item, um preço, etc.) e (2) a geração de produções não-terminais que representam a estrutura de objetos complexos a serem extraídos.A extração dos dados das páginas alvo é feita através de um processo de parsing sobre estas páginas usando a gramática tabular. Para isso, desenvolvemos uma eficiente estratégia bottom-up, a qual envolve duas fases distintas: uma fase de extração, na qual os valores atômicos dos atributos são extraídos como base na informação de contexto local disponível nas produções de extração, e uma fase de montagem, na qual os valores atômicos extraídos são montados de acordo com a estrutura alvo fornecida pelo usuário através de exemplos e que está representada nas produções não terminais. A eficácia da estratégia bottom-up foi comprovada experimentalmente, em especial para tratar objetos complexosmulti-nível que apresentam variações estruturais. O principio geral utilizado pela estratégia bottom-up, ou seja, primeiro extrair valores atômicos e depois agrupar estes valores para montar objetos complexos, foi também explorado por um outro algoritmo que desenvolvemos chamado Hot Cycles. Este algoritmo temcomo objetivo descobrir estruturas tabulares plausíveis para montar objetos complexos com um conjunto de valores atômicos extraídos de uma página alvo. Ele é útil para o emprego da abordagem DEByE em aplicações onde não se pode depender do usuário para montar tabelas de exemplo.In this work we propose, implement and evaluate strategies and techniques for the problem of extracting semistructured data fromWeb data sources within the context of an approach we call DEByE (Data Extraction By Example). The results we have reached have been used in the implementation of a data extraction tool,also called DEByE, and have their effectiveness verified through experiments.The DEByE approach is semi-automatic, in the sense that the role of users (i.e., wrapper developers) is limited to providing examples of the data to be extracted, what shields them from being aware of specific formatting features of the target pages. The examples provided describe the structure of theobjects being extracted by means of nested tables, which are simple and intuitive, and expressive enough to represent the structure of the data normally present in Web pages. To deal with typical variations of complexsemistructured objects, we have extended the original concept of nested tables by relaxing the original assumption that all inner tables nested in a column should have a same internal structure.Based on this extended form of nested tables, we formalize the concept of wrappers by means of tabular grammars. Such context-free grammars are formed by productions that lead to parse trees that can be directly mapped to nested tables. We have developed strategies for generating tabular grammars from a set of example objects provided by a user from a sample page. This includes: (1) the generation of terminal productions for extracting single values belonging to a specific domain (e.g., an item description, a price, etc.) and (2) the generation of non-terminal productions that represent the structure of the complex objects to be extracted.The extraction of data from target pages is accomplished by parsing these pages using a tabular grammar. For this, we have developed an eficient bottom-up strategy. This strategy includes two distinct phases: an extraction phase, in which atomic attribute values are extracted based on local context informationavailable in the extraction productions, and an assembling phase, in which such values are assembled to form complex objects according to the target structure supplied by the user through examples, which is encoded in the non-terminal productions. We experimentally demonstrate the effectiveness of thebottom-up strategy for dealing with multi-level objects presenting structural variations.The general principle used by the bottom-up algorithm, that is, first extracting atomic values and then grouping these values to assemble complex objects, has been further exploited by the Hot Cycles algorithm we have developed. This algorithm aims at uncovering a plausible tabular structure for assembling complex objects with a given set of atomic values extracted from a target page. This algorithm is useful for deploying the DEByE approach in applications where the user is not available for assembling example tables.Universidade Federal de Minas GeraisUFMGRecuperação de dados (Computação)Ferramentas ComputaçãoComputaçãoSistemas de recuperação da informaçãoextração de dadoswebEstratégias baseadas em exemplos para extração de dados semi-estruturados da webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALaltigransoaressilva.pdfapplication/pdf1933008https://repositorio.ufmg.br/bitstream/1843/SLBS-5KKKXX/1/altigransoaressilva.pdf3d04ca80ff08f81a218024578e5b449fMD51TEXTaltigransoaressilva.pdf.txtaltigransoaressilva.pdf.txtExtracted texttext/plain198506https://repositorio.ufmg.br/bitstream/1843/SLBS-5KKKXX/2/altigransoaressilva.pdf.txt44414f91e9769dcb15c953970c038acdMD521843/SLBS-5KKKXX2019-11-14 07:06:53.84oai:repositorio.ufmg.br:1843/SLBS-5KKKXXRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T10:06:53Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
title |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
spellingShingle |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web Altigran Soares da Silva extração de dados web Recuperação de dados (Computação) Ferramentas Computação Computação Sistemas de recuperação da informação |
title_short |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
title_full |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
title_fullStr |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
title_full_unstemmed |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
title_sort |
Estratégias baseadas em exemplos para extração de dados semi-estruturados da web |
author |
Altigran Soares da Silva |
author_facet |
Altigran Soares da Silva |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Alberto Henrique Frade Laender |
dc.contributor.advisor-co1.fl_str_mv |
Berthier Ribeiro de Araujo Neto |
dc.contributor.referee1.fl_str_mv |
Nivio Ziviani |
dc.contributor.referee2.fl_str_mv |
Carlos Alberto Heuser |
dc.contributor.referee3.fl_str_mv |
Marco Antonio Casanova |
dc.contributor.author.fl_str_mv |
Altigran Soares da Silva |
contributor_str_mv |
Alberto Henrique Frade Laender Berthier Ribeiro de Araujo Neto Nivio Ziviani Carlos Alberto Heuser Marco Antonio Casanova |
dc.subject.por.fl_str_mv |
extração de dados web |
topic |
extração de dados web Recuperação de dados (Computação) Ferramentas Computação Computação Sistemas de recuperação da informação |
dc.subject.other.pt_BR.fl_str_mv |
Recuperação de dados (Computação) Ferramentas Computação Computação Sistemas de recuperação da informação |
description |
Neste trabalho, são propostas, implementadas e avaliadas estratégias e técnicas para o problema de extração de dados semi-estruturados de fontes de dados da Web, dentro do contexto de uma abordagem chamada DEByE (Data Extraction By Example). Os resultados obtidos com o trabalho foram usados na implementação de um ferramenta de extração de dados, também chamada DEByE, e tiveram sua eficácia verificada através de experimentação.A abordagem DEByE é dita semi-automática, no sentido em que o papel dos usuários (ou seja, dos desenvolvedores de extratores) é limitado ao fornecimento de exemplos dos dados a serem extraídos, o que os isola de ter que conhecer as características especifícas de formação das páginas alvo. Os exemplos fornecidos descrevem a estrutura dos objetos a serem extraídos por meio de tabelas aninhadas, as quais são simples, intuitivas e expressivas o suficiente para representar a estrutura dos dados normalmente presentes empáginas Web.Para lidar com variações típicas de objetos complexos semi-estruturados, estendemos o conceito original de tabelas aninhadas, relaxando a restrição original de que as tabelas aninhadas em uma mesma coluna devem todas ter a mesma estrutura interna.Com base nesta forma estendida de tabelas aninhadas, formalizamos o conceito de wrapper através de gramáticas tabulares. Tais gramáticas livres de contexto são compostas por produções que levam a árvores de parsing que podem ser diretamente mapeadas para tabelas aninhadas. Foram desenvolvidas estratégias para gerar gramáticas tabulares a partir de um conjunto de objetos de exemplo fornecidos por um usuário que os seleciona de uma página de amostra. O processo de geração inclui: (1) geração de produções terminais para extrair valores atômicos pertencentes a um domínio específico (por exemplo, uma descrição de um item, um preço, etc.) e (2) a geração de produções não-terminais que representam a estrutura de objetos complexos a serem extraídos.A extração dos dados das páginas alvo é feita através de um processo de parsing sobre estas páginas usando a gramática tabular. Para isso, desenvolvemos uma eficiente estratégia bottom-up, a qual envolve duas fases distintas: uma fase de extração, na qual os valores atômicos dos atributos são extraídos como base na informação de contexto local disponível nas produções de extração, e uma fase de montagem, na qual os valores atômicos extraídos são montados de acordo com a estrutura alvo fornecida pelo usuário através de exemplos e que está representada nas produções não terminais. A eficácia da estratégia bottom-up foi comprovada experimentalmente, em especial para tratar objetos complexosmulti-nível que apresentam variações estruturais. O principio geral utilizado pela estratégia bottom-up, ou seja, primeiro extrair valores atômicos e depois agrupar estes valores para montar objetos complexos, foi também explorado por um outro algoritmo que desenvolvemos chamado Hot Cycles. Este algoritmo temcomo objetivo descobrir estruturas tabulares plausíveis para montar objetos complexos com um conjunto de valores atômicos extraídos de uma página alvo. Ele é útil para o emprego da abordagem DEByE em aplicações onde não se pode depender do usuário para montar tabelas de exemplo. |
publishDate |
2002 |
dc.date.issued.fl_str_mv |
2002-06-21 |
dc.date.accessioned.fl_str_mv |
2019-08-09T21:53:21Z |
dc.date.available.fl_str_mv |
2019-08-09T21:53:21Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/SLBS-5KKKXX |
url |
http://hdl.handle.net/1843/SLBS-5KKKXX |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/SLBS-5KKKXX/1/altigransoaressilva.pdf https://repositorio.ufmg.br/bitstream/1843/SLBS-5KKKXX/2/altigransoaressilva.pdf.txt |
bitstream.checksum.fl_str_mv |
3d04ca80ff08f81a218024578e5b449f 44414f91e9769dcb15c953970c038acd |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589289333751808 |