Comparação entre métodos de extração de dados baseados na redundância de conteúdo

Detalhes bibliográficos
Autor(a) principal: Serafini, Rafael de Oliveira
Data de Publicação: 2015
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/126075
Resumo: Instâncias de entidades do mundo real podem ser representadas em páginas da Web, chamadas de páginas-instância. A extração de dados em páginas-instância da Web visa extrair conhecimento útil para diversas aplicações, tais como, Google Calendar, Reverb e Scrapy. Sites com páginasinstância do mesmo domínio possuem redundância de conteúdo, ou seja, publicam instâncias ou atributos em comum. O objetivo deste trabalho é comparar três métodos de extração de dados baseados na redundância de conteúdo da Web. Duas bases de dados reais são usadas para testar os métodos, sendo uma delas criada neste trabalho. Os resultados de um dos métodos foram obtidos do artigo que o descreve. Os resultados dos outros métodos foram obtidos neste trabalho. Para isso foi obtida a implementação e adaptada para as bases de dados. Os resultados são comparados em termos de qualidade e eficiência. É demonstrado, através da comparação, que a estrutura das bases de dados afeta a qualidade da extração dos métodos de acordo com suas características. A notação usada para representar a posição de um atributo em uma página e o uso de redundância em nível de instância são exemplos dessas características. Os resultados podem ser usados para auxiliar a escolha de um método de extração, de acordo com a base de dados, e guiar a criação de novos métodos de extração.
id UFRGS-2_00d997ee8bf6c3a26d372c993c2e30dc
oai_identifier_str oai:www.lume.ufrgs.br:10183/126075
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Serafini, Rafael de OliveiraGalante, Renata de MatosManica, Edimar2015-08-29T02:40:14Z2015http://hdl.handle.net/10183/126075000972348Instâncias de entidades do mundo real podem ser representadas em páginas da Web, chamadas de páginas-instância. A extração de dados em páginas-instância da Web visa extrair conhecimento útil para diversas aplicações, tais como, Google Calendar, Reverb e Scrapy. Sites com páginasinstância do mesmo domínio possuem redundância de conteúdo, ou seja, publicam instâncias ou atributos em comum. O objetivo deste trabalho é comparar três métodos de extração de dados baseados na redundância de conteúdo da Web. Duas bases de dados reais são usadas para testar os métodos, sendo uma delas criada neste trabalho. Os resultados de um dos métodos foram obtidos do artigo que o descreve. Os resultados dos outros métodos foram obtidos neste trabalho. Para isso foi obtida a implementação e adaptada para as bases de dados. Os resultados são comparados em termos de qualidade e eficiência. É demonstrado, através da comparação, que a estrutura das bases de dados afeta a qualidade da extração dos métodos de acordo com suas características. A notação usada para representar a posição de um atributo em uma página e o uso de redundância em nível de instância são exemplos dessas características. Os resultados podem ser usados para auxiliar a escolha de um método de extração, de acordo com a base de dados, e guiar a criação de novos métodos de extração.Instances of real world entities can be represented by Web pages, called instance-pages. The data extraction from instance-pages aims to extract knowledge through information useful for a number of applications, such as Google Calendar, Reverb and Scrapy. Websites with instance-pages from the same domain have content redundancy, that is, they publish instances or attributes in common. This work goal is to compare three data extraction methods based on Web content redundancy. Two real databases are used to evaluate the methods, being one of them created in this work. The results of one method were obtained from the paper that describes it. The results of the other methods were generated in this work. For that, the implementation was obtained and adapted to the databases. The results are compared in terms of quality and efficiency. It is demonstrated, through the comparison, that the structure of the databases affects the quality of the methods extraction according to its characteristics. The results can be used to help choosing an extraction method, according to the database, and guide the criation of new extraction methods.application/pdfporBanco : DadosExtracao : DadosData extractionContent redundancyInstance-pagesComparação entre métodos de extração de dados baseados na redundância de conteúdoComparison between data extraction methods based on content redundancy info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2015Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000972348.pdf000972348.pdfTexto completoapplication/pdf1825676http://www.lume.ufrgs.br/bitstream/10183/126075/1/000972348.pdf51919474f9516415649911ccb37c9925MD51TEXT000972348.pdf.txt000972348.pdf.txtExtracted Texttext/plain98171http://www.lume.ufrgs.br/bitstream/10183/126075/2/000972348.pdf.txt6155eadae98d2678570702040f63ae1aMD52THUMBNAIL000972348.pdf.jpg000972348.pdf.jpgGenerated Thumbnailimage/jpeg1122http://www.lume.ufrgs.br/bitstream/10183/126075/3/000972348.pdf.jpg12f9c7f996d05c71372a23b2f79765d0MD5310183/1260752018-10-17 07:46:00.187oai:www.lume.ufrgs.br:10183/126075Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-17T10:46Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Comparação entre métodos de extração de dados baseados na redundância de conteúdo
dc.title.alternative.en.fl_str_mv Comparison between data extraction methods based on content redundancy
title Comparação entre métodos de extração de dados baseados na redundância de conteúdo
spellingShingle Comparação entre métodos de extração de dados baseados na redundância de conteúdo
Serafini, Rafael de Oliveira
Banco : Dados
Extracao : Dados
Data extraction
Content redundancy
Instance-pages
title_short Comparação entre métodos de extração de dados baseados na redundância de conteúdo
title_full Comparação entre métodos de extração de dados baseados na redundância de conteúdo
title_fullStr Comparação entre métodos de extração de dados baseados na redundância de conteúdo
title_full_unstemmed Comparação entre métodos de extração de dados baseados na redundância de conteúdo
title_sort Comparação entre métodos de extração de dados baseados na redundância de conteúdo
author Serafini, Rafael de Oliveira
author_facet Serafini, Rafael de Oliveira
author_role author
dc.contributor.author.fl_str_mv Serafini, Rafael de Oliveira
dc.contributor.advisor1.fl_str_mv Galante, Renata de Matos
dc.contributor.advisor-co1.fl_str_mv Manica, Edimar
contributor_str_mv Galante, Renata de Matos
Manica, Edimar
dc.subject.por.fl_str_mv Banco : Dados
Extracao : Dados
topic Banco : Dados
Extracao : Dados
Data extraction
Content redundancy
Instance-pages
dc.subject.eng.fl_str_mv Data extraction
Content redundancy
Instance-pages
description Instâncias de entidades do mundo real podem ser representadas em páginas da Web, chamadas de páginas-instância. A extração de dados em páginas-instância da Web visa extrair conhecimento útil para diversas aplicações, tais como, Google Calendar, Reverb e Scrapy. Sites com páginasinstância do mesmo domínio possuem redundância de conteúdo, ou seja, publicam instâncias ou atributos em comum. O objetivo deste trabalho é comparar três métodos de extração de dados baseados na redundância de conteúdo da Web. Duas bases de dados reais são usadas para testar os métodos, sendo uma delas criada neste trabalho. Os resultados de um dos métodos foram obtidos do artigo que o descreve. Os resultados dos outros métodos foram obtidos neste trabalho. Para isso foi obtida a implementação e adaptada para as bases de dados. Os resultados são comparados em termos de qualidade e eficiência. É demonstrado, através da comparação, que a estrutura das bases de dados afeta a qualidade da extração dos métodos de acordo com suas características. A notação usada para representar a posição de um atributo em uma página e o uso de redundância em nível de instância são exemplos dessas características. Os resultados podem ser usados para auxiliar a escolha de um método de extração, de acordo com a base de dados, e guiar a criação de novos métodos de extração.
publishDate 2015
dc.date.accessioned.fl_str_mv 2015-08-29T02:40:14Z
dc.date.issued.fl_str_mv 2015
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/126075
dc.identifier.nrb.pt_BR.fl_str_mv 000972348
url http://hdl.handle.net/10183/126075
identifier_str_mv 000972348
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/126075/1/000972348.pdf
http://www.lume.ufrgs.br/bitstream/10183/126075/2/000972348.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/126075/3/000972348.pdf.jpg
bitstream.checksum.fl_str_mv 51919474f9516415649911ccb37c9925
6155eadae98d2678570702040f63ae1a
12f9c7f996d05c71372a23b2f79765d0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224488903245824