Extração de dados na web: transformando listas HTML em formato tabular

Marx, William Felipe

Extração de dados na web: transformando listas HTML em formato tabular

Detalhes bibliográficos
Autor(a) principal:	Marx, William Felipe
Data de Publicação:	2013
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UNIPAMPA
Texto Completo:	http://dspace.unipampa.edu.br/jspui/handle/riu/1580
Resumo:	Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor.

Metadados do item

id	UNIP_9f4b9437715e96880e27abf3ee25b14c
oai_identifier_str	oai:repositorio.unipampa.edu.br:riu/1580
network_acronym_str	UNIP
network_name_str	Repositório Institucional da UNIPAMPA
repository_id_str
spelling	Mergen, Sergio Luis SardiMarx, William Felipe2017-06-05T18:30:13Z2017-06-05T18:30:13Z2013-03-04http://dspace.unipampa.edu.br/jspui/handle/riu/1580Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor.Some HTML constructs are used not only for visualization purposes but also to structure information. One of such structures is used to represent lists. Looking at the markup of HTML lists, it is possible to see that the information is organized as a collection of records. Given this, some works aim at transforming the text records into tables, composed by records and columns. One of the most known works, called ListExtractor, depends on existent knowledge bases in order to perform the transformation. This kind of data source structuring is useful in researches related to dataspaces, and have direct application in areas like data integration, knowledge extraction and information retrieval. In this context, the goal of this work is creation a series of statistical rules whose goal is to transform lists into tables. Generally speaking, the rules explore the presence and frequency of special characters inside the text to perform the contente segmentation, and they do not rely on existent knowledge bases. The proposed rules correspond to data extractors, which can be incorporated in dataspaces architectures. Experiments show the extractors performance when applied to real HTML lists found on the Web. Additionally, a comparison is made between the extractors and the ListExtractor approach.porUniversidade Federal do PampaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRACiência da computaçãoHTMLDadosWebComputer scienceHTMLDataWebExtração de dados na web: transformando listas HTML em formato tabularinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfreponame:Repositório Institucional da UNIPAMPAinstname:Universidade Federal do Pampa (UNIPAMPA)instacron:UNIPAMPAORIGINALExtração de dados na web - transformando listas html em formato tabular.pdfExtração de dados na web - transformando listas html em formato tabular.pdfapplication/pdf3316018https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/1/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdfc3f71c71700fd87f29890e54e23892c9MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTExtração de dados na web - transformando listas html em formato tabular.pdf.txtExtração de dados na web - transformando listas html em formato tabular.pdf.txtExtracted texttext/plain71388https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/4/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdf.txtff079a8fc8ff9bcd17b13c32e158187aMD54riu/15802021-04-12 15:44:55.968oai:repositorio.unipampa.edu.br:riu/1580Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://dspace.unipampa.edu.br:8080/oai/requestsisbi@unipampa.edu.bropendoar:2021-04-12T18:44:55Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)false
dc.title.pt_BR.fl_str_mv	Extração de dados na web: transformando listas HTML em formato tabular
title	Extração de dados na web: transformando listas HTML em formato tabular
spellingShingle	Extração de dados na web: transformando listas HTML em formato tabular Marx, William Felipe CNPQ::CIENCIAS EXATAS E DA TERRA Computer science HTML Data Web Ciência da computação HTML Dados Web
title_short	Extração de dados na web: transformando listas HTML em formato tabular
title_full	Extração de dados na web: transformando listas HTML em formato tabular
title_fullStr	Extração de dados na web: transformando listas HTML em formato tabular
title_full_unstemmed	Extração de dados na web: transformando listas HTML em formato tabular
title_sort	Extração de dados na web: transformando listas HTML em formato tabular
author	Marx, William Felipe
author_facet	Marx, William Felipe
author_role	author
dc.contributor.advisor1.fl_str_mv	Mergen, Sergio Luis Sardi
dc.contributor.author.fl_str_mv	Marx, William Felipe
contributor_str_mv	Mergen, Sergio Luis Sardi
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA
topic	CNPQ::CIENCIAS EXATAS E DA TERRA Computer science HTML Data Web Ciência da computação HTML Dados Web
dc.subject.eng.fl_str_mv	Computer science HTML Data Web
dc.subject.keyword.pt_BR.fl_str_mv	Ciência da computação HTML Dados Web
description	Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor.
publishDate	2013
dc.date.issued.fl_str_mv	2013-03-04
dc.date.accessioned.fl_str_mv	2017-06-05T18:30:13Z
dc.date.available.fl_str_mv	2017-06-05T18:30:13Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://dspace.unipampa.edu.br/jspui/handle/riu/1580
url	http://dspace.unipampa.edu.br/jspui/handle/riu/1580
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Pampa
publisher.none.fl_str_mv	Universidade Federal do Pampa
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIPAMPA instname:Universidade Federal do Pampa (UNIPAMPA) instacron:UNIPAMPA
instname_str	Universidade Federal do Pampa (UNIPAMPA)
instacron_str	UNIPAMPA
institution	UNIPAMPA
reponame_str	Repositório Institucional da UNIPAMPA
collection	Repositório Institucional da UNIPAMPA
bitstream.url.fl_str_mv	https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/1/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/2/license_rdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/3/license.txt https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/4/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdf.txt
bitstream.checksum.fl_str_mv	c3f71c71700fd87f29890e54e23892c9 66e71c371cc565284e70f40736c94386 8a4605be74aa9ea9d79846c1fba20a33 ff079a8fc8ff9bcd17b13c32e158187a
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)
repository.mail.fl_str_mv	sisbi@unipampa.edu.br
_version_	1813274812894674944

Extração de dados na web: transformando listas HTML em formato tabular

Registros relacionados