Extração de dados na web: transformando listas HTML em formato tabular
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNIPAMPA |
Texto Completo: | http://dspace.unipampa.edu.br/jspui/handle/riu/1580 |
Resumo: | Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor. |
id |
UNIP_9f4b9437715e96880e27abf3ee25b14c |
---|---|
oai_identifier_str |
oai:repositorio.unipampa.edu.br:riu/1580 |
network_acronym_str |
UNIP |
network_name_str |
Repositório Institucional da UNIPAMPA |
repository_id_str |
|
spelling |
Mergen, Sergio Luis SardiMarx, William Felipe2017-06-05T18:30:13Z2017-06-05T18:30:13Z2013-03-04http://dspace.unipampa.edu.br/jspui/handle/riu/1580Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor.Some HTML constructs are used not only for visualization purposes but also to structure information. One of such structures is used to represent lists. Looking at the markup of HTML lists, it is possible to see that the information is organized as a collection of records. Given this, some works aim at transforming the text records into tables, composed by records and columns. One of the most known works, called ListExtractor, depends on existent knowledge bases in order to perform the transformation. This kind of data source structuring is useful in researches related to dataspaces, and have direct application in areas like data integration, knowledge extraction and information retrieval. In this context, the goal of this work is creation a series of statistical rules whose goal is to transform lists into tables. Generally speaking, the rules explore the presence and frequency of special characters inside the text to perform the contente segmentation, and they do not rely on existent knowledge bases. The proposed rules correspond to data extractors, which can be incorporated in dataspaces architectures. Experiments show the extractors performance when applied to real HTML lists found on the Web. Additionally, a comparison is made between the extractors and the ListExtractor approach.porUniversidade Federal do PampaAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRACiência da computaçãoHTMLDadosWebComputer scienceHTMLDataWebExtração de dados na web: transformando listas HTML em formato tabularinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfreponame:Repositório Institucional da UNIPAMPAinstname:Universidade Federal do Pampa (UNIPAMPA)instacron:UNIPAMPAORIGINALExtração de dados na web - transformando listas html em formato tabular.pdfExtração de dados na web - transformando listas html em formato tabular.pdfapplication/pdf3316018https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/1/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdfc3f71c71700fd87f29890e54e23892c9MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-81232https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/2/license_rdf66e71c371cc565284e70f40736c94386MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53TEXTExtração de dados na web - transformando listas html em formato tabular.pdf.txtExtração de dados na web - transformando listas html em formato tabular.pdf.txtExtracted texttext/plain71388https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/4/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdf.txtff079a8fc8ff9bcd17b13c32e158187aMD54riu/15802021-04-12 15:44:55.968oai:repositorio.unipampa.edu.br:riu/1580Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://dspace.unipampa.edu.br:8080/oai/requestsisbi@unipampa.edu.bropendoar:2021-04-12T18:44:55Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA)false |
dc.title.pt_BR.fl_str_mv |
Extração de dados na web: transformando listas HTML em formato tabular |
title |
Extração de dados na web: transformando listas HTML em formato tabular |
spellingShingle |
Extração de dados na web: transformando listas HTML em formato tabular Marx, William Felipe CNPQ::CIENCIAS EXATAS E DA TERRA Computer science HTML Data Web Ciência da computação HTML Dados Web |
title_short |
Extração de dados na web: transformando listas HTML em formato tabular |
title_full |
Extração de dados na web: transformando listas HTML em formato tabular |
title_fullStr |
Extração de dados na web: transformando listas HTML em formato tabular |
title_full_unstemmed |
Extração de dados na web: transformando listas HTML em formato tabular |
title_sort |
Extração de dados na web: transformando listas HTML em formato tabular |
author |
Marx, William Felipe |
author_facet |
Marx, William Felipe |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Mergen, Sergio Luis Sardi |
dc.contributor.author.fl_str_mv |
Marx, William Felipe |
contributor_str_mv |
Mergen, Sergio Luis Sardi |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA Computer science HTML Data Web Ciência da computação HTML Dados Web |
dc.subject.eng.fl_str_mv |
Computer science HTML Data Web |
dc.subject.keyword.pt_BR.fl_str_mv |
Ciência da computação HTML Dados Web |
description |
Dentro da linguagem HTML, existem construtores que, embora voltados primariamente para formatação visual, servem também para estruturar a informação. Um desses construtores são as listas. Verificando blocos de texto contidos em listas, é possível perceber uma divisão inicial que organiza a informação como uma coleção de registros. Dada essas características das listas HTML, surgiram trabalhos acadêmicos que visam transformar os blocos de dados contidos nas listas em tabelas de dados, compostas por linhas e colunas. Um dos trabalhos mais conceituados, chamado ListExtractor, depende de bases de informação preexistentes para realizar a transformação. Esse tipo de estruturação de fontes de dados é útil em pesquisas relacionadas à dataspaces, e tem aplicação direta em áreas como integração de dados, extração de conhecimento e recuperação de informação. Dentro deste contexto, o objetivo deste trabalho é a criação de uma série de regras estatísticas que visam transformar listas em tabelas. De modo geral, as regras se valem da presença e frequência no texto de caracteres especiais que costumam ser usados para realizar a separação de conteúdo, e não dependem de bases de conhecimento preexistentes. As regras propostas correspondem a extratores de dados, que podem ser incorporadas em arquiteturas de dataspaces. Os experimentos mostram o desempenho dos extratores criados na transformação de listas HTML reais recuperadas da Web. Também é feita uma comparação entre os extratores propostos e o ListExtractor. |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013-03-04 |
dc.date.accessioned.fl_str_mv |
2017-06-05T18:30:13Z |
dc.date.available.fl_str_mv |
2017-06-05T18:30:13Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://dspace.unipampa.edu.br/jspui/handle/riu/1580 |
url |
http://dspace.unipampa.edu.br/jspui/handle/riu/1580 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Pampa |
publisher.none.fl_str_mv |
Universidade Federal do Pampa |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIPAMPA instname:Universidade Federal do Pampa (UNIPAMPA) instacron:UNIPAMPA |
instname_str |
Universidade Federal do Pampa (UNIPAMPA) |
instacron_str |
UNIPAMPA |
institution |
UNIPAMPA |
reponame_str |
Repositório Institucional da UNIPAMPA |
collection |
Repositório Institucional da UNIPAMPA |
bitstream.url.fl_str_mv |
https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/1/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/2/license_rdf https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/3/license.txt https://repositorio.unipampa.edu.br/jspui/bitstream/riu/1580/4/Extra%c3%a7%c3%a3o%20de%20dados%20na%20web%20-%20transformando%20listas%20html%20em%20formato%20tabular.pdf.txt |
bitstream.checksum.fl_str_mv |
c3f71c71700fd87f29890e54e23892c9 66e71c371cc565284e70f40736c94386 8a4605be74aa9ea9d79846c1fba20a33 ff079a8fc8ff9bcd17b13c32e158187a |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UNIPAMPA - Universidade Federal do Pampa (UNIPAMPA) |
repository.mail.fl_str_mv |
sisbi@unipampa.edu.br |
_version_ |
1813274812894674944 |