ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia

Silva, Patrick Pedreira

ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia

Detalhes bibliográficos
Autor(a) principal:	Silva, Patrick Pedreira
Data de Publicação:	2006
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFSCAR
Texto Completo:	https://repositorio.ufscar.br/handle/ufscar/322
Resumo:	This dissertation presents an automatic summarizer of Web documents based on both HTML tags and ontological knowledge. It has been derived from two independent approaches: one that focuses solely upon HTML tags, and another that focuses only on ontological knowledge. The three approaches were implemented and assessed, indicating that associating both knowledge types have a promising descriptive power for Web documents. The resulting prototype has been named ExtraWeb. The ExtraWeb system explores the HTML structure of Web documents in Portuguese and semantic information using the Yahoo ontology in Portuguese. This has been enriched with additional terms extracted from both a thesaurus, Diadorim and the Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to Google one, showing its potential to signal through extracts the relevance of the retrieved documents. This has been an important issue recently. Extracts may be particularly useful as surrogates of the current descriptions provided by the existing search engines. They may even substitute the corresponding source documents. In the former case, those descriptions do not necessarily convey relevant content of the documents; in the latter, reading full documents demands a substantial overhead of Web users. In both cases, extracts may improve the search task, provided that they actually signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to improve their descriptions. However, its scability and insertion in a real setting have not yet been explored.

Metadados do item

id	SCAR_96f899683f2cbaa23c5a1f63e615ab04
oai_identifier_str	oai:repositorio.ufscar.br:ufscar/322
network_acronym_str	SCAR
network_name_str	Repositório Institucional da UFSCAR
repository_id_str	4322
spelling	Silva, Patrick PedreiraRino, Lúcia Helena Machadohttp://lattes.cnpq.br/0315640846525832http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=T850685f4107004-cddc-4f55-85a4-cbabb57dab672016-06-02T19:05:19Z2007-08-212016-06-02T19:05:19Z2006-07-10SILVA, Patrick Pedreira. ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.. 2006. 168 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.https://repositorio.ufscar.br/handle/ufscar/322This dissertation presents an automatic summarizer of Web documents based on both HTML tags and ontological knowledge. It has been derived from two independent approaches: one that focuses solely upon HTML tags, and another that focuses only on ontological knowledge. The three approaches were implemented and assessed, indicating that associating both knowledge types have a promising descriptive power for Web documents. The resulting prototype has been named ExtraWeb. The ExtraWeb system explores the HTML structure of Web documents in Portuguese and semantic information using the Yahoo ontology in Portuguese. This has been enriched with additional terms extracted from both a thesaurus, Diadorim and the Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to Google one, showing its potential to signal through extracts the relevance of the retrieved documents. This has been an important issue recently. Extracts may be particularly useful as surrogates of the current descriptions provided by the existing search engines. They may even substitute the corresponding source documents. In the former case, those descriptions do not necessarily convey relevant content of the documents; in the latter, reading full documents demands a substantial overhead of Web users. In both cases, extracts may improve the search task, provided that they actually signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to improve their descriptions. However, its scability and insertion in a real setting have not yet been explored.Esta dissertação propõe um sumarizador de documentos Web baseado em etiquetas HTML e conhecimento ontológico, derivado de outras duas abordagens independentes: uma que contempla somente etiquetas HTML e outra, somente conhecimento ontológico. As três abordagens foram implementadas e avaliadas, indicando que a composição desses dois tipos de conhecimento tem um bom potencial descritivo de documentos Web. O protótipo resultante é denominado ExtraWeb. O ExtraWeb explora a estrutura de marcação de documentos em português e informações de nível semântico usando a ontologia do Yahoo em português, enriquecida com vocabulário extraído de um thesaurus, Diadorim, e da Wikipédia. Em uma tarefa simulada por internautas, de busca de documentos, o ExtraWeb obteve um grau de utilidade próximo ao do Google, evidenciando seu potencial para indicar, por meio de extratos, a relevância de documentos recuperados na Web. Esse foco é de grande interesse atualmente, pois os extratos podem ser particularmente úteis como substitutos das descrições atuais das ferramentas de busca ou, mesmo, como substitutos dos documentos correspondentes completos. No primeiro caso, as descrições nem sempre contemplam as informações mais relevantes dos documentos; no segundo, sua leitura implica um esforço considerável por parte do internauta. Em ambos os casos, extratos podem otimizar essa tarefa, se comprovada sua utilidade para a indicação da relevância dos documentos. Assim, o ExtraWeb tem potencial para ser um acessório das ferramentas de busca, para melhorar a forma como os resultados são apresentados, muito embora sua escalabilidade e implantação em um ambiente real ainda não tenham sido exploradas.Financiadora de Estudos e Projetosapplication/pdfporUniversidade Federal de São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarBRInteligência artificialProcessamento da linguagem naturalSumarização automáticaCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologiainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-1-1629307e8-d9f0-4e50-b2e4-e495b4d8b0fbinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissPPS.pdfapplication/pdf2486545https://repositorio.ufscar.br/bitstream/ufscar/322/1/DissPPS.pdf45bf3bd34f1453685126954dc3708459MD51TEXTDissPPS.pdf.txtDissPPS.pdf.txtExtracted texttext/plain281775https://repositorio.ufscar.br/bitstream/ufscar/322/2/DissPPS.pdf.txtf47f34345e19ded59298d3cd19171ff0MD52THUMBNAILDissPPS.pdf.jpgDissPPS.pdf.jpgIM Thumbnailimage/jpeg6293https://repositorio.ufscar.br/bitstream/ufscar/322/3/DissPPS.pdf.jpgc7ef67f8d16d4f29e1cc28de19bdd141MD53ufscar/3222023-09-18 18:30:38.588oai:repositorio.ufscar.br:ufscar/322Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:30:38Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
title	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
spellingShingle	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia Silva, Patrick Pedreira Inteligência artificial Processamento da linguagem natural Sumarização automática CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
title_full	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
title_fullStr	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
title_full_unstemmed	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
title_sort	ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia
author	Silva, Patrick Pedreira
author_facet	Silva, Patrick Pedreira
author_role	author
dc.contributor.authorlattes.por.fl_str_mv	http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=T850685
dc.contributor.author.fl_str_mv	Silva, Patrick Pedreira
dc.contributor.advisor1.fl_str_mv	Rino, Lúcia Helena Machado
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/0315640846525832
dc.contributor.authorID.fl_str_mv	f4107004-cddc-4f55-85a4-cbabb57dab67
contributor_str_mv	Rino, Lúcia Helena Machado
dc.subject.por.fl_str_mv	Inteligência artificial Processamento da linguagem natural Sumarização automática
topic	Inteligência artificial Processamento da linguagem natural Sumarização automática CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description	This dissertation presents an automatic summarizer of Web documents based on both HTML tags and ontological knowledge. It has been derived from two independent approaches: one that focuses solely upon HTML tags, and another that focuses only on ontological knowledge. The three approaches were implemented and assessed, indicating that associating both knowledge types have a promising descriptive power for Web documents. The resulting prototype has been named ExtraWeb. The ExtraWeb system explores the HTML structure of Web documents in Portuguese and semantic information using the Yahoo ontology in Portuguese. This has been enriched with additional terms extracted from both a thesaurus, Diadorim and the Wikipedia. In a simulated Web search, ExtraWeb achieved a similar utility degree to Google one, showing its potential to signal through extracts the relevance of the retrieved documents. This has been an important issue recently. Extracts may be particularly useful as surrogates of the current descriptions provided by the existing search engines. They may even substitute the corresponding source documents. In the former case, those descriptions do not necessarily convey relevant content of the documents; in the latter, reading full documents demands a substantial overhead of Web users. In both cases, extracts may improve the search task, provided that they actually signal relevant content. So, ExtraWeb is a potential plug-in of search engines, to improve their descriptions. However, its scability and insertion in a real setting have not yet been explored.
publishDate	2006
dc.date.issued.fl_str_mv	2006-07-10
dc.date.available.fl_str_mv	2007-08-21 2016-06-02T19:05:19Z
dc.date.accessioned.fl_str_mv	2016-06-02T19:05:19Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	SILVA, Patrick Pedreira. ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.. 2006. 168 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.
dc.identifier.uri.fl_str_mv	https://repositorio.ufscar.br/handle/ufscar/322
identifier_str_mv	SILVA, Patrick Pedreira. ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia.. 2006. 168 f. Dissertação (Mestrado em Ciências Exatas e da Terra) - Universidade Federal de São Carlos, São Carlos, 2006.
url	https://repositorio.ufscar.br/handle/ufscar/322
dc.language.iso.fl_str_mv	por
language	por
dc.relation.confidence.fl_str_mv	-1 -1
dc.relation.authority.fl_str_mv	629307e8-d9f0-4e50-b2e4-e495b4d8b0fb
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de São Carlos
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv	UFSCar
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	Universidade Federal de São Carlos
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR
instname_str	Universidade Federal de São Carlos (UFSCAR)
instacron_str	UFSCAR
institution	UFSCAR
reponame_str	Repositório Institucional da UFSCAR
collection	Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv	https://repositorio.ufscar.br/bitstream/ufscar/322/1/DissPPS.pdf https://repositorio.ufscar.br/bitstream/ufscar/322/2/DissPPS.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/322/3/DissPPS.pdf.jpg
bitstream.checksum.fl_str_mv	45bf3bd34f1453685126954dc3708459 f47f34345e19ded59298d3cd19171ff0 c7ef67f8d16d4f29e1cc28de19bdd141
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_	1813715501880180736

ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML e ontologia

Registros relacionados