Extração de metadados utilizando uma ontologia de domínio

Oliveira, Luis Henrique Gonçalves de

Extração de metadados utilizando uma ontologia de domínio

Detalhes bibliográficos
Autor(a) principal:	Oliveira, Luis Henrique Gonçalves de
Data de Publicação:	2009
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/22814
Resumo:	O objetivo da Web Semântica é prover a descrição semântica dos recursos através de metadados processáveis por máquinas. Essa camada semântica estende a Web já existente agregando facilidades para a execução de pesquisas, filtragem, resumo ou intercâmbio de conhecimento de maior complexidade. Dentro deste contexto, as bibliotecas digitais são as aplicações que estão iniciando o processo de agregar anotações semânticas às informações disponíveis na Web. Uma biblioteca digital pode ser definida como uma coleção de recursos digitais selecionados segundo critérios determinados, com alguma organização lógica e de modo acessível para recuperação distribuída em rede. Para facilitar o processo de recuperação são utilizados metadados para descrever o conteúdo armazenado. Porém, a geração manual de metadados é uma tarefa complexa e que demanda tempo, além de sujeita a falhas. Portanto a extração automática ou semi-automática desses metadados seria de grande ajuda para os autores, subtraindo uma tarefa do processo de publicação de documentos. A pesquisa realizada nesta dissertação visou abordar esse problema, desenvolvendo um extrator de metadados que popula uma ontologia de documentos e classifica o documento segundo uma hierarquia pré-definida. A ontologia de documentos OntoDoc foi criada para armazenar e disponibilizar os metadados extraídos, assim como a classificação obtida para o documento. A implementação realizada focou-se em artigos científicos de Ciência da Computação e utilizou a classificação das áreas da ACM na tarefa de classificação dos documentos. Um conjunto de exemplos retirados da Biblioteca Digital da ACM foi gerado para a realização do treinamento e de experimentos sobre a implementação. As principais contribuições desta pesquisa são o modelo de extração de metadados e classificação de documentos de forma integrada e a descrição dos documentos através de metadados armazenados em um ontologia, a OntoDoc.

Metadados do item

id	URGS_641016411c3392f81a0105f4ed737238
oai_identifier_str	oai:www.lume.ufrgs.br:10183/22814
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Oliveira, Luis Henrique Gonçalves deOliveira, Jose Palazzo Moreira de2010-05-25T04:17:53Z2009http://hdl.handle.net/10183/22814000740674O objetivo da Web Semântica é prover a descrição semântica dos recursos através de metadados processáveis por máquinas. Essa camada semântica estende a Web já existente agregando facilidades para a execução de pesquisas, filtragem, resumo ou intercâmbio de conhecimento de maior complexidade. Dentro deste contexto, as bibliotecas digitais são as aplicações que estão iniciando o processo de agregar anotações semânticas às informações disponíveis na Web. Uma biblioteca digital pode ser definida como uma coleção de recursos digitais selecionados segundo critérios determinados, com alguma organização lógica e de modo acessível para recuperação distribuída em rede. Para facilitar o processo de recuperação são utilizados metadados para descrever o conteúdo armazenado. Porém, a geração manual de metadados é uma tarefa complexa e que demanda tempo, além de sujeita a falhas. Portanto a extração automática ou semi-automática desses metadados seria de grande ajuda para os autores, subtraindo uma tarefa do processo de publicação de documentos. A pesquisa realizada nesta dissertação visou abordar esse problema, desenvolvendo um extrator de metadados que popula uma ontologia de documentos e classifica o documento segundo uma hierarquia pré-definida. A ontologia de documentos OntoDoc foi criada para armazenar e disponibilizar os metadados extraídos, assim como a classificação obtida para o documento. A implementação realizada focou-se em artigos científicos de Ciência da Computação e utilizou a classificação das áreas da ACM na tarefa de classificação dos documentos. Um conjunto de exemplos retirados da Biblioteca Digital da ACM foi gerado para a realização do treinamento e de experimentos sobre a implementação. As principais contribuições desta pesquisa são o modelo de extração de metadados e classificação de documentos de forma integrada e a descrição dos documentos através de metadados armazenados em um ontologia, a OntoDoc.The main purpose of the Semantic Web is to provide machine processable metadata that describes the semantics of resources to facilitate the search, filter, condense, or negotiate knowledge for their human users. In this context, digital libraries are applications where the semantic annotation process of information available in the Web is beginning. Digital library can be defined as a collection of digital resources selected by some criteria, with some organization and available through distributed network retrieval. To facilitate the retrieval process, metadata are applied to describe stored content. However, manual metadata generation is a complex task, time-consuming and error-prone. Thus, automatic or semiautomatic metadata generation would be great help to the authors, subtracting this task from the document publishing process. The research in this work approached this problem through the developing of a metadata extractor that populates a document ontology and classify the document according to a predefined hierarchy. The document ontology OntoDoc was created to store and to make available all the extracted metadata, as well as the obtained document classification. The implementation aimed on Computer Science papers and used the ACM Computing Classification system in the document classification task. A sample set extracted from the ACM Digital Libray was generated for implementation training and validation. The main contributions of this work are the integrated metadata extraction and classification model and the description of documents through a metadata stored in an ontology.application/pdfporSistemas : InformaçãoMineracao : DadosRecuperacao : InformacaoMetadata extractionDocument classificationOntologyExtração de metadados utilizando uma ontologia de domínioMetadata extraction using a domain ontology info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2009mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT000740674.pdf.txt000740674.pdf.txtExtracted Texttext/plain117339http://www.lume.ufrgs.br/bitstream/10183/22814/2/000740674.pdf.txt57ccadef5b78647c39be97e3f32b14c0MD52ORIGINAL000740674.pdf000740674.pdfTexto completoapplication/pdf1710110http://www.lume.ufrgs.br/bitstream/10183/22814/1/000740674.pdf079391b63e9c7bade0c4462bd0abae10MD51THUMBNAIL000740674.pdf.jpg000740674.pdf.jpgGenerated Thumbnailimage/jpeg1025http://www.lume.ufrgs.br/bitstream/10183/22814/3/000740674.pdf.jpg7cc000e094644a142a717e5eb2af59a4MD5310183/228142018-10-08 09:27:21.891oai:www.lume.ufrgs.br:10183/22814Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532018-10-08T12:27:21Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Extração de metadados utilizando uma ontologia de domínio
dc.title.alternative.en.fl_str_mv	Metadata extraction using a domain ontology
title	Extração de metadados utilizando uma ontologia de domínio
spellingShingle	Extração de metadados utilizando uma ontologia de domínio Oliveira, Luis Henrique Gonçalves de Sistemas : Informação Mineracao : Dados Recuperacao : Informacao Metadata extraction Document classification Ontology
title_short	Extração de metadados utilizando uma ontologia de domínio
title_full	Extração de metadados utilizando uma ontologia de domínio
title_fullStr	Extração de metadados utilizando uma ontologia de domínio
title_full_unstemmed	Extração de metadados utilizando uma ontologia de domínio
title_sort	Extração de metadados utilizando uma ontologia de domínio
author	Oliveira, Luis Henrique Gonçalves de
author_facet	Oliveira, Luis Henrique Gonçalves de
author_role	author
dc.contributor.author.fl_str_mv	Oliveira, Luis Henrique Gonçalves de
dc.contributor.advisor1.fl_str_mv	Oliveira, Jose Palazzo Moreira de
contributor_str_mv	Oliveira, Jose Palazzo Moreira de
dc.subject.por.fl_str_mv	Sistemas : Informação Mineracao : Dados Recuperacao : Informacao
topic	Sistemas : Informação Mineracao : Dados Recuperacao : Informacao Metadata extraction Document classification Ontology
dc.subject.eng.fl_str_mv	Metadata extraction Document classification Ontology
description	O objetivo da Web Semântica é prover a descrição semântica dos recursos através de metadados processáveis por máquinas. Essa camada semântica estende a Web já existente agregando facilidades para a execução de pesquisas, filtragem, resumo ou intercâmbio de conhecimento de maior complexidade. Dentro deste contexto, as bibliotecas digitais são as aplicações que estão iniciando o processo de agregar anotações semânticas às informações disponíveis na Web. Uma biblioteca digital pode ser definida como uma coleção de recursos digitais selecionados segundo critérios determinados, com alguma organização lógica e de modo acessível para recuperação distribuída em rede. Para facilitar o processo de recuperação são utilizados metadados para descrever o conteúdo armazenado. Porém, a geração manual de metadados é uma tarefa complexa e que demanda tempo, além de sujeita a falhas. Portanto a extração automática ou semi-automática desses metadados seria de grande ajuda para os autores, subtraindo uma tarefa do processo de publicação de documentos. A pesquisa realizada nesta dissertação visou abordar esse problema, desenvolvendo um extrator de metadados que popula uma ontologia de documentos e classifica o documento segundo uma hierarquia pré-definida. A ontologia de documentos OntoDoc foi criada para armazenar e disponibilizar os metadados extraídos, assim como a classificação obtida para o documento. A implementação realizada focou-se em artigos científicos de Ciência da Computação e utilizou a classificação das áreas da ACM na tarefa de classificação dos documentos. Um conjunto de exemplos retirados da Biblioteca Digital da ACM foi gerado para a realização do treinamento e de experimentos sobre a implementação. As principais contribuições desta pesquisa são o modelo de extração de metadados e classificação de documentos de forma integrada e a descrição dos documentos através de metadados armazenados em um ontologia, a OntoDoc.
publishDate	2009
dc.date.issued.fl_str_mv	2009
dc.date.accessioned.fl_str_mv	2010-05-25T04:17:53Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/22814
dc.identifier.nrb.pt_BR.fl_str_mv	000740674
url	http://hdl.handle.net/10183/22814
identifier_str_mv	000740674
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/22814/2/000740674.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/22814/1/000740674.pdf http://www.lume.ufrgs.br/bitstream/10183/22814/3/000740674.pdf.jpg
bitstream.checksum.fl_str_mv	57ccadef5b78647c39be97e3f32b14c0 079391b63e9c7bade0c4462bd0abae10 7cc000e094644a142a717e5eb2af59a4
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085173923938304

Extração de metadados utilizando uma ontologia de domínio

Registros relacionados