Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.

Detalhes bibliográficos
Autor(a) principal: ARAÚJO JÚNIOR, José Gildo de.
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878
Resumo: Atualmente, um dos principais desafios no campo da Recuperação de Informação (RI) é o desenvolvimento de sistemas que processem corretamente a ideia ou conceito por trás das consultas emitidas pelos usuários. Sistemas convencionais de RI, geralmente limitam suas funcionalidades à indexação e recuperação por palavras-chave, mecanismo que gera resultados incipientes quando termos indexados não são mencionados na consulta. Consultas tais como: “O rei da música brasileira” e “Roberto Carlos”, mesmo utilizando um distinto grupo de palavras, podem representar a mesma ideia ou conceito e, portanto, o sistema deveria retornar o mesmo conjunto resposta. Entretanto, para sistemas de RI que não consideram o aspecto semântico, ambas consultas retornarão, eventualmente, conjuntos respostas distintos. Propõe-se, neste trabalho, um novo paradigma de indexação semântica de conceitos, onde, neste novo enfoque, conceitos presentes em documentos textuais são enriquecidos semanticamente de maneira automática por meio de informações presentes em fontes heterogêneas de informação, unindo, em um único ambiente, características de dicionários, enciclopédias e de sentido comum. Desta maneira, isola-se a ideia ou conceitualização dos objetos de suas inúmeras formas de representação. A abordagem proposta foi comparada com o projeto UBY, um recurso léxico-semântico de grande escala que combina uma vasta gama de informações construídas tanto por peritos quanto coletivamente para o idioma Inglês e Alemão. De maneira que ambas foram submetidas a diversas coleções de documentos e foi comprovada a superioridade da abordagem proposta quando comparada ao UBY. Para isso, mediu-se o número de conceitos presentes nas coleções de documentos identificados por ambas as abordagens; a conectividade, onde computou-se para cada elemento identificado o número de conexões estabelecidas com outros conceitos; e, a qualidade do enriquecimento semântico produzido, onde foram computadas as relações semânticas estabelecidas entre conceitos.
id UFCG_cf99ccc9b8fd4783c3fdc7fb621cec71
oai_identifier_str oai:localhost:riufcg/4878
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling SCHIEL, Ulrich.SCHIEL, U.http://lattes.cnpq.br/2971250918247087MARINHO, Leandro Balby.MARINHO, L. B.http://lattes.cnpq.br/3728312501032061PIRES, Carlos Eduardo Santos.MOURA, Maria Fernanda.ARAÚJO JÚNIOR, J. G.http://lattes.cnpq.br/1026450683366163ARAÚJO JÚNIOR, José Gildo de.Atualmente, um dos principais desafios no campo da Recuperação de Informação (RI) é o desenvolvimento de sistemas que processem corretamente a ideia ou conceito por trás das consultas emitidas pelos usuários. Sistemas convencionais de RI, geralmente limitam suas funcionalidades à indexação e recuperação por palavras-chave, mecanismo que gera resultados incipientes quando termos indexados não são mencionados na consulta. Consultas tais como: “O rei da música brasileira” e “Roberto Carlos”, mesmo utilizando um distinto grupo de palavras, podem representar a mesma ideia ou conceito e, portanto, o sistema deveria retornar o mesmo conjunto resposta. Entretanto, para sistemas de RI que não consideram o aspecto semântico, ambas consultas retornarão, eventualmente, conjuntos respostas distintos. Propõe-se, neste trabalho, um novo paradigma de indexação semântica de conceitos, onde, neste novo enfoque, conceitos presentes em documentos textuais são enriquecidos semanticamente de maneira automática por meio de informações presentes em fontes heterogêneas de informação, unindo, em um único ambiente, características de dicionários, enciclopédias e de sentido comum. Desta maneira, isola-se a ideia ou conceitualização dos objetos de suas inúmeras formas de representação. A abordagem proposta foi comparada com o projeto UBY, um recurso léxico-semântico de grande escala que combina uma vasta gama de informações construídas tanto por peritos quanto coletivamente para o idioma Inglês e Alemão. De maneira que ambas foram submetidas a diversas coleções de documentos e foi comprovada a superioridade da abordagem proposta quando comparada ao UBY. Para isso, mediu-se o número de conceitos presentes nas coleções de documentos identificados por ambas as abordagens; a conectividade, onde computou-se para cada elemento identificado o número de conexões estabelecidas com outros conceitos; e, a qualidade do enriquecimento semântico produzido, onde foram computadas as relações semânticas estabelecidas entre conceitos.Nowadays, one of the main challenges in the area of Information Retrieval (IR) is the development of systems that correctly process the idea or concept in the queries emitted by users. Conventional IR systems usually limit their functionality to indexing and retrieving keywords, which creates incipient results when indexed terms are not mentioned in the query. Queries such as: “The king of Brazilian music” and “Roberto Carlos”, even using a distinguished group of words, may represent the same idea or concept; therefore, the system should return the same set of answers. However, for IR systems that do not consider the semantic aspect, both queries return different answering sets. In this work, we proposed a new paradigm of semantic indexing of concepts. With this new approach, concepts present in textual documents are semantic enriched automatically using information which is presented in heterogeneous sources joined in a single environment features of dictionaries, encyclopedias and common sense. In this way, the idea of object contextualization is isolated from the several forms of object representations. The proposed approach was compared with UBY project, a large scale lexic-semantic resource which combines a wide range of information built by experts and collectively for English and German languages. Both approaches were subjected to various collections of documents and was proven the superiority of the proposed approach compared to UBY. To make this conclusion we measured: the number of concepts found in the collections of documents identified by either approach; connectivity, which was computed for each element identified the number of connections established with other concepts; and quality of produced semantic enrichment, which was computed if the semantic relations between concepts established are consistent.Submitted by Deyse Queiroz (deysequeirozz@hotmail.com) on 2019-07-15T12:40:10Z No. of bitstreams: 1 JOSÉ GILDO DE ARAÚJO JÚNIOR - DISSERTAÇÃO PPGCC 2013..pdf: 5864404 bytes, checksum: e31c96b2df05cd274bb48bda2609eccb (MD5)Made available in DSpace on 2019-07-15T12:40:10Z (GMT). No. of bitstreams: 1 JOSÉ GILDO DE ARAÚJO JÚNIOR - DISSERTAÇÃO PPGCC 2013..pdf: 5864404 bytes, checksum: e31c96b2df05cd274bb48bda2609eccb (MD5) Previous issue date: 2013-04-19Universidade Federal de Campina GrandePÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBrasilCentro de Engenharia Elétrica e Informática - CEEIUma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.An approach to the semantic indexing of textual documents based on heterogeneous sources of information.2013-04-192019-07-15T12:40:10Z2019-07-152019-07-15T12:40:10Zhttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878ARAÚJO JÚNIOR, José Gildo de. Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação. 2013. 117f. (Dissertação de Mestrado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2013. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSistemas de Recuperação da InformaçãoIndexação SemânticaFontes HeterogêneasFontes de InformaçãoDocumentos TextuaisTesaurosInformation Retrieval SystemsSemantic IndexingHeterogeneous SourcesInformation SourcesTextual DocumentsThesaurusporinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCGORIGINALJOSÉ GILDO DE ARAÚJO JÚNIOR - DISSERTAÇÃO PPGCC 2013.pdfJOSÉ GILDO DE ARAÚJO JÚNIOR - DISSERTAÇÃO PPGCC 2013.pdfapplication/pdf2094540http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/4878/3/JOS%C3%89+GILDO+DE+ARA%C3%9AJO+J%C3%9ANIOR+-+DISSERTA%C3%87%C3%83O+PPGCC+2013.pdf49efe5d1f2188e107f9ada9698bd5442MD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/4878/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52riufcg/48782022-03-21 17:05:31.464oai:localhost:riufcg/4878Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512024-07-01T10:01:03.856898Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.pt_BR.fl_str_mv Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
dc.title.alternative.pt_BR.fl_str_mv An approach to the semantic indexing of textual documents based on heterogeneous sources of information.
title Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
spellingShingle Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
ARAÚJO JÚNIOR, José Gildo de.
Sistemas de Recuperação da Informação
Indexação Semântica
Fontes Heterogêneas
Fontes de Informação
Documentos Textuais
Tesauros
Information Retrieval Systems
Semantic Indexing
Heterogeneous Sources
Information Sources
Textual Documents
Thesaurus
title_short Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
title_full Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
title_fullStr Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
title_full_unstemmed Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
title_sort Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação.
author ARAÚJO JÚNIOR, José Gildo de.
author_facet ARAÚJO JÚNIOR, José Gildo de.
author_role author
dc.contributor.advisor2ID.pt_BR.fl_str_mv MARINHO, L. B.
dc.contributor.advisor1.fl_str_mv SCHIEL, Ulrich.
dc.contributor.advisor1ID.fl_str_mv SCHIEL, U.
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2971250918247087
dc.contributor.advisor2.fl_str_mv MARINHO, Leandro Balby.
dc.contributor.advisor2Lattes.fl_str_mv http://lattes.cnpq.br/3728312501032061
dc.contributor.referee1.fl_str_mv PIRES, Carlos Eduardo Santos.
dc.contributor.referee2.fl_str_mv MOURA, Maria Fernanda.
dc.contributor.authorID.fl_str_mv ARAÚJO JÚNIOR, J. G.
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1026450683366163
dc.contributor.author.fl_str_mv ARAÚJO JÚNIOR, José Gildo de.
contributor_str_mv SCHIEL, Ulrich.
MARINHO, Leandro Balby.
PIRES, Carlos Eduardo Santos.
MOURA, Maria Fernanda.
dc.subject.por.fl_str_mv Sistemas de Recuperação da Informação
Indexação Semântica
Fontes Heterogêneas
Fontes de Informação
Documentos Textuais
Tesauros
Information Retrieval Systems
Semantic Indexing
Heterogeneous Sources
Information Sources
Textual Documents
Thesaurus
topic Sistemas de Recuperação da Informação
Indexação Semântica
Fontes Heterogêneas
Fontes de Informação
Documentos Textuais
Tesauros
Information Retrieval Systems
Semantic Indexing
Heterogeneous Sources
Information Sources
Textual Documents
Thesaurus
description Atualmente, um dos principais desafios no campo da Recuperação de Informação (RI) é o desenvolvimento de sistemas que processem corretamente a ideia ou conceito por trás das consultas emitidas pelos usuários. Sistemas convencionais de RI, geralmente limitam suas funcionalidades à indexação e recuperação por palavras-chave, mecanismo que gera resultados incipientes quando termos indexados não são mencionados na consulta. Consultas tais como: “O rei da música brasileira” e “Roberto Carlos”, mesmo utilizando um distinto grupo de palavras, podem representar a mesma ideia ou conceito e, portanto, o sistema deveria retornar o mesmo conjunto resposta. Entretanto, para sistemas de RI que não consideram o aspecto semântico, ambas consultas retornarão, eventualmente, conjuntos respostas distintos. Propõe-se, neste trabalho, um novo paradigma de indexação semântica de conceitos, onde, neste novo enfoque, conceitos presentes em documentos textuais são enriquecidos semanticamente de maneira automática por meio de informações presentes em fontes heterogêneas de informação, unindo, em um único ambiente, características de dicionários, enciclopédias e de sentido comum. Desta maneira, isola-se a ideia ou conceitualização dos objetos de suas inúmeras formas de representação. A abordagem proposta foi comparada com o projeto UBY, um recurso léxico-semântico de grande escala que combina uma vasta gama de informações construídas tanto por peritos quanto coletivamente para o idioma Inglês e Alemão. De maneira que ambas foram submetidas a diversas coleções de documentos e foi comprovada a superioridade da abordagem proposta quando comparada ao UBY. Para isso, mediu-se o número de conceitos presentes nas coleções de documentos identificados por ambas as abordagens; a conectividade, onde computou-se para cada elemento identificado o número de conexões estabelecidas com outros conceitos; e, a qualidade do enriquecimento semântico produzido, onde foram computadas as relações semânticas estabelecidas entre conceitos.
publishDate 2013
dc.date.issued.fl_str_mv 2013-04-19
dc.date.accessioned.fl_str_mv 2019-07-15T12:40:10Z
dc.date.available.fl_str_mv 2019-07-15
2019-07-15T12:40:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878
dc.identifier.citation.fl_str_mv ARAÚJO JÚNIOR, José Gildo de. Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação. 2013. 117f. (Dissertação de Mestrado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2013. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878
identifier_str_mv ARAÚJO JÚNIOR, José Gildo de. Uma abordagem para a indexação semântica de documentos textuais baseada em fontes heterogêneas de informação. 2013. 117f. (Dissertação de Mestrado em Ciência da Computação) Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2013. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4878
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.publisher.program.fl_str_mv PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFCG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Centro de Engenharia Elétrica e Informática - CEEI
publisher.none.fl_str_mv Universidade Federal de Campina Grande
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
bitstream.url.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/4878/3/JOS%C3%89+GILDO+DE+ARA%C3%9AJO+J%C3%9ANIOR+-+DISSERTA%C3%87%C3%83O+PPGCC+2013.pdf
http://dspace.sti.ufcg.edu.br:8080/xmlui/bitstream/riufcg/4878/2/license.txt
bitstream.checksum.fl_str_mv 49efe5d1f2188e107f9ada9698bd5442
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1803396561203363840