Extração de relações semanticas via análise de correlação de termos em documentos

Detalhes bibliográficos
Autor(a) principal: Botero, Sergio William, 1978-
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1608763
Resumo: Orientador: Ivan Luiz Marques Ricarte
id UNICAMP-30_aac91585391fd53b53878196ceedea17
oai_identifier_str oai::437630
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Extração de relações semanticas via análise de correlação de termos em documentosExtracting semantic relations via analysis of correlated terms in documentsProcessamento de textos (Computação)SemânticaRecuperação da informaçãoSistemas de recuperação da informaçãoOntologiaText processing (Computation)SemanticInformation retrievalInformation retrieval systemOntologyOrientador: Ivan Luiz Marques RicarteDissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de ComputaçãoResumo: Sistemas de recuperação de informação são ferramentas para automatizar os procedimentos de busca por informações. Surgiram com propostas simples nas quais a recuperação era baseada exclusivamente na sintaxe das palavras e evoluíram para sistemas baseados na semântica das palavras como, por exemplo, os que utilizam ontologias. Entretanto, a especificação manual de ontologias é uma tarefa extremamente custosa e sujeita a erros humanos. Métodos automáticos para a construção de ontologias mostraram-se ineficientes, identificando falsas relações semânticas. O presente trabalho apresenta uma técnica baseada em processamento de linguagem natural e um novo algoritmo de agrupamento para a extração semi-automática de relações que utiliza o conteúdo dos documentos, uma ontologia de senso comum e supervisão do usuário para identificar corretamente as relações semânticas. A proposta envolve um estágio que utiliza recursos lingüísticos para a extração de termos e outro que utiliza algoritmos de agrupamento para a identificação de conceitos e relações semânticas de instanciação entre termos e conceitos. O algoritmo proposto é baseado em técnicas de agrupamento possibilístico e de bi-agrupamento e permite a extração interativa de conceitos e relações. Os resultados são promissores, similares às metodologias mais recentes, com a vantagem de permitir a supervisão do processo de extraçãoAbstract: Information Retrieval systems are tools to automate the searching for information. The first implementations were very simple, based exclusively on word syntax, and have evolved to systems that use semantic knowledge such as those using ontologies. However, the manual specification is an expensive task and subject to human mistakes. In order to deal with this problem, methodologies that automatically construct ontologies have been proposed but they did not reach good results, identifying false semantic relation between words. This work presents a natural language processing technique e a new clustering algorithm for the semi-automatic extraction of semantic relations by using the content of the document, a commom-sense ontology, and the supervision of the user to correctly identify semantic relations. The proposal encompasses a stage that uses linguistic resources to extract the terms and another stage that uses clustering algorithms to identify concepts and instanceof relations between terms and concepts. The proposed algorithm is based on possibilistic clustering and bi-clustering techniques and it allows the interative extraction of concepts. The results are promising, similar to the most recent methodologies, with the advantage of allowing the supervision of the extraction processMestradoEngenharia de ComputaçãoMestre em Engenharia Elétrica[s.n.]Ricarte, Ivan Luiz Marques, 1962-Aluísio, Sandra MariaVon Zuben, Fernando JoséUniversidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de ComputaçãoPrograma de Pós-Graduação em Engenharia ElétricaUNIVERSIDADE ESTADUAL DE CAMPINASBotero, Sergio William, 1978-20082008-12-12T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf145 p. : il.https://hdl.handle.net/20.500.12733/1608763BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1608763. Acesso em: 15 mai. 2024.https://repositorio.unicamp.br/acervo/detalhe/437630porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T05:25:38Zoai::437630Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T05:25:38Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Extração de relações semanticas via análise de correlação de termos em documentos
Extracting semantic relations via analysis of correlated terms in documents
title Extração de relações semanticas via análise de correlação de termos em documentos
spellingShingle Extração de relações semanticas via análise de correlação de termos em documentos
Botero, Sergio William, 1978-
Processamento de textos (Computação)
Semântica
Recuperação da informação
Sistemas de recuperação da informação
Ontologia
Text processing (Computation)
Semantic
Information retrieval
Information retrieval system
Ontology
title_short Extração de relações semanticas via análise de correlação de termos em documentos
title_full Extração de relações semanticas via análise de correlação de termos em documentos
title_fullStr Extração de relações semanticas via análise de correlação de termos em documentos
title_full_unstemmed Extração de relações semanticas via análise de correlação de termos em documentos
title_sort Extração de relações semanticas via análise de correlação de termos em documentos
author Botero, Sergio William, 1978-
author_facet Botero, Sergio William, 1978-
author_role author
dc.contributor.none.fl_str_mv Ricarte, Ivan Luiz Marques, 1962-
Aluísio, Sandra Maria
Von Zuben, Fernando José
Universidade Estadual de Campinas. Faculdade de Engenharia Elétrica e de Computação
Programa de Pós-Graduação em Engenharia Elétrica
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Botero, Sergio William, 1978-
dc.subject.por.fl_str_mv Processamento de textos (Computação)
Semântica
Recuperação da informação
Sistemas de recuperação da informação
Ontologia
Text processing (Computation)
Semantic
Information retrieval
Information retrieval system
Ontology
topic Processamento de textos (Computação)
Semântica
Recuperação da informação
Sistemas de recuperação da informação
Ontologia
Text processing (Computation)
Semantic
Information retrieval
Information retrieval system
Ontology
description Orientador: Ivan Luiz Marques Ricarte
publishDate 2008
dc.date.none.fl_str_mv 2008
2008-12-12T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1608763
BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1608763. Acesso em: 15 mai. 2024.
url https://hdl.handle.net/20.500.12733/1608763
identifier_str_mv BOTERO, Sergio William. Extração de relações semanticas via análise de correlação de termos em documentos. 2008. 145 p. Dissertação (mestrado) - Universidade Estadual de Campinas, Faculdade de Engenharia Eletrica e de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1608763. Acesso em: 15 mai. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/437630
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
145 p. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1799138449946574848