SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia

Detalhes bibliográficos
Autor(a) principal: Claudio Gottschalg Duque
Data de Publicação: 2005
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/EARM-7HBND8
Resumo: Este trabalho apresenta estudos para a administração de documentos eletrônicos através de um embasamento cognitivista. Propõe-se uma indexação de textos eletrônicos, disponibilizados em língua portuguesa, por meio da aplicação de teorias de lingüística computacional e utilização de ontologia. A técnica empregada para a indexação é baseada principalmente na teoria de Análise Proposicional proposta por Frederiksen (1975). É baseada na extração de etiquetas sintáticas das palavras que compõem os documentos para a geração de etiquetas semânticas dessas palavras, para então gerar uma ontologia leve automaticamente. Ao longo deste trabalho são sugeridas várias contribuições, que visam otimizar o desempenho de Sistemas de Recuperação de Informação, por meio da utilização de técnicas que permitam contextualizar as palavras dos textos a serem indexados. Tais contribuições incluem desde a otimização de analisadores sintáticos, até a geração automática de ontologias leves. Inicialmente um corpus, que é uma pequena coleção de documentos eletrônicos sobre Ciência da Informação, escritos em língua portuguesa e disponibilizados na Web, foi criada. Esta coleção foi utilizada para testar o protótipo construído. O protótipo, nomeado SiRILiCO (Sistema de Recuperação de Informação baseado em Teorias da Lingüística Computacional e Ontologia), foi utilizado em um experimento-piloto e posteriormente em outro experimento, com o intuito de verificar e validar a hipótese de que é possível desenvolver e implementar um Sistema de Recuperação de Informação totalmente baseado em teorias lingüísticas, teorias de lingüística computacional e ontologia. Os resultados de precisão e revocação dos experimentos realizados com o SiRILiCO são comparados com os resultados obtidos com a utilização de um modelo vetorial. A análise dos resultados sugere que não só é viável a hipótese defendida como também é muito promissora.
id UFMG_41e77aebaa85603588782c786f2ff160
oai_identifier_str oai:repositorio.ufmg.br:1843/EARM-7HBND8
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Marlene de OliveiraLidia AlvarengaRui Rothe-nevesHélio KuramotoJose Wilson da CostaClaudio Gottschalg Duque2019-08-11T05:36:30Z2019-08-11T05:36:30Z2005-05-23http://hdl.handle.net/1843/EARM-7HBND8Este trabalho apresenta estudos para a administração de documentos eletrônicos através de um embasamento cognitivista. Propõe-se uma indexação de textos eletrônicos, disponibilizados em língua portuguesa, por meio da aplicação de teorias de lingüística computacional e utilização de ontologia. A técnica empregada para a indexação é baseada principalmente na teoria de Análise Proposicional proposta por Frederiksen (1975). É baseada na extração de etiquetas sintáticas das palavras que compõem os documentos para a geração de etiquetas semânticas dessas palavras, para então gerar uma ontologia leve automaticamente. Ao longo deste trabalho são sugeridas várias contribuições, que visam otimizar o desempenho de Sistemas de Recuperação de Informação, por meio da utilização de técnicas que permitam contextualizar as palavras dos textos a serem indexados. Tais contribuições incluem desde a otimização de analisadores sintáticos, até a geração automática de ontologias leves. Inicialmente um corpus, que é uma pequena coleção de documentos eletrônicos sobre Ciência da Informação, escritos em língua portuguesa e disponibilizados na Web, foi criada. Esta coleção foi utilizada para testar o protótipo construído. O protótipo, nomeado SiRILiCO (Sistema de Recuperação de Informação baseado em Teorias da Lingüística Computacional e Ontologia), foi utilizado em um experimento-piloto e posteriormente em outro experimento, com o intuito de verificar e validar a hipótese de que é possível desenvolver e implementar um Sistema de Recuperação de Informação totalmente baseado em teorias lingüísticas, teorias de lingüística computacional e ontologia. Os resultados de precisão e revocação dos experimentos realizados com o SiRILiCO são comparados com os resultados obtidos com a utilização de um modelo vetorial. A análise dos resultados sugere que não só é viável a hipótese defendida como também é muito promissora.This work presents studies for the administration of electronic documents using a cognitive approach. We propose an automatic index generation of eletronic texts write in Brazilian Portuguese using linguistic theories, theories of computacional linguistics and ontology. The technique used to create the index is based mainly on the theory of Proposicional Analysis proposed by Frederiksen (1975) and it is based on the extraction of syntactic labels of the words that compose the documents for the generation of semantic labels of those words, for then to generate a lightweight ontology automatically. We suggest, during this work, several contribuitions to improve the Information Retrieval Systems performance, using several techniques that allow context words of indexing texts. Such contributions include optimize syntactic parsers, as well as the automatic generation of lightweight ontologies. Initially a corpus, a small collection of electronic documents about Information Science, written in Brazilian Portuguese and available in the Web, was created. This collection was used to test the prototype. The prototype, nominated SiRILiCO (Information Retrieval System based on Computacional LinguisticTheories and Ontology), was used in a first experiment and later in an experiment to verify and to validate the hypothesis that is possible to develop and to implement an Information Retrieval System totally based on linguistic theories, theories of computacional linguistics and ontology. The SiRILiCOs experiments results of precision and recall are compared with the results obtained with the use of a vectorial model. The analysis of the results suggests that not only it is a possible hypothesis as well as it is very promising.Universidade Federal de Minas GeraisUFMGCiência da informaçãoSistemas de recuperação da informaçãoSIRILICOCiência da informaçãoAnálise proposicionalSistemas de recuperação de informaçãoSIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologiainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdoutorado___claudio_gottschalg_duque___parcial.pdfapplication/pdf3238221https://repositorio.ufmg.br/bitstream/1843/EARM-7HBND8/1/doutorado___claudio_gottschalg_duque___parcial.pdfd31fd2cd9e5402974be81b00d0b711d6MD51TEXTdoutorado___claudio_gottschalg_duque___parcial.pdf.txtdoutorado___claudio_gottschalg_duque___parcial.pdf.txtExtracted texttext/plain186839https://repositorio.ufmg.br/bitstream/1843/EARM-7HBND8/2/doutorado___claudio_gottschalg_duque___parcial.pdf.txt983997bf9fa201d7d6d797441dc35d37MD521843/EARM-7HBND82019-11-14 06:25:41.317oai:repositorio.ufmg.br:1843/EARM-7HBND8Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T09:25:41Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
title SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
spellingShingle SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
Claudio Gottschalg Duque
SIRILICO
Ciência da informação
Análise proposicional
Sistemas de recuperação de informação
Ciência da informação
Sistemas de recuperação da informação
title_short SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
title_full SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
title_fullStr SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
title_full_unstemmed SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
title_sort SIRILICO - Uma proposta para um Sistema de Recuperação de Informação baseado em Teorias da Lingüística computacional e Ontologia
author Claudio Gottschalg Duque
author_facet Claudio Gottschalg Duque
author_role author
dc.contributor.advisor1.fl_str_mv Marlene de Oliveira
dc.contributor.referee1.fl_str_mv Lidia Alvarenga
dc.contributor.referee2.fl_str_mv Rui Rothe-neves
dc.contributor.referee3.fl_str_mv Hélio Kuramoto
dc.contributor.referee4.fl_str_mv Jose Wilson da Costa
dc.contributor.author.fl_str_mv Claudio Gottschalg Duque
contributor_str_mv Marlene de Oliveira
Lidia Alvarenga
Rui Rothe-neves
Hélio Kuramoto
Jose Wilson da Costa
dc.subject.por.fl_str_mv SIRILICO
Ciência da informação
Análise proposicional
Sistemas de recuperação de informação
topic SIRILICO
Ciência da informação
Análise proposicional
Sistemas de recuperação de informação
Ciência da informação
Sistemas de recuperação da informação
dc.subject.other.pt_BR.fl_str_mv Ciência da informação
Sistemas de recuperação da informação
description Este trabalho apresenta estudos para a administração de documentos eletrônicos através de um embasamento cognitivista. Propõe-se uma indexação de textos eletrônicos, disponibilizados em língua portuguesa, por meio da aplicação de teorias de lingüística computacional e utilização de ontologia. A técnica empregada para a indexação é baseada principalmente na teoria de Análise Proposicional proposta por Frederiksen (1975). É baseada na extração de etiquetas sintáticas das palavras que compõem os documentos para a geração de etiquetas semânticas dessas palavras, para então gerar uma ontologia leve automaticamente. Ao longo deste trabalho são sugeridas várias contribuições, que visam otimizar o desempenho de Sistemas de Recuperação de Informação, por meio da utilização de técnicas que permitam contextualizar as palavras dos textos a serem indexados. Tais contribuições incluem desde a otimização de analisadores sintáticos, até a geração automática de ontologias leves. Inicialmente um corpus, que é uma pequena coleção de documentos eletrônicos sobre Ciência da Informação, escritos em língua portuguesa e disponibilizados na Web, foi criada. Esta coleção foi utilizada para testar o protótipo construído. O protótipo, nomeado SiRILiCO (Sistema de Recuperação de Informação baseado em Teorias da Lingüística Computacional e Ontologia), foi utilizado em um experimento-piloto e posteriormente em outro experimento, com o intuito de verificar e validar a hipótese de que é possível desenvolver e implementar um Sistema de Recuperação de Informação totalmente baseado em teorias lingüísticas, teorias de lingüística computacional e ontologia. Os resultados de precisão e revocação dos experimentos realizados com o SiRILiCO são comparados com os resultados obtidos com a utilização de um modelo vetorial. A análise dos resultados sugere que não só é viável a hipótese defendida como também é muito promissora.
publishDate 2005
dc.date.issued.fl_str_mv 2005-05-23
dc.date.accessioned.fl_str_mv 2019-08-11T05:36:30Z
dc.date.available.fl_str_mv 2019-08-11T05:36:30Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/EARM-7HBND8
url http://hdl.handle.net/1843/EARM-7HBND8
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/EARM-7HBND8/1/doutorado___claudio_gottschalg_duque___parcial.pdf
https://repositorio.ufmg.br/bitstream/1843/EARM-7HBND8/2/doutorado___claudio_gottschalg_duque___parcial.pdf.txt
bitstream.checksum.fl_str_mv d31fd2cd9e5402974be81b00d0b711d6
983997bf9fa201d7d6d797441dc35d37
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1797971017568616448