Recuperação de informação textual baseada em cluster conceitual

Detalhes bibliográficos
Autor(a) principal: Janaite Neto, Jorge
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: https://hdl.handle.net/11449/251830
Resumo: A atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.
id UNSP_f7b45b919da2a994d433513ebbe5a411
oai_identifier_str oai:repositorio.unesp.br:11449/251830
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Recuperação de informação textual baseada em cluster conceitualTextual information retrieval based on conceptual clusterAlgoritmos de computadorRecuperação da informaçãoIndexação automáticaAnálise por agrupamentoEstruturas conceituais (Teoria da informação)Computer algorithmsInformation retrievalAutomatic indexingCluster analysisConceptual structures (Information theory)Information organizationA atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.The current abundance of document production makes it necessary to develop new classification schemes that can organize a large volume of material produced incessantly. Since a significant part of this textual material is produced and stored digitally, this greatly favors the use of automatic indexing systems. Information retrieval is a linguistic process while automatic indexing operated by computers is a statistical process, making it necessary to bring these areas of knowledge closer together. Traditionally, texts are considered as a set of words with a topical relevance proportional to the frequency of occurrence within each document and the frequency between the documents that make up the document corpus, this representation is called bag-of-words. The main shortcoming of these classic representations based on the bag-of-words model is the treatment given to ambiguous words: they are discarded or ignored; this greatly reduces the quality of indexing and consequently the quality of retrieval. The problem of terminological ambiguity is a linguistic problem: some words that are orthographically identical have different meanings. If we overcome the terminological issue and operates at a conceptual level, the problem of ambiguity would be solved: the concepts are unambiguous. The purpose of this dissertation is to investigate and propose the use of concept-based clustering to improve the effectiveness of the automatic indexing and information retrieval process by improving representation of the texts that make up the document corpus, representing them by conceptual groupings. At the end, an experiment is carried out to illustrate the practical application of the proposed algorithm, as well as to demonstrate the promising results achieved and lay the groundwork for a future full implementation of it.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Ferneda, Edberto [UNESP]Janaite Neto, Jorge2023-12-11T17:20:37Z2023-12-11T17:20:37Z2023-09-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfJANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023.https://hdl.handle.net/11449/25183033004110043P472221429545873490000-0002-2269-5371porhttps://repositorio.unesp.br/handle/11449/154340info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-12-12T06:02:47Zoai:repositorio.unesp.br:11449/251830Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462023-12-12T06:02:47Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Recuperação de informação textual baseada em cluster conceitual
Textual information retrieval based on conceptual cluster
title Recuperação de informação textual baseada em cluster conceitual
spellingShingle Recuperação de informação textual baseada em cluster conceitual
Janaite Neto, Jorge
Algoritmos de computador
Recuperação da informação
Indexação automática
Análise por agrupamento
Estruturas conceituais (Teoria da informação)
Computer algorithms
Information retrieval
Automatic indexing
Cluster analysis
Conceptual structures (Information theory)
Information organization
title_short Recuperação de informação textual baseada em cluster conceitual
title_full Recuperação de informação textual baseada em cluster conceitual
title_fullStr Recuperação de informação textual baseada em cluster conceitual
title_full_unstemmed Recuperação de informação textual baseada em cluster conceitual
title_sort Recuperação de informação textual baseada em cluster conceitual
author Janaite Neto, Jorge
author_facet Janaite Neto, Jorge
author_role author
dc.contributor.none.fl_str_mv Ferneda, Edberto [UNESP]
dc.contributor.author.fl_str_mv Janaite Neto, Jorge
dc.subject.por.fl_str_mv Algoritmos de computador
Recuperação da informação
Indexação automática
Análise por agrupamento
Estruturas conceituais (Teoria da informação)
Computer algorithms
Information retrieval
Automatic indexing
Cluster analysis
Conceptual structures (Information theory)
Information organization
topic Algoritmos de computador
Recuperação da informação
Indexação automática
Análise por agrupamento
Estruturas conceituais (Teoria da informação)
Computer algorithms
Information retrieval
Automatic indexing
Cluster analysis
Conceptual structures (Information theory)
Information organization
description A atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-11T17:20:37Z
2023-12-11T17:20:37Z
2023-09-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv JANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023.
https://hdl.handle.net/11449/251830
33004110043P4
7222142954587349
0000-0002-2269-5371
identifier_str_mv JANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023.
33004110043P4
7222142954587349
0000-0002-2269-5371
url https://hdl.handle.net/11449/251830
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unesp.br/handle/11449/154340
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803649392669884416