Recuperação de informação textual baseada em cluster conceitual

Janaite Neto, Jorge

Recuperação de informação textual baseada em cluster conceitual

Detalhes bibliográficos
Autor(a) principal:	Janaite Neto, Jorge
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UNESP
Texto Completo:	https://hdl.handle.net/11449/251830
Resumo:	A atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.

Metadados do item

id	UNSP_f7b45b919da2a994d433513ebbe5a411
oai_identifier_str	oai:repositorio.unesp.br:11449/251830
network_acronym_str	UNSP
network_name_str	Repositório Institucional da UNESP
repository_id_str	2946
spelling	Recuperação de informação textual baseada em cluster conceitualTextual information retrieval based on conceptual clusterAlgoritmos de computadorRecuperação da informaçãoIndexação automáticaAnálise por agrupamentoEstruturas conceituais (Teoria da informação)Computer algorithmsInformation retrievalAutomatic indexingCluster analysisConceptual structures (Information theory)Information organizationA atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.The current abundance of document production makes it necessary to develop new classification schemes that can organize a large volume of material produced incessantly. Since a significant part of this textual material is produced and stored digitally, this greatly favors the use of automatic indexing systems. Information retrieval is a linguistic process while automatic indexing operated by computers is a statistical process, making it necessary to bring these areas of knowledge closer together. Traditionally, texts are considered as a set of words with a topical relevance proportional to the frequency of occurrence within each document and the frequency between the documents that make up the document corpus, this representation is called bag-of-words. The main shortcoming of these classic representations based on the bag-of-words model is the treatment given to ambiguous words: they are discarded or ignored; this greatly reduces the quality of indexing and consequently the quality of retrieval. The problem of terminological ambiguity is a linguistic problem: some words that are orthographically identical have different meanings. If we overcome the terminological issue and operates at a conceptual level, the problem of ambiguity would be solved: the concepts are unambiguous. The purpose of this dissertation is to investigate and propose the use of concept-based clustering to improve the effectiveness of the automatic indexing and information retrieval process by improving representation of the texts that make up the document corpus, representing them by conceptual groupings. At the end, an experiment is carried out to illustrate the practical application of the proposed algorithm, as well as to demonstrate the promising results achieved and lay the groundwork for a future full implementation of it.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Ferneda, Edberto [UNESP]Janaite Neto, Jorge2023-12-11T17:20:37Z2023-12-11T17:20:37Z2023-09-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfJANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023.https://hdl.handle.net/11449/25183033004110043P472221429545873490000-0002-2269-5371porhttps://repositorio.unesp.br/handle/11449/154340info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-12-12T06:02:47Zoai:repositorio.unesp.br:11449/251830Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462023-12-12T06:02:47Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv	Recuperação de informação textual baseada em cluster conceitual Textual information retrieval based on conceptual cluster
title	Recuperação de informação textual baseada em cluster conceitual
spellingShingle	Recuperação de informação textual baseada em cluster conceitual Janaite Neto, Jorge Algoritmos de computador Recuperação da informação Indexação automática Análise por agrupamento Estruturas conceituais (Teoria da informação) Computer algorithms Information retrieval Automatic indexing Cluster analysis Conceptual structures (Information theory) Information organization
title_short	Recuperação de informação textual baseada em cluster conceitual
title_full	Recuperação de informação textual baseada em cluster conceitual
title_fullStr	Recuperação de informação textual baseada em cluster conceitual
title_full_unstemmed	Recuperação de informação textual baseada em cluster conceitual
title_sort	Recuperação de informação textual baseada em cluster conceitual
author	Janaite Neto, Jorge
author_facet	Janaite Neto, Jorge
author_role	author
dc.contributor.none.fl_str_mv	Ferneda, Edberto [UNESP]
dc.contributor.author.fl_str_mv	Janaite Neto, Jorge
dc.subject.por.fl_str_mv	Algoritmos de computador Recuperação da informação Indexação automática Análise por agrupamento Estruturas conceituais (Teoria da informação) Computer algorithms Information retrieval Automatic indexing Cluster analysis Conceptual structures (Information theory) Information organization
topic	Algoritmos de computador Recuperação da informação Indexação automática Análise por agrupamento Estruturas conceituais (Teoria da informação) Computer algorithms Information retrieval Automatic indexing Cluster analysis Conceptual structures (Information theory) Information organization
description	A atual abundância na produção de documentos torna necessário o desenvolvimento de novos esquemas de classificação que sejam capazes de organizar o enorme volume de material produzido incessantemente. Como uma parte expressiva deste material textual é produzido e armazenado em meios digitais, isso favorece bastante o uso de sistemas de indexação automáticos. Recuperação de informação é um processo linguístico, ao passo que a indexação automática operada por computadores é um processo estatístico, tornando necessário uma aproximação destas áreas do conhecimento. Tradicionalmente, os textos são considerados como um conjunto de palavras portadoras de uma relevância tópica proporcional à frequência de ocorrência dentro de cada documento e à frequência entre os documentos que compõe o corpus documental, sendo esta representação denominada de bag-of-words. A principal deficiência destas representações clássicas baseadas no modelo bag-of-words é o tratamento dado às palavras ambíguas: elas são descartadas ou ignoradas; isso empobrece muito a qualidade da indexação e consequentemente a qualidade da recuperação. O problema da ambiguidade terminológica é um problema linguístico: algumas palavras ortograficamente idênticas possuem significados diferentes. Se superarmos a questão terminológica e operarmos em nível conceitual, o problema da ambiguidade estaria solucionado: os conceitos são inequívocos. O propósito desta tese é investigar e propor o uso de clustering a partir dos conceitos com o objetivo de melhorar a eficácia do processo de indexação automática e recuperação de informação, aperfeiçoando a representação dos textos que compõe o corpus documental e os representando por agrupamentos conceituais. Ao final é realizado um experimento para ilustrar a aplicação prática do algoritmo proposto bem como demonstrar os resultados promissores alcançados e lançar um base para uma futura implementação completa.
publishDate	2023
dc.date.none.fl_str_mv	2023-12-11T17:20:37Z 2023-12-11T17:20:37Z 2023-09-28
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	JANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023. https://hdl.handle.net/11449/251830 33004110043P4 7222142954587349 0000-0002-2269-5371
identifier_str_mv	JANAITE NETO, Jorge. Recuperação de informação textual baseada em cluster conceitual. 2023. 128 p. Tese (Doutorado em Ciência da Informação) - Faculdade de Filosofia e Ciências, Universidade Estadual Paulista (Unesp), Marília, 2023. 33004110043P4 7222142954587349 0000-0002-2269-5371
url	https://hdl.handle.net/11449/251830
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://repositorio.unesp.br/handle/11449/154340
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv	Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP
instname_str	Universidade Estadual Paulista (UNESP)
instacron_str	UNESP
institution	UNESP
reponame_str	Repositório Institucional da UNESP
collection	Repositório Institucional da UNESP
repository.name.fl_str_mv	Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_	1803649392669884416

Recuperação de informação textual baseada em cluster conceitual

Registros relacionados