Comparative study of full-text indexing for information retrieval in database management systems

Detalhes bibliográficos
Autor(a) principal: Silva, Edson Marchetti da
Data de Publicação: 2019
Tipo de documento: Artigo
Idioma: por
Título da fonte: InCID
Texto Completo: https://www.revistas.usp.br/incid/article/view/152193
Resumo: Full-Text Indexing is a functionality of Database Management Systems (DBMS) that enables the search and retrieval of information in text documents in efficient way. In this sense, the characteristics of the full-text indexing functionality of three software products were studied and compared, aiming undersatand the appropriate solution under the perspective of functionality characteristics and performance of the complete indexing of texts for the retrieval of information. In this context, the theoretical basis of the automatic indexing process was described, as well as the main algorithms used to calculate relevance for information retrieval. The Microsoft SQL Server, Oracle Database and PostgreSQL software products were also tested and compared in terms of indexing and searching the documents stored in these DBMS. The results show that the choice of a DBMS will depend on its applicability, being based on the type of document to be indexed, functionalities implemented in the DBMS and budget for software investment.
id USP-15_eb13c8e3bb041899b72d6ca92fc72c0b
oai_identifier_str oai:revistas.usp.br:article/152193
network_acronym_str USP-15
network_name_str InCID
repository_id_str
spelling Comparative study of full-text indexing for information retrieval in database management systemsEstudo comparativo de indexação complete de texto para recuperação de informações em sistemas gerenciadores de banco de dadosAutomatic indexingInformation retrievalRelevanceFull-text databaseIndexação automáticaRecuperação de informaçãoRelevânciaBases de dados de textos completosFull-Text Indexing is a functionality of Database Management Systems (DBMS) that enables the search and retrieval of information in text documents in efficient way. In this sense, the characteristics of the full-text indexing functionality of three software products were studied and compared, aiming undersatand the appropriate solution under the perspective of functionality characteristics and performance of the complete indexing of texts for the retrieval of information. In this context, the theoretical basis of the automatic indexing process was described, as well as the main algorithms used to calculate relevance for information retrieval. The Microsoft SQL Server, Oracle Database and PostgreSQL software products were also tested and compared in terms of indexing and searching the documents stored in these DBMS. The results show that the choice of a DBMS will depend on its applicability, being based on the type of document to be indexed, functionalities implemented in the DBMS and budget for software investment.A indexação completa de textos é uma funcionalidade dos Sistemas Gerenciadores de Bancos de Dados (SGBD) que possibilita a pesquisa e recuperação de informações em documentos de textos de forma eficiente. Dessa forma, foram estudadas e comparadas as características da indexação completa de textos de três produtos de software, objetivando entender a solução mais adequada sob a perspectiva de características das funcionalidades e desempenho da indexação completa de textos destinados a recuperação de informação. Nesse contexto, foi descrita a fundamentação teórica sobre o processo de indexação automática destacando os principais algoritmos utilizados para cálculo de relevância para recuperação de informações. Também foram testados e comparados os produtos de software Microsoft SQL Server, Oracle Database e PostgreSQL no que tange à indexação e pesquisa dos documentos armazenados nesses SGBD. Os resultados demonstram que a escolha de um SGBD irá depender da aplicabilidade do mesmo, sendo fundamentada pelo tipo de documento a ser indexado, funcionalidades implementadas no SGBD e orçamento para investimento em software.Universidade de São Paulo. Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto2019-05-23info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://www.revistas.usp.br/incid/article/view/15219310.11606/issn.2178-2075.v10i1p281-301InCID: Revista de Ciência da Informação e Documentação; v. 10 n. 1 (2019); 281-3012178-2075reponame:InCIDinstname:Universidade de São Paulo (USP)instacron:USPporhttps://www.revistas.usp.br/incid/article/view/152193/153417Copyright (c) 2019 InCID: Revista de Ciência da Informação e Documentaçãoinfo:eu-repo/semantics/openAccessSilva, Edson Marchetti da2020-05-07T21:34:34ZRevistahttp://revistas.ffclrp.usp.br/incidPUB
dc.title.none.fl_str_mv Comparative study of full-text indexing for information retrieval in database management systems
Estudo comparativo de indexação complete de texto para recuperação de informações em sistemas gerenciadores de banco de dados
title Comparative study of full-text indexing for information retrieval in database management systems
spellingShingle Comparative study of full-text indexing for information retrieval in database management systems
Silva, Edson Marchetti da
Automatic indexing
Information retrieval
Relevance
Full-text database
Indexação automática
Recuperação de informação
Relevância
Bases de dados de textos completos
title_short Comparative study of full-text indexing for information retrieval in database management systems
title_full Comparative study of full-text indexing for information retrieval in database management systems
title_fullStr Comparative study of full-text indexing for information retrieval in database management systems
title_full_unstemmed Comparative study of full-text indexing for information retrieval in database management systems
title_sort Comparative study of full-text indexing for information retrieval in database management systems
author Silva, Edson Marchetti da
author_facet Silva, Edson Marchetti da
author_role author
dc.contributor.author.fl_str_mv Silva, Edson Marchetti da
dc.subject.por.fl_str_mv Automatic indexing
Information retrieval
Relevance
Full-text database
Indexação automática
Recuperação de informação
Relevância
Bases de dados de textos completos
topic Automatic indexing
Information retrieval
Relevance
Full-text database
Indexação automática
Recuperação de informação
Relevância
Bases de dados de textos completos
description Full-Text Indexing is a functionality of Database Management Systems (DBMS) that enables the search and retrieval of information in text documents in efficient way. In this sense, the characteristics of the full-text indexing functionality of three software products were studied and compared, aiming undersatand the appropriate solution under the perspective of functionality characteristics and performance of the complete indexing of texts for the retrieval of information. In this context, the theoretical basis of the automatic indexing process was described, as well as the main algorithms used to calculate relevance for information retrieval. The Microsoft SQL Server, Oracle Database and PostgreSQL software products were also tested and compared in terms of indexing and searching the documents stored in these DBMS. The results show that the choice of a DBMS will depend on its applicability, being based on the type of document to be indexed, functionalities implemented in the DBMS and budget for software investment.
publishDate 2019
dc.date.none.fl_str_mv 2019-05-23
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.revistas.usp.br/incid/article/view/152193
10.11606/issn.2178-2075.v10i1p281-301
url https://www.revistas.usp.br/incid/article/view/152193
identifier_str_mv 10.11606/issn.2178-2075.v10i1p281-301
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://www.revistas.usp.br/incid/article/view/152193/153417
dc.rights.driver.fl_str_mv Copyright (c) 2019 InCID: Revista de Ciência da Informação e Documentação
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2019 InCID: Revista de Ciência da Informação e Documentação
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade de São Paulo. Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto
publisher.none.fl_str_mv Universidade de São Paulo. Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto
dc.source.none.fl_str_mv InCID: Revista de Ciência da Informação e Documentação; v. 10 n. 1 (2019); 281-301
2178-2075
reponame:InCID
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str InCID
collection InCID
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1787713839479914496