Treatment of text extracted from digital books for search engine indexing

Vaz, Glauber José; Veiga, Pedro Henrique Rodrigues da Cunha da; Caldas, Rafael Gomes; Vidal, Wyviane Carlos Lima; Assis, Cristiane Pereira de; Correa, Jorge Luiz; Moura, Maria Fernanda

Treatment of text extracted from digital books for search engine indexing

Detalhes bibliográficos
Autor(a) principal:	Vaz, Glauber José
Data de Publicação:	2023
Outros Autores:	Veiga, Pedro Henrique Rodrigues da Cunha da, Caldas, Rafael Gomes, Vidal, Wyviane Carlos Lima, Assis, Cristiane Pereira de, Correa, Jorge Luiz, Moura, Maria Fernanda
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Revista Ibero-americana de Ciência da Informação
Texto Completo:	https://periodicos.unb.br/index.php/RICI/article/view/42740
Resumo:	This article presents a methodology for treating texts extracted from digital books from Embrapa's 500 Questions 500 Answers Collection to index their content and to allow its access via a search engine. The methodology involves extracting the essential elements of the books, such as images and HTML files; pre-processing them; analyzing and editing them; and building suitable components for their indexing. In addition to a large amount of human analysis, the technologies used are Epub format for digital books, the Sigil editor, scripts for text processing, web representation standards, and Elasticsearch. The results show that this method can provide well-formatted texts for indexing and use in search engines, giving a rich user experience and enabling the construction of new digital solutions. Therefore, such a digital curation is essential for adding value to digital resources and meeting specific user needs.

Metadados do item

id	UNB-7_016878bc490cac48ba2d1dac2a33333e
oai_identifier_str	oai:ojs.pkp.sfu.ca:article/42740
network_acronym_str	UNB-7
network_name_str	Revista Ibero-americana de Ciência da Informação
repository_id_str
spelling	Treatment of text extracted from digital books for search engine indexingTratamiento del texto extraído de los libros digitales para su indexación en los motores de búsquedaTratamento de texto extraído de livros digitais para a indexação em mecanismo de buscaCuradoria digitalRecuperação da informaçãoProcessamento de textoDisseminação da InformaçãoIndexaçãoLivros digitaisCuración digitalRecuperación de la informaciónTratamiento de textosDifusión de la informaciónIndizaciónLibros digitalesDigital curationInformation retrievalText processingDissemination of informationIndexingDigital booksThis article presents a methodology for treating texts extracted from digital books from Embrapa's 500 Questions 500 Answers Collection to index their content and to allow its access via a search engine. The methodology involves extracting the essential elements of the books, such as images and HTML files; pre-processing them; analyzing and editing them; and building suitable components for their indexing. In addition to a large amount of human analysis, the technologies used are Epub format for digital books, the Sigil editor, scripts for text processing, web representation standards, and Elasticsearch. The results show that this method can provide well-formatted texts for indexing and use in search engines, giving a rich user experience and enabling the construction of new digital solutions. Therefore, such a digital curation is essential for adding value to digital resources and meeting specific user needs.Este trabajo presenta una metodología para el tratamiento de los textos extraídos de los libros digitales “500 Preguntas 500 Respuestas” de Embrapa, para que su contenido pueda ser indexado y accedido a través de un motor de búsqueda específico. La metodología presentada implica la extracción de elementos esenciales del libro (como, por ejemplo, imágenes y archivos HTML), el preprocesamiento de estos elementos, su análisis y edición, y por último, la construcción de componentes adecuados para su indexación. Además de un exhaustivo trabajo de análisis humano, se tuvieron en cuenta tecnologías como el formato Epub para libros digitales, el editor Sigil, scripts para el tratamiento de textos, estándares de representación web y Elasticsearch. Los resultados obtenidos muestran que la metodología permite disponer de textos viables para su indexación y su utilización en los motores de búsqueda, proporcionando al usuario una experiencia rica, además de permitir la construcción de nuevas soluciones digitales. En este contexto, la curación digital es fundamental para añadir valor a los recursos digitales y satisfacer las necesidades específicas de los usuarios. Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scripts para processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários. Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação2023-08-15info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdfhttps://periodicos.unb.br/index.php/RICI/article/view/4274010.26512/rici.v16.n2.2023.42740Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 2 (2023): Revista Ibero-americana de Ciência da Informação; 311-328Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 2 (2023): Revista Ibero-americana de Ciência da Informação; 311-328Revista Ibero-Americana de Ciência da Informação; v. 16 n. 2 (2023): Revista Ibero-americana de Ciência da Informação; 311-3281983-521310.26512/rici.v16.n2.2023reponame:Revista Ibero-americana de Ciência da Informaçãoinstname:Universidade de Brasília (UnB)instacron:UNBporhttps://periodicos.unb.br/index.php/RICI/article/view/42740/38311Copyright (c) 2023 Glauber José Vaz, Pedro Henrique Rodrigues da Cunha da Veiga, Rafael Gomes Caldas, Wyviane Carlos Lima Vidal, Cristiane Pereira de Assis, Jorge Luiz Correa, Maria Fernanda Mourahttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessVaz, Glauber JoséVeiga, Pedro Henrique Rodrigues da Cunha daCaldas, Rafael GomesVidal, Wyviane Carlos LimaAssis, Cristiane Pereira deCorrea, Jorge LuizMoura, Maria Fernanda2023-08-15T13:30:31Zoai:ojs.pkp.sfu.ca:article/42740Revistahttps://periodicos.unb.br/index.php/RICI/indexPUBhttps://periodicos.unb.br/index.php/RICI/oai\|\|rici@unb.br1983-52131983-5213opendoar:2023-08-15T13:30:31Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv	Treatment of text extracted from digital books for search engine indexing Tratamiento del texto extraído de los libros digitales para su indexación en los motores de búsqueda Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca
title	Treatment of text extracted from digital books for search engine indexing
spellingShingle	Treatment of text extracted from digital books for search engine indexing Vaz, Glauber José Curadoria digital Recuperação da informação Processamento de texto Disseminação da Informação Indexação Livros digitais Curación digital Recuperación de la información Tratamiento de textos Difusión de la información Indización Libros digitales Digital curation Information retrieval Text processing Dissemination of information Indexing Digital books
title_short	Treatment of text extracted from digital books for search engine indexing
title_full	Treatment of text extracted from digital books for search engine indexing
title_fullStr	Treatment of text extracted from digital books for search engine indexing
title_full_unstemmed	Treatment of text extracted from digital books for search engine indexing
title_sort	Treatment of text extracted from digital books for search engine indexing
author	Vaz, Glauber José
author_facet	Vaz, Glauber José Veiga, Pedro Henrique Rodrigues da Cunha da Caldas, Rafael Gomes Vidal, Wyviane Carlos Lima Assis, Cristiane Pereira de Correa, Jorge Luiz Moura, Maria Fernanda
author_role	author
author2	Veiga, Pedro Henrique Rodrigues da Cunha da Caldas, Rafael Gomes Vidal, Wyviane Carlos Lima Assis, Cristiane Pereira de Correa, Jorge Luiz Moura, Maria Fernanda
author2_role	author author author author author author
dc.contributor.author.fl_str_mv	Vaz, Glauber José Veiga, Pedro Henrique Rodrigues da Cunha da Caldas, Rafael Gomes Vidal, Wyviane Carlos Lima Assis, Cristiane Pereira de Correa, Jorge Luiz Moura, Maria Fernanda
dc.subject.por.fl_str_mv	Curadoria digital Recuperação da informação Processamento de texto Disseminação da Informação Indexação Livros digitais Curación digital Recuperación de la información Tratamiento de textos Difusión de la información Indización Libros digitales Digital curation Information retrieval Text processing Dissemination of information Indexing Digital books
topic	Curadoria digital Recuperação da informação Processamento de texto Disseminação da Informação Indexação Livros digitais Curación digital Recuperación de la información Tratamiento de textos Difusión de la información Indización Libros digitales Digital curation Information retrieval Text processing Dissemination of information Indexing Digital books
description	This article presents a methodology for treating texts extracted from digital books from Embrapa's 500 Questions 500 Answers Collection to index their content and to allow its access via a search engine. The methodology involves extracting the essential elements of the books, such as images and HTML files; pre-processing them; analyzing and editing them; and building suitable components for their indexing. In addition to a large amount of human analysis, the technologies used are Epub format for digital books, the Sigil editor, scripts for text processing, web representation standards, and Elasticsearch. The results show that this method can provide well-formatted texts for indexing and use in search engines, giving a rich user experience and enabling the construction of new digital solutions. Therefore, such a digital curation is essential for adding value to digital resources and meeting specific user needs.
publishDate	2023
dc.date.none.fl_str_mv	2023-08-15
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://periodicos.unb.br/index.php/RICI/article/view/42740 10.26512/rici.v16.n2.2023.42740
url	https://periodicos.unb.br/index.php/RICI/article/view/42740
identifier_str_mv	10.26512/rici.v16.n2.2023.42740
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://periodicos.unb.br/index.php/RICI/article/view/42740/38311
dc.rights.driver.fl_str_mv	https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess
rights_invalid_str_mv	https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação
publisher.none.fl_str_mv	Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação
dc.source.none.fl_str_mv	Revista Ibero-Americana de Ciência da Informação; Vol. 16 No. 2 (2023): Revista Ibero-americana de Ciência da Informação; 311-328 Revista Ibero-Americana de Ciência da Informação; Vol. 16 Núm. 2 (2023): Revista Ibero-americana de Ciência da Informação; 311-328 Revista Ibero-Americana de Ciência da Informação; v. 16 n. 2 (2023): Revista Ibero-americana de Ciência da Informação; 311-328 1983-5213 10.26512/rici.v16.n2.2023 reponame:Revista Ibero-americana de Ciência da Informação instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Revista Ibero-americana de Ciência da Informação
collection	Revista Ibero-americana de Ciência da Informação
repository.name.fl_str_mv	Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)
repository.mail.fl_str_mv	\|\|rici@unb.br
_version_	1800211000301977600

Treatment of text extracted from digital books for search engine indexing

Registros relacionados