Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | , , , , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) |
Texto Completo: | http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913 https://doi.org/10.26512/rici.v16.n2.2023.42740 |
Resumo: | Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários. |
id |
EMBR_e957ec26cf823bf2f8e70c8a605c37c9 |
---|---|
oai_identifier_str |
oai:www.alice.cnptia.embrapa.br:doc/1155913 |
network_acronym_str |
EMBR |
network_name_str |
Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) |
repository_id_str |
2154 |
spelling |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.Curadoria digitalRecuperação da informaçãoProcessamento de textoDisseminação da informaçãoIndexaçãoLivros digitaisDigital curationText processingIndexingDigital booksInformation retrievalInformation disseminationEste trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.VAZ, G. J.VEIGA, P. H. R. da C. daCALDAS, R. G.VIDAL, W. C. L.ASSIS, C. P. deCORREA, J. L.MOURA, M. F.2023-08-15T15:23:43Z2023-08-15T15:23:43Z2023-08-152023info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleRevista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023.1983-5213http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913https://doi.org/10.26512/rici.v16.n2.2023.42740porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)instname:Empresa Brasileira de Pesquisa Agropecuária (Embrapa)instacron:EMBRAPA2023-08-15T15:23:43Zoai:www.alice.cnptia.embrapa.br:doc/1155913Repositório InstitucionalPUBhttps://www.alice.cnptia.embrapa.br/oai/requestopendoar:21542023-08-15T15:23:43falseRepositório InstitucionalPUBhttps://www.alice.cnptia.embrapa.br/oai/requestcg-riaa@embrapa.bropendoar:21542023-08-15T15:23:43Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) - Empresa Brasileira de Pesquisa Agropecuária (Embrapa)false |
dc.title.none.fl_str_mv |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
title |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
spellingShingle |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. VAZ, G. J. Curadoria digital Recuperação da informação Processamento de texto Disseminação da informação Indexação Livros digitais Digital curation Text processing Indexing Digital books Information retrieval Information dissemination |
title_short |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
title_full |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
title_fullStr |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
title_full_unstemmed |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
title_sort |
Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca. |
author |
VAZ, G. J. |
author_facet |
VAZ, G. J. VEIGA, P. H. R. da C. da CALDAS, R. G. VIDAL, W. C. L. ASSIS, C. P. de CORREA, J. L. MOURA, M. F. |
author_role |
author |
author2 |
VEIGA, P. H. R. da C. da CALDAS, R. G. VIDAL, W. C. L. ASSIS, C. P. de CORREA, J. L. MOURA, M. F. |
author2_role |
author author author author author author |
dc.contributor.none.fl_str_mv |
GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA. |
dc.contributor.author.fl_str_mv |
VAZ, G. J. VEIGA, P. H. R. da C. da CALDAS, R. G. VIDAL, W. C. L. ASSIS, C. P. de CORREA, J. L. MOURA, M. F. |
dc.subject.por.fl_str_mv |
Curadoria digital Recuperação da informação Processamento de texto Disseminação da informação Indexação Livros digitais Digital curation Text processing Indexing Digital books Information retrieval Information dissemination |
topic |
Curadoria digital Recuperação da informação Processamento de texto Disseminação da informação Indexação Livros digitais Digital curation Text processing Indexing Digital books Information retrieval Information dissemination |
description |
Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-08-15T15:23:43Z 2023-08-15T15:23:43Z 2023-08-15 2023 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/publishedVersion info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023. 1983-5213 http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913 https://doi.org/10.26512/rici.v16.n2.2023.42740 |
identifier_str_mv |
Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023. 1983-5213 |
url |
http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913 https://doi.org/10.26512/rici.v16.n2.2023.42740 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) instname:Empresa Brasileira de Pesquisa Agropecuária (Embrapa) instacron:EMBRAPA |
instname_str |
Empresa Brasileira de Pesquisa Agropecuária (Embrapa) |
instacron_str |
EMBRAPA |
institution |
EMBRAPA |
reponame_str |
Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) |
collection |
Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) |
repository.name.fl_str_mv |
Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) - Empresa Brasileira de Pesquisa Agropecuária (Embrapa) |
repository.mail.fl_str_mv |
cg-riaa@embrapa.br |
_version_ |
1794503548367536128 |