Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.

Detalhes bibliográficos
Autor(a) principal: VAZ, G. J.
Data de Publicação: 2023
Outros Autores: VEIGA, P. H. R. da C. da, CALDAS, R. G., VIDAL, W. C. L., ASSIS, C. P. de, CORREA, J. L., MOURA, M. F.
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)
Texto Completo: http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
https://doi.org/10.26512/rici.v16.n2.2023.42740
Resumo: Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.
id EMBR_e957ec26cf823bf2f8e70c8a605c37c9
oai_identifier_str oai:www.alice.cnptia.embrapa.br:doc/1155913
network_acronym_str EMBR
network_name_str Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)
repository_id_str 2154
spelling Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.Curadoria digitalRecuperação da informaçãoProcessamento de textoDisseminação da informaçãoIndexaçãoLivros digitaisDigital curationText processingIndexingDigital booksInformation retrievalInformation disseminationEste trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.VAZ, G. J.VEIGA, P. H. R. da C. daCALDAS, R. G.VIDAL, W. C. L.ASSIS, C. P. deCORREA, J. L.MOURA, M. F.2023-08-15T15:23:43Z2023-08-15T15:23:43Z2023-08-152023info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleRevista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023.1983-5213http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913https://doi.org/10.26512/rici.v16.n2.2023.42740porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)instname:Empresa Brasileira de Pesquisa Agropecuária (Embrapa)instacron:EMBRAPA2023-08-15T15:23:43Zoai:www.alice.cnptia.embrapa.br:doc/1155913Repositório InstitucionalPUBhttps://www.alice.cnptia.embrapa.br/oai/requestopendoar:21542023-08-15T15:23:43falseRepositório InstitucionalPUBhttps://www.alice.cnptia.embrapa.br/oai/requestcg-riaa@embrapa.bropendoar:21542023-08-15T15:23:43Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) - Empresa Brasileira de Pesquisa Agropecuária (Embrapa)false
dc.title.none.fl_str_mv Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
title Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
spellingShingle Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
VAZ, G. J.
Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
title_short Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
title_full Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
title_fullStr Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
title_full_unstemmed Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
title_sort Tratamento de texto extraído de livros digitais para a indexação em mecanismo de busca.
author VAZ, G. J.
author_facet VAZ, G. J.
VEIGA, P. H. R. da C. da
CALDAS, R. G.
VIDAL, W. C. L.
ASSIS, C. P. de
CORREA, J. L.
MOURA, M. F.
author_role author
author2 VEIGA, P. H. R. da C. da
CALDAS, R. G.
VIDAL, W. C. L.
ASSIS, C. P. de
CORREA, J. L.
MOURA, M. F.
author2_role author
author
author
author
author
author
dc.contributor.none.fl_str_mv GLAUBER JOSE VAZ, CNPTIA; PEDRO HENRIQUE RODRIGUES DA CUNHA DA VEIGA, IZAGRO; RAFAEL GOMES CALDAS, IZAGRO; WYVIANE CARLOS LIMA VIDAL, CNPAE; CRISTIANE PEREIRA DE ASSIS, SUCOM; JORGE LUIZ CORREA, CNPTIA; MARIA FERNANDA MOURA, CNPTIA.
dc.contributor.author.fl_str_mv VAZ, G. J.
VEIGA, P. H. R. da C. da
CALDAS, R. G.
VIDAL, W. C. L.
ASSIS, C. P. de
CORREA, J. L.
MOURA, M. F.
dc.subject.por.fl_str_mv Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
topic Curadoria digital
Recuperação da informação
Processamento de texto
Disseminação da informação
Indexação
Livros digitais
Digital curation
Text processing
Indexing
Digital books
Information retrieval
Information dissemination
description Este trabalho apresenta uma metodologia de tratamento dos textos extraídos dos livros digitais da Coleção 500 Perguntas 500 Respostas da Embrapa a fim de que seu conteúdo possa ser indexado e acessado via um mecanismo de busca específico. A metodologia envolve a extração dos elementos essenciais dos livros, como imagens e arquivos HTML, o pré-processamento desses elementos, sua análise e edição, e a construção de componentes adequados para sua indexação. Além de um intenso trabalho de análise humana, são consideradas tecnologias como o formato Epub para livros digitais, o editor Sigil, scriptspara processamento de texto, padrões web de representação e Elasticsearch. Experimentos mostram que a metodologia viabiliza a disponibilização de textos bem formatados para sua indexação e seu uso em mecanismos de busca, propiciando uma rica experiência ao usuário, além de possibilitar a construção de novas soluções digitais. Nesse contexto, a curadoria digital é fundamental para agregar valor aos recursos digitais e atender às necessidades específicas de seus usuários.
publishDate 2023
dc.date.none.fl_str_mv 2023-08-15T15:23:43Z
2023-08-15T15:23:43Z
2023-08-15
2023
dc.type.driver.fl_str_mv info:eu-repo/semantics/publishedVersion
info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023.
1983-5213
http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
https://doi.org/10.26512/rici.v16.n2.2023.42740
identifier_str_mv Revista Ibero-americana de Ciência da Informação, v. 16, n. 2, p. 311-328, maio/ago. 2023.
1983-5213
url http://www.alice.cnptia.embrapa.br/alice/handle/doc/1155913
https://doi.org/10.26512/rici.v16.n2.2023.42740
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)
instname:Empresa Brasileira de Pesquisa Agropecuária (Embrapa)
instacron:EMBRAPA
instname_str Empresa Brasileira de Pesquisa Agropecuária (Embrapa)
instacron_str EMBRAPA
institution EMBRAPA
reponame_str Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)
collection Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice)
repository.name.fl_str_mv Repositório Institucional da EMBRAPA (Repository Open Access to Scientific Information from EMBRAPA - Alice) - Empresa Brasileira de Pesquisa Agropecuária (Embrapa)
repository.mail.fl_str_mv cg-riaa@embrapa.br
_version_ 1794503548367536128