Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz

Detalhes bibliográficos
Autor(a) principal: Pedroso, Marcel de Moraes
Data de Publicação: 2017
Outros Autores: Lima, Jefferson da Costa, Assef Neto, Vinicius Belchior
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Institucional da FIOCRUZ (ARCA)
Texto Completo: https://www.arca.fiocruz.br/handle/icict/23717
Resumo: O repositório institucional Arca é o principal instrumento de realização do acesso aberto na Fundação Oswaldo Cruz, tendo como missão reunir, hospedar, preservar, disponibilizar e dar visibilidade à produção intelectual da Instituição. A diversidade temática e a complexidade institucional da Fundação fomentam um desafio metodológico relacionado a classificação e recuperação dos objetos digitais depositados e a governança dos metadados registrados pelas comunidades que integram o repositório. Em 2016 o mecanismo de busca do Arca contabilizou mais de 400 mil consultas. É necessário um sistema de Recuperação da Informação que atenda as especificidades de indexação do repositório e a crescente demanda por informação por parte dos usuários internos e externos a Fiocruz. Neste trabalho propomos a utilização de ferramentas de Ciência de Dados, especialmente técnicas de Mineração de Dados e Aprendizagem de Máquina com o objetivo de aprimorar a Recuperação da Informação, por meio da classificação automática de objetos digitais depositados no Arca e o desenvolvimento e disponibilização de sistema de RI baseado em métricas de qualidade relacionadas aos conceitos de precisão e revocação.
id CRUZ_8aefaa18efdf8e6829aa4b127627704c
oai_identifier_str oai:www.arca.fiocruz.br:icict/23717
network_acronym_str CRUZ
network_name_str Repositório Institucional da FIOCRUZ (ARCA)
repository_id_str 2135
spelling Pedroso, Marcel de MoraesLima, Jefferson da CostaAssef Neto, Vinicius Belchior2017-12-21T12:29:30Z2017-12-21T12:29:30Z2017PEDROSO, Marcel de Moraes; LIMA, Jefferson da Costa; ASSEF NETO, Vinicius Belchior. Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz. RECIIS - Revista Eletrônica de Comunicação, Informação e Inovação em Saúde, Rio de Janeiro, v. 11, p. 1-5, nov. 2017. Suplemento.1981-6278https://www.arca.fiocruz.br/handle/icict/2371710.29397/reciis.v11i0.14171981-6278O repositório institucional Arca é o principal instrumento de realização do acesso aberto na Fundação Oswaldo Cruz, tendo como missão reunir, hospedar, preservar, disponibilizar e dar visibilidade à produção intelectual da Instituição. A diversidade temática e a complexidade institucional da Fundação fomentam um desafio metodológico relacionado a classificação e recuperação dos objetos digitais depositados e a governança dos metadados registrados pelas comunidades que integram o repositório. Em 2016 o mecanismo de busca do Arca contabilizou mais de 400 mil consultas. É necessário um sistema de Recuperação da Informação que atenda as especificidades de indexação do repositório e a crescente demanda por informação por parte dos usuários internos e externos a Fiocruz. Neste trabalho propomos a utilização de ferramentas de Ciência de Dados, especialmente técnicas de Mineração de Dados e Aprendizagem de Máquina com o objetivo de aprimorar a Recuperação da Informação, por meio da classificação automática de objetos digitais depositados no Arca e o desenvolvimento e disponibilização de sistema de RI baseado em métricas de qualidade relacionadas aos conceitos de precisão e revocação.The Arca institutional repository is the main instrument of open access at the Oswaldo Cruz Foundation, with the mission of gathering, hosting, preserving, making available and giving visibility to the institution’s intellectual production. The thematic diversity and institutional complexity of the Foundation foster a methodological challenge related to the classification and retrieval of deposited digital objects and the governance of the metadata recorded by the communities that make up the repository. In 2016, the Arca search engine counted more than 400 thousand queries. An Information Retrieval system is needed that meets the specificities of indexing the repository and the growing demand for information from users internal and external to Fiocruz. In this work we propose the use of Data Science tools, especially Data Mining and Machine Learning techniques, with the objective of improving Information Retrieval by means of automatic classification of digital objects deposited in the Arca and the development and availability of the system of IR based on quality metrics related to precision and recall concepts.El repositorio institucional Arca es el principal instrumento de realización del acceso abierto en la Fundación Oswaldo Cruz, teniendo como misión reunir, hospedar, preservar, poner a disposición y dar visibilidad a la producción intelectual de la Institución. La diversidad temática y la complejidad institucional de la Fundación fomentan un desafío metodológico relacionado con la clasificación y recuperación de los objetos digitales depositados y la gobernanza de los metadatos registrados por las comunidades que integran el repositorio. En 2016 el mecanismo de búsqueda del Arca contabilizó más de 400 mil consultas. Es necesario un sistema de Recuperación de la Información que atienda las especificidades de indexación del repositorio y la creciente demanda por información por parte de los usuarios internos y externos a Fiocruz. En este trabajo proponemos la utilización de herramientas de Ciencia de Datos, especialmente técnicas de Minería de Datos y Aprendizaje Automático con el objetivo de mejorar la Recuperación de la Información, a través de la clasificación automática de objetos digitales depositados en el Arca y el desarrollo y puesta a disposición del sistema de RI basado en métricas de calidad relacionadas con los conceptos de precisión y revocación.Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Rio de Janeiro, RJ, Brasil.Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Rio de Janeiro, RJ, Brasil.Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde. Rio de Janeiro, RJ, Brasil.porFundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde.Ciência de dadosArmazenamento e recuperação da informaçãoMineração de dadosAprendizagem de máquinaRepositórios institucionaisData scienceInformation storage and retrievalData miningMachine learningInstitutional repositoriesCiencia de datosAlmacenamiento y recuperación de la informaciónMinería de datosAprendizaje automáticoRepositorios institucionalesCiência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo CruzData science applied to Arca: development and availability of tools for information retrieval in the Institutional Repository of Fundação Oswaldo CruzCiencia de datos aplicada al Arca: desarrollo y disponibilización de herramientas para recuperación de la información en el Repositorio Institucional de la Fundação Oswaldo Cruzinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/23717/1/license.txt8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINAL26.pdfapplication/pdf240680https://www.arca.fiocruz.br/bitstream/icict/23717/2/26.pdf625f09c71b97bf1f50952a9359e432ccMD52TEXT26.pdf.txt26.pdf.txtExtracted texttext/plain15344https://www.arca.fiocruz.br/bitstream/icict/23717/3/26.pdf.txt56fd8a4fdc375ab7911cb5017cea084aMD53icict/237172019-12-20 11:06:20.796oai:www.arca.fiocruz.br:icict/23717Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352019-12-20T14:06:20Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false
dc.title.pt_BR.fl_str_mv Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
dc.title.alternative.en.fl_str_mv Data science applied to Arca: development and availability of tools for information retrieval in the Institutional Repository of Fundação Oswaldo Cruz
dc.title.alternative.es.fl_str_mv Ciencia de datos aplicada al Arca: desarrollo y disponibilización de herramientas para recuperación de la información en el Repositorio Institucional de la Fundação Oswaldo Cruz
title Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
spellingShingle Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
Pedroso, Marcel de Moraes
Ciência de dados
Armazenamento e recuperação da informação
Mineração de dados
Aprendizagem de máquina
Repositórios institucionais
Data science
Information storage and retrieval
Data mining
Machine learning
Institutional repositories
Ciencia de datos
Almacenamiento y recuperación de la información
Minería de datos
Aprendizaje automático
Repositorios institucionales
title_short Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
title_full Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
title_fullStr Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
title_full_unstemmed Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
title_sort Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz
author Pedroso, Marcel de Moraes
author_facet Pedroso, Marcel de Moraes
Lima, Jefferson da Costa
Assef Neto, Vinicius Belchior
author_role author
author2 Lima, Jefferson da Costa
Assef Neto, Vinicius Belchior
author2_role author
author
dc.contributor.author.fl_str_mv Pedroso, Marcel de Moraes
Lima, Jefferson da Costa
Assef Neto, Vinicius Belchior
dc.subject.other.pt_BR.fl_str_mv Ciência de dados
Armazenamento e recuperação da informação
Mineração de dados
Aprendizagem de máquina
Repositórios institucionais
topic Ciência de dados
Armazenamento e recuperação da informação
Mineração de dados
Aprendizagem de máquina
Repositórios institucionais
Data science
Information storage and retrieval
Data mining
Machine learning
Institutional repositories
Ciencia de datos
Almacenamiento y recuperación de la información
Minería de datos
Aprendizaje automático
Repositorios institucionales
dc.subject.en.en.fl_str_mv Data science
Information storage and retrieval
Data mining
Machine learning
Institutional repositories
dc.subject.es.es.fl_str_mv Ciencia de datos
Almacenamiento y recuperación de la información
Minería de datos
Aprendizaje automático
Repositorios institucionales
description O repositório institucional Arca é o principal instrumento de realização do acesso aberto na Fundação Oswaldo Cruz, tendo como missão reunir, hospedar, preservar, disponibilizar e dar visibilidade à produção intelectual da Instituição. A diversidade temática e a complexidade institucional da Fundação fomentam um desafio metodológico relacionado a classificação e recuperação dos objetos digitais depositados e a governança dos metadados registrados pelas comunidades que integram o repositório. Em 2016 o mecanismo de busca do Arca contabilizou mais de 400 mil consultas. É necessário um sistema de Recuperação da Informação que atenda as especificidades de indexação do repositório e a crescente demanda por informação por parte dos usuários internos e externos a Fiocruz. Neste trabalho propomos a utilização de ferramentas de Ciência de Dados, especialmente técnicas de Mineração de Dados e Aprendizagem de Máquina com o objetivo de aprimorar a Recuperação da Informação, por meio da classificação automática de objetos digitais depositados no Arca e o desenvolvimento e disponibilização de sistema de RI baseado em métricas de qualidade relacionadas aos conceitos de precisão e revocação.
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-12-21T12:29:30Z
dc.date.available.fl_str_mv 2017-12-21T12:29:30Z
dc.date.issued.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.citation.fl_str_mv PEDROSO, Marcel de Moraes; LIMA, Jefferson da Costa; ASSEF NETO, Vinicius Belchior. Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz. RECIIS - Revista Eletrônica de Comunicação, Informação e Inovação em Saúde, Rio de Janeiro, v. 11, p. 1-5, nov. 2017. Suplemento.
dc.identifier.uri.fl_str_mv https://www.arca.fiocruz.br/handle/icict/23717
dc.identifier.issn.pt_BR.fl_str_mv 1981-6278
dc.identifier.doi.pt_BR.fl_str_mv 10.29397/reciis.v11i0.1417
dc.identifier.eissn.pt_BR.fl_str_mv 1981-6278
identifier_str_mv PEDROSO, Marcel de Moraes; LIMA, Jefferson da Costa; ASSEF NETO, Vinicius Belchior. Ciência de dados aplicada ao Arca: desenvolvimento e disponibilização de ferramentas para recuperação da informação no Repositório Institucional da Fundação Oswaldo Cruz. RECIIS - Revista Eletrônica de Comunicação, Informação e Inovação em Saúde, Rio de Janeiro, v. 11, p. 1-5, nov. 2017. Suplemento.
1981-6278
10.29397/reciis.v11i0.1417
url https://www.arca.fiocruz.br/handle/icict/23717
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde.
publisher.none.fl_str_mv Fundação Oswaldo Cruz. Instituto de Comunicação e Informação Científica e Tecnológica em Saúde.
dc.source.none.fl_str_mv reponame:Repositório Institucional da FIOCRUZ (ARCA)
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Repositório Institucional da FIOCRUZ (ARCA)
collection Repositório Institucional da FIOCRUZ (ARCA)
bitstream.url.fl_str_mv https://www.arca.fiocruz.br/bitstream/icict/23717/1/license.txt
https://www.arca.fiocruz.br/bitstream/icict/23717/2/26.pdf
https://www.arca.fiocruz.br/bitstream/icict/23717/3/26.pdf.txt
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
625f09c71b97bf1f50952a9359e432cc
56fd8a4fdc375ab7911cb5017cea084a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv repositorio.arca@fiocruz.br
_version_ 1813009293556842496