O desafio da deduplicação de publicações: criação e avaliação de um benchmark

Detalhes bibliográficos
Autor(a) principal: Mena-Chalco, Jesús Pascual
Data de Publicação: 2024
Outros Autores: Dias, Thiago Magela Rodrigues, Canto, Fabio Lorensi do, Moreira, Tales Henrique José, Carvalho Segundo, Washington Luís Ribeiro de
Tipo de documento: Artigo de conferência
Idioma: por
Título da fonte: Repositório Institucional do IBICT - RIDI
Texto Completo: http://ridi.ibict.br/handle/123456789/1323
https://doi.org/10.22477/ix.ebbc.411
Resumo: O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.
id IBICT_6881ba02cc4fa9b02135edbdbc62b724
oai_identifier_str oai:ridi.ibict.br:123456789/1323
network_acronym_str IBICT
network_name_str Repositório Institucional do IBICT - RIDI
repository_id_str 2404
spelling 2024-08-19T17:42:07Z2024-08-19T17:42:07Z2024-07-23MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024.2675-5939http://ridi.ibict.br/handle/123456789/1323https://doi.org/10.22477/ix.ebbc.411O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.N/ASubmitted by Cássio Morais (cassiomorais@ibict.br) on 2024-08-16T20:51:46Z No. of bitstreams: 1 O desafio da deduplicação de publicações.pdf: 678801 bytes, checksum: 5462a9112b1539610b5b5cc0929db113 (MD5)Approved for entry into archive by Cássio Morais (cassiomorais@ibict.br) on 2024-08-19T17:42:06Z (GMT) No. of bitstreams: 1 O desafio da deduplicação de publicações.pdf: 678801 bytes, checksum: 5462a9112b1539610b5b5cc0929db113 (MD5)Made available in DSpace on 2024-08-19T17:42:07Z (GMT). No. of bitstreams: 1 O desafio da deduplicação de publicações.pdf: 678801 bytes, checksum: 5462a9112b1539610b5b5cc0929db113 (MD5) Previous issue date: 2024-07-23porUniversidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e TecnologiaUFABC; CEFET-MG; UFSC; IbictBrasilEncontro Brasileiro de Bibliometria e Cientometria – EBBCCNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAODeduplicaçãoPublicações científicasBenchmarkRegrasO desafio da deduplicação de publicações: criação e avaliação de um benchmarkinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObject9Mena-Chalco, Jesús PascualDias, Thiago Magela RodriguesCanto, Fabio Lorensi doMoreira, Tales Henrique JoséCarvalho Segundo, Washington Luís Ribeiro deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional do IBICT - RIDIinstname:Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)instacron:IBICTTEXTO desafio da deduplicação de publicações.pdf.txtO desafio da deduplicação de publicações.pdf.txtExtracted texttext/plain21045https://ridi.ibict.br/bitstream/123456789/1323/3/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf.txtb3be3c60b0696ac6ca0c6e9e45cc900aMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81862https://ridi.ibict.br/bitstream/123456789/1323/2/license.txt6b42f084aa6b52acc41c67281d72287fMD52ORIGINALO desafio da deduplicação de publicações.pdfO desafio da deduplicação de publicações.pdfapplication/pdf678801https://ridi.ibict.br/bitstream/123456789/1323/1/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf5462a9112b1539610b5b5cc0929db113MD51123456789/13232024-08-20 03:00:45.98oai:ridi.ibict.br:123456789/1323TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJJREkgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgCmUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHB1YmxpY2HDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gClZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHB1YmxpY2HDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyAKZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSAKb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIGFvIERlcG9zaXRhIG9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyAKbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gCm91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIApPUkdBTklTTU8sIFZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PIFRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyAKRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gRGVwb3NpdGEgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgCmF1dG9yYWlzIGRhIHB1YmxpY2HDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Repositório InstitucionalPUBhttps://ridi.ibict.br/oai/requestrd@ibict.bropendoar:24042024-08-20T06:00:45Repositório Institucional do IBICT - RIDI - Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)false
dc.title.pt_BR.fl_str_mv O desafio da deduplicação de publicações: criação e avaliação de um benchmark
title O desafio da deduplicação de publicações: criação e avaliação de um benchmark
spellingShingle O desafio da deduplicação de publicações: criação e avaliação de um benchmark
Mena-Chalco, Jesús Pascual
CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO
Deduplicação
Publicações científicas
Benchmark
Regras
title_short O desafio da deduplicação de publicações: criação e avaliação de um benchmark
title_full O desafio da deduplicação de publicações: criação e avaliação de um benchmark
title_fullStr O desafio da deduplicação de publicações: criação e avaliação de um benchmark
title_full_unstemmed O desafio da deduplicação de publicações: criação e avaliação de um benchmark
title_sort O desafio da deduplicação de publicações: criação e avaliação de um benchmark
author Mena-Chalco, Jesús Pascual
author_facet Mena-Chalco, Jesús Pascual
Dias, Thiago Magela Rodrigues
Canto, Fabio Lorensi do
Moreira, Tales Henrique José
Carvalho Segundo, Washington Luís Ribeiro de
author_role author
author2 Dias, Thiago Magela Rodrigues
Canto, Fabio Lorensi do
Moreira, Tales Henrique José
Carvalho Segundo, Washington Luís Ribeiro de
author2_role author
author
author
author
dc.contributor.author.fl_str_mv Mena-Chalco, Jesús Pascual
Dias, Thiago Magela Rodrigues
Canto, Fabio Lorensi do
Moreira, Tales Henrique José
Carvalho Segundo, Washington Luís Ribeiro de
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO
topic CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO
Deduplicação
Publicações científicas
Benchmark
Regras
dc.subject.por.fl_str_mv Deduplicação
Publicações científicas
Benchmark
Regras
description O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-08-19T17:42:07Z
dc.date.available.fl_str_mv 2024-08-19T17:42:07Z
dc.date.issued.fl_str_mv 2024-07-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/conferenceObject
format conferenceObject
status_str publishedVersion
dc.identifier.citation.fl_str_mv MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024.
dc.identifier.uri.fl_str_mv http://ridi.ibict.br/handle/123456789/1323
dc.identifier.issn.pt_BR.fl_str_mv 2675-5939
dc.identifier.doi.pt_BR.fl_str_mv https://doi.org/10.22477/ix.ebbc.411
identifier_str_mv MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024.
2675-5939
url http://ridi.ibict.br/handle/123456789/1323
https://doi.org/10.22477/ix.ebbc.411
dc.language.iso.fl_str_mv por
language por
dc.relation.ispartof.pt_BR.fl_str_mv Encontro Brasileiro de Bibliometria e Cientometria – EBBC
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e Tecnologia
dc.publisher.initials.fl_str_mv UFABC; CEFET-MG; UFSC; Ibict
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e Tecnologia
dc.source.none.fl_str_mv reponame:Repositório Institucional do IBICT - RIDI
instname:Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)
instacron:IBICT
instname_str Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)
instacron_str IBICT
institution IBICT
reponame_str Repositório Institucional do IBICT - RIDI
collection Repositório Institucional do IBICT - RIDI
bitstream.url.fl_str_mv https://ridi.ibict.br/bitstream/123456789/1323/3/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf.txt
https://ridi.ibict.br/bitstream/123456789/1323/2/license.txt
https://ridi.ibict.br/bitstream/123456789/1323/1/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf
bitstream.checksum.fl_str_mv b3be3c60b0696ac6ca0c6e9e45cc900a
6b42f084aa6b52acc41c67281d72287f
5462a9112b1539610b5b5cc0929db113
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional do IBICT - RIDI - Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)
repository.mail.fl_str_mv rd@ibict.br
_version_ 1809725468469886976