O desafio da deduplicação de publicações: criação e avaliação de um benchmark
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Outros Autores: | , , , |
Tipo de documento: | Artigo de conferência |
Idioma: | por |
Título da fonte: | Repositório Institucional do IBICT - RIDI |
Texto Completo: | http://ridi.ibict.br/handle/123456789/1323 https://doi.org/10.22477/ix.ebbc.411 |
Resumo: | O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos. |
id |
IBICT_6881ba02cc4fa9b02135edbdbc62b724 |
---|---|
oai_identifier_str |
oai:ridi.ibict.br:123456789/1323 |
network_acronym_str |
IBICT |
network_name_str |
Repositório Institucional do IBICT - RIDI |
repository_id_str |
2404 |
spelling |
2024-08-19T17:42:07Z2024-08-19T17:42:07Z2024-07-23MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024.2675-5939http://ridi.ibict.br/handle/123456789/1323https://doi.org/10.22477/ix.ebbc.411O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.N/ASubmitted by Cássio Morais (cassiomorais@ibict.br) on 2024-08-16T20:51:46Z No. of bitstreams: 1 O desafio da deduplicação de publicações.pdf: 678801 bytes, checksum: 5462a9112b1539610b5b5cc0929db113 (MD5)Approved for entry into archive by Cássio Morais (cassiomorais@ibict.br) on 2024-08-19T17:42:06Z (GMT) No. of bitstreams: 1 O desafio da deduplicação de publicações.pdf: 678801 bytes, checksum: 5462a9112b1539610b5b5cc0929db113 (MD5)Made available in DSpace on 2024-08-19T17:42:07Z (GMT). No. of bitstreams: 1 O desafio da deduplicação de publicações.pdf: 678801 bytes, checksum: 5462a9112b1539610b5b5cc0929db113 (MD5) Previous issue date: 2024-07-23porUniversidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e TecnologiaUFABC; CEFET-MG; UFSC; IbictBrasilEncontro Brasileiro de Bibliometria e Cientometria – EBBCCNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAODeduplicaçãoPublicações científicasBenchmarkRegrasO desafio da deduplicação de publicações: criação e avaliação de um benchmarkinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/conferenceObject9Mena-Chalco, Jesús PascualDias, Thiago Magela RodriguesCanto, Fabio Lorensi doMoreira, Tales Henrique JoséCarvalho Segundo, Washington Luís Ribeiro deinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional do IBICT - RIDIinstname:Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)instacron:IBICTTEXTO desafio da deduplicação de publicações.pdf.txtO desafio da deduplicação de publicações.pdf.txtExtracted texttext/plain21045https://ridi.ibict.br/bitstream/123456789/1323/3/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf.txtb3be3c60b0696ac6ca0c6e9e45cc900aMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81862https://ridi.ibict.br/bitstream/123456789/1323/2/license.txt6b42f084aa6b52acc41c67281d72287fMD52ORIGINALO desafio da deduplicação de publicações.pdfO desafio da deduplicação de publicações.pdfapplication/pdf678801https://ridi.ibict.br/bitstream/123456789/1323/1/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf5462a9112b1539610b5b5cc0929db113MD51123456789/13232024-08-20 03:00:45.98oai:ridi.ibict.br:123456789/1323TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJJREkgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgCmUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHB1YmxpY2HDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gClZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHB1YmxpY2HDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgY29uaGVjaW1lbnRvLCBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyAKZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSAKb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIGFvIERlcG9zaXRhIG9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyAKbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gCm91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBIFRFTkhBIFNJRE8gUkVTVUxUQURPIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSBBR8OKTkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIApPUkdBTklTTU8sIFZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PIFRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyAKRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gRGVwb3NpdGEgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIGRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgCmF1dG9yYWlzIGRhIHB1YmxpY2HDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Repositório InstitucionalPUBhttps://ridi.ibict.br/oai/requestrd@ibict.bropendoar:24042024-08-20T06:00:45Repositório Institucional do IBICT - RIDI - Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict)false |
dc.title.pt_BR.fl_str_mv |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
title |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
spellingShingle |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark Mena-Chalco, Jesús Pascual CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO Deduplicação Publicações científicas Benchmark Regras |
title_short |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
title_full |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
title_fullStr |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
title_full_unstemmed |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
title_sort |
O desafio da deduplicação de publicações: criação e avaliação de um benchmark |
author |
Mena-Chalco, Jesús Pascual |
author_facet |
Mena-Chalco, Jesús Pascual Dias, Thiago Magela Rodrigues Canto, Fabio Lorensi do Moreira, Tales Henrique José Carvalho Segundo, Washington Luís Ribeiro de |
author_role |
author |
author2 |
Dias, Thiago Magela Rodrigues Canto, Fabio Lorensi do Moreira, Tales Henrique José Carvalho Segundo, Washington Luís Ribeiro de |
author2_role |
author author author author |
dc.contributor.author.fl_str_mv |
Mena-Chalco, Jesús Pascual Dias, Thiago Magela Rodrigues Canto, Fabio Lorensi do Moreira, Tales Henrique José Carvalho Segundo, Washington Luís Ribeiro de |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO |
topic |
CNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAO Deduplicação Publicações científicas Benchmark Regras |
dc.subject.por.fl_str_mv |
Deduplicação Publicações científicas Benchmark Regras |
description |
O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-08-19T17:42:07Z |
dc.date.available.fl_str_mv |
2024-08-19T17:42:07Z |
dc.date.issued.fl_str_mv |
2024-07-23 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/conferenceObject |
format |
conferenceObject |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024. |
dc.identifier.uri.fl_str_mv |
http://ridi.ibict.br/handle/123456789/1323 |
dc.identifier.issn.pt_BR.fl_str_mv |
2675-5939 |
dc.identifier.doi.pt_BR.fl_str_mv |
https://doi.org/10.22477/ix.ebbc.411 |
identifier_str_mv |
MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024. 2675-5939 |
url |
http://ridi.ibict.br/handle/123456789/1323 https://doi.org/10.22477/ix.ebbc.411 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.ispartof.pt_BR.fl_str_mv |
Encontro Brasileiro de Bibliometria e Cientometria – EBBC |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e Tecnologia |
dc.publisher.initials.fl_str_mv |
UFABC; CEFET-MG; UFSC; Ibict |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e Tecnologia |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional do IBICT - RIDI instname:Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict) instacron:IBICT |
instname_str |
Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict) |
instacron_str |
IBICT |
institution |
IBICT |
reponame_str |
Repositório Institucional do IBICT - RIDI |
collection |
Repositório Institucional do IBICT - RIDI |
bitstream.url.fl_str_mv |
https://ridi.ibict.br/bitstream/123456789/1323/3/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf.txt https://ridi.ibict.br/bitstream/123456789/1323/2/license.txt https://ridi.ibict.br/bitstream/123456789/1323/1/O+desafio+da+deduplica%C3%A7%C3%A3o+de+publica%C3%A7%C3%B5es.pdf |
bitstream.checksum.fl_str_mv |
b3be3c60b0696ac6ca0c6e9e45cc900a 6b42f084aa6b52acc41c67281d72287f 5462a9112b1539610b5b5cc0929db113 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional do IBICT - RIDI - Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict) |
repository.mail.fl_str_mv |
rd@ibict.br |
_version_ |
1809725468469886976 |