Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas

Detalhes bibliográficos
Autor(a) principal: Ricardo Goncalves Cota
Data de Publicação: 2008
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/SLBS-7NAEMD
Resumo: Neste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.
id UFMG_e4b7fa5aede67875bd069ac98297c94f
oai_identifier_str oai:repositorio.ufmg.br:1843/SLBS-7NAEMD
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Alberto Henrique Frade LaenderMarcos Andre GoncalvesClodoveu Augusto Davis JuniorNivio ZivianiRicardo Goncalves Cota2019-08-14T18:34:38Z2019-08-14T18:34:38Z2008-04-23http://hdl.handle.net/1843/SLBS-7NAEMDNeste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.In this dissertation, we propose a heuristic-based hierarchical clustering (HHC) method to deal with the name disambiguation problem in collections of bibliographic citations. The method successively fuses clusters of citations of compatible authors based on several heuristics and similarity measures on the components of the citations (e.g., co-authors' names, title of the work, name of the publication venue). In each phase, the information of fused clusters is aggregated, providing more information for the nextround of fusion. Experiments with a dataset taken from the DBLP Computer Science Bibliography collection show gains of up to 12% against a previous method that uses the same pattern matching function but does not consider hierarchical clustering. Experiments also show gains of up to 21% against a supervised baseline, which is based on SVM and 15,5% against an unsupervised one based on K-Means. Both baselines use the same evidence considered by our method as well as privileged information about the correct number of clusters, i.e., both baselines require that the correct number of final clusters be known \textit{a priori}, which is unfeasible for large colections.We also present a new tool which uses the HHC method to deal the specific content from a DL.Finally, we present a case study where the developed tool was used to disambiguate the authors' names incitations extracted from the Brazilian Digital Library of Computing (BDBComp). The quality of the generated group in this study suggests that this tool can be used in digital libraries to help in the task of maintaining consistency of their citations. For example, appearances of an author name can be displayed in a unique format, no matter how they appear in the orginal metadata.Universidade Federal de Minas GeraisUFMGBibliotecas digitaisComputaçãoRecuperação de informaçãoremoção de ambiguidadeBiblioteca Digitaiscitações bibliográficasUm método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALricardogon_alvescota.pdfapplication/pdf1636213https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/1/ricardogon_alvescota.pdf2599426293da0010c988195ddcf064b3MD51TEXTricardogon_alvescota.pdf.txtricardogon_alvescota.pdf.txtExtracted texttext/plain95781https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/2/ricardogon_alvescota.pdf.txt5874754da943a7da189ecb0967d47bcaMD521843/SLBS-7NAEMD2019-11-14 16:02:03.142oai:repositorio.ufmg.br:1843/SLBS-7NAEMDRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:02:03Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
title Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
spellingShingle Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
Ricardo Goncalves Cota
remoção de ambiguidade
Biblioteca Digitais
citações bibliográficas
Bibliotecas digitais
Computação
Recuperação de informação
title_short Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
title_full Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
title_fullStr Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
title_full_unstemmed Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
title_sort Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
author Ricardo Goncalves Cota
author_facet Ricardo Goncalves Cota
author_role author
dc.contributor.advisor1.fl_str_mv Alberto Henrique Frade Laender
dc.contributor.advisor-co1.fl_str_mv Marcos Andre Goncalves
dc.contributor.referee1.fl_str_mv Clodoveu Augusto Davis Junior
dc.contributor.referee2.fl_str_mv Nivio Ziviani
dc.contributor.author.fl_str_mv Ricardo Goncalves Cota
contributor_str_mv Alberto Henrique Frade Laender
Marcos Andre Goncalves
Clodoveu Augusto Davis Junior
Nivio Ziviani
dc.subject.por.fl_str_mv remoção de ambiguidade
Biblioteca Digitais
citações bibliográficas
topic remoção de ambiguidade
Biblioteca Digitais
citações bibliográficas
Bibliotecas digitais
Computação
Recuperação de informação
dc.subject.other.pt_BR.fl_str_mv Bibliotecas digitais
Computação
Recuperação de informação
description Neste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.
publishDate 2008
dc.date.issued.fl_str_mv 2008-04-23
dc.date.accessioned.fl_str_mv 2019-08-14T18:34:38Z
dc.date.available.fl_str_mv 2019-08-14T18:34:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/SLBS-7NAEMD
url http://hdl.handle.net/1843/SLBS-7NAEMD
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/1/ricardogon_alvescota.pdf
https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/2/ricardogon_alvescota.pdf.txt
bitstream.checksum.fl_str_mv 2599426293da0010c988195ddcf064b3
5874754da943a7da189ecb0967d47bca
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1801677039534604288