Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2008 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/SLBS-7NAEMD |
Resumo: | Neste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais. |
id |
UFMG_e4b7fa5aede67875bd069ac98297c94f |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/SLBS-7NAEMD |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Alberto Henrique Frade LaenderMarcos Andre GoncalvesClodoveu Augusto Davis JuniorNivio ZivianiRicardo Goncalves Cota2019-08-14T18:34:38Z2019-08-14T18:34:38Z2008-04-23http://hdl.handle.net/1843/SLBS-7NAEMDNeste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais.In this dissertation, we propose a heuristic-based hierarchical clustering (HHC) method to deal with the name disambiguation problem in collections of bibliographic citations. The method successively fuses clusters of citations of compatible authors based on several heuristics and similarity measures on the components of the citations (e.g., co-authors' names, title of the work, name of the publication venue). In each phase, the information of fused clusters is aggregated, providing more information for the nextround of fusion. Experiments with a dataset taken from the DBLP Computer Science Bibliography collection show gains of up to 12% against a previous method that uses the same pattern matching function but does not consider hierarchical clustering. Experiments also show gains of up to 21% against a supervised baseline, which is based on SVM and 15,5% against an unsupervised one based on K-Means. Both baselines use the same evidence considered by our method as well as privileged information about the correct number of clusters, i.e., both baselines require that the correct number of final clusters be known \textit{a priori}, which is unfeasible for large colections.We also present a new tool which uses the HHC method to deal the specific content from a DL.Finally, we present a case study where the developed tool was used to disambiguate the authors' names incitations extracted from the Brazilian Digital Library of Computing (BDBComp). The quality of the generated group in this study suggests that this tool can be used in digital libraries to help in the task of maintaining consistency of their citations. For example, appearances of an author name can be displayed in a unique format, no matter how they appear in the orginal metadata.Universidade Federal de Minas GeraisUFMGBibliotecas digitaisComputaçãoRecuperação de informaçãoremoção de ambiguidadeBiblioteca Digitaiscitações bibliográficasUm método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALricardogon_alvescota.pdfapplication/pdf1636213https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/1/ricardogon_alvescota.pdf2599426293da0010c988195ddcf064b3MD51TEXTricardogon_alvescota.pdf.txtricardogon_alvescota.pdf.txtExtracted texttext/plain95781https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/2/ricardogon_alvescota.pdf.txt5874754da943a7da189ecb0967d47bcaMD521843/SLBS-7NAEMD2019-11-14 16:02:03.142oai:repositorio.ufmg.br:1843/SLBS-7NAEMDRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:02:03Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
title |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
spellingShingle |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas Ricardo Goncalves Cota remoção de ambiguidade Biblioteca Digitais citações bibliográficas Bibliotecas digitais Computação Recuperação de informação |
title_short |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
title_full |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
title_fullStr |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
title_full_unstemmed |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
title_sort |
Um método de agrupamento hierárquico para resolução de ambiguidade entre nomes de autores em citações bibliográficas |
author |
Ricardo Goncalves Cota |
author_facet |
Ricardo Goncalves Cota |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Alberto Henrique Frade Laender |
dc.contributor.advisor-co1.fl_str_mv |
Marcos Andre Goncalves |
dc.contributor.referee1.fl_str_mv |
Clodoveu Augusto Davis Junior |
dc.contributor.referee2.fl_str_mv |
Nivio Ziviani |
dc.contributor.author.fl_str_mv |
Ricardo Goncalves Cota |
contributor_str_mv |
Alberto Henrique Frade Laender Marcos Andre Goncalves Clodoveu Augusto Davis Junior Nivio Ziviani |
dc.subject.por.fl_str_mv |
remoção de ambiguidade Biblioteca Digitais citações bibliográficas |
topic |
remoção de ambiguidade Biblioteca Digitais citações bibliográficas Bibliotecas digitais Computação Recuperação de informação |
dc.subject.other.pt_BR.fl_str_mv |
Bibliotecas digitais Computação Recuperação de informação |
description |
Neste trabalho, é proposto um método de agrupamento hierárquico baseado em heurísticas (HHC) para tratar o problema de resolução de ambigüidades entre nomes de autores de uma coleção de citações bibliográficas. O método sucessivamente funde grupos de citações de autores com nomes compatíveis baseando-se em várias herísticas que exploram os componentes das citações (nomes de co-autores, título, local de publicação). Em cada fase do agrupamento, a informação dos grupos fundidos é agregada (todas as palavras que formam os títulos e veículos de publicações das citações contidas nos grupos são agrupadas), fornecendo maior informação para a próxima iteração de fusão. Experimentos feitos com uma coleção de teste extraída da coleção da DBLP mostram ganhos acima de 12% sobre um método anterior que utiliza o mesmo algoritmo de identi ficação de padrões na resolução de ambigüidades entre nomes (Oliveira, 2005) mas não utiliza agrupamento hierárquico. Comparado a uma estratégia supervisionada baseada no classificador SVM, nosso trabalho a supera em 21%. Em relação uma estratégia baseada na utilização de um algoritmo de agrupamento não-supervisionado(K-Means), o ganho é de 15,5%. As duas linhas de base utilizam as mesmas evidências consideradas pelo nosso método e informação privilegiada sobre o número correto de grupos. Isto é, ambas requerem que o número correto de autores seja conhecido a priori, o que é inviável para coleções de citações muito grandes, como acontece em bibliotecas digitais reais. |
publishDate |
2008 |
dc.date.issued.fl_str_mv |
2008-04-23 |
dc.date.accessioned.fl_str_mv |
2019-08-14T18:34:38Z |
dc.date.available.fl_str_mv |
2019-08-14T18:34:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/SLBS-7NAEMD |
url |
http://hdl.handle.net/1843/SLBS-7NAEMD |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/1/ricardogon_alvescota.pdf https://repositorio.ufmg.br/bitstream/1843/SLBS-7NAEMD/2/ricardogon_alvescota.pdf.txt |
bitstream.checksum.fl_str_mv |
2599426293da0010c988195ddcf064b3 5874754da943a7da189ecb0967d47bca |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589543643840512 |