Uma abordagem flexível para extração de metadados em citações bibliográficas

Vilarinho, Eli Cortez Custódio

Uma abordagem flexível para extração de metadados em citações bibliográficas

Detalhes bibliográficos
Autor(a) principal:	Vilarinho, Eli Cortez Custódio
Data de Publicação:	2009
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFAM
Texto Completo:	http://tede.ufam.edu.br/handle/tede/2947
Resumo:	Nesta dissertação apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas tais como nomes de autores, títulos de artigo, números de página, etc. Tal método não se baseia em padrões específicos de codiﬁcação de delimitadores de um determinado estilo de citação que nos dá um alto grau de automação e flexibilidade e permite a extração de metadados a partir de citações em qualquer estilo. Diferentemente de abordagens anteriores que dependem de treinamento manual para realizar o reconhecimento de componentes em uma citação, no nosso caso, o método baseia-se em uma base de conhecimento automaticamente construída a partir de um conjunto existente de registros de metadados de um dado domínio, por exemplo: Ciência da Computação, Ciências da Saúde, Ciências Sociais, etc. Tal conjunto de registros com metadados pode ser facilmente obtido na Web ou através de outros repositórios de dados. Para demonstrar a eﬁcácia e aplicabilidade do método proposto, apresentamos uma serie de experimentos que visam extrair dados de citações bibliográﬁcas de artigos. Os resultados destes experimento apresentam níveis precisão e revocação acima de 94% para todos os domínios, bem como extração perfeita para a grande maioria das citações testadas. Além disso, em uma comparação com o método que representa o estado da arte de extração de informação, o FLUX-CiM produziu resultados superiores sem a fase de treino que é exigida por esse método. Por ﬁm, apresentamos uma estratégia para a utilização de dados bibliográﬁcos resultante do processo de extração com FLUX-CIM para automaticamente atualizar e expandir a base de conhecimento de um determinado domínio. Mostramos que esta estratégia pode ser usada para alcançar bons resultados de extração mesmo quando apenas uma pequena amostra inicial de registros bibliográﬁcos está disponível para a construção da base de conhecimento.

Metadados do item

id	UFAM_4ccfc3b65988adb15c87c0c1133406fa
oai_identifier_str	oai:https://tede.ufam.edu.br/handle/:tede/2947
network_acronym_str	UFAM
network_name_str	Biblioteca Digital de Teses e Dissertações da UFAM
repository_id_str	6592
spelling	Uma abordagem flexível para extração de metadados em citações bibliográficasGerenciamento de citaçõesExtração de metadadosCitation managementMetadata extractionCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃONesta dissertação apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas tais como nomes de autores, títulos de artigo, números de página, etc. Tal método não se baseia em padrões específicos de codiﬁcação de delimitadores de um determinado estilo de citação que nos dá um alto grau de automação e flexibilidade e permite a extração de metadados a partir de citações em qualquer estilo. Diferentemente de abordagens anteriores que dependem de treinamento manual para realizar o reconhecimento de componentes em uma citação, no nosso caso, o método baseia-se em uma base de conhecimento automaticamente construída a partir de um conjunto existente de registros de metadados de um dado domínio, por exemplo: Ciência da Computação, Ciências da Saúde, Ciências Sociais, etc. Tal conjunto de registros com metadados pode ser facilmente obtido na Web ou através de outros repositórios de dados. Para demonstrar a eﬁcácia e aplicabilidade do método proposto, apresentamos uma serie de experimentos que visam extrair dados de citações bibliográﬁcas de artigos. Os resultados destes experimento apresentam níveis precisão e revocação acima de 94% para todos os domínios, bem como extração perfeita para a grande maioria das citações testadas. Além disso, em uma comparação com o método que representa o estado da arte de extração de informação, o FLUX-CiM produziu resultados superiores sem a fase de treino que é exigida por esse método. Por ﬁm, apresentamos uma estratégia para a utilização de dados bibliográﬁcos resultante do processo de extração com FLUX-CIM para automaticamente atualizar e expandir a base de conhecimento de um determinado domínio. Mostramos que esta estratégia pode ser usada para alcançar bons resultados de extração mesmo quando apenas uma pequena amostra inicial de registros bibliográﬁcos está disponível para a construção da base de conhecimento.In this dissertation, we present FLUX-CiM, a novel method for extracting components (e.g., author names, article titles, venues, page numbers) from bibliographic citations. Our method does not rely on patterns encoding speciﬁc delimiters used in a particular citation style. This feature yields a high degree of automation and ﬂexibility and allows FLUX-CiM to extract from citations in any given format. Diﬀerently from previous methods that are based on models learned from user-driven training, our method relies on a knowledge-base automatically constructed from an existing set of sample metadata records from a given ﬁeld (e.g., computer science, health sciences, social science, etc). These records are usually available on the Web or other public data repositories. To demonstrate the eﬀectiveness and applicability of our proposed method we present a serie of experiments in which we apply it to extract bibliographic data from citations in articles of diﬀerent ﬁelds. Results of these experiments exhibit precision and recall levels above 94% for all ﬁelds as well as perfect extraction for the large majority of citations tested. Also, in a comparison against a state-of-art information extraction method, ours produced superior results without the training phase required by that method. Finally, we present a strategy for using bibliographic data resulting from the extraction process with FLUX- CiM to automatically update and expand the knowledge-base of a given domain. We show that this strategy can be used to achieve good extraction results even if only a very small initial sample of bibliographic records is available for building the knowledge-base.Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBRUFAMPrograma de Pós-graduação em InformáticaSilva, Altigran Soares dahttp://lattes.cnpq.br/3405503472010994Vilarinho, Eli Cortez Custódio2015-04-11T14:03:10Z2010-12-112009-04-03info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVILARINHO, Eli Cortez Custódio. Uma abordagem flexível para extração de metadados em citações bibliográficas. 2009. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009.http://tede.ufam.edu.br/handle/tede/2947porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-04-22T14:34:25Zoai:https://tede.ufam.edu.br/handle/:tede/2947Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br\|\|ddbc@ufam.edu.bropendoar:65922016-04-22T14:34:25Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false
dc.title.none.fl_str_mv	Uma abordagem flexível para extração de metadados em citações bibliográficas
title	Uma abordagem flexível para extração de metadados em citações bibliográficas
spellingShingle	Uma abordagem flexível para extração de metadados em citações bibliográficas Vilarinho, Eli Cortez Custódio Gerenciamento de citações Extração de metadados Citation management Metadata extraction CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
title_short	Uma abordagem flexível para extração de metadados em citações bibliográficas
title_full	Uma abordagem flexível para extração de metadados em citações bibliográficas
title_fullStr	Uma abordagem flexível para extração de metadados em citações bibliográficas
title_full_unstemmed	Uma abordagem flexível para extração de metadados em citações bibliográficas
title_sort	Uma abordagem flexível para extração de metadados em citações bibliográficas
author	Vilarinho, Eli Cortez Custódio
author_facet	Vilarinho, Eli Cortez Custódio
author_role	author
dc.contributor.none.fl_str_mv	Silva, Altigran Soares da http://lattes.cnpq.br/3405503472010994
dc.contributor.author.fl_str_mv	Vilarinho, Eli Cortez Custódio
dc.subject.por.fl_str_mv	Gerenciamento de citações Extração de metadados Citation management Metadata extraction CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
topic	Gerenciamento de citações Extração de metadados Citation management Metadata extraction CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO
description	Nesta dissertação apresentamos o FLUX-CiM, um novo método de extração de componentes de citações bibliográficas tais como nomes de autores, títulos de artigo, números de página, etc. Tal método não se baseia em padrões específicos de codiﬁcação de delimitadores de um determinado estilo de citação que nos dá um alto grau de automação e flexibilidade e permite a extração de metadados a partir de citações em qualquer estilo. Diferentemente de abordagens anteriores que dependem de treinamento manual para realizar o reconhecimento de componentes em uma citação, no nosso caso, o método baseia-se em uma base de conhecimento automaticamente construída a partir de um conjunto existente de registros de metadados de um dado domínio, por exemplo: Ciência da Computação, Ciências da Saúde, Ciências Sociais, etc. Tal conjunto de registros com metadados pode ser facilmente obtido na Web ou através de outros repositórios de dados. Para demonstrar a eﬁcácia e aplicabilidade do método proposto, apresentamos uma serie de experimentos que visam extrair dados de citações bibliográﬁcas de artigos. Os resultados destes experimento apresentam níveis precisão e revocação acima de 94% para todos os domínios, bem como extração perfeita para a grande maioria das citações testadas. Além disso, em uma comparação com o método que representa o estado da arte de extração de informação, o FLUX-CiM produziu resultados superiores sem a fase de treino que é exigida por esse método. Por ﬁm, apresentamos uma estratégia para a utilização de dados bibliográﬁcos resultante do processo de extração com FLUX-CIM para automaticamente atualizar e expandir a base de conhecimento de um determinado domínio. Mostramos que esta estratégia pode ser usada para alcançar bons resultados de extração mesmo quando apenas uma pequena amostra inicial de registros bibliográﬁcos está disponível para a construção da base de conhecimento.
publishDate	2009
dc.date.none.fl_str_mv	2009-04-03 2010-12-11 2015-04-11T14:03:10Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	VILARINHO, Eli Cortez Custódio. Uma abordagem flexível para extração de metadados em citações bibliográficas. 2009. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009. http://tede.ufam.edu.br/handle/tede/2947
identifier_str_mv	VILARINHO, Eli Cortez Custódio. Uma abordagem flexível para extração de metadados em citações bibliográficas. 2009. 57 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2009.
url	http://tede.ufam.edu.br/handle/tede/2947
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática
publisher.none.fl_str_mv	Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM
instname_str	Universidade Federal do Amazonas (UFAM)
instacron_str	UFAM
institution	UFAM
reponame_str	Biblioteca Digital de Teses e Dissertações da UFAM
collection	Biblioteca Digital de Teses e Dissertações da UFAM
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)
repository.mail.fl_str_mv	ddbc@ufam.edu.br\|\|ddbc@ufam.edu.br
_version_	1800234093438304256

Uma abordagem flexível para extração de metadados em citações bibliográficas

Registros relacionados