Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais

Detalhes bibliográficos
Autor(a) principal: Magali Rezende Gouvea Meireles
Data de Publicação: 2012
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ECID-92APE4
Resumo: A organização automática de grandes coleções toma-se atividade mais relevante à medida que aumenta o número de publicações disponíveis em meio digital. Esse trabalho pretende contribuir para essa área avaliando o uso de Redes Neurais Artificiais (RNA) para categorizardocumentos automaticamente por meio da análise das referências bibliográficas neles citadas. O método desenvolvido gera categorias de documentos aplicando conceitos da bibliometria. As publicações foram categorizadas utilizando as citações como atributo principal, baseando-se na premissa de que as citações são uma importante fonte de informação sobre o relacionamento existente entre os documentos. As RNA são utilizadas, tipicamente, em problemas de aproximação de função, predição, classificação, categorização e otimização. Muitos dos experimentos relatados na literatura descrevem a utilização de redes Self Organizing Maps (SOM) para organização de documentos em um formato alternativo para a recuperação de informação. As redes SOM foram utilizadas, neste trabalho, com o objetivo de categorizar os documentos apresentados. As relações entre os textos foram definidas não pela identificação de termos em comum, mas, pela presença de referências bibliográficas comuns e respectivos anos de publicação. Após a validação do método, utilizando um protótipo, foi criado um banco de dados com 200 artigos, do periódico IEEE Transactions on Neural Network, publicados entre 2001 e 2010. As publicações foram categorizadas pela RNA e apresentadas em grupos organizados por suas citações em comum. Os resultados obtidos em três experimentos mostraram que a RNA identificou satisfatoriamente clusters de autores etextos a partir de suas referências. A análise dos textos das publicações pertencentes aos clusters, formados a partir da categorização automática dos documentos, evidenciou a forte relação semântica existente entre eles. Os clusters podem ser úteis na identificação de grupos de pesquisadores que trabalham em áreas afins, na identificação de tendências de pesquisa de um domínio especifico de conhecimento e na formulação ou na reformulação de uma consultano processo de recuperação de informação.
id UFMG_ad72476f9e70b61a83624d21f1191b68
oai_identifier_str oai:repositorio.ufmg.br:1843/ECID-92APE4
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Beatriz Valadares CendonPaulo Eduardo Maciel de AlmeidaRenato Rocha SouzaMarlene de OliveiraMauricio Barcellos AlmeidaMarcello Peixoto BaxJosé Wilson da CostaMagali Rezende Gouvea Meireles2019-08-09T15:19:21Z2019-08-09T15:19:21Z2012-11-08http://hdl.handle.net/1843/ECID-92APE4A organização automática de grandes coleções toma-se atividade mais relevante à medida que aumenta o número de publicações disponíveis em meio digital. Esse trabalho pretende contribuir para essa área avaliando o uso de Redes Neurais Artificiais (RNA) para categorizardocumentos automaticamente por meio da análise das referências bibliográficas neles citadas. O método desenvolvido gera categorias de documentos aplicando conceitos da bibliometria. As publicações foram categorizadas utilizando as citações como atributo principal, baseando-se na premissa de que as citações são uma importante fonte de informação sobre o relacionamento existente entre os documentos. As RNA são utilizadas, tipicamente, em problemas de aproximação de função, predição, classificação, categorização e otimização. Muitos dos experimentos relatados na literatura descrevem a utilização de redes Self Organizing Maps (SOM) para organização de documentos em um formato alternativo para a recuperação de informação. As redes SOM foram utilizadas, neste trabalho, com o objetivo de categorizar os documentos apresentados. As relações entre os textos foram definidas não pela identificação de termos em comum, mas, pela presença de referências bibliográficas comuns e respectivos anos de publicação. Após a validação do método, utilizando um protótipo, foi criado um banco de dados com 200 artigos, do periódico IEEE Transactions on Neural Network, publicados entre 2001 e 2010. As publicações foram categorizadas pela RNA e apresentadas em grupos organizados por suas citações em comum. Os resultados obtidos em três experimentos mostraram que a RNA identificou satisfatoriamente clusters de autores etextos a partir de suas referências. A análise dos textos das publicações pertencentes aos clusters, formados a partir da categorização automática dos documentos, evidenciou a forte relação semântica existente entre eles. Os clusters podem ser úteis na identificação de grupos de pesquisadores que trabalham em áreas afins, na identificação de tendências de pesquisa de um domínio especifico de conhecimento e na formulação ou na reformulação de uma consultano processo de recuperação de informação.The automatic organization of large collections of documents becomes more important with the growth of the amount of infomation available in digital form. This study contributes to this issue evaluating the use of Artificial Neural Networks to automatically categorize documents through the analysis of the references cited in these documents. The method here developed generates clusters of documents based on bibliometric concepts. The publications were categorized using citations as the main input, grounded on the premise that the presence of common citations is an indicative of relationships among documents. Artificial Neural Networks are typically used to solve problems related to function approximation, prediction, classification, categorization and optimization. Many of the experiments reported in the literature describe the use of SOM networks, Self Organizing Maps, in the organization of documents for information retrieval. SOM networks were used in this work in order tocategorize documents in a test database. In this categorization process, the semantic relationships among documents were defined not by the identification of terms in common, but by the presence of common references and their years of publication. After the validation of the method, through the use of a prototype, a database which contained the references cited in 200 articles published in the journal IEEE Transactions on Neural Networks between the years of 2001 and 2010 was created. The publications were categorized by the Artificial Neural Networks and presented in groups organized by their common citations. The results obtained in three experiments showed that the Artificial Neural Networks successfully identified clusters of authors and texts, through their cited references. The analysis of the texts from the cluster publications, formed by the automatic categorization of the documents,evidenced the existence of semantic relationships between the documents. They can be useful to identify groups of researchers working in related fields, for identifying research trends in specific domains of knowledge or in the development or reformulation of queries in the process of information retrieval.Universidade Federal de Minas GeraisUFMGCiência da informaçãoCategorizaçãoRedes Neurais ArtificiaisSistemas de Recuperação de InformaçãoAgrupamentoCiência da InformaçãoBibliometriaCategorização de documentos a partir de suas citações: um método baseado em redes neurais artificiaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese_versao_final_revisada_full_.pdfapplication/pdf8136700https://repositorio.ufmg.br/bitstream/1843/ECID-92APE4/1/tese_versao_final_revisada_full_.pdf801aa19a6bb97a4ca73efe3d7eff3677MD51TEXTtese_versao_final_revisada_full_.pdf.txttese_versao_final_revisada_full_.pdf.txtExtracted texttext/plain435134https://repositorio.ufmg.br/bitstream/1843/ECID-92APE4/2/tese_versao_final_revisada_full_.pdf.txt81e86e3b71d7506f102e761ce53cf261MD521843/ECID-92APE42019-11-14 05:38:51.007oai:repositorio.ufmg.br:1843/ECID-92APE4Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T08:38:51Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
title Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
spellingShingle Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
Magali Rezende Gouvea Meireles
Categorização
Redes Neurais Artificiais
Sistemas de Recuperação de Informação
Agrupamento
Ciência da Informação
Bibliometria
Ciência da informação
title_short Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
title_full Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
title_fullStr Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
title_full_unstemmed Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
title_sort Categorização de documentos a partir de suas citações: um método baseado em redes neurais artificiais
author Magali Rezende Gouvea Meireles
author_facet Magali Rezende Gouvea Meireles
author_role author
dc.contributor.advisor1.fl_str_mv Beatriz Valadares Cendon
dc.contributor.advisor-co1.fl_str_mv Paulo Eduardo Maciel de Almeida
dc.contributor.referee1.fl_str_mv Renato Rocha Souza
dc.contributor.referee2.fl_str_mv Marlene de Oliveira
dc.contributor.referee3.fl_str_mv Mauricio Barcellos Almeida
dc.contributor.referee4.fl_str_mv Marcello Peixoto Bax
dc.contributor.referee5.fl_str_mv José Wilson da Costa
dc.contributor.author.fl_str_mv Magali Rezende Gouvea Meireles
contributor_str_mv Beatriz Valadares Cendon
Paulo Eduardo Maciel de Almeida
Renato Rocha Souza
Marlene de Oliveira
Mauricio Barcellos Almeida
Marcello Peixoto Bax
José Wilson da Costa
dc.subject.por.fl_str_mv Categorização
Redes Neurais Artificiais
Sistemas de Recuperação de Informação
Agrupamento
Ciência da Informação
Bibliometria
topic Categorização
Redes Neurais Artificiais
Sistemas de Recuperação de Informação
Agrupamento
Ciência da Informação
Bibliometria
Ciência da informação
dc.subject.other.pt_BR.fl_str_mv Ciência da informação
description A organização automática de grandes coleções toma-se atividade mais relevante à medida que aumenta o número de publicações disponíveis em meio digital. Esse trabalho pretende contribuir para essa área avaliando o uso de Redes Neurais Artificiais (RNA) para categorizardocumentos automaticamente por meio da análise das referências bibliográficas neles citadas. O método desenvolvido gera categorias de documentos aplicando conceitos da bibliometria. As publicações foram categorizadas utilizando as citações como atributo principal, baseando-se na premissa de que as citações são uma importante fonte de informação sobre o relacionamento existente entre os documentos. As RNA são utilizadas, tipicamente, em problemas de aproximação de função, predição, classificação, categorização e otimização. Muitos dos experimentos relatados na literatura descrevem a utilização de redes Self Organizing Maps (SOM) para organização de documentos em um formato alternativo para a recuperação de informação. As redes SOM foram utilizadas, neste trabalho, com o objetivo de categorizar os documentos apresentados. As relações entre os textos foram definidas não pela identificação de termos em comum, mas, pela presença de referências bibliográficas comuns e respectivos anos de publicação. Após a validação do método, utilizando um protótipo, foi criado um banco de dados com 200 artigos, do periódico IEEE Transactions on Neural Network, publicados entre 2001 e 2010. As publicações foram categorizadas pela RNA e apresentadas em grupos organizados por suas citações em comum. Os resultados obtidos em três experimentos mostraram que a RNA identificou satisfatoriamente clusters de autores etextos a partir de suas referências. A análise dos textos das publicações pertencentes aos clusters, formados a partir da categorização automática dos documentos, evidenciou a forte relação semântica existente entre eles. Os clusters podem ser úteis na identificação de grupos de pesquisadores que trabalham em áreas afins, na identificação de tendências de pesquisa de um domínio especifico de conhecimento e na formulação ou na reformulação de uma consultano processo de recuperação de informação.
publishDate 2012
dc.date.issued.fl_str_mv 2012-11-08
dc.date.accessioned.fl_str_mv 2019-08-09T15:19:21Z
dc.date.available.fl_str_mv 2019-08-09T15:19:21Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ECID-92APE4
url http://hdl.handle.net/1843/ECID-92APE4
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ECID-92APE4/1/tese_versao_final_revisada_full_.pdf
https://repositorio.ufmg.br/bitstream/1843/ECID-92APE4/2/tese_versao_final_revisada_full_.pdf.txt
bitstream.checksum.fl_str_mv 801aa19a6bb97a4ca73efe3d7eff3677
81e86e3b71d7506f102e761ce53cf261
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589300800978944