Uso de apontadores na classificação de documentos em coleções digitais

Detalhes bibliográficos
Autor(a) principal: Thierson Couto Rosa
Data de Publicação: 2007
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/RVMR-7AAQQJ
Resumo: Este trabalho mostra como informações derivadas de apontadores entre documentos da Web podem ser utilizadas na solução do problema de classificação de documentos. A forma mais comum de apontadores entre documentos da Web corresponde aos hyperlinks entre documentos. Entretanto, apontadores também podem ser derivados a partir de referências entre documentos de coleções digitais hospedadas na Web, por exemplo, a partir de referências entre artigos de bibliotecas digitais ou de enciclopedias. Especificamente, investigamos como a utilização de medidas derivadas de informação de apontadores, denominadas medidas bibliometricas, podem ser utilizadas para melhorar a qualidade de sistemas de classificação de documentos. As medidas bibliometricas utilizadas foram: co-citação, acoplamento bibliográfico e Amsler. Obtivemos classificadores com estas medidas e classificadores com informações de texto, utilizando os seguintes métodos de classificação: o método dos vizinhos mais próximos (kNN) e o método Suport Vector Machine (SVM). Classificadores com medidas bibliométricas mostraram ser eficazes sempre que a distribuição de apontadores na coleção possui determinadas características. Além disto, os documentos para os quais classificadores baseados nestas medidas falham mostraram-se difíceis também na classificação feita por pessoas.Propomos, ainda, um modo alternativo de combinar resultados de classificadores que usam medidas bibliométricas com resultados de classificadores que usam informações de texto. Experimentos mostram que a combinação de resultados é superior ao resultados individuais em todas as coleções de teste.
id UFMG_b675985476d985230b1a80739c7d52c2
oai_identifier_str oai:repositorio.ufmg.br:1843/RVMR-7AAQQJ
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Nivio ZivianiEdleno Silva de MouraIlmério Reis da SilvaCarlos Alberto HeuserAlberto Henrique Frade LaenderMarcos Andre GoncalvesThierson Couto Rosa2019-08-10T11:26:53Z2019-08-10T11:26:53Z2007-12-12http://hdl.handle.net/1843/RVMR-7AAQQJEste trabalho mostra como informações derivadas de apontadores entre documentos da Web podem ser utilizadas na solução do problema de classificação de documentos. A forma mais comum de apontadores entre documentos da Web corresponde aos hyperlinks entre documentos. Entretanto, apontadores também podem ser derivados a partir de referências entre documentos de coleções digitais hospedadas na Web, por exemplo, a partir de referências entre artigos de bibliotecas digitais ou de enciclopedias. Especificamente, investigamos como a utilização de medidas derivadas de informação de apontadores, denominadas medidas bibliometricas, podem ser utilizadas para melhorar a qualidade de sistemas de classificação de documentos. As medidas bibliometricas utilizadas foram: co-citação, acoplamento bibliográfico e Amsler. Obtivemos classificadores com estas medidas e classificadores com informações de texto, utilizando os seguintes métodos de classificação: o método dos vizinhos mais próximos (kNN) e o método Suport Vector Machine (SVM). Classificadores com medidas bibliométricas mostraram ser eficazes sempre que a distribuição de apontadores na coleção possui determinadas características. Além disto, os documentos para os quais classificadores baseados nestas medidas falham mostraram-se difíceis também na classificação feita por pessoas.Propomos, ainda, um modo alternativo de combinar resultados de classificadores que usam medidas bibliométricas com resultados de classificadores que usam informações de texto. Experimentos mostram que a combinação de resultados é superior ao resultados individuais em todas as coleções de teste.In this work, we show how information derived from links among Web documents can be used in the solutions of the problem of document classification. The most obvious form of link between two Web documents is a hyperlink connecting them. But links can also be derived from references among documents of digital collections hosted in the Web, for instance, from citations among articles of digital libraries and encyclopedias. Specifically, we study how the use of measures derived from link information, namedbibliometric measures can improve the accuracy of classification systems. As bibliometric measures, we used co-citation, bibliographic coupling and Amsler. We obtained distinct classifiers by applying bibliometric and text-based measures to the traditional k-nearest neighbors (kNN) and Support Vector Machine (SVM) classification methods. Bibliometric measures were shown to be effective for document classification whenever some characteristics of link distribution is present in the collection. Most of the documents where the classifier based on bibliometric measures failed were shown to be difficult ones even for human classification. We also propose a new alternative way of combining results of bibliometric-measurebased classifiers and text based classifiers. In the experiments performed with three distinct collections, the combination approach adopted achieved results better than the results of each classifier in isolation.Universidade Federal de Minas GeraisUFMGCiencia da informação Metodos estatisticosWorld Wide Web (Sistema de recuperação da informação)ComputaçãoSistemas especialistas (Computação)Processamento de textos (Computação)Sistemas de recuperação da informaçãoBibliometriabibliotecas digitaisUso de apontadores na classificação de documentos em coleções digitaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALthiersoncoutorosa.pdfapplication/pdf593084https://repositorio.ufmg.br/bitstream/1843/RVMR-7AAQQJ/1/thiersoncoutorosa.pdf86d5265171b4450ded9416edbafcf14dMD51TEXTthiersoncoutorosa.pdf.txtthiersoncoutorosa.pdf.txtExtracted texttext/plain153015https://repositorio.ufmg.br/bitstream/1843/RVMR-7AAQQJ/2/thiersoncoutorosa.pdf.txt82df3ceb95bbca4f8af8d73fcd0c1ae3MD521843/RVMR-7AAQQJ2019-11-14 05:32:38.963oai:repositorio.ufmg.br:1843/RVMR-7AAQQJRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T08:32:38Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Uso de apontadores na classificação de documentos em coleções digitais
title Uso de apontadores na classificação de documentos em coleções digitais
spellingShingle Uso de apontadores na classificação de documentos em coleções digitais
Thierson Couto Rosa
bibliotecas digitais
Ciencia da informação Metodos estatisticos
World Wide Web (Sistema de recuperação da informação)
Computação
Sistemas especialistas (Computação)
Processamento de textos (Computação)
Sistemas de recuperação da informação
Bibliometria
title_short Uso de apontadores na classificação de documentos em coleções digitais
title_full Uso de apontadores na classificação de documentos em coleções digitais
title_fullStr Uso de apontadores na classificação de documentos em coleções digitais
title_full_unstemmed Uso de apontadores na classificação de documentos em coleções digitais
title_sort Uso de apontadores na classificação de documentos em coleções digitais
author Thierson Couto Rosa
author_facet Thierson Couto Rosa
author_role author
dc.contributor.advisor1.fl_str_mv Nivio Ziviani
dc.contributor.advisor-co1.fl_str_mv Edleno Silva de Moura
dc.contributor.referee1.fl_str_mv Ilmério Reis da Silva
dc.contributor.referee2.fl_str_mv Carlos Alberto Heuser
dc.contributor.referee3.fl_str_mv Alberto Henrique Frade Laender
dc.contributor.referee4.fl_str_mv Marcos Andre Goncalves
dc.contributor.author.fl_str_mv Thierson Couto Rosa
contributor_str_mv Nivio Ziviani
Edleno Silva de Moura
Ilmério Reis da Silva
Carlos Alberto Heuser
Alberto Henrique Frade Laender
Marcos Andre Goncalves
dc.subject.por.fl_str_mv bibliotecas digitais
topic bibliotecas digitais
Ciencia da informação Metodos estatisticos
World Wide Web (Sistema de recuperação da informação)
Computação
Sistemas especialistas (Computação)
Processamento de textos (Computação)
Sistemas de recuperação da informação
Bibliometria
dc.subject.other.pt_BR.fl_str_mv Ciencia da informação Metodos estatisticos
World Wide Web (Sistema de recuperação da informação)
Computação
Sistemas especialistas (Computação)
Processamento de textos (Computação)
Sistemas de recuperação da informação
Bibliometria
description Este trabalho mostra como informações derivadas de apontadores entre documentos da Web podem ser utilizadas na solução do problema de classificação de documentos. A forma mais comum de apontadores entre documentos da Web corresponde aos hyperlinks entre documentos. Entretanto, apontadores também podem ser derivados a partir de referências entre documentos de coleções digitais hospedadas na Web, por exemplo, a partir de referências entre artigos de bibliotecas digitais ou de enciclopedias. Especificamente, investigamos como a utilização de medidas derivadas de informação de apontadores, denominadas medidas bibliometricas, podem ser utilizadas para melhorar a qualidade de sistemas de classificação de documentos. As medidas bibliometricas utilizadas foram: co-citação, acoplamento bibliográfico e Amsler. Obtivemos classificadores com estas medidas e classificadores com informações de texto, utilizando os seguintes métodos de classificação: o método dos vizinhos mais próximos (kNN) e o método Suport Vector Machine (SVM). Classificadores com medidas bibliométricas mostraram ser eficazes sempre que a distribuição de apontadores na coleção possui determinadas características. Além disto, os documentos para os quais classificadores baseados nestas medidas falham mostraram-se difíceis também na classificação feita por pessoas.Propomos, ainda, um modo alternativo de combinar resultados de classificadores que usam medidas bibliométricas com resultados de classificadores que usam informações de texto. Experimentos mostram que a combinação de resultados é superior ao resultados individuais em todas as coleções de teste.
publishDate 2007
dc.date.issued.fl_str_mv 2007-12-12
dc.date.accessioned.fl_str_mv 2019-08-10T11:26:53Z
dc.date.available.fl_str_mv 2019-08-10T11:26:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/RVMR-7AAQQJ
url http://hdl.handle.net/1843/RVMR-7AAQQJ
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/RVMR-7AAQQJ/1/thiersoncoutorosa.pdf
https://repositorio.ufmg.br/bitstream/1843/RVMR-7AAQQJ/2/thiersoncoutorosa.pdf.txt
bitstream.checksum.fl_str_mv 86d5265171b4450ded9416edbafcf14d
82df3ceb95bbca4f8af8d73fcd0c1ae3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589236414218240