B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

Detalhes bibliográficos
Autor(a) principal: Afonso, Alexandre Ribeiro
Data de Publicação: 2013
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/15480
Resumo: Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.
id UNB_36d953e67cc3747ff5f1c53ef14976c2
oai_identifier_str oai:repositorio.unb.br:10482/15480
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionáriaIndexação automáticaLinguística - processamento de dadosAlgoritmosMineração de textoArtigo científicoTese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. ______________________________________________________________________________________ ABSTRACTThis thesis presents an empirical study about automated text clustering for scientific articles written in Brazilian Portuguese. We tested three already known classes of simple terms for representing (or indexing) the input texts: (nouns), (nouns and adjectives) and (nouns, adjectives and verbs); we also developed three new classes of composed terms for text representation (or indexing): the new classes consist of more complex terms, where a complex term could be composed by the joint of nouns, adjectives and prepositions. Our final goal is to develop new software for text indexing and clustering. During the clustering stage of the experiments we tested the Expectation-Maximization (EM) Clustering Algorithm, the X-Means Clustering Algorithm, the Conventional Clustering Evolutionary Algorithm and, finally, we also proposed a new Two Phase Clustering Evolutionary Algorithm which works in two phases, the first phase finds the sub-optimal text clustering and the second one improves the result found by the first phase. The Two Phase Clustering Evolutionary Algorithm also permits the user to define whether the system should create a high number or a low number of clusters. The new indexing and clustering algorithmic strategies presented were implemented in a prototype named B2, but for testing the EM and X-Means algorithms we used the known WEKA data mining package. Four different scientific corpora having different sets of scientific topics were assembled and applied for testing the combinations of indexing and clustering methods. Although considerable better results were achieved when indexing with the classes of composed terms combined with the new Two Phase Clustering Evolutionary Algorithm, a considerable higher number of clusters was generated and a considerable additional time was consumed when running the new system over a 2012 conventional personal computer. We conclude that the problem of clustering scientific articles in their original topics is a complex task. Good results of clustering correctness were achieved by the new methods but producing many fragmented additional clusters as output, so, in the future, the methods can be improved and applied in specific situations where the fragmentation and additional production of clusters are not a major problem.Faculdade de Ciência da Informação (FCI)Programa de Pós-Graduação em Ciência da InformaçãoDuque, Cláudio GottschalgAfonso, Alexandre Ribeiro2014-04-23T13:20:38Z2014-04-23T13:20:38Z2014-04-232013-11-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfAFONSO, Alexandre Ribeiro. B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária. 2013. 157 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 2013.http://repositorio.unb.br/handle/10482/15480A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-10-27T12:25:47Zoai:repositorio.unb.br:10482/15480Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-10-27T12:25:47Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
spellingShingle B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
Afonso, Alexandre Ribeiro
Indexação automática
Linguística - processamento de dados
Algoritmos
Mineração de texto
Artigo científico
title_short B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_full B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_fullStr B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_full_unstemmed B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_sort B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
author Afonso, Alexandre Ribeiro
author_facet Afonso, Alexandre Ribeiro
author_role author
dc.contributor.none.fl_str_mv Duque, Cláudio Gottschalg
dc.contributor.author.fl_str_mv Afonso, Alexandre Ribeiro
dc.subject.por.fl_str_mv Indexação automática
Linguística - processamento de dados
Algoritmos
Mineração de texto
Artigo científico
topic Indexação automática
Linguística - processamento de dados
Algoritmos
Mineração de texto
Artigo científico
description Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.
publishDate 2013
dc.date.none.fl_str_mv 2013-11-11
2014-04-23T13:20:38Z
2014-04-23T13:20:38Z
2014-04-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv AFONSO, Alexandre Ribeiro. B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária. 2013. 157 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 2013.
http://repositorio.unb.br/handle/10482/15480
identifier_str_mv AFONSO, Alexandre Ribeiro. B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária. 2013. 157 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 2013.
url http://repositorio.unb.br/handle/10482/15480
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1818900807041417216