B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

Afonso, Alexandre Ribeiro

B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

Detalhes bibliográficos
Autor(a) principal:	Afonso, Alexandre Ribeiro
Data de Publicação:	2013
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UnB
Texto Completo:	http://repositorio.unb.br/handle/10482/15480
Resumo:	Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.

Metadados do item

id	UNB_36d953e67cc3747ff5f1c53ef14976c2
oai_identifier_str	oai:repositorio.unb.br:10482/15480
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionáriaIndexação automáticaLinguística - processamento de dadosAlgoritmosMineração de textoArtigo científicoTese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. ______________________________________________________________________________________ ABSTRACTThis thesis presents an empirical study about automated text clustering for scientific articles written in Brazilian Portuguese. We tested three already known classes of simple terms for representing (or indexing) the input texts: (nouns), (nouns and adjectives) and (nouns, adjectives and verbs); we also developed three new classes of composed terms for text representation (or indexing): the new classes consist of more complex terms, where a complex term could be composed by the joint of nouns, adjectives and prepositions. Our final goal is to develop new software for text indexing and clustering. During the clustering stage of the experiments we tested the Expectation-Maximization (EM) Clustering Algorithm, the X-Means Clustering Algorithm, the Conventional Clustering Evolutionary Algorithm and, finally, we also proposed a new Two Phase Clustering Evolutionary Algorithm which works in two phases, the first phase finds the sub-optimal text clustering and the second one improves the result found by the first phase. The Two Phase Clustering Evolutionary Algorithm also permits the user to define whether the system should create a high number or a low number of clusters. The new indexing and clustering algorithmic strategies presented were implemented in a prototype named B2, but for testing the EM and X-Means algorithms we used the known WEKA data mining package. Four different scientific corpora having different sets of scientific topics were assembled and applied for testing the combinations of indexing and clustering methods. Although considerable better results were achieved when indexing with the classes of composed terms combined with the new Two Phase Clustering Evolutionary Algorithm, a considerable higher number of clusters was generated and a considerable additional time was consumed when running the new system over a 2012 conventional personal computer. We conclude that the problem of clustering scientific articles in their original topics is a complex task. Good results of clustering correctness were achieved by the new methods but producing many fragmented additional clusters as output, so, in the future, the methods can be improved and applied in specific situations where the fragmentation and additional production of clusters are not a major problem.Faculdade de Ciência da Informação (FCI)Programa de Pós-Graduação em Ciência da InformaçãoDuque, Cláudio GottschalgAfonso, Alexandre Ribeiro2014-04-23T13:20:38Z2014-04-23T13:20:38Z2014-04-232013-11-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfAFONSO, Alexandre Ribeiro. B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária. 2013. 157 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 2013.http://repositorio.unb.br/handle/10482/15480A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-10-27T12:25:47Zoai:repositorio.unb.br:10482/15480Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-10-27T12:25:47Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
spellingShingle	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária Afonso, Alexandre Ribeiro Indexação automática Linguística - processamento de dados Algoritmos Mineração de texto Artigo científico
title_short	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_full	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_fullStr	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_full_unstemmed	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_sort	B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
author	Afonso, Alexandre Ribeiro
author_facet	Afonso, Alexandre Ribeiro
author_role	author
dc.contributor.none.fl_str_mv	Duque, Cláudio Gottschalg
dc.contributor.author.fl_str_mv	Afonso, Alexandre Ribeiro
dc.subject.por.fl_str_mv	Indexação automática Linguística - processamento de dados Algoritmos Mineração de texto Artigo científico
topic	Indexação automática Linguística - processamento de dados Algoritmos Mineração de texto Artigo científico
description	Tese (doutorado)—Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2013.
publishDate	2013
dc.date.none.fl_str_mv	2013-11-11 2014-04-23T13:20:38Z 2014-04-23T13:20:38Z 2014-04-23
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	AFONSO, Alexandre Ribeiro. B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária. 2013. 157 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 2013. http://repositorio.unb.br/handle/10482/15480
identifier_str_mv	AFONSO, Alexandre Ribeiro. B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária. 2013. 157 f., il. Tese (Doutorado em Ciência da Informação)—Universidade de Brasília, Brasília, 2013.
url	http://repositorio.unb.br/handle/10482/15480
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv	repositorio@unb.br
_version_	1818900807041417216

B2 : um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

Registros relacionados