B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária

Detalhes bibliográficos
Autor(a) principal: Afonso, Alexandre Ribeiro
Data de Publicação: 2016
Tipo de documento: Artigo
Idioma: por
Título da fonte: Revista Ibero-americana de Ciência da Informação
Texto Completo: https://periodicos.unb.br/index.php/RICI/article/view/2430
Resumo: Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior.
id UNB-7_3b13bde7060047edb32b9a4075482b12
oai_identifier_str oai:ojs.pkp.sfu.ca:article/2430
network_acronym_str UNB-7
network_name_str Revista Ibero-americana de Ciência da Informação
repository_id_str
spelling B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionáriaartigo científicoindexação automáticalinguísticaprocessamentos de dadosmineração de textoalgoritmosNesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior.Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação2016-06-16info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/htmlhttps://periodicos.unb.br/index.php/RICI/article/view/2430Revista Ibero-Americana de Ciência da Informação; Vol. 9 No. 2 (2016); 564Revista Ibero-Americana de Ciência da Informação; Vol. 9 Núm. 2 (2016); 564Revista Ibero-Americana de Ciência da Informação; v. 9 n. 2 (2016); 5641983-521310.26512/rici.v9.n2.2016reponame:Revista Ibero-americana de Ciência da Informaçãoinstname:Universidade de Brasília (UnB)instacron:UNBporhttps://periodicos.unb.br/index.php/RICI/article/view/2430/2166https://periodicos.unb.br/index.php/RICI/article/view/2430/6118Afonso, Alexandre Ribeiroinfo:eu-repo/semantics/openAccess2018-05-31T21:24:32Zoai:ojs.pkp.sfu.ca:article/2430Revistahttps://periodicos.unb.br/index.php/RICI/indexPUBhttps://periodicos.unb.br/index.php/RICI/oai||rici@unb.br1983-52131983-5213opendoar:2018-05-31T21:24:32Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
spellingShingle B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
Afonso, Alexandre Ribeiro
artigo científico
indexação automática
linguística
processamentos de dados
mineração de texto
algoritmos
title_short B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_full B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_fullStr B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_full_unstemmed B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
title_sort B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
author Afonso, Alexandre Ribeiro
author_facet Afonso, Alexandre Ribeiro
author_role author
dc.contributor.author.fl_str_mv Afonso, Alexandre Ribeiro
dc.subject.por.fl_str_mv artigo científico
indexação automática
linguística
processamentos de dados
mineração de texto
algoritmos
topic artigo científico
indexação automática
linguística
processamentos de dados
mineração de texto
algoritmos
description Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior.
publishDate 2016
dc.date.none.fl_str_mv 2016-06-16
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.unb.br/index.php/RICI/article/view/2430
url https://periodicos.unb.br/index.php/RICI/article/view/2430
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.unb.br/index.php/RICI/article/view/2430/2166
https://periodicos.unb.br/index.php/RICI/article/view/2430/6118
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
text/html
dc.publisher.none.fl_str_mv Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação
publisher.none.fl_str_mv Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação
dc.source.none.fl_str_mv Revista Ibero-Americana de Ciência da Informação; Vol. 9 No. 2 (2016); 564
Revista Ibero-Americana de Ciência da Informação; Vol. 9 Núm. 2 (2016); 564
Revista Ibero-Americana de Ciência da Informação; v. 9 n. 2 (2016); 564
1983-5213
10.26512/rici.v9.n2.2016
reponame:Revista Ibero-americana de Ciência da Informação
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Revista Ibero-americana de Ciência da Informação
collection Revista Ibero-americana de Ciência da Informação
repository.name.fl_str_mv Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)
repository.mail.fl_str_mv ||rici@unb.br
_version_ 1800210998287663104