B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Revista Ibero-americana de Ciência da Informação |
Texto Completo: | https://periodicos.unb.br/index.php/RICI/article/view/2430 |
Resumo: | Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. |
id |
UNB-7_3b13bde7060047edb32b9a4075482b12 |
---|---|
oai_identifier_str |
oai:ojs.pkp.sfu.ca:article/2430 |
network_acronym_str |
UNB-7 |
network_name_str |
Revista Ibero-americana de Ciência da Informação |
repository_id_str |
|
spelling |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionáriaartigo científicoindexação automáticalinguísticaprocessamentos de dadosmineração de textoalgoritmosNesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior.Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação2016-06-16info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionapplication/pdftext/htmlhttps://periodicos.unb.br/index.php/RICI/article/view/2430Revista Ibero-Americana de Ciência da Informação; Vol. 9 No. 2 (2016); 564Revista Ibero-Americana de Ciência da Informação; Vol. 9 Núm. 2 (2016); 564Revista Ibero-Americana de Ciência da Informação; v. 9 n. 2 (2016); 5641983-521310.26512/rici.v9.n2.2016reponame:Revista Ibero-americana de Ciência da Informaçãoinstname:Universidade de Brasília (UnB)instacron:UNBporhttps://periodicos.unb.br/index.php/RICI/article/view/2430/2166https://periodicos.unb.br/index.php/RICI/article/view/2430/6118Afonso, Alexandre Ribeiroinfo:eu-repo/semantics/openAccess2018-05-31T21:24:32Zoai:ojs.pkp.sfu.ca:article/2430Revistahttps://periodicos.unb.br/index.php/RICI/indexPUBhttps://periodicos.unb.br/index.php/RICI/oai||rici@unb.br1983-52131983-5213opendoar:2018-05-31T21:24:32Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB)false |
dc.title.none.fl_str_mv |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
title |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
spellingShingle |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária Afonso, Alexandre Ribeiro artigo científico indexação automática linguística processamentos de dados mineração de texto algoritmos |
title_short |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
title_full |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
title_fullStr |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
title_full_unstemmed |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
title_sort |
B2: Um sistema para indexação e agrupamento de artigos científicos em português brasileiro utilizando computação evolucionária |
author |
Afonso, Alexandre Ribeiro |
author_facet |
Afonso, Alexandre Ribeiro |
author_role |
author |
dc.contributor.author.fl_str_mv |
Afonso, Alexandre Ribeiro |
dc.subject.por.fl_str_mv |
artigo científico indexação automática linguística processamentos de dados mineração de texto algoritmos |
topic |
artigo científico indexação automática linguística processamentos de dados mineração de texto algoritmos |
description |
Nesta tese é apresentado um estudo estatístico sobre o agrupamento automático de artigos científicos escritos em português do Brasil, são propostos novos métodos de indexação e agrupamento de textos com o objetivo futuro de desenvolver um software para indexar e agrupar textos por área de conhecimento. Foram testadas três classes conhecidas de termos simples para representar (indexar) os textos de entrada a agrupar: (substantivos), (substantivos e adjetivos), (substantivos, adjetivos e verbos) e também foram desenvolvidas três novas classes de termos compostos para representação (indexação) dos textos: classes de termos mais complexos, onde um termo pode ser composto pela junção de substantivos, adjetivos e preposições. Durante a fase de agrupamento textual dos experimentos foram testados os algoritmos de agrupamento: Expectation-Maximization (EM), X-Means, um Algoritmo Evolucionário de Agrupamento Convencional e, ainda, um novo Algoritmo Evolucionário de Agrupamento Proposto cujo diferencial é trabalhar em duas etapas de processamento: uma etapa para localização do agrupamento subótimo genérico e outra etapa para melhorar tal solução. Adicionalmente, o novo algoritmo permite ao usuário definir a formação de mais grupos ou menos grupos no resultado de agrupamento. Os algoritmos de indexação e agrupamento propostos foram codificados e implementados em um protótipo denominado B2, no entanto, para testar os algoritmos de agrupamento EM e X-Means foi utilizado o pacote de mineração de dados WEKA. Quatro corpora de artigos científicos, diferentes entre si por guardarem artigos de áreas científicas distintas, foram reunidos para testar as combinações de indexação e algoritmo de agrupamento propostas. Melhores resultados de agrupamento (por área de conhecimento dos artigos) foram obtidos utilizando termos compostos na indexação, ao invés do uso de termos simples, quando combinados com o uso do novo Algoritmo Evolucionário de Agrupamento Proposto, porém, para obter grupos bem formados, um número excessivo de grupos é gerado pelo protótipo, consumindo alto tempo de computação para executar tais novos métodos, em um computador pessoal convencional do ano de 2012. Pode-se concluir que o problema de agrupar automaticamente artigos científicos em suas áreas originais é uma tarefa complexa. Logo, acredita-se que os métodos de indexação e agrupamento desenvolvidos possam ser aprimorados para utilização futura em situações específicas, onde a fragmentação e geração adicional de grupos além do esperado não seja um problema maior. |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016-06-16 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.unb.br/index.php/RICI/article/view/2430 |
url |
https://periodicos.unb.br/index.php/RICI/article/view/2430 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.unb.br/index.php/RICI/article/view/2430/2166 https://periodicos.unb.br/index.php/RICI/article/view/2430/6118 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/html |
dc.publisher.none.fl_str_mv |
Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação |
publisher.none.fl_str_mv |
Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação |
dc.source.none.fl_str_mv |
Revista Ibero-Americana de Ciência da Informação; Vol. 9 No. 2 (2016); 564 Revista Ibero-Americana de Ciência da Informação; Vol. 9 Núm. 2 (2016); 564 Revista Ibero-Americana de Ciência da Informação; v. 9 n. 2 (2016); 564 1983-5213 10.26512/rici.v9.n2.2016 reponame:Revista Ibero-americana de Ciência da Informação instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Revista Ibero-americana de Ciência da Informação |
collection |
Revista Ibero-americana de Ciência da Informação |
repository.name.fl_str_mv |
Revista Ibero-americana de Ciência da Informação - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
||rici@unb.br |
_version_ |
1800210998287663104 |