Analysis of extraction of descriptors as noun phrases through the OGMA software

Detalhes bibliográficos
Autor(a) principal: Corrêa, Renato Fernandes
Data de Publicação: 2017
Outros Autores: Bazílio, Luiz Henrique Teixeira
Tipo de documento: Artigo
Idioma: por
Título da fonte: Encontros Bibli
Texto Completo: https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44
Resumo: This work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors  were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger.
id UFSC-29_21f9dc03ad594c547ebbeecebd747849
oai_identifier_str oai:periodicos.ufsc.br:article/46434
network_acronym_str UFSC-29
network_name_str Encontros Bibli
repository_id_str
spelling Analysis of extraction of descriptors as noun phrases through the OGMA softwareAnálisis de la extracción de descriptores como sintagmas nominales a través del software OGMAAnálise da extração de descritores como sintagmas nominais através do software OGMAIndexação automáticaSintagmas NominaisPalavras-chavesTeses e dissertaçõessoftware OGMAAutomatic indexingNoun PhrasesKeywordsTheses and dissertationsOGMA softwareThis work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors  were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger.Se analiza la indexación automática por sintagmas nominales de documentos, compuestos por título y resumen de 30 tesis y disertaciones, escritos en portugués y de tres áreas del conocimiento diferentes. El método de investigación se categoriza como exploratorio, basado en la revisión de literatura y el experimento computacional. El experimento consistió en el análisis de la salida del software OGMA cuando se aplica al corpus de documentos y la medición del nivel de revocación de las palabras clave. Durante el análisis, se observaron qué palabras clave indicadas por los autores estaban en los documentos y luego se observó qué palabras clave presentes en los documentos fueron extraídas o no como sintagmas nominales por el software. Se trazó un perfil descriptivo de las secuencias o patrones de etiquetas gramaticales de cada grupo de palabras clave presentes - las extraídas y no extraídas como sintagmas nominales. Se concluye que de la totalidad de palabras claves informadas por los autores 68% se encontraban en el título o resumen de la tesis o disertación, de las 66% fueron extraídas como sintagmas nominales, correspondiendo al nivel de revocación de palabras claves presentes alcanzado por el software OGMA. Las palabras clave presentes y no extraídas en la gran mayoría presentaban sustantivos o adjetivos etiquetados con clase gramatical errada por el software, y por eso no fueron extraídos. Las palabras claves presentes y extraídas eran en la mayoría sustantivos aislados (30%), sustantivos seguidos de adjetivo (28%) y sustantivo seguido de preposición y sustantivo (19%). El OGMA alcanzó un buen nivel de revocación de las palabras clave presentes, y este nivel aún puede aumentarse hasta un 34% con ajustes en el etiquetador gramatical del software.Analisa a indexação automática por sintagmas nominais de documentos compostos por título e resumo de 30 teses e dissertações escritas em português de três áreas do conhecimento diferentes. O método de pesquisa é categorizado como exploratório, com base em revisão de literatura e experimento computacional. O experimento consistiu na análise da saída do software OGMA quando aplicado ao corpus de documentos e a mensuração do nível de revocação das palavras-chaves. Durante a análise, foram observadas quais palavras-chave indicadas pelos autores estavam nos documentos e a partir daí observou-se quais palavras-chave presentes nos documentos foram extraídas ou não como sintagmas nominais pelo software. Foi traçado um perfil descritivo das sequências ou padrões de etiquetas gramaticais de cada grupo de palavras-chaves presentes extraídas e não extraídas como sintagmas nominais. Conclui-se que da totalidade de palavras-chaves informadas pelos autores 68% se encontravam no título ou resumo da tese ou dissertação, destas 66% foram extraídas como sintagmas nominais, correspondendo ao nível de revocação de palavras-chaves presentes alcançado pelo software OGMA. As palavras-chaves presentes e não extraídas na grande maioria apresentavam substantivos ou adjetivos etiquetados com classe gramatical errada pelo software, e por isso não foram extraídas. As palavras-chaves presentes e extraídas eram na maioria substantivos isolados (30%), substantivos seguidos de adjetivo (28%) e substantivo seguido de preposição e substantivo (19%). O nível de revocação das palavras-chaves presentes pode ser aumentado significantemente com ajustes no etiquetador gramatical do OGMA.Departamento de Ciência da Informação – UFSC2017-09-06info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionPesquisa exploratória; Revisão de Literatura; Pesquisa empírica; Experimento computacional.application/pdftext/xmlhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p4410.5007/1518-2924.2017v22n50p44Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 22 No. 50 (2017): Data de publicação: 01/09/2017; 44-58Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 22 Núm. 50 (2017): Data de publicação: 01/09/2017; 44-58Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 22 n. 50 (2017): Data de publicação: 01/09/2017; 44-581518-2924reponame:Encontros Bibliinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCporhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/34689https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/53620Copyright (c) 2017 Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazíliohttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessCorrêa, Renato FernandesBazílio, Luiz Henrique Teixeira2023-07-15T20:02:42Zoai:periodicos.ufsc.br:article/46434Revistahttps://periodicos.ufsc.br/index.php/eb/indexPUBhttps://periodicos.ufsc.br/index.php/eb/oaiencontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br1518-29241518-2924opendoar:2023-07-15T20:02:42Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Analysis of extraction of descriptors as noun phrases through the OGMA software
Análisis de la extracción de descriptores como sintagmas nominales a través del software OGMA
Análise da extração de descritores como sintagmas nominais através do software OGMA
title Analysis of extraction of descriptors as noun phrases through the OGMA software
spellingShingle Analysis of extraction of descriptors as noun phrases through the OGMA software
Corrêa, Renato Fernandes
Indexação automática
Sintagmas Nominais
Palavras-chaves
Teses e dissertações
software OGMA
Automatic indexing
Noun Phrases
Keywords
Theses and dissertations
OGMA software
title_short Analysis of extraction of descriptors as noun phrases through the OGMA software
title_full Analysis of extraction of descriptors as noun phrases through the OGMA software
title_fullStr Analysis of extraction of descriptors as noun phrases through the OGMA software
title_full_unstemmed Analysis of extraction of descriptors as noun phrases through the OGMA software
title_sort Analysis of extraction of descriptors as noun phrases through the OGMA software
author Corrêa, Renato Fernandes
author_facet Corrêa, Renato Fernandes
Bazílio, Luiz Henrique Teixeira
author_role author
author2 Bazílio, Luiz Henrique Teixeira
author2_role author
dc.contributor.author.fl_str_mv Corrêa, Renato Fernandes
Bazílio, Luiz Henrique Teixeira
dc.subject.por.fl_str_mv Indexação automática
Sintagmas Nominais
Palavras-chaves
Teses e dissertações
software OGMA
Automatic indexing
Noun Phrases
Keywords
Theses and dissertations
OGMA software
topic Indexação automática
Sintagmas Nominais
Palavras-chaves
Teses e dissertações
software OGMA
Automatic indexing
Noun Phrases
Keywords
Theses and dissertations
OGMA software
description This work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors  were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger.
publishDate 2017
dc.date.none.fl_str_mv 2017-09-06
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Pesquisa exploratória; Revisão de Literatura; Pesquisa empírica; Experimento computacional.
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44
10.5007/1518-2924.2017v22n50p44
url https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44
identifier_str_mv 10.5007/1518-2924.2017v22n50p44
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/34689
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/53620
dc.rights.driver.fl_str_mv Copyright (c) 2017 Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazílio
https://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2017 Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazílio
https://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
text/xml
dc.publisher.none.fl_str_mv Departamento de Ciência da Informação – UFSC
publisher.none.fl_str_mv Departamento de Ciência da Informação – UFSC
dc.source.none.fl_str_mv Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 22 No. 50 (2017): Data de publicação: 01/09/2017; 44-58
Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 22 Núm. 50 (2017): Data de publicação: 01/09/2017; 44-58
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 22 n. 50 (2017): Data de publicação: 01/09/2017; 44-58
1518-2924
reponame:Encontros Bibli
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Encontros Bibli
collection Encontros Bibli
repository.name.fl_str_mv Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv encontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br
_version_ 1797067777730674688