Analysis of extraction of descriptors as noun phrases through the OGMA software
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Encontros Bibli |
Texto Completo: | https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44 |
Resumo: | This work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger. |
id |
UFSC-29_21f9dc03ad594c547ebbeecebd747849 |
---|---|
oai_identifier_str |
oai:periodicos.ufsc.br:article/46434 |
network_acronym_str |
UFSC-29 |
network_name_str |
Encontros Bibli |
repository_id_str |
|
spelling |
Analysis of extraction of descriptors as noun phrases through the OGMA softwareAnálisis de la extracción de descriptores como sintagmas nominales a través del software OGMAAnálise da extração de descritores como sintagmas nominais através do software OGMAIndexação automáticaSintagmas NominaisPalavras-chavesTeses e dissertaçõessoftware OGMAAutomatic indexingNoun PhrasesKeywordsTheses and dissertationsOGMA softwareThis work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger.Se analiza la indexación automática por sintagmas nominales de documentos, compuestos por título y resumen de 30 tesis y disertaciones, escritos en portugués y de tres áreas del conocimiento diferentes. El método de investigación se categoriza como exploratorio, basado en la revisión de literatura y el experimento computacional. El experimento consistió en el análisis de la salida del software OGMA cuando se aplica al corpus de documentos y la medición del nivel de revocación de las palabras clave. Durante el análisis, se observaron qué palabras clave indicadas por los autores estaban en los documentos y luego se observó qué palabras clave presentes en los documentos fueron extraídas o no como sintagmas nominales por el software. Se trazó un perfil descriptivo de las secuencias o patrones de etiquetas gramaticales de cada grupo de palabras clave presentes - las extraídas y no extraídas como sintagmas nominales. Se concluye que de la totalidad de palabras claves informadas por los autores 68% se encontraban en el título o resumen de la tesis o disertación, de las 66% fueron extraídas como sintagmas nominales, correspondiendo al nivel de revocación de palabras claves presentes alcanzado por el software OGMA. Las palabras clave presentes y no extraídas en la gran mayoría presentaban sustantivos o adjetivos etiquetados con clase gramatical errada por el software, y por eso no fueron extraídos. Las palabras claves presentes y extraídas eran en la mayoría sustantivos aislados (30%), sustantivos seguidos de adjetivo (28%) y sustantivo seguido de preposición y sustantivo (19%). El OGMA alcanzó un buen nivel de revocación de las palabras clave presentes, y este nivel aún puede aumentarse hasta un 34% con ajustes en el etiquetador gramatical del software.Analisa a indexação automática por sintagmas nominais de documentos compostos por título e resumo de 30 teses e dissertações escritas em português de três áreas do conhecimento diferentes. O método de pesquisa é categorizado como exploratório, com base em revisão de literatura e experimento computacional. O experimento consistiu na análise da saída do software OGMA quando aplicado ao corpus de documentos e a mensuração do nível de revocação das palavras-chaves. Durante a análise, foram observadas quais palavras-chave indicadas pelos autores estavam nos documentos e a partir daí observou-se quais palavras-chave presentes nos documentos foram extraídas ou não como sintagmas nominais pelo software. Foi traçado um perfil descritivo das sequências ou padrões de etiquetas gramaticais de cada grupo de palavras-chaves presentes extraídas e não extraídas como sintagmas nominais. Conclui-se que da totalidade de palavras-chaves informadas pelos autores 68% se encontravam no título ou resumo da tese ou dissertação, destas 66% foram extraídas como sintagmas nominais, correspondendo ao nível de revocação de palavras-chaves presentes alcançado pelo software OGMA. As palavras-chaves presentes e não extraídas na grande maioria apresentavam substantivos ou adjetivos etiquetados com classe gramatical errada pelo software, e por isso não foram extraídas. As palavras-chaves presentes e extraídas eram na maioria substantivos isolados (30%), substantivos seguidos de adjetivo (28%) e substantivo seguido de preposição e substantivo (19%). O nível de revocação das palavras-chaves presentes pode ser aumentado significantemente com ajustes no etiquetador gramatical do OGMA.Departamento de Ciência da Informação – UFSC2017-09-06info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionPesquisa exploratória; Revisão de Literatura; Pesquisa empírica; Experimento computacional.application/pdftext/xmlhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p4410.5007/1518-2924.2017v22n50p44Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 22 No. 50 (2017): Data de publicação: 01/09/2017; 44-58Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 22 Núm. 50 (2017): Data de publicação: 01/09/2017; 44-58Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 22 n. 50 (2017): Data de publicação: 01/09/2017; 44-581518-2924reponame:Encontros Bibliinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCporhttps://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/34689https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/53620Copyright (c) 2017 Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazíliohttps://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessCorrêa, Renato FernandesBazílio, Luiz Henrique Teixeira2023-07-15T20:02:42Zoai:periodicos.ufsc.br:article/46434Revistahttps://periodicos.ufsc.br/index.php/eb/indexPUBhttps://periodicos.ufsc.br/index.php/eb/oaiencontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br1518-29241518-2924opendoar:2023-07-15T20:02:42Encontros Bibli - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
Analysis of extraction of descriptors as noun phrases through the OGMA software Análisis de la extracción de descriptores como sintagmas nominales a través del software OGMA Análise da extração de descritores como sintagmas nominais através do software OGMA |
title |
Analysis of extraction of descriptors as noun phrases through the OGMA software |
spellingShingle |
Analysis of extraction of descriptors as noun phrases through the OGMA software Corrêa, Renato Fernandes Indexação automática Sintagmas Nominais Palavras-chaves Teses e dissertações software OGMA Automatic indexing Noun Phrases Keywords Theses and dissertations OGMA software |
title_short |
Analysis of extraction of descriptors as noun phrases through the OGMA software |
title_full |
Analysis of extraction of descriptors as noun phrases through the OGMA software |
title_fullStr |
Analysis of extraction of descriptors as noun phrases through the OGMA software |
title_full_unstemmed |
Analysis of extraction of descriptors as noun phrases through the OGMA software |
title_sort |
Analysis of extraction of descriptors as noun phrases through the OGMA software |
author |
Corrêa, Renato Fernandes |
author_facet |
Corrêa, Renato Fernandes Bazílio, Luiz Henrique Teixeira |
author_role |
author |
author2 |
Bazílio, Luiz Henrique Teixeira |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Corrêa, Renato Fernandes Bazílio, Luiz Henrique Teixeira |
dc.subject.por.fl_str_mv |
Indexação automática Sintagmas Nominais Palavras-chaves Teses e dissertações software OGMA Automatic indexing Noun Phrases Keywords Theses and dissertations OGMA software |
topic |
Indexação automática Sintagmas Nominais Palavras-chaves Teses e dissertações software OGMA Automatic indexing Noun Phrases Keywords Theses and dissertations OGMA software |
description |
This work investigates automatic indexing by noun phrases of documents containing title and abstract of 30 theses and dissertations written in Portuguese and of three different areas of knowledge. The research method is exploratory and based on literature review and an experiment. The experiment consisted of the OGMA software output analysis for the document corpus and the measurement of the level of recall of keywords present in the documents. It shows a descriptive profile of the sequences of grammatical labels for keywords present extracted and not extracted as noun phrases. It is concluded that 68% of the totality of keywords informed by the authors were in the title or abstract of the thesis or dissertations, of these 66% were extracted as noun phrases, which corresponds to the recall level of keywords present reached by OGMA software. Keywords present and not extracted had mainly nouns or adjectives labeled with incorrect grammatical category by the software. Keywords present and extracted were mostly single nouns (30%), noun-adjective pair (28%) and noun-preposition-noun trigram (19%). The OGMA obtained a good level of recall of keywords present, and this level can increases in almost 34% with adjustments in the part-of-speech tagger. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-09-06 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Pesquisa exploratória; Revisão de Literatura; Pesquisa empírica; Experimento computacional. |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44 10.5007/1518-2924.2017v22n50p44 |
url |
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44 |
identifier_str_mv |
10.5007/1518-2924.2017v22n50p44 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/34689 https://periodicos.ufsc.br/index.php/eb/article/view/1518-2924.2017v22n50p44/53620 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2017 Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazílio https://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2017 Renato Fernandes Corrêa; Luiz Henrique Teixeira Bazílio https://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf text/xml |
dc.publisher.none.fl_str_mv |
Departamento de Ciência da Informação – UFSC |
publisher.none.fl_str_mv |
Departamento de Ciência da Informação – UFSC |
dc.source.none.fl_str_mv |
Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Vol. 22 No. 50 (2017): Data de publicação: 01/09/2017; 44-58 Encontros Bibli: revista electrónica de bibliotecología y ciencias de la información.; Vol. 22 Núm. 50 (2017): Data de publicação: 01/09/2017; 44-58 Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; v. 22 n. 50 (2017): Data de publicação: 01/09/2017; 44-58 1518-2924 reponame:Encontros Bibli instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Encontros Bibli |
collection |
Encontros Bibli |
repository.name.fl_str_mv |
Encontros Bibli - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
encontrosbibli@contato.ufsc.br||portaldeperiodicos.bu@contato.ufsc.br |
_version_ |
1797067777730674688 |