Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural

Bibliographic Details
Main Author: Finatto, Maria José Bocorny
Publication Date: 2015
Other Authors: Lopes, Lucelene, Silva, Alena Ciulla e
Format: Article
Language: por
Source: Repositório Institucional da UFRGS
Download full: http://hdl.handle.net/10183/169396
Summary: Este trabalho apresenta um estudo em que técnicas de Processamento de Linguagem Natural (PLN) e de Linguística de Corpus (LC) são utilizadas para extrair e estruturar termos relacionados a conceitos importantes de Saussure no texto em português do Curso de Linguística Geral (CLG). Tomando o CLG como um corpus, busca-se um método de representação automática de conteúdo através de ferramentas computacionais. Uma vez submetido ao parser PALAVRAS, um etiquetador morfossintático para a língua portuguesa, o corpus do CLG é processado pela ferramenta extratora de sintagmas nominais relevantes, denominada ExATOlp, que implementa diversas técnicas de PLN de base linguística e de base estatística. Em seguida, são geradas listas e gráficos hierarquizados dos sintagmas nominais do CLG, elencados pela ferramenta como os mais específicos/relevantes do corpus em questão. Esses resultados são comparados com dados gerados pela ferramenta AntConc, ferramenta de acesso livre bastante empregada em trabalhos de LC, aplicada ao mesmo corpus. Os resultados mostram o potencial da ferramenta ExATOlp para trabalhos em LC e para o levantamento de dados lexicais para estudos terminológicos, para a mineração de dados e para a geração de ontologias em língua portuguesa.
id UFRGS-2_af8db7f55fef2bea0d0450a14b468be7
oai_identifier_str oai:www.lume.ufrgs.br:10183/169396
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Finatto, Maria José BocornyLopes, LuceleneSilva, Alena Ciulla e2017-10-11T04:21:23Z20151980-5799http://hdl.handle.net/10183/169396001047479Este trabalho apresenta um estudo em que técnicas de Processamento de Linguagem Natural (PLN) e de Linguística de Corpus (LC) são utilizadas para extrair e estruturar termos relacionados a conceitos importantes de Saussure no texto em português do Curso de Linguística Geral (CLG). Tomando o CLG como um corpus, busca-se um método de representação automática de conteúdo através de ferramentas computacionais. Uma vez submetido ao parser PALAVRAS, um etiquetador morfossintático para a língua portuguesa, o corpus do CLG é processado pela ferramenta extratora de sintagmas nominais relevantes, denominada ExATOlp, que implementa diversas técnicas de PLN de base linguística e de base estatística. Em seguida, são geradas listas e gráficos hierarquizados dos sintagmas nominais do CLG, elencados pela ferramenta como os mais específicos/relevantes do corpus em questão. Esses resultados são comparados com dados gerados pela ferramenta AntConc, ferramenta de acesso livre bastante empregada em trabalhos de LC, aplicada ao mesmo corpus. Os resultados mostram o potencial da ferramenta ExATOlp para trabalhos em LC e para o levantamento de dados lexicais para estudos terminológicos, para a mineração de dados e para a geração de ontologias em língua portuguesa.This paper presents a study based on Natural Language Processing techniques (PLN) and Corpus Linguistics (CL) approaches to extract terms related to important saussurean concepts in the Brazilian Portuguese edition of the Course in General Linguistics. Taking the CGL as a corpus, we aim at an automatic representation method of content through computer tools. Once submitted to the parser PALAVRAS, a morphossyntatic tagger, the corpus is processed by ExATOlp, a tool implementing various linguistic and statistically based NLP techniques. The tool generates hierarchical lists and charts of noun phrases, which are organized according to their specificity / relevance in the target corpus. These lists are then compared to data generated by AntConc - a free access tool quite used in LC approaches - applied to the same corpus. The results show the potential of ExATOlp in works on LC and in colleting lexical data for terminology studies, data mining and generation of ontologies in Portuguese.application/pdfporDomínios de lingu@gem. Uberlândia, MG. Vol. 9, n. 2 (abr./jun. 2015), p. [40]-55Saussure, Ferdinand de, 1857-1913. Curso de lingüística geralLingüística de corpusLinguagem naturalLinguísticaAutomatic extraction of termsCourse in general linguisticsSaussureExtração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem naturalAutomatic extraction of term candidates from Course in General Linguistics with resources from corpus linguistics and natural language processing info:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001047479.pdf001047479.pdfTexto completoapplication/pdf1840544http://www.lume.ufrgs.br/bitstream/10183/169396/1/001047479.pdfb3a906eb138ca1ff68df32840f048344MD51TEXT001047479.pdf.txt001047479.pdf.txtExtracted Texttext/plain36265http://www.lume.ufrgs.br/bitstream/10183/169396/2/001047479.pdf.txt0925dc9edda5692abe3c47cc6227d5d5MD52THUMBNAIL001047479.pdf.jpg001047479.pdf.jpgGenerated Thumbnailimage/jpeg1932http://www.lume.ufrgs.br/bitstream/10183/169396/3/001047479.pdf.jpg89a4e82604c7f02f5e2a58a7117e2c5aMD5310183/1693962018-10-29 08:53:37.793oai:www.lume.ufrgs.br:10183/169396Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-29T11:53:37Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
dc.title.alternative.en.fl_str_mv Automatic extraction of term candidates from Course in General Linguistics with resources from corpus linguistics and natural language processing
title Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
spellingShingle Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
Finatto, Maria José Bocorny
Saussure, Ferdinand de, 1857-1913. Curso de lingüística geral
Lingüística de corpus
Linguagem natural
Linguística
Automatic extraction of terms
Course in general linguistics
Saussure
title_short Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
title_full Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
title_fullStr Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
title_full_unstemmed Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
title_sort Extração automática de candidatos a termos do Curso de Linguística Geral com apoio de recursos da linguística de corpus e do processamento de linguagem natural
author Finatto, Maria José Bocorny
author_facet Finatto, Maria José Bocorny
Lopes, Lucelene
Silva, Alena Ciulla e
author_role author
author2 Lopes, Lucelene
Silva, Alena Ciulla e
author2_role author
author
dc.contributor.author.fl_str_mv Finatto, Maria José Bocorny
Lopes, Lucelene
Silva, Alena Ciulla e
dc.subject.por.fl_str_mv Saussure, Ferdinand de, 1857-1913. Curso de lingüística geral
Lingüística de corpus
Linguagem natural
Linguística
topic Saussure, Ferdinand de, 1857-1913. Curso de lingüística geral
Lingüística de corpus
Linguagem natural
Linguística
Automatic extraction of terms
Course in general linguistics
Saussure
dc.subject.eng.fl_str_mv Automatic extraction of terms
Course in general linguistics
Saussure
description Este trabalho apresenta um estudo em que técnicas de Processamento de Linguagem Natural (PLN) e de Linguística de Corpus (LC) são utilizadas para extrair e estruturar termos relacionados a conceitos importantes de Saussure no texto em português do Curso de Linguística Geral (CLG). Tomando o CLG como um corpus, busca-se um método de representação automática de conteúdo através de ferramentas computacionais. Uma vez submetido ao parser PALAVRAS, um etiquetador morfossintático para a língua portuguesa, o corpus do CLG é processado pela ferramenta extratora de sintagmas nominais relevantes, denominada ExATOlp, que implementa diversas técnicas de PLN de base linguística e de base estatística. Em seguida, são geradas listas e gráficos hierarquizados dos sintagmas nominais do CLG, elencados pela ferramenta como os mais específicos/relevantes do corpus em questão. Esses resultados são comparados com dados gerados pela ferramenta AntConc, ferramenta de acesso livre bastante empregada em trabalhos de LC, aplicada ao mesmo corpus. Os resultados mostram o potencial da ferramenta ExATOlp para trabalhos em LC e para o levantamento de dados lexicais para estudos terminológicos, para a mineração de dados e para a geração de ontologias em língua portuguesa.
publishDate 2015
dc.date.issued.fl_str_mv 2015
dc.date.accessioned.fl_str_mv 2017-10-11T04:21:23Z
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/other
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/169396
dc.identifier.issn.pt_BR.fl_str_mv 1980-5799
dc.identifier.nrb.pt_BR.fl_str_mv 001047479
identifier_str_mv 1980-5799
001047479
url http://hdl.handle.net/10183/169396
dc.language.iso.fl_str_mv por
language por
dc.relation.ispartof.pt_BR.fl_str_mv Domínios de lingu@gem. Uberlândia, MG. Vol. 9, n. 2 (abr./jun. 2015), p. [40]-55
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/169396/1/001047479.pdf
http://www.lume.ufrgs.br/bitstream/10183/169396/2/001047479.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/169396/3/001047479.pdf.jpg
bitstream.checksum.fl_str_mv b3a906eb138ca1ff68df32840f048344
0925dc9edda5692abe3c47cc6227d5d5
89a4e82604c7f02f5e2a58a7117e2c5a
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1798487358163648512