Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais

Detalhes bibliográficos
Autor(a) principal: Evers, Aline
Data de Publicação: 2016
Outros Autores: Finatto, Maria José Bocorny
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/168725
Resumo: Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.
id UFRGS-2_113d90f83270031143ffe2de8256df5f
oai_identifier_str oai:www.lume.ufrgs.br:10183/168725
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Evers, AlineFinatto, Maria José Bocorny2017-09-20T02:31:56Z20162447-9551http://hdl.handle.net/10183/168725001047485Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.Based on the theoretical and methodological framework of Corpus Linguistics (CL), and allied to Natural Language Processing (NLP) techniques, we present a lexicostatistical study about textual productions written by students of Portuguese as an additional language. We begin by discussing the relevance of quantitative language studies, specially regarding word frequencies, as proposed by Biderman (1978, 1996) and Hoffmann (2007). Then, we situate CL and NLP and their role in the proposition of a methodology (EVERS, 2013) for automatic essay score applied to texts produced in the context of Celpe-Bras – a Brazilian Portuguese as an additional language proficiency exam. By using supervised Machine Learning (ML), a NLP technique, it was possible to identify lexical cohesive patterns and distinguish levels of proficiency using such patterns. Cohesion, coherence and intelligibility parameters were used and the text sample was submitted for examination. At the end, the proposed methodology combines CL and NLP and it is problematized: we point out limits, advantages and future applications for the results found with this research.application/pdfporRevista GTLex. Uberlândia, MG. Vol. 1, n. 2 (jan./jun. 2016), p. [271]-295Lingüística de corpusProdução textualLinguagem naturalLinguísticaLíngua portuguesaCorpus linguisticsLexicostasticPortuguese as an additional languageLinguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuaisCorpus linguistics, lexicostatistics and natural language processing : perspective for vocabulary studies about essaysinfo:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001047485.pdf001047485.pdfTexto completoapplication/pdf1374445http://www.lume.ufrgs.br/bitstream/10183/168725/1/001047485.pdf49fb2f3a5b7758c03e3d5e9a3dfc2895MD51TEXT001047485.pdf.txt001047485.pdf.txtExtracted Texttext/plain60637http://www.lume.ufrgs.br/bitstream/10183/168725/2/001047485.pdf.txtf617ed45bd3468de90e288b4901c7becMD52THUMBNAIL001047485.pdf.jpg001047485.pdf.jpgGenerated Thumbnailimage/jpeg2039http://www.lume.ufrgs.br/bitstream/10183/168725/3/001047485.pdf.jpg9e4661cad7025569464a38fed4a201cfMD5310183/1687252023-10-11 03:36:30.313881oai:www.lume.ufrgs.br:10183/168725Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-10-11T06:36:30Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
dc.title.alternative.en.fl_str_mv Corpus linguistics, lexicostatistics and natural language processing : perspective for vocabulary studies about essays
title Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
spellingShingle Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
Evers, Aline
Lingüística de corpus
Produção textual
Linguagem natural
Linguística
Língua portuguesa
Corpus linguistics
Lexicostastic
Portuguese as an additional language
title_short Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
title_full Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
title_fullStr Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
title_full_unstemmed Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
title_sort Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
author Evers, Aline
author_facet Evers, Aline
Finatto, Maria José Bocorny
author_role author
author2 Finatto, Maria José Bocorny
author2_role author
dc.contributor.author.fl_str_mv Evers, Aline
Finatto, Maria José Bocorny
dc.subject.por.fl_str_mv Lingüística de corpus
Produção textual
Linguagem natural
Linguística
Língua portuguesa
topic Lingüística de corpus
Produção textual
Linguagem natural
Linguística
Língua portuguesa
Corpus linguistics
Lexicostastic
Portuguese as an additional language
dc.subject.eng.fl_str_mv Corpus linguistics
Lexicostastic
Portuguese as an additional language
description Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2017-09-20T02:31:56Z
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/other
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/168725
dc.identifier.issn.pt_BR.fl_str_mv 2447-9551
dc.identifier.nrb.pt_BR.fl_str_mv 001047485
identifier_str_mv 2447-9551
001047485
url http://hdl.handle.net/10183/168725
dc.language.iso.fl_str_mv por
language por
dc.relation.ispartof.pt_BR.fl_str_mv Revista GTLex. Uberlândia, MG. Vol. 1, n. 2 (jan./jun. 2016), p. [271]-295
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/168725/1/001047485.pdf
http://www.lume.ufrgs.br/bitstream/10183/168725/2/001047485.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/168725/3/001047485.pdf.jpg
bitstream.checksum.fl_str_mv 49fb2f3a5b7758c03e3d5e9a3dfc2895
f617ed45bd3468de90e288b4901c7bec
9e4661cad7025569464a38fed4a201cf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447645411344384