Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/168725 |
Resumo: | Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações. |
id |
UFRGS-2_113d90f83270031143ffe2de8256df5f |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/168725 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Evers, AlineFinatto, Maria José Bocorny2017-09-20T02:31:56Z20162447-9551http://hdl.handle.net/10183/168725001047485Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações.Based on the theoretical and methodological framework of Corpus Linguistics (CL), and allied to Natural Language Processing (NLP) techniques, we present a lexicostatistical study about textual productions written by students of Portuguese as an additional language. We begin by discussing the relevance of quantitative language studies, specially regarding word frequencies, as proposed by Biderman (1978, 1996) and Hoffmann (2007). Then, we situate CL and NLP and their role in the proposition of a methodology (EVERS, 2013) for automatic essay score applied to texts produced in the context of Celpe-Bras – a Brazilian Portuguese as an additional language proficiency exam. By using supervised Machine Learning (ML), a NLP technique, it was possible to identify lexical cohesive patterns and distinguish levels of proficiency using such patterns. Cohesion, coherence and intelligibility parameters were used and the text sample was submitted for examination. At the end, the proposed methodology combines CL and NLP and it is problematized: we point out limits, advantages and future applications for the results found with this research.application/pdfporRevista GTLex. Uberlândia, MG. Vol. 1, n. 2 (jan./jun. 2016), p. [271]-295Lingüística de corpusProdução textualLinguagem naturalLinguísticaLíngua portuguesaCorpus linguisticsLexicostasticPortuguese as an additional languageLinguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuaisCorpus linguistics, lexicostatistics and natural language processing : perspective for vocabulary studies about essaysinfo:eu-repo/semantics/articleinfo:eu-repo/semantics/otherinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001047485.pdf001047485.pdfTexto completoapplication/pdf1374445http://www.lume.ufrgs.br/bitstream/10183/168725/1/001047485.pdf49fb2f3a5b7758c03e3d5e9a3dfc2895MD51TEXT001047485.pdf.txt001047485.pdf.txtExtracted Texttext/plain60637http://www.lume.ufrgs.br/bitstream/10183/168725/2/001047485.pdf.txtf617ed45bd3468de90e288b4901c7becMD52THUMBNAIL001047485.pdf.jpg001047485.pdf.jpgGenerated Thumbnailimage/jpeg2039http://www.lume.ufrgs.br/bitstream/10183/168725/3/001047485.pdf.jpg9e4661cad7025569464a38fed4a201cfMD5310183/1687252023-10-11 03:36:30.313881oai:www.lume.ufrgs.br:10183/168725Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-10-11T06:36:30Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
dc.title.alternative.en.fl_str_mv |
Corpus linguistics, lexicostatistics and natural language processing : perspective for vocabulary studies about essays |
title |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
spellingShingle |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais Evers, Aline Lingüística de corpus Produção textual Linguagem natural Linguística Língua portuguesa Corpus linguistics Lexicostastic Portuguese as an additional language |
title_short |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
title_full |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
title_fullStr |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
title_full_unstemmed |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
title_sort |
Linguística de corpus, léxico-estatística textual e processamento de linguagem natural : perspectiva para estudos de vocabulário em produções textuais |
author |
Evers, Aline |
author_facet |
Evers, Aline Finatto, Maria José Bocorny |
author_role |
author |
author2 |
Finatto, Maria José Bocorny |
author2_role |
author |
dc.contributor.author.fl_str_mv |
Evers, Aline Finatto, Maria José Bocorny |
dc.subject.por.fl_str_mv |
Lingüística de corpus Produção textual Linguagem natural Linguística Língua portuguesa |
topic |
Lingüística de corpus Produção textual Linguagem natural Linguística Língua portuguesa Corpus linguistics Lexicostastic Portuguese as an additional language |
dc.subject.eng.fl_str_mv |
Corpus linguistics Lexicostastic Portuguese as an additional language |
description |
Partindo da visão teórica e metodológica da Linguística de Corpus (LC), conjugada com metodologias do Processamento de Linguagem Natural (PLN), apresenta-se aqui um trabalho de léxico-estatística textual com produções textuais escritas por estudantes de português como língua adicional (PLA). Inicialmente, discute-se a relevância de aspectos quantitativos da linguagem, especialmente a característica de frequência de palavras, conforme propostos por Biderman (1978, 1996) e Hoffmann (2007). Em seguida, situa-se a LC e o PLN e relata-se uma pesquisa (EVERS, 2013) que propôs uma metodologia de avaliação automática aplicada a textos produzidos no contexto do exame Celpe-Bras – um exame de proficiência do português brasileiro. Fazendo uso do Aprendizado de Máquina (AM) supervisionado, uma técnica de PLN, cotejaram-se padrões lexicais e coesivos para distinguir níveis de proficiência e calcularam-se parâmetros de coesão, de coerência e de inteligibilidade textual de uma amostra de textos. Por fim, a proposta de metodologia que associa LC e PLN é problematizada e são apontados seus limites, vantagens e futuras aplicações. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016 |
dc.date.accessioned.fl_str_mv |
2017-09-20T02:31:56Z |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/other |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/168725 |
dc.identifier.issn.pt_BR.fl_str_mv |
2447-9551 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001047485 |
identifier_str_mv |
2447-9551 001047485 |
url |
http://hdl.handle.net/10183/168725 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.ispartof.pt_BR.fl_str_mv |
Revista GTLex. Uberlândia, MG. Vol. 1, n. 2 (jan./jun. 2016), p. [271]-295 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/168725/1/001047485.pdf http://www.lume.ufrgs.br/bitstream/10183/168725/2/001047485.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/168725/3/001047485.pdf.jpg |
bitstream.checksum.fl_str_mv |
49fb2f3a5b7758c03e3d5e9a3dfc2895 f617ed45bd3468de90e288b4901c7bec 9e4661cad7025569464a38fed4a201cf |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447645411344384 |