Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras

Evers, Aline

Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras

Detalhes bibliográficos
Autor(a) principal:	Evers, Aline
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/79447
Resumo:	Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%).

Metadados do item

id	URGS_938f8ce6860ed06026c519e081ed2e7c
oai_identifier_str	oai:www.lume.ufrgs.br:10183/79447
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Evers, AlineFinatto, Maria José Bocorny2013-10-18T01:48:26Z2013http://hdl.handle.net/10183/79447000899478Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%).This research analyzes Portuguese proficiency from a computational perspective, studying texts submitted to the Brazilian Portuguese proficiency exam Celpe-Bras (Certificate of Proficiency in Portuguese for Foreigners). The study was based on Corpus Linguistics, Textual Linguistics, and Natural Language Processing. We investigated the hypothesis that it would be possible to predict second language proficiency using Machine Learning (ML), measures given by a NLP tool (Coh-Metrix-Port), and a corpus of texts previously classified by human raters. The texts (177) were previously classified as Beginner, Elementary, Intermediate, Upper Intermediate, Advanced, and Upper Advanced. After preparation, they were processed by Coh-Metrix-Port, a tool that calculates cohesion, coherence, and textual readability at different linguistic levels. The output of this tool provided 48 measures that were used as attributes, the proficiency levels given by raters were considered classes, and the 177 were considered instances for ML purposes. The algorithm J48 was used with this set of texts, providing a Decision Tree that classified the six levels of proficiency. The results for this analysis were not conclusive; because of that, we performed a new analysis with a new set of texts: two classes, one with texts that did not receive certificate (Beginner and Elementary) and the other with texts that did receive the certificate (Intermediate, Upper Intermediate, Advanced, and Upper Advanced). Despite the small size of the corpus, we were able to identify the following distinguishing attributes: number of words, type token ratio, number of paragraphs, incidence of negative connectives, incidence of adjectives, and Flesch Index. The classifier was able to separate these two last sets of texts with a F-measure of 70%.application/pdfporExame Celpe-BrasAquisição da linguagemLíngua portuguesaLíngua adicionalExame de proficiênciaLingüística de corpusLinguística textualEstudos da linguagemPortuguese as an additional languagePortuguese as a foreign languagePortuguese learner corpusCelpe-brasProficiency in portugueseCoh-metrixNatural language processingProcessamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Brasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de LetrasPrograma de Pós-Graduação em LetrasPorto Alegre, BR-RS2013mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000899478.pdf000899478.pdfTexto completoapplication/pdf11610632http://www.lume.ufrgs.br/bitstream/10183/79447/1/000899478.pdf51fa0506493481179e9faf04dbe11c3bMD51TEXT000899478.pdf.txt000899478.pdf.txtExtracted Texttext/plain368314http://www.lume.ufrgs.br/bitstream/10183/79447/2/000899478.pdf.txte1ff2f42fd31098570274a7fb3f3981fMD52THUMBNAIL000899478.pdf.jpg000899478.pdf.jpgGenerated Thumbnailimage/jpeg914http://www.lume.ufrgs.br/bitstream/10183/79447/3/000899478.pdf.jpg86199ede021498e6f339563c88af0aa3MD5310183/794472018-10-19 10:21:36.396oai:www.lume.ufrgs.br:10183/79447Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532018-10-19T13:21:36Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
title	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
spellingShingle	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras Evers, Aline Exame Celpe-Bras Aquisição da linguagem Língua portuguesa Língua adicional Exame de proficiência Lingüística de corpus Linguística textual Estudos da linguagem Portuguese as an additional language Portuguese as a foreign language Portuguese learner corpus Celpe-bras Proficiency in portuguese Coh-metrix Natural language processing
title_short	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
title_full	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
title_fullStr	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
title_full_unstemmed	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
title_sort	Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras
author	Evers, Aline
author_facet	Evers, Aline
author_role	author
dc.contributor.author.fl_str_mv	Evers, Aline
dc.contributor.advisor1.fl_str_mv	Finatto, Maria José Bocorny
contributor_str_mv	Finatto, Maria José Bocorny
dc.subject.por.fl_str_mv	Exame Celpe-Bras Aquisição da linguagem Língua portuguesa Língua adicional Exame de proficiência Lingüística de corpus Linguística textual Estudos da linguagem
topic	Exame Celpe-Bras Aquisição da linguagem Língua portuguesa Língua adicional Exame de proficiência Lingüística de corpus Linguística textual Estudos da linguagem Portuguese as an additional language Portuguese as a foreign language Portuguese learner corpus Celpe-bras Proficiency in portuguese Coh-metrix Natural language processing
dc.subject.eng.fl_str_mv	Portuguese as an additional language Portuguese as a foreign language Portuguese learner corpus Celpe-bras Proficiency in portuguese Coh-metrix Natural language processing
description	Este trabalho trata dos temas da proficiência em português como língua adicional e da detecção de padrões lexicais e coesivos a partir de um enfoque computacional, situando o tema em meio à descrição de textos produzidos no contexto do exame de proficiência Celpe- Bras de 2006-1. Fazendo uso de pressupostos teórico-metodológicos da Linguística de Corpus, da Linguística Textual e do Processamento de Língua Natural, investigou-se a hipótese de que seria possível classificar, de modo automático, textos submetidos ao exame conforme níveis de proficiência pré-estabelecidos. Por meio do processamento de 177 textos previamente avaliados por corretores humanos em seis níveis (Iniciante, Básico, Intermediário, Intermediário Superior, Avançado e Avançado Superior), usou-se o Aprendizado de Máquina (AM) supervisionado para cotejar padrões lexicais e coesivos capazes de distinguir os níveis sob estudo. Para o cotejo dos padrões, a ferramenta Coh-Metrix-Port – que calcula parâmetros de coesão, coerência e inteligibilidade textual – foi utilizada. Cada um dos textos foi processado na ferramenta; para o AM, os resultados da ferramenta Coh-Metrix-Port foram usados como atributos, os níveis de proficiência como classes e os textos como instâncias. As etapas de processamento do corpus foram: 1) digitação do corpus; 2) processamento individual dos textos na ferramenta Coh-Metrix-Port; 3) análise usando AM – Algoritmo J48 – e os seis níveis de proficiência; 4) nova análise usando AM e duas novas classes: textos sem certificação (Iniciante e Básico) e com certificação (Intermediário, Intermediário Superior, Avançado e Avançado Superior). Avançado e Avançado Superior). Apesar do tamanho reduzido do corpus, foi possível identificar os seguintes atributos distintivos entre os textos da amostra: número de palavras, medida de riqueza lexical, número de parágrafos, incidência de conectivos negativos, incidência de adjetivos e Índice Flesch. Chegou-se a um classificador capaz de separar dois conjuntos de texto (SEM e COM CERTIFICAÇÃO) através das métricas utilizadas (fmeasure de 70%).
publishDate	2013
dc.date.accessioned.fl_str_mv	2013-10-18T01:48:26Z
dc.date.issued.fl_str_mv	2013
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/79447
dc.identifier.nrb.pt_BR.fl_str_mv	000899478
url	http://hdl.handle.net/10183/79447
identifier_str_mv	000899478
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/79447/1/000899478.pdf http://www.lume.ufrgs.br/bitstream/10183/79447/2/000899478.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/79447/3/000899478.pdf.jpg
bitstream.checksum.fl_str_mv	51fa0506493481179e9faf04dbe11c3b e1ff2f42fd31098570274a7fb3f3981f 86199ede021498e6f339563c88af0aa3
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085271204528128

Processamento de língua natural e níveis de proficiência do português : um estudo de produções textuais do exame Celpe-Bras

Registros relacionados