O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus

Detalhes bibliográficos
Autor(a) principal: Nagasawa, Ellen Yurika
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/271615
Resumo: Os testes de línguas de larga escala e alto impacto social têm sido amplamente investigados devido a dimensão das consequências sociais do uso de seus resultados como ferramentas para classificação e exclusão de indivíduos na sociedade. Essa preocupação está ligada à busca científica por argumentos que validem as inferências derivadas desses resultados. Um argumento plausível de validade é baseado em evidências que demonstram a representatividade do conteúdo do teste em relação ao domínio de uso da linguagem avaliado, conforme definido a partir dos usos pretendidos dos resultados e delineados nas especificações. A finalidade das especificações é possibilitar a reprodução de edições equivalentes, fornecendo detalhes suficientes para a recriação de versões com conteúdo e demandas similares, incluindo informações relativas à complexidade textual, que podem impactar no desempenho de leitura. Avaliar a representatividade do conteúdo e da complexidade textual dos textos de insumo oferece evidências para a validade do exame. O objetivo desta tese é fornecer evidências para verificar o argumento de validade de que o domínio de uso da linguagem que o Certificado de Proficiência em Língua Portuguesa para Estrangeiros (Celpe-Bras) visa avaliar é representado pelo conteúdo das tarefas que integram leitura e produção textual desse exame brasileiro de proficiência em Português como Língua Adicional. Adicionalmente, a pesquisa visa treinar e testar um classificador binário, utilizando 200 métricas automáticas da ferramenta NILC Metrix, para verificar suas capacidades preditivas de complexidade textual dos textos de insumo dessas tarefas e o grau de adequação ao público-alvo. Para tanto, a pesquisa se apoiou na abordagem da Avaliação de línguas informada por corpus, com bases teórico-metodológicas das áreas de Avaliação de línguas e Linguística de Corpus. Por meio da linguagem de programação R, foram conduzidas análises de caráter descritivo e exploratório do conteúdo e características das tarefas e testes estatísticos de redução de multivariáveis com o algoritmo Boruta. O corpus de estudo, constituído por 90 tarefas aplicadas entre 1998 e 2020 no Celpe Bras, dois corpora de referência, documentos oficiais e estudos prévios foram utilizados nas análises. Com as 33 métricas preditivas selecionadas pelo algoritmo, um modelo estatístico de complexidade foi criado com 80% dos dados dos corpora de complexidade. Os 20% restantes foram utilizados na testagem, que distinguiu textos de alta e baixa complexidade com 100% de acurácia. Os resultados indicaram que o conteúdo das tarefas não reflete as especificações, que carecem de detalhes sobre a seleção de texto de insumo e o processo de elaboração. Ademais, a maioria dos textos de insumo foram classificados como altamente complexos, correspondente ao grau mais alto de letramento brasileiro, de acordo com o Indicador de Alfabetismo Funcional. As evidências teóricas e empíricas levantadas neste estudo não permitiram confirmar o argumento de validade pretendido. Candidatos em nível intermediário podem ser potencialmente prejudicados pela inacessibilidade dos textos de insumo e pela falta de diversidade de repertórios comunicativos e culturais desses materiais. Os resultados desta pesquisa devem ser complementados por estudos dos outros instrumentos que compõem o exame para uma compreensão integral da representatividade do domínio de uso da linguagem no Celpe-Bras.
id URGS_90a8270320d24f24a7c78a79af8bb8c7
oai_identifier_str oai:www.lume.ufrgs.br:10183/271615
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Nagasawa, Ellen YurikaSchlatter, MargaretePicoral, Adriana2024-02-08T05:02:13Z2023http://hdl.handle.net/10183/271615001194972Os testes de línguas de larga escala e alto impacto social têm sido amplamente investigados devido a dimensão das consequências sociais do uso de seus resultados como ferramentas para classificação e exclusão de indivíduos na sociedade. Essa preocupação está ligada à busca científica por argumentos que validem as inferências derivadas desses resultados. Um argumento plausível de validade é baseado em evidências que demonstram a representatividade do conteúdo do teste em relação ao domínio de uso da linguagem avaliado, conforme definido a partir dos usos pretendidos dos resultados e delineados nas especificações. A finalidade das especificações é possibilitar a reprodução de edições equivalentes, fornecendo detalhes suficientes para a recriação de versões com conteúdo e demandas similares, incluindo informações relativas à complexidade textual, que podem impactar no desempenho de leitura. Avaliar a representatividade do conteúdo e da complexidade textual dos textos de insumo oferece evidências para a validade do exame. O objetivo desta tese é fornecer evidências para verificar o argumento de validade de que o domínio de uso da linguagem que o Certificado de Proficiência em Língua Portuguesa para Estrangeiros (Celpe-Bras) visa avaliar é representado pelo conteúdo das tarefas que integram leitura e produção textual desse exame brasileiro de proficiência em Português como Língua Adicional. Adicionalmente, a pesquisa visa treinar e testar um classificador binário, utilizando 200 métricas automáticas da ferramenta NILC Metrix, para verificar suas capacidades preditivas de complexidade textual dos textos de insumo dessas tarefas e o grau de adequação ao público-alvo. Para tanto, a pesquisa se apoiou na abordagem da Avaliação de línguas informada por corpus, com bases teórico-metodológicas das áreas de Avaliação de línguas e Linguística de Corpus. Por meio da linguagem de programação R, foram conduzidas análises de caráter descritivo e exploratório do conteúdo e características das tarefas e testes estatísticos de redução de multivariáveis com o algoritmo Boruta. O corpus de estudo, constituído por 90 tarefas aplicadas entre 1998 e 2020 no Celpe Bras, dois corpora de referência, documentos oficiais e estudos prévios foram utilizados nas análises. Com as 33 métricas preditivas selecionadas pelo algoritmo, um modelo estatístico de complexidade foi criado com 80% dos dados dos corpora de complexidade. Os 20% restantes foram utilizados na testagem, que distinguiu textos de alta e baixa complexidade com 100% de acurácia. Os resultados indicaram que o conteúdo das tarefas não reflete as especificações, que carecem de detalhes sobre a seleção de texto de insumo e o processo de elaboração. Ademais, a maioria dos textos de insumo foram classificados como altamente complexos, correspondente ao grau mais alto de letramento brasileiro, de acordo com o Indicador de Alfabetismo Funcional. As evidências teóricas e empíricas levantadas neste estudo não permitiram confirmar o argumento de validade pretendido. Candidatos em nível intermediário podem ser potencialmente prejudicados pela inacessibilidade dos textos de insumo e pela falta de diversidade de repertórios comunicativos e culturais desses materiais. Os resultados desta pesquisa devem ser complementados por estudos dos outros instrumentos que compõem o exame para uma compreensão integral da representatividade do domínio de uso da linguagem no Celpe-Bras.Large-scale and high-stakes language tests have been widely investigated due to the extent of the social consequences of the use of their results as tools for the classification and exclusion of individuals in society. This concern is linked to the scientific pursuit of arguments that validate the inferences derived from test results. A plausible argument for validity is based on evidence that shows the representativeness of the test content in relation to the language domain being assessed, as defined from the intended uses of the results and outlined in the specifications. The purpose of the specifications is to enable the replication of equivalent versions, providing sufficient detail for the creation of versions with similar content and demands, including aspects of textual complexity that can impact reading performance. Assessing the representativeness of the content and textual complexity of the input texts provides evidence for the validity of the test. The aim of this dissertation is to provide evidence to verify the validity argument that the language domain that the Certificado de Proficiência em Língua Portuguesa para Estrangeiros (Celpe-Bras) intends to assess is represented by the content of the integrated reading-to-write tasks in this Brazilian Portuguese as an Additional Language test. In addition, the research aims to train and test a binary classifier, using 200 automatic metrics from the NILC-Metrix tool, to verify its predictive potential of the textual complexity of the tasks’ input texts and their suitability for the target audience. For this purpose, the study was based on the Corpus-informed language testing approach, with theoretical and methodological frameworks from the areas of Language Testing and Corpus Linguistics. Using the R programming language, descriptive and exploratory analyses were carried out on the content and characteristics of the tasks, as well as statistical multivariable reduction tests using the Boruta algorithm. The study corpus, consisting of 90 tasks administered between 1998 and 2020 in Celpe-Bras, two reference corpora, official documents and previous studies were used in the analysis. Using the 33 predictive metrics selected by the Boruta algorithm, a statistical model of complexity was created using 80% of the data from the reference corpora. The remaining 20% was used for testing, which differentiated between high and low complexity texts with 100% accuracy. The results showed that the content of the tasks does not correspond to the specifications, which lack details about the selection of input material and the development process. Furthermore, most of the input texts were classified as highly complex, corresponding to the highest level of Brazilian literacy, according to the National Index of Functional Literacy. The theoretical and empirical evidence provided by this study did not confirm the intended validity argument. Test-takers at Intermediate level may potentially be harmed by the inaccessibility of the input texts, as well as by the lack of diversity in the communicative and cultural repertoires of these materials. The results of this research should be complemented by studies of other instruments that make up the exam to fully understand the representativeness of the Celpe-Bras' language domain.application/pdfporComplexidade textualCelpe-BrasLinguísticaCelpe-BrasReading assessmentCorpus-informed language testingText complexityValidity argumentsO conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpusinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de LetrasPrograma de Pós-Graduação em LetrasPorto Alegre, BR-RS2023doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001194972.pdf.txt001194972.pdf.txtExtracted Texttext/plain670222http://www.lume.ufrgs.br/bitstream/10183/271615/2/001194972.pdf.txte35c8bf300a4fca56170ffde48c1a2c6MD52ORIGINAL001194972.pdfTexto completoapplication/pdf7397338http://www.lume.ufrgs.br/bitstream/10183/271615/1/001194972.pdfd2a48d8cca96f9a97c7c27f48cb2cc0dMD5110183/2716152024-02-09 06:05:44.234965oai:www.lume.ufrgs.br:10183/271615Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532024-02-09T08:05:44Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
title O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
spellingShingle O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
Nagasawa, Ellen Yurika
Complexidade textual
Celpe-Bras
Linguística
Celpe-Bras
Reading assessment
Corpus-informed language testing
Text complexity
Validity arguments
title_short O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
title_full O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
title_fullStr O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
title_full_unstemmed O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
title_sort O conteúdo de insumo em tarefas que integram leitura e escrita no Celpe-Bras : uma abordagem informada por corpus
author Nagasawa, Ellen Yurika
author_facet Nagasawa, Ellen Yurika
author_role author
dc.contributor.author.fl_str_mv Nagasawa, Ellen Yurika
dc.contributor.advisor1.fl_str_mv Schlatter, Margarete
dc.contributor.advisor-co1.fl_str_mv Picoral, Adriana
contributor_str_mv Schlatter, Margarete
Picoral, Adriana
dc.subject.por.fl_str_mv Complexidade textual
Celpe-Bras
Linguística
topic Complexidade textual
Celpe-Bras
Linguística
Celpe-Bras
Reading assessment
Corpus-informed language testing
Text complexity
Validity arguments
dc.subject.eng.fl_str_mv Celpe-Bras
Reading assessment
Corpus-informed language testing
Text complexity
Validity arguments
description Os testes de línguas de larga escala e alto impacto social têm sido amplamente investigados devido a dimensão das consequências sociais do uso de seus resultados como ferramentas para classificação e exclusão de indivíduos na sociedade. Essa preocupação está ligada à busca científica por argumentos que validem as inferências derivadas desses resultados. Um argumento plausível de validade é baseado em evidências que demonstram a representatividade do conteúdo do teste em relação ao domínio de uso da linguagem avaliado, conforme definido a partir dos usos pretendidos dos resultados e delineados nas especificações. A finalidade das especificações é possibilitar a reprodução de edições equivalentes, fornecendo detalhes suficientes para a recriação de versões com conteúdo e demandas similares, incluindo informações relativas à complexidade textual, que podem impactar no desempenho de leitura. Avaliar a representatividade do conteúdo e da complexidade textual dos textos de insumo oferece evidências para a validade do exame. O objetivo desta tese é fornecer evidências para verificar o argumento de validade de que o domínio de uso da linguagem que o Certificado de Proficiência em Língua Portuguesa para Estrangeiros (Celpe-Bras) visa avaliar é representado pelo conteúdo das tarefas que integram leitura e produção textual desse exame brasileiro de proficiência em Português como Língua Adicional. Adicionalmente, a pesquisa visa treinar e testar um classificador binário, utilizando 200 métricas automáticas da ferramenta NILC Metrix, para verificar suas capacidades preditivas de complexidade textual dos textos de insumo dessas tarefas e o grau de adequação ao público-alvo. Para tanto, a pesquisa se apoiou na abordagem da Avaliação de línguas informada por corpus, com bases teórico-metodológicas das áreas de Avaliação de línguas e Linguística de Corpus. Por meio da linguagem de programação R, foram conduzidas análises de caráter descritivo e exploratório do conteúdo e características das tarefas e testes estatísticos de redução de multivariáveis com o algoritmo Boruta. O corpus de estudo, constituído por 90 tarefas aplicadas entre 1998 e 2020 no Celpe Bras, dois corpora de referência, documentos oficiais e estudos prévios foram utilizados nas análises. Com as 33 métricas preditivas selecionadas pelo algoritmo, um modelo estatístico de complexidade foi criado com 80% dos dados dos corpora de complexidade. Os 20% restantes foram utilizados na testagem, que distinguiu textos de alta e baixa complexidade com 100% de acurácia. Os resultados indicaram que o conteúdo das tarefas não reflete as especificações, que carecem de detalhes sobre a seleção de texto de insumo e o processo de elaboração. Ademais, a maioria dos textos de insumo foram classificados como altamente complexos, correspondente ao grau mais alto de letramento brasileiro, de acordo com o Indicador de Alfabetismo Funcional. As evidências teóricas e empíricas levantadas neste estudo não permitiram confirmar o argumento de validade pretendido. Candidatos em nível intermediário podem ser potencialmente prejudicados pela inacessibilidade dos textos de insumo e pela falta de diversidade de repertórios comunicativos e culturais desses materiais. Os resultados desta pesquisa devem ser complementados por estudos dos outros instrumentos que compõem o exame para uma compreensão integral da representatividade do domínio de uso da linguagem no Celpe-Bras.
publishDate 2023
dc.date.issued.fl_str_mv 2023
dc.date.accessioned.fl_str_mv 2024-02-08T05:02:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/271615
dc.identifier.nrb.pt_BR.fl_str_mv 001194972
url http://hdl.handle.net/10183/271615
identifier_str_mv 001194972
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/271615/2/001194972.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/271615/1/001194972.pdf
bitstream.checksum.fl_str_mv e35c8bf300a4fca56170ffde48c1a2c6
d2a48d8cca96f9a97c7c27f48cb2cc0d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085637803474944