Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos

Detalhes bibliográficos
Autor(a) principal: Torres, Lianet Sepúlveda
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30032016-110708/
Resumo: O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol.
id USP_d1c2d72bbd7231cd15ed533007fba6c1
oai_identifier_str oai:teses.usp.br:tde-30032016-110708
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelosScientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel textBilingual lexiconCórpus de aprendizesFerramentas de suporte à escritaLearner corporaLéxicos bilínguesPortuguês como segunda línguaPortuguese as a second languageWriting support toolsO número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol.In the last decade, as a result of Brazilian economic growth and the increased presence of multinationals in the country, the interest of foreigners in learning Portuguese rose. This fact is also noted by the number of students enrolled in the Portuguese proficiency exam, CELPE-Bras and the number of foreigner students entering at the Brazilian Universities. Most of these students are Spanish speakers and need to write the dissertation or thesis in Portuguese. The similarity between Portuguese and Spanish is considered as a positive element that often becomes an obstacle, because similarity and closeness frequently conceal differences and hinder learners from mastering the Portuguese, keeping interferences from their native Spanish both when speaking and writing in Portuguese. The largest number of this interference occurs at the lexical level. One alternative to deal with errors of second language learners is the use of computational post-edit tools and tools to support the writing process. However, the number of resources and tools available to help improve Portuguese writing as a foreign language is very small, unlike the scenario into English. This research proposed the creation of resources and writing support tools at the lexical level as a first step to improving the linguistic quality of the texts produced by Portuguese native Spanish. Corpus linguistics was used as a methodology to enable the learners error analysis. The writing support tools use bilingual lexicons compiled through translation techniques based on alignment parallel corpus. Given the insufficient number of errors previously annotated to support automatic error detection, this research proposed methods based on language model and artificial generation of errors. The generation of artificial errors introduced himself as an efficient method for predicting lexical errors of learners. The contributions obtained with the methodology based on automatic translation to generate written supports between similar languages, considering lexical error, extracted by the analysis of learners corpus, focus of this research are: (i) the theoretical point of view, the survey and quantification of the main problems caused by the Spanish marks, left in the academic texts written in Portuguese by native Spanish; (ii) the automatic generation of language resources point of view, bilingual lexicons of cognates and false cognates; bilingual lexicon of discourse markers; bilingual lexicon of formulaic expressions that appear in scientific texts and bilingual lexicon of verbs related to scientific research in Portuguese and, (iii) the point of view of creating subsidies for the area of support scientific writing, design and evaluation of aid to support scientific writing in Portuguese by native Spanish speakers.Biblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaTorres, Lianet Sepúlveda2015-09-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-30032016-110708/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2017-09-04T21:06:18Zoai:teses.usp.br:tde-30032016-110708Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212017-09-04T21:06:18Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
Scientific writing in portuguese by hispanic speaking: linguistic-computational resources based on alignments methods of parallel text
title Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
spellingShingle Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
Torres, Lianet Sepúlveda
Bilingual lexicon
Córpus de aprendizes
Ferramentas de suporte à escrita
Learner corpora
Léxicos bilíngues
Português como segunda língua
Portuguese as a second language
Writing support tools
title_short Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
title_full Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
title_fullStr Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
title_full_unstemmed Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
title_sort Escrita científica em português por hispano falantes: recursos linguísticos-computacionais baseados em métodos de alinhamento de textos paralelos
author Torres, Lianet Sepúlveda
author_facet Torres, Lianet Sepúlveda
author_role author
dc.contributor.none.fl_str_mv Aluisio, Sandra Maria
dc.contributor.author.fl_str_mv Torres, Lianet Sepúlveda
dc.subject.por.fl_str_mv Bilingual lexicon
Córpus de aprendizes
Ferramentas de suporte à escrita
Learner corpora
Léxicos bilíngues
Português como segunda língua
Portuguese as a second language
Writing support tools
topic Bilingual lexicon
Córpus de aprendizes
Ferramentas de suporte à escrita
Learner corpora
Léxicos bilíngues
Português como segunda língua
Portuguese as a second language
Writing support tools
description O número de estrangeiros interessados em aprender o português tem aumentado na última década, em consequência do crescimento da economia brasileira e do aumento da presença de multinacionais no Brasil. Esse fato se mostra pelo aumento do número de inscritos no exame de proficiência de português CELPE-Bras e de estudantes estrangeiros que ingressam nas universidades brasileiras. A maioria destes estudantes são de língua espanhola e precisam escrever seus textos acadêmicos em português. A proximidade das línguas portuguesa e espanhola apresenta-se tanto como um elemento positivo quanto como um obstáculo, pois oculta as diferenças e impede o domínio da língua portuguesa, mantendo, na fala e na escrita em português, interferências do espanhol. O maior número destas interferências acontece no nível lexical. Uma das alternativas para tratar os problemas em textos de aprendizes de uma língua é o emprego de ferramentas computacionais de pós-processamento e de suporte ao processo de escrita. No entanto, o número de recursos e ferramentas disponíveis para auxiliar a escrita de português como língua estrangeira é muito reduzido, diferentemente do cenário para a língua inglesa. Esta pesquisa propôs a criação de recursos e ferramentas de suporte à escrita no nível lexical como primeiro passo para a melhoria da qualidade linguística dos textos em português produzidos pelos nativos do espanhol. A Linguística de Córpus foi utilizada como metodologia para viabilizar a análise de erros de aprendizes. As ferramentas de auxílio utilizam léxicos bilíngues compilados por meio de técnicas de tradução, baseadas em alinhamento de córpus paralelos. Dado o número insuficiente de erros previamente anotados para suportar a detecção automática de erros, esta pesquisa propôs métodos baseados em modelo língua e na geração artificial de erros. A geração de erros artificiais se apresentou como um método eficiente para predizer erros lexicais dos aprendizes. As contribuições obtidas com a metodologia baseada em tradução automática para gerar auxílios à escrita entre línguas próximas, considerando a análise de erros lexicais extraídos de córpus de aprendizes, foco desta pesquisa, são: (i) do ponto de vista teórico, o levantamento e quantificação dos principais problemas causados pelas marcas do espanhol, deixadas nos textos acadêmicos em português escritos por nativos do espanhol; (ii) do ponto de vista de geração automática de recursos linguísticos, léxicos bilíngues de cognatos e falsos cognatos; léxico bilíngue de marcadores discursivos; léxico de expressões formulaicas que aparecem nos textos científicos e léxico bilíngue de verbos relacionados com pesquisa científica em português e, (iii) do ponto de vista da criação de subsídios para a área de auxílio à escrita científica, o projeto e avaliação de auxílios para suportar a escrita científica em português por nativos do espanhol.
publishDate 2015
dc.date.none.fl_str_mv 2015-09-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30032016-110708/
url http://www.teses.usp.br/teses/disponiveis/55/55134/tde-30032016-110708/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809091195192737792