Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas

Detalhes bibliográficos
Autor(a) principal: Rodrigo Araujo e Castro
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/MGSS-AB5JNH
Resumo: Esta dissertação apresenta um estudo de desenvolvimento, implementação e teste de um conjunto de ferramentas de preparação e análise de dados estruturados (em planilhas) e não estruturados textuais, utilizando-se scripts elaborados no software estatístico e ambiente computacional R. Contribuindo para os Estudos da Tradução, no escopo da Linguística com potencial de aplicação (HALLIDAY, 1985), desenhada no marco teórico da Linguística Sistêmico-Funcional (HALLIDAY; MATTHIESSEN, 2014), e utilizando subsídios da Linguística de Corpus, da Mineração de dados e de textos, da Estatística Descritiva e de técnicas multivariadas de análise, foram desenvolvidos e testados scripts em dados provenientes de um estudo experimental realizado no Laboratório Experimental de Tradução, da Faculdade de Letras da Universidade Federal de Minas Gerais, com quatro pesquisadores do Centro de Desenvolvimento de Tecnologia Nuclear e quatro tradutores profissionais. Os dados selecionados consistiram em (i) dados sociodemográficos e informações fornecidas pelos sujeitos do experimento, como hábitos de leitura e conhecimentos linguísticos na L1 e L2 constituindo dados do tipo estruturado; e (ii) dados do tipo não estruturado extraídos de protocolos verbais (livres e guiados) da tarefa realizada pelos sujeitos. A preparação dos dados estruturados foi feita no R, bem como sua análise, que enfocou a sumarização de dados desses sujeitos, triangulados com o agrupamento feito por técnica de análise multivariada. A preparação dos dados não estruturados foi feita com o editor de texto Notepad++ e scripts do ambiente R, também utilizados para a análise dos dados, enfocando-se os pronomes eu e a gente e sua co-ocorrência com verbos, enquanto realizações das categorias do sistema de TRANSITIVIDADE PARTICIPANTE e PROCESSO, passíveis de serem analisadas sob a perspectiva da metarreflexão dos sujeitos do experimento sobre a tarefa executada. A análise dos dados estruturados permitiu agrupar os sujeitos dos experimentos e obter dendrogramas com base nas planilhas de dados. A análise dos dados não estruturados permitiu a obtenção de: lista de frequência, nuvem de palavras, linhas de concordância e lista de colocados. Os resultados do estudo de implementação evidenciaram os sujeitos mais similares dentro de cada grupo e na amostra como um todo, assim como o fato de os verbos em co-ocorrência com os pronomes examinados nos protocolos serem aqueles que realizavam PROCESSOS materiais e relacionais (relacionados à representação de atividades de fazer e atribuir), seguidos dos mentais (incluindo instâncias de metáforas interpessoais), os quais, segundo Magalhães e Alves (2006), sugerem de forma mais deliberada a metarreflexão dos sujeitos.
id UFMG_22d1697b657d79f0532136995d4157da
oai_identifier_str oai:repositorio.ufmg.br:1843/MGSS-AB5JNH
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Adriana Silvina PaganoIlka Afonso ReisIgor Antônio Lourenço da SilvaKelen Cristina Sant Anna de LimaRodrigo Araujo e Castro2019-08-12T01:48:49Z2019-08-12T01:48:49Z2016-02-15http://hdl.handle.net/1843/MGSS-AB5JNHEsta dissertação apresenta um estudo de desenvolvimento, implementação e teste de um conjunto de ferramentas de preparação e análise de dados estruturados (em planilhas) e não estruturados textuais, utilizando-se scripts elaborados no software estatístico e ambiente computacional R. Contribuindo para os Estudos da Tradução, no escopo da Linguística com potencial de aplicação (HALLIDAY, 1985), desenhada no marco teórico da Linguística Sistêmico-Funcional (HALLIDAY; MATTHIESSEN, 2014), e utilizando subsídios da Linguística de Corpus, da Mineração de dados e de textos, da Estatística Descritiva e de técnicas multivariadas de análise, foram desenvolvidos e testados scripts em dados provenientes de um estudo experimental realizado no Laboratório Experimental de Tradução, da Faculdade de Letras da Universidade Federal de Minas Gerais, com quatro pesquisadores do Centro de Desenvolvimento de Tecnologia Nuclear e quatro tradutores profissionais. Os dados selecionados consistiram em (i) dados sociodemográficos e informações fornecidas pelos sujeitos do experimento, como hábitos de leitura e conhecimentos linguísticos na L1 e L2 constituindo dados do tipo estruturado; e (ii) dados do tipo não estruturado extraídos de protocolos verbais (livres e guiados) da tarefa realizada pelos sujeitos. A preparação dos dados estruturados foi feita no R, bem como sua análise, que enfocou a sumarização de dados desses sujeitos, triangulados com o agrupamento feito por técnica de análise multivariada. A preparação dos dados não estruturados foi feita com o editor de texto Notepad++ e scripts do ambiente R, também utilizados para a análise dos dados, enfocando-se os pronomes eu e a gente e sua co-ocorrência com verbos, enquanto realizações das categorias do sistema de TRANSITIVIDADE PARTICIPANTE e PROCESSO, passíveis de serem analisadas sob a perspectiva da metarreflexão dos sujeitos do experimento sobre a tarefa executada. A análise dos dados estruturados permitiu agrupar os sujeitos dos experimentos e obter dendrogramas com base nas planilhas de dados. A análise dos dados não estruturados permitiu a obtenção de: lista de frequência, nuvem de palavras, linhas de concordância e lista de colocados. Os resultados do estudo de implementação evidenciaram os sujeitos mais similares dentro de cada grupo e na amostra como um todo, assim como o fato de os verbos em co-ocorrência com os pronomes examinados nos protocolos serem aqueles que realizavam PROCESSOS materiais e relacionais (relacionados à representação de atividades de fazer e atribuir), seguidos dos mentais (incluindo instâncias de metáforas interpessoais), os quais, segundo Magalhães e Alves (2006), sugerem de forma mais deliberada a metarreflexão dos sujeitos.This thesis reports on a study aimed at developing, applying and testing a set of tools designed for the pre-processing and analysis of structured (spreadsheet) and unstructured data by means of scripts written in the R software and environment. Contributing to Translation Studies, within the scope of appliable linguistics (Halliday, 1985), as conceived of by Systemic Functional Linguistics (Halliday and Matthiessen, 2014), and drawing on Corpus Linguistics, data and text mining and descriptive and multivariate statistics, scripts were written and tested on data retrieved from a study carried out at the Laboratory for Experimentation in Translation, Arts Faculty, Federal University of Minas Gerais, in which four nuclear scientists of the Center for the Development of Nuclear Energy, and four professional translators were asked to produce a translation in an experimental setting. The data set selected were (i) subjects' sociodemographic data and their answers to a questionnaire on their reading and writing habits and proficiency in L1 and L2 (structured data in spreadsheets) ; and (ii) unstructured data (text) retrieved from recall protocols carried out by subjects upon task completion. Structured data were pre-processed in the R environment through designed scripts. The focus of the analysis was summarizing the subjects data, which were triangulated with the clustering results generated through the multivariate analysis technique. Unstructured data were pre-processed in the Notepad++ text editor and through designed scripts in order to analyze the pronouns eu and a gente and verbs co-occurring with them as realizations of PARTICIPANT and PROCESS categories within the TRANSITIVITY system ascribable to instances of subjects' metareflection on their task. Structured data analysis allowed for clustering subjects and obtaining dendrograms. Unstructured data analysis generated frequency lists, word clouds, Keywords in Context and lists of collocates. The results of the implementation study showed which subjects were more similar in each group and in the sample as a whole. They also showed that the most frequent verbs co-occuring with the selected pronouns were those realizing material and relational PROCESSES (associated to subjects representation of their task as doing and attributing activities), followed by mental PROCESSES (including instances of interpersonal metaphors), which, according to Magalhães and Alves (2006), tend to relate, more deliberately, to subjects' metareflection.Universidade Federal de Minas GeraisUFMGLingüística aplicadaTradução e interpretaçãoLinguística Processamento de dadosLinguística de corpusPagano, Adriana SilvinaLinguística com potencial de aplicaçãoLinguística Sistêmico-FuncionalEstudos da TraduçãoMineração de textosMineração de dadosDesenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdisserta__o___castro__2016_.pdfapplication/pdf3063046https://repositorio.ufmg.br/bitstream/1843/MGSS-AB5JNH/1/disserta__o___castro__2016_.pdf3b8334b1ead19184f6c0b92f088a9ce6MD51TEXTdisserta__o___castro__2016_.pdf.txtdisserta__o___castro__2016_.pdf.txtExtracted texttext/plain211307https://repositorio.ufmg.br/bitstream/1843/MGSS-AB5JNH/2/disserta__o___castro__2016_.pdf.txt55cdc48b2b42177aafb6cf7d03702659MD521843/MGSS-AB5JNH2019-11-14 08:47:07.51oai:repositorio.ufmg.br:1843/MGSS-AB5JNHRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T11:47:07Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
title Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
spellingShingle Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
Rodrigo Araujo e Castro
Linguística com potencial de aplicação
Linguística Sistêmico-Funcional
Estudos da Tradução
Mineração de textos
Mineração de dados
Lingüística aplicada
Tradução e interpretação
Linguística Processamento de dados
Linguística de corpus
Pagano, Adriana Silvina
title_short Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
title_full Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
title_fullStr Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
title_full_unstemmed Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
title_sort Desenvolvimento, implementação e teste de ferramentas integradas para análise textual e tratamento estatístico de dados em pesquisas linguisticas
author Rodrigo Araujo e Castro
author_facet Rodrigo Araujo e Castro
author_role author
dc.contributor.advisor1.fl_str_mv Adriana Silvina Pagano
dc.contributor.advisor-co1.fl_str_mv Ilka Afonso Reis
dc.contributor.referee1.fl_str_mv Igor Antônio Lourenço da Silva
dc.contributor.referee2.fl_str_mv Kelen Cristina Sant Anna de Lima
dc.contributor.author.fl_str_mv Rodrigo Araujo e Castro
contributor_str_mv Adriana Silvina Pagano
Ilka Afonso Reis
Igor Antônio Lourenço da Silva
Kelen Cristina Sant Anna de Lima
dc.subject.por.fl_str_mv Linguística com potencial de aplicação
Linguística Sistêmico-Funcional
Estudos da Tradução
Mineração de textos
Mineração de dados
topic Linguística com potencial de aplicação
Linguística Sistêmico-Funcional
Estudos da Tradução
Mineração de textos
Mineração de dados
Lingüística aplicada
Tradução e interpretação
Linguística Processamento de dados
Linguística de corpus
Pagano, Adriana Silvina
dc.subject.other.pt_BR.fl_str_mv Lingüística aplicada
Tradução e interpretação
Linguística Processamento de dados
Linguística de corpus
Pagano, Adriana Silvina
description Esta dissertação apresenta um estudo de desenvolvimento, implementação e teste de um conjunto de ferramentas de preparação e análise de dados estruturados (em planilhas) e não estruturados textuais, utilizando-se scripts elaborados no software estatístico e ambiente computacional R. Contribuindo para os Estudos da Tradução, no escopo da Linguística com potencial de aplicação (HALLIDAY, 1985), desenhada no marco teórico da Linguística Sistêmico-Funcional (HALLIDAY; MATTHIESSEN, 2014), e utilizando subsídios da Linguística de Corpus, da Mineração de dados e de textos, da Estatística Descritiva e de técnicas multivariadas de análise, foram desenvolvidos e testados scripts em dados provenientes de um estudo experimental realizado no Laboratório Experimental de Tradução, da Faculdade de Letras da Universidade Federal de Minas Gerais, com quatro pesquisadores do Centro de Desenvolvimento de Tecnologia Nuclear e quatro tradutores profissionais. Os dados selecionados consistiram em (i) dados sociodemográficos e informações fornecidas pelos sujeitos do experimento, como hábitos de leitura e conhecimentos linguísticos na L1 e L2 constituindo dados do tipo estruturado; e (ii) dados do tipo não estruturado extraídos de protocolos verbais (livres e guiados) da tarefa realizada pelos sujeitos. A preparação dos dados estruturados foi feita no R, bem como sua análise, que enfocou a sumarização de dados desses sujeitos, triangulados com o agrupamento feito por técnica de análise multivariada. A preparação dos dados não estruturados foi feita com o editor de texto Notepad++ e scripts do ambiente R, também utilizados para a análise dos dados, enfocando-se os pronomes eu e a gente e sua co-ocorrência com verbos, enquanto realizações das categorias do sistema de TRANSITIVIDADE PARTICIPANTE e PROCESSO, passíveis de serem analisadas sob a perspectiva da metarreflexão dos sujeitos do experimento sobre a tarefa executada. A análise dos dados estruturados permitiu agrupar os sujeitos dos experimentos e obter dendrogramas com base nas planilhas de dados. A análise dos dados não estruturados permitiu a obtenção de: lista de frequência, nuvem de palavras, linhas de concordância e lista de colocados. Os resultados do estudo de implementação evidenciaram os sujeitos mais similares dentro de cada grupo e na amostra como um todo, assim como o fato de os verbos em co-ocorrência com os pronomes examinados nos protocolos serem aqueles que realizavam PROCESSOS materiais e relacionais (relacionados à representação de atividades de fazer e atribuir), seguidos dos mentais (incluindo instâncias de metáforas interpessoais), os quais, segundo Magalhães e Alves (2006), sugerem de forma mais deliberada a metarreflexão dos sujeitos.
publishDate 2016
dc.date.issued.fl_str_mv 2016-02-15
dc.date.accessioned.fl_str_mv 2019-08-12T01:48:49Z
dc.date.available.fl_str_mv 2019-08-12T01:48:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/MGSS-AB5JNH
url http://hdl.handle.net/1843/MGSS-AB5JNH
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/MGSS-AB5JNH/1/disserta__o___castro__2016_.pdf
https://repositorio.ufmg.br/bitstream/1843/MGSS-AB5JNH/2/disserta__o___castro__2016_.pdf.txt
bitstream.checksum.fl_str_mv 3b8334b1ead19184f6c0b92f088a9ce6
55cdc48b2b42177aafb6cf7d03702659
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589568966950912