Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância

Detalhes bibliográficos
Autor(a) principal: Moro, Luana, 1991-
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1637878
Resumo: Orientadores: Rodrigo Esteves de Lima-Lopes, Daniel Yokoyama Sonoda
id UNICAMP-30_286edf3246566ad808258d7452d9ef64
oai_identifier_str oai::1097326
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distânciaLinguistic training for software in post-edition of automatic transcription and translation machines in distance learningLinguística de corpusProcessamento eletrônico de dadosInteligência artificialEnsino a distânciaCorpora (Linguistics)Electronic data processingArtificial intelligenceDistance educationOrientadores: Rodrigo Esteves de Lima-Lopes, Daniel Yokoyama SonodaDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da LinguagemResumo: Esta pesquisa tem por objetivo elaborar modelos de treinamento de software para o software de transcrição e tradução automática, Skylar, tendo como embasamento teórico a linguística de corpus (LC) (BERBER SARDINHA, 2004) e do processamento de linguagem natural (PLN) (LIDDY, 2001). A ferramenta de inteligência artificial (IA) se estabelece no contexto da educação a distância (EAD) e tem por objetivo analisar as legendas geradas em uma videoaula. Ferramentas que buscam a automatização com o PLN podem contar erros na geração de seus conteúdos (OTHERO, 2006), o que causa um problema no entendimento do consumidor dessas legendas. Para tanto, este treinamento se fez necessário pelo uso da Skylar na transcrição e tradução de videoaulas, pois estes equívocos podem prejudicar o entendimento do aluno que irá assistir a aula com o conteúdo legendado. Para a execução do processo de metodológico, foi selecionada uma videoaula aula de MBA no tema de Agronegócios para análise da transcrição que, como apresentado anteriormente, é o ponto central de análise desta pesquisa. A metodologia é quanti-qualitativa, sendo dividida em três partes: 1) análise quantitativa ¿ aplicação de dois cálculos estatísticos, WER ¿ Word Error Rate (KLAKOW; PETERS, 2002) e LD ¿ Levensthein distance (LEVENSTHEIN, 1966), para se obter o índice de erros e a distância entre as letras certas e erradas, respectivamente; 2) análise qualitativa ¿ os dados obtidos nos cálculos serão analisados com o filtro de melhores e piores segmentos, levantando hipóteses e insumos para o desenvolvimento da interpretação utilizando técnicas de linguística do corpus; e 3) apuração dos conteúdos em modelos padronizados para o treinamento do software, chegando ao objetivo desta pesquisa. Além dos processos citados, durante a aplicação da análise qualitativa, serão isolados termos mais frequentes para análise de contexto, de forma a fornecer ao software as áreas de concentração em que a aula pertence. Foram analisados 406 segmentos de legenda (31 minutos de vídeo), observou-se que o software obteve um resultado positivo através da análise quantitativa, porém ao se aplicar as classificações de erros e na elaboração da análise qualitativa, observou-se a necessidade de um treinamento que voltasse para a apuração de contextoAbstract: This research aims to develop software training models for the transcription and machine translation software, Skylar, based on corpus linguistics (CL) (BERBER SARDINHA, 2004) and natural language processing (NLP) (LIDDY, 2001). The artificial intelligence tool (AI) is established in the context of distance education (DL) and aims to analyze the subtitles generated in a video class. Tools that seek automation with NLP can count errors in their content generation (OTHERO, 2006), which causes a problem in the consumer's understanding of these subtitles. Therefore, this training was necessary through the use of Skylar in the transcription and translation of video lessons, as these mistakes can undermine the understanding of the student who will attend the class with the subtitled content. For the implementation of the methodological process, an MBA video class was selected on the subject of Agribusiness for transcription analysis, which, as previously presented, is the central point of analysis of this research. The methodology is quantitative and qualitative, being divided into three parts: 1) quantitative analysis - application of two statistical calculations, WER - Word Error Rate (KLAKOW; PETERS, 2002) and LD - Levensthein distance (LEVENSTHEIN, 1966), to obtain the error index and the distance between the right and wrong letters, respectively; 2) qualitative analysis - the data obtained in the calculations will be analyzed with the filter of best and worst segments, raising hypotheses and inputs for the development of interpretation using techniques of corpus linguistics; and 3) verification of the contents in standardized models for software training, reaching the objective of this research. In addition to the processes cited, during the application of qualitative analysis, more frequent terms for context analysis will be isolated, in order to provide the software with the concentration areas in which the class belongs. We analyzed 406 subtitle segments (31 minutes of video), it was observed that the software obtained a positive result through the quantitative analysis, but when applying the error classifications and in the elaboration of the qualitative analysis, it was observed the need for a training that went back to the context investigationMestradoLinguagem e SociedadeMestra em Linguística Aplicada[s.n.]Lima-Lopes, Rodrigo Esteves de, 1973-Sonoda, Daniel YokoyamaAssis, Roberto CarlosPinto, Marcia VeiranoUniversidade Estadual de Campinas. Instituto de Estudos da LinguagemPrograma de Pós-Graduação em Linguística AplicadaUNIVERSIDADE ESTADUAL DE CAMPINASMoro, Luana, 1991-20192019-08-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf1 recurso online (173 p.) : il., digital, arquivo PDF.https://hdl.handle.net/20.500.12733/1637878MORO, Luana. Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância. 2019. 1 recurso online (173 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637878. Acesso em: 15 mai. 2024.https://repositorio.unicamp.br/acervo/detalhe/1097326Requisitos do sistema: Software para leitura de arquivo em PDFporreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2020-01-27T14:18:11Zoai::1097326Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2020-01-27T14:18:11Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
Linguistic training for software in post-edition of automatic transcription and translation machines in distance learning
title Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
spellingShingle Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
Moro, Luana, 1991-
Linguística de corpus
Processamento eletrônico de dados
Inteligência artificial
Ensino a distância
Corpora (Linguistics)
Electronic data processing
Artificial intelligence
Distance education
title_short Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
title_full Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
title_fullStr Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
title_full_unstemmed Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
title_sort Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância
author Moro, Luana, 1991-
author_facet Moro, Luana, 1991-
author_role author
dc.contributor.none.fl_str_mv Lima-Lopes, Rodrigo Esteves de, 1973-
Sonoda, Daniel Yokoyama
Assis, Roberto Carlos
Pinto, Marcia Veirano
Universidade Estadual de Campinas. Instituto de Estudos da Linguagem
Programa de Pós-Graduação em Linguística Aplicada
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Moro, Luana, 1991-
dc.subject.por.fl_str_mv Linguística de corpus
Processamento eletrônico de dados
Inteligência artificial
Ensino a distância
Corpora (Linguistics)
Electronic data processing
Artificial intelligence
Distance education
topic Linguística de corpus
Processamento eletrônico de dados
Inteligência artificial
Ensino a distância
Corpora (Linguistics)
Electronic data processing
Artificial intelligence
Distance education
description Orientadores: Rodrigo Esteves de Lima-Lopes, Daniel Yokoyama Sonoda
publishDate 2019
dc.date.none.fl_str_mv 2019
2019-08-30T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1637878
MORO, Luana. Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância. 2019. 1 recurso online (173 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637878. Acesso em: 15 mai. 2024.
url https://hdl.handle.net/20.500.12733/1637878
identifier_str_mv MORO, Luana. Treinamento linguístico de "software" na pós-edição de transcrição e tradução automática em cursos de educação a distância. 2019. 1 recurso online (173 p.) Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Estudos da Linguagem, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1637878. Acesso em: 15 mai. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1097326
Requisitos do sistema: Software para leitura de arquivo em PDF
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
1 recurso online (173 p.) : il., digital, arquivo PDF.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1799138545648009216