Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos

Detalhes bibliográficos
Autor(a) principal: Owa, Denis Luiz Marcello
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_SP
Texto Completo: https://repositorio.pucsp.br/jspui/handle/handle/24252
Resumo: The main objective of this work is to compare two theme / topic / discourse modeling methods from a corpus perspective, namely, Lexical Multidimensional Analysis (LMDA) and Topic Modeling (TM). The comparison is based on a range of different corpora, namely: a corpus consisting of 1,000 academic articles written in English (CAPO - Corpus of Articles from PLOS ONE), three corpora in English (the Sally Mann Corpus; the Children Culture Corpus – CHICC; and the Corpus of Religious and Dogmatic English Language Texts - CReDELT), in addition to a corpus of Portuguese (Corpus of Ethnic-Racial Records - CRER). As mentioned, we used Lexical Multidimensional Analysis as a means to detect the major dimensions of lexical variation, identified through the interpretation of the semantic fields underlying the co-occurrence of the most salient lexis. This framework was developed by Berber Sardinha (2016, 2017, 2019, 2021) based on the framework developed by Biber in the 1980s (Biber, 1988) for the analysis of register variation. In addition to Lexical MD Analysis, in this project we used Topic Modeling (TM), which consists of identifying sets of words commonly occurring across texts as a means to detect the major ‘topics’ in a text collection. The central works of the area, with relevance for this study are Blei; NG; Jordan (2003) and Srinivasa-Desikan (2018). Although previous research exists for Lexical MD Analysis (e.g. Berber Sardinha (2017, 2021) and for Topic Modeling (e.g. Griffiths and Mark Steyvers, 2004; Wang and Blei, 2011 Younus et al., 2014; Murakami et al., 201; and Krasnov, 2018), no previous research exists that compares and contrasts the results of these two frameworks, despite the fact that both are used for similar purposes in the literature. Thus, this dissertation seeks to make an original contribution by comparing and contrasting these two methods
id PUC_SP-1_61f7b196ed4aba9b34826e6fffe5f197
oai_identifier_str oai:repositorio.pucsp.br:handle/24252
network_acronym_str PUC_SP-1
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_SP
repository_id_str
spelling Sardinha, Antonio Paulo Berberhttp://lattes.cnpq.br/6940454346543706http://lattes.cnpq.br/4454350852500322Owa, Denis Luiz Marcello2022-02-02T18:49:44Z2022-02-02T18:49:44Z2021-07-29Owa, Denis Luiz Marcello. Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos. 2021. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) - Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.https://repositorio.pucsp.br/jspui/handle/handle/24252The main objective of this work is to compare two theme / topic / discourse modeling methods from a corpus perspective, namely, Lexical Multidimensional Analysis (LMDA) and Topic Modeling (TM). The comparison is based on a range of different corpora, namely: a corpus consisting of 1,000 academic articles written in English (CAPO - Corpus of Articles from PLOS ONE), three corpora in English (the Sally Mann Corpus; the Children Culture Corpus – CHICC; and the Corpus of Religious and Dogmatic English Language Texts - CReDELT), in addition to a corpus of Portuguese (Corpus of Ethnic-Racial Records - CRER). As mentioned, we used Lexical Multidimensional Analysis as a means to detect the major dimensions of lexical variation, identified through the interpretation of the semantic fields underlying the co-occurrence of the most salient lexis. This framework was developed by Berber Sardinha (2016, 2017, 2019, 2021) based on the framework developed by Biber in the 1980s (Biber, 1988) for the analysis of register variation. In addition to Lexical MD Analysis, in this project we used Topic Modeling (TM), which consists of identifying sets of words commonly occurring across texts as a means to detect the major ‘topics’ in a text collection. The central works of the area, with relevance for this study are Blei; NG; Jordan (2003) and Srinivasa-Desikan (2018). Although previous research exists for Lexical MD Analysis (e.g. Berber Sardinha (2017, 2021) and for Topic Modeling (e.g. Griffiths and Mark Steyvers, 2004; Wang and Blei, 2011 Younus et al., 2014; Murakami et al., 201; and Krasnov, 2018), no previous research exists that compares and contrasts the results of these two frameworks, despite the fact that both are used for similar purposes in the literature. Thus, this dissertation seeks to make an original contribution by comparing and contrasting these two methodsO trabalho tem como objetivo principal comparar dois métodos de análise temática dentro da área de Linguística de Corpus, a saber, a Análise Multidimensional Lexical (AMDL) e a Modelagem de Tópicos (MT). A comparação é feita em um corpus de 1.000 artigos acadêmicos escritos em inglês (CAPO – Corpus de Artigos do PLOS ONE), em três corpora em Língua Inglesa (Sally Mann Corpus, Children Culture Corpus – CHICC – e Corpus of Religious and Dogmatic English Language Texts – CReDELT) e um corpus em Língua Portuguesa (Corpus de Registros Étnico-Raciais – CRER). Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus. Mais especificamente, o trabalho aqui apresentado se fundamentou na área de pesquisa baseada em corpus que se preocupa com a identificação de temas em um corpus por meio da Análise Multidimensional Lexical. A questão central desta área é encontrar dimensões de variação lexical, identificadas por meio da interpretação dos campos semânticos subjacentes à coocorrência do léxico mais saliente. Os trabalhos centrais da área, com relevância para este estudo, são Berber Sardinha (2016, 2017, 2019, 2021). Além da Linguística de Corpus, o projeto fundamenta-se na Modelagem de Tópicos (MT). A MT consiste em identificar quais palavras ocorrem juntas em texto(s) e que permitam, assim, permitir entender o(s) tópico(s) existentes. Os trabalhos centrais da área, com relevância para este estudo são Blei; NG; Jordan (2003) e Srinivasa-Desikan (2018). Os trabalhos de Berber Sardinha (2017 e 2021) abordam a análise de artigos científicos por meio da AMDL. Os trabalhos de Thomas L. Griffiths e Mark Steyvers (2004), Chong Wang e David M. Blei (2011), Arjumand Younus et. al (2014), Murakami et al. (2017) e Fedor Krasnov (2018) abordam a análise de artigos científicos por meio da MT. Entretanto, nenhum deles realizou uma comparação entre a AMDL e a MT aplicadas a artigos acadêmicos. Desta forma, esta tese busca fazer uma contribuição original ao se analisar esses dois métodosCoordenação de Aperfeiçoamento de Pessoal de Nível Superior – CAPESporPontifícia Universidade Católica de São PauloPrograma de Estudos Pós-Graduados em Linguística Aplicada e Estudos da LinguagemPUC-SPBrasilFaculdade de Filosofia, Comunicação, Letras e ArtesCNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADALinguística de corpusAnálise multidimensional lexicalModelagem de tópicosAnálise Multidimensional LexicalLexical multidimensional analysisTopic modelingEstudo comparativo entre análise multidimensional lexical e modelagem de tópicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_SPinstname:Pontifícia Universidade Católica de São Paulo (PUC-SP)instacron:PUC_SPORIGINALDenis Luiz Marcello Owa.pdfapplication/pdf647394https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/1/Denis%20Luiz%20Marcello%20Owa.pdf6fecfe0eb9fdf236599d83bacbb1cff6MD51TEXTDenis Luiz Marcello Owa.pdf.txtDenis Luiz Marcello Owa.pdf.txtExtracted texttext/plain184412https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/2/Denis%20Luiz%20Marcello%20Owa.pdf.txt0f0e6dc14f8335b6df1a3382ca9f209eMD52THUMBNAILDenis Luiz Marcello Owa.pdf.jpgDenis Luiz Marcello Owa.pdf.jpgGenerated Thumbnailimage/jpeg1376https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/3/Denis%20Luiz%20Marcello%20Owa.pdf.jpgca64970906851eb84d99fb86add0920cMD53handle/242522022-02-03 07:07:51.051oai:repositorio.pucsp.br:handle/24252Biblioteca Digital de Teses e Dissertaçõeshttps://sapientia.pucsp.br/https://sapientia.pucsp.br/oai/requestbngkatende@pucsp.br||rapassi@pucsp.bropendoar:2022-02-03T10:07:51Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP)false
dc.title.pt_BR.fl_str_mv Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
title Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
spellingShingle Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
Owa, Denis Luiz Marcello
CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADA
Linguística de corpus
Análise multidimensional lexical
Modelagem de tópicos
Análise Multidimensional Lexical
Lexical multidimensional analysis
Topic modeling
title_short Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
title_full Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
title_fullStr Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
title_full_unstemmed Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
title_sort Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
author Owa, Denis Luiz Marcello
author_facet Owa, Denis Luiz Marcello
author_role author
dc.contributor.advisor1.fl_str_mv Sardinha, Antonio Paulo Berber
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6940454346543706
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/4454350852500322
dc.contributor.author.fl_str_mv Owa, Denis Luiz Marcello
contributor_str_mv Sardinha, Antonio Paulo Berber
dc.subject.cnpq.fl_str_mv CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADA
topic CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADA
Linguística de corpus
Análise multidimensional lexical
Modelagem de tópicos
Análise Multidimensional Lexical
Lexical multidimensional analysis
Topic modeling
dc.subject.por.fl_str_mv Linguística de corpus
Análise multidimensional lexical
Modelagem de tópicos
dc.subject.eng.fl_str_mv Análise Multidimensional Lexical
Lexical multidimensional analysis
Topic modeling
description The main objective of this work is to compare two theme / topic / discourse modeling methods from a corpus perspective, namely, Lexical Multidimensional Analysis (LMDA) and Topic Modeling (TM). The comparison is based on a range of different corpora, namely: a corpus consisting of 1,000 academic articles written in English (CAPO - Corpus of Articles from PLOS ONE), three corpora in English (the Sally Mann Corpus; the Children Culture Corpus – CHICC; and the Corpus of Religious and Dogmatic English Language Texts - CReDELT), in addition to a corpus of Portuguese (Corpus of Ethnic-Racial Records - CRER). As mentioned, we used Lexical Multidimensional Analysis as a means to detect the major dimensions of lexical variation, identified through the interpretation of the semantic fields underlying the co-occurrence of the most salient lexis. This framework was developed by Berber Sardinha (2016, 2017, 2019, 2021) based on the framework developed by Biber in the 1980s (Biber, 1988) for the analysis of register variation. In addition to Lexical MD Analysis, in this project we used Topic Modeling (TM), which consists of identifying sets of words commonly occurring across texts as a means to detect the major ‘topics’ in a text collection. The central works of the area, with relevance for this study are Blei; NG; Jordan (2003) and Srinivasa-Desikan (2018). Although previous research exists for Lexical MD Analysis (e.g. Berber Sardinha (2017, 2021) and for Topic Modeling (e.g. Griffiths and Mark Steyvers, 2004; Wang and Blei, 2011 Younus et al., 2014; Murakami et al., 201; and Krasnov, 2018), no previous research exists that compares and contrasts the results of these two frameworks, despite the fact that both are used for similar purposes in the literature. Thus, this dissertation seeks to make an original contribution by comparing and contrasting these two methods
publishDate 2021
dc.date.issued.fl_str_mv 2021-07-29
dc.date.accessioned.fl_str_mv 2022-02-02T18:49:44Z
dc.date.available.fl_str_mv 2022-02-02T18:49:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Owa, Denis Luiz Marcello. Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos. 2021. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) - Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.pucsp.br/jspui/handle/handle/24252
identifier_str_mv Owa, Denis Luiz Marcello. Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos. 2021. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) - Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.
url https://repositorio.pucsp.br/jspui/handle/handle/24252
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica de São Paulo
dc.publisher.program.fl_str_mv Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem
dc.publisher.initials.fl_str_mv PUC-SP
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Faculdade de Filosofia, Comunicação, Letras e Artes
publisher.none.fl_str_mv Pontifícia Universidade Católica de São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_SP
instname:Pontifícia Universidade Católica de São Paulo (PUC-SP)
instacron:PUC_SP
instname_str Pontifícia Universidade Católica de São Paulo (PUC-SP)
instacron_str PUC_SP
institution PUC_SP
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_SP
collection Biblioteca Digital de Teses e Dissertações da PUC_SP
bitstream.url.fl_str_mv https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/1/Denis%20Luiz%20Marcello%20Owa.pdf
https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/2/Denis%20Luiz%20Marcello%20Owa.pdf.txt
https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/3/Denis%20Luiz%20Marcello%20Owa.pdf.jpg
bitstream.checksum.fl_str_mv 6fecfe0eb9fdf236599d83bacbb1cff6
0f0e6dc14f8335b6df1a3382ca9f209e
ca64970906851eb84d99fb86add0920c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP)
repository.mail.fl_str_mv bngkatende@pucsp.br||rapassi@pucsp.br
_version_ 1809277927284539392