Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_SP |
Texto Completo: | https://repositorio.pucsp.br/jspui/handle/handle/24252 |
Resumo: | The main objective of this work is to compare two theme / topic / discourse modeling methods from a corpus perspective, namely, Lexical Multidimensional Analysis (LMDA) and Topic Modeling (TM). The comparison is based on a range of different corpora, namely: a corpus consisting of 1,000 academic articles written in English (CAPO - Corpus of Articles from PLOS ONE), three corpora in English (the Sally Mann Corpus; the Children Culture Corpus – CHICC; and the Corpus of Religious and Dogmatic English Language Texts - CReDELT), in addition to a corpus of Portuguese (Corpus of Ethnic-Racial Records - CRER). As mentioned, we used Lexical Multidimensional Analysis as a means to detect the major dimensions of lexical variation, identified through the interpretation of the semantic fields underlying the co-occurrence of the most salient lexis. This framework was developed by Berber Sardinha (2016, 2017, 2019, 2021) based on the framework developed by Biber in the 1980s (Biber, 1988) for the analysis of register variation. In addition to Lexical MD Analysis, in this project we used Topic Modeling (TM), which consists of identifying sets of words commonly occurring across texts as a means to detect the major ‘topics’ in a text collection. The central works of the area, with relevance for this study are Blei; NG; Jordan (2003) and Srinivasa-Desikan (2018). Although previous research exists for Lexical MD Analysis (e.g. Berber Sardinha (2017, 2021) and for Topic Modeling (e.g. Griffiths and Mark Steyvers, 2004; Wang and Blei, 2011 Younus et al., 2014; Murakami et al., 201; and Krasnov, 2018), no previous research exists that compares and contrasts the results of these two frameworks, despite the fact that both are used for similar purposes in the literature. Thus, this dissertation seeks to make an original contribution by comparing and contrasting these two methods |
id |
PUC_SP-1_61f7b196ed4aba9b34826e6fffe5f197 |
---|---|
oai_identifier_str |
oai:repositorio.pucsp.br:handle/24252 |
network_acronym_str |
PUC_SP-1 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_SP |
repository_id_str |
|
spelling |
Sardinha, Antonio Paulo Berberhttp://lattes.cnpq.br/6940454346543706http://lattes.cnpq.br/4454350852500322Owa, Denis Luiz Marcello2022-02-02T18:49:44Z2022-02-02T18:49:44Z2021-07-29Owa, Denis Luiz Marcello. Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos. 2021. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) - Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.https://repositorio.pucsp.br/jspui/handle/handle/24252The main objective of this work is to compare two theme / topic / discourse modeling methods from a corpus perspective, namely, Lexical Multidimensional Analysis (LMDA) and Topic Modeling (TM). The comparison is based on a range of different corpora, namely: a corpus consisting of 1,000 academic articles written in English (CAPO - Corpus of Articles from PLOS ONE), three corpora in English (the Sally Mann Corpus; the Children Culture Corpus – CHICC; and the Corpus of Religious and Dogmatic English Language Texts - CReDELT), in addition to a corpus of Portuguese (Corpus of Ethnic-Racial Records - CRER). As mentioned, we used Lexical Multidimensional Analysis as a means to detect the major dimensions of lexical variation, identified through the interpretation of the semantic fields underlying the co-occurrence of the most salient lexis. This framework was developed by Berber Sardinha (2016, 2017, 2019, 2021) based on the framework developed by Biber in the 1980s (Biber, 1988) for the analysis of register variation. In addition to Lexical MD Analysis, in this project we used Topic Modeling (TM), which consists of identifying sets of words commonly occurring across texts as a means to detect the major ‘topics’ in a text collection. The central works of the area, with relevance for this study are Blei; NG; Jordan (2003) and Srinivasa-Desikan (2018). Although previous research exists for Lexical MD Analysis (e.g. Berber Sardinha (2017, 2021) and for Topic Modeling (e.g. Griffiths and Mark Steyvers, 2004; Wang and Blei, 2011 Younus et al., 2014; Murakami et al., 201; and Krasnov, 2018), no previous research exists that compares and contrasts the results of these two frameworks, despite the fact that both are used for similar purposes in the literature. Thus, this dissertation seeks to make an original contribution by comparing and contrasting these two methodsO trabalho tem como objetivo principal comparar dois métodos de análise temática dentro da área de Linguística de Corpus, a saber, a Análise Multidimensional Lexical (AMDL) e a Modelagem de Tópicos (MT). A comparação é feita em um corpus de 1.000 artigos acadêmicos escritos em inglês (CAPO – Corpus de Artigos do PLOS ONE), em três corpora em Língua Inglesa (Sally Mann Corpus, Children Culture Corpus – CHICC – e Corpus of Religious and Dogmatic English Language Texts – CReDELT) e um corpus em Língua Portuguesa (Corpus de Registros Étnico-Raciais – CRER). Para tanto, o trabalho encontrou suporte teórico na Linguística de Corpus. Mais especificamente, o trabalho aqui apresentado se fundamentou na área de pesquisa baseada em corpus que se preocupa com a identificação de temas em um corpus por meio da Análise Multidimensional Lexical. A questão central desta área é encontrar dimensões de variação lexical, identificadas por meio da interpretação dos campos semânticos subjacentes à coocorrência do léxico mais saliente. Os trabalhos centrais da área, com relevância para este estudo, são Berber Sardinha (2016, 2017, 2019, 2021). Além da Linguística de Corpus, o projeto fundamenta-se na Modelagem de Tópicos (MT). A MT consiste em identificar quais palavras ocorrem juntas em texto(s) e que permitam, assim, permitir entender o(s) tópico(s) existentes. Os trabalhos centrais da área, com relevância para este estudo são Blei; NG; Jordan (2003) e Srinivasa-Desikan (2018). Os trabalhos de Berber Sardinha (2017 e 2021) abordam a análise de artigos científicos por meio da AMDL. Os trabalhos de Thomas L. Griffiths e Mark Steyvers (2004), Chong Wang e David M. Blei (2011), Arjumand Younus et. al (2014), Murakami et al. (2017) e Fedor Krasnov (2018) abordam a análise de artigos científicos por meio da MT. Entretanto, nenhum deles realizou uma comparação entre a AMDL e a MT aplicadas a artigos acadêmicos. Desta forma, esta tese busca fazer uma contribuição original ao se analisar esses dois métodosCoordenação de Aperfeiçoamento de Pessoal de Nível Superior – CAPESporPontifícia Universidade Católica de São PauloPrograma de Estudos Pós-Graduados em Linguística Aplicada e Estudos da LinguagemPUC-SPBrasilFaculdade de Filosofia, Comunicação, Letras e ArtesCNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADALinguística de corpusAnálise multidimensional lexicalModelagem de tópicosAnálise Multidimensional LexicalLexical multidimensional analysisTopic modelingEstudo comparativo entre análise multidimensional lexical e modelagem de tópicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_SPinstname:Pontifícia Universidade Católica de São Paulo (PUC-SP)instacron:PUC_SPORIGINALDenis Luiz Marcello Owa.pdfapplication/pdf647394https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/1/Denis%20Luiz%20Marcello%20Owa.pdf6fecfe0eb9fdf236599d83bacbb1cff6MD51TEXTDenis Luiz Marcello Owa.pdf.txtDenis Luiz Marcello Owa.pdf.txtExtracted texttext/plain184412https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/2/Denis%20Luiz%20Marcello%20Owa.pdf.txt0f0e6dc14f8335b6df1a3382ca9f209eMD52THUMBNAILDenis Luiz Marcello Owa.pdf.jpgDenis Luiz Marcello Owa.pdf.jpgGenerated Thumbnailimage/jpeg1376https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/3/Denis%20Luiz%20Marcello%20Owa.pdf.jpgca64970906851eb84d99fb86add0920cMD53handle/242522022-02-03 07:07:51.051oai:repositorio.pucsp.br:handle/24252Biblioteca Digital de Teses e Dissertaçõeshttps://sapientia.pucsp.br/https://sapientia.pucsp.br/oai/requestbngkatende@pucsp.br||rapassi@pucsp.bropendoar:2022-02-03T10:07:51Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP)false |
dc.title.pt_BR.fl_str_mv |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
title |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
spellingShingle |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos Owa, Denis Luiz Marcello CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADA Linguística de corpus Análise multidimensional lexical Modelagem de tópicos Análise Multidimensional Lexical Lexical multidimensional analysis Topic modeling |
title_short |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
title_full |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
title_fullStr |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
title_full_unstemmed |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
title_sort |
Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos |
author |
Owa, Denis Luiz Marcello |
author_facet |
Owa, Denis Luiz Marcello |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Sardinha, Antonio Paulo Berber |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6940454346543706 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/4454350852500322 |
dc.contributor.author.fl_str_mv |
Owa, Denis Luiz Marcello |
contributor_str_mv |
Sardinha, Antonio Paulo Berber |
dc.subject.cnpq.fl_str_mv |
CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADA |
topic |
CNPQ::LINGUISTICA, LETRAS E ARTES::LINGUISTICA::LINGUISTICA APLICADA Linguística de corpus Análise multidimensional lexical Modelagem de tópicos Análise Multidimensional Lexical Lexical multidimensional analysis Topic modeling |
dc.subject.por.fl_str_mv |
Linguística de corpus Análise multidimensional lexical Modelagem de tópicos |
dc.subject.eng.fl_str_mv |
Análise Multidimensional Lexical Lexical multidimensional analysis Topic modeling |
description |
The main objective of this work is to compare two theme / topic / discourse modeling methods from a corpus perspective, namely, Lexical Multidimensional Analysis (LMDA) and Topic Modeling (TM). The comparison is based on a range of different corpora, namely: a corpus consisting of 1,000 academic articles written in English (CAPO - Corpus of Articles from PLOS ONE), three corpora in English (the Sally Mann Corpus; the Children Culture Corpus – CHICC; and the Corpus of Religious and Dogmatic English Language Texts - CReDELT), in addition to a corpus of Portuguese (Corpus of Ethnic-Racial Records - CRER). As mentioned, we used Lexical Multidimensional Analysis as a means to detect the major dimensions of lexical variation, identified through the interpretation of the semantic fields underlying the co-occurrence of the most salient lexis. This framework was developed by Berber Sardinha (2016, 2017, 2019, 2021) based on the framework developed by Biber in the 1980s (Biber, 1988) for the analysis of register variation. In addition to Lexical MD Analysis, in this project we used Topic Modeling (TM), which consists of identifying sets of words commonly occurring across texts as a means to detect the major ‘topics’ in a text collection. The central works of the area, with relevance for this study are Blei; NG; Jordan (2003) and Srinivasa-Desikan (2018). Although previous research exists for Lexical MD Analysis (e.g. Berber Sardinha (2017, 2021) and for Topic Modeling (e.g. Griffiths and Mark Steyvers, 2004; Wang and Blei, 2011 Younus et al., 2014; Murakami et al., 201; and Krasnov, 2018), no previous research exists that compares and contrasts the results of these two frameworks, despite the fact that both are used for similar purposes in the literature. Thus, this dissertation seeks to make an original contribution by comparing and contrasting these two methods |
publishDate |
2021 |
dc.date.issued.fl_str_mv |
2021-07-29 |
dc.date.accessioned.fl_str_mv |
2022-02-02T18:49:44Z |
dc.date.available.fl_str_mv |
2022-02-02T18:49:44Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Owa, Denis Luiz Marcello. Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos. 2021. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) - Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021. |
dc.identifier.uri.fl_str_mv |
https://repositorio.pucsp.br/jspui/handle/handle/24252 |
identifier_str_mv |
Owa, Denis Luiz Marcello. Estudo comparativo entre análise multidimensional lexical e modelagem de tópicos. 2021. Tese (Doutorado em Linguística Aplicada e Estudos da Linguagem) - Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021. |
url |
https://repositorio.pucsp.br/jspui/handle/handle/24252 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica de São Paulo |
dc.publisher.program.fl_str_mv |
Programa de Estudos Pós-Graduados em Linguística Aplicada e Estudos da Linguagem |
dc.publisher.initials.fl_str_mv |
PUC-SP |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Faculdade de Filosofia, Comunicação, Letras e Artes |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica de São Paulo |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_SP instname:Pontifícia Universidade Católica de São Paulo (PUC-SP) instacron:PUC_SP |
instname_str |
Pontifícia Universidade Católica de São Paulo (PUC-SP) |
instacron_str |
PUC_SP |
institution |
PUC_SP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_SP |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_SP |
bitstream.url.fl_str_mv |
https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/1/Denis%20Luiz%20Marcello%20Owa.pdf https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/2/Denis%20Luiz%20Marcello%20Owa.pdf.txt https://repositorio.pucsp.br/xmlui/bitstream/handle/24252/3/Denis%20Luiz%20Marcello%20Owa.pdf.jpg |
bitstream.checksum.fl_str_mv |
6fecfe0eb9fdf236599d83bacbb1cff6 0f0e6dc14f8335b6df1a3382ca9f209e ca64970906851eb84d99fb86add0920c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP) |
repository.mail.fl_str_mv |
bngkatende@pucsp.br||rapassi@pucsp.br |
_version_ |
1809277927284539392 |