O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos

Detalhes bibliográficos
Autor(a) principal: Souza, Marcos de
Data de Publicação: 2023
Tipo de documento: Artigo
Idioma: por
Título da fonte: Informação em Pauta
Texto Completo: http://www.periodicos.ufc.br/informacaoempauta/article/view/92075
Resumo: O crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica.
id UFC-15_13758bfd48189d5f6e593bcd1b9b7daf
oai_identifier_str oai:periodicos.ufc:article/92075
network_acronym_str UFC-15
network_name_str Informação em Pauta
repository_id_str
spelling O comportamento de termos da Ciência da Informação por meio da modelagem de tópicosModelagem de tópicosAlocação de Dirichlet LatenteProximidade e distanciamentoComportamento diacrônicoResumo de tese.O crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica.Universidade Federal do Ceará2023-10-20info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionResumo de teseapplication/pdfhttp://www.periodicos.ufc.br/informacaoempauta/article/view/9207510.36517/2525-3468.ip.v8i0.2023.92075.1-3Informação em Pauta; Vol. 8 (2023): Informação em Pauta; 1-3Informação em Pauta; v. 8 (2023): Informação em Pauta; 1-32525-346810.36517/2525-3468.ip.v8i0.2023reponame:Informação em Pautainstname:Universidade Federal do Ceará (UFC)instacron:UFCporhttp://www.periodicos.ufc.br/informacaoempauta/article/view/92075/249858Copyright (c) 2023 Marcos de Souzainfo:eu-repo/semantics/openAccessSouza, Marcos de2023-10-21T01:41:26Zoai:periodicos.ufc:article/92075Revistahttp://www.periodicos.ufc.br/informacaoempauta/indexPUBhttp://www.periodicos.ufc.br/informacaoempauta/oaiinformacaoempauta@gmail.com||2525-34682525-3468opendoar:2023-10-21T01:41:26Informação em Pauta - Universidade Federal do Ceará (UFC)false
dc.title.none.fl_str_mv O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
title O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
spellingShingle O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
Souza, Marcos de
Modelagem de tópicos
Alocação de Dirichlet Latente
Proximidade e distanciamento
Comportamento diacrônico
Resumo de tese.
title_short O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
title_full O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
title_fullStr O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
title_full_unstemmed O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
title_sort O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
author Souza, Marcos de
author_facet Souza, Marcos de
author_role author
dc.contributor.author.fl_str_mv Souza, Marcos de
dc.subject.por.fl_str_mv Modelagem de tópicos
Alocação de Dirichlet Latente
Proximidade e distanciamento
Comportamento diacrônico
Resumo de tese.
topic Modelagem de tópicos
Alocação de Dirichlet Latente
Proximidade e distanciamento
Comportamento diacrônico
Resumo de tese.
description O crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica.
publishDate 2023
dc.date.none.fl_str_mv 2023-10-20
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Resumo de tese
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.periodicos.ufc.br/informacaoempauta/article/view/92075
10.36517/2525-3468.ip.v8i0.2023.92075.1-3
url http://www.periodicos.ufc.br/informacaoempauta/article/view/92075
identifier_str_mv 10.36517/2525-3468.ip.v8i0.2023.92075.1-3
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://www.periodicos.ufc.br/informacaoempauta/article/view/92075/249858
dc.rights.driver.fl_str_mv Copyright (c) 2023 Marcos de Souza
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Copyright (c) 2023 Marcos de Souza
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Ceará
publisher.none.fl_str_mv Universidade Federal do Ceará
dc.source.none.fl_str_mv Informação em Pauta; Vol. 8 (2023): Informação em Pauta; 1-3
Informação em Pauta; v. 8 (2023): Informação em Pauta; 1-3
2525-3468
10.36517/2525-3468.ip.v8i0.2023
reponame:Informação em Pauta
instname:Universidade Federal do Ceará (UFC)
instacron:UFC
instname_str Universidade Federal do Ceará (UFC)
instacron_str UFC
institution UFC
reponame_str Informação em Pauta
collection Informação em Pauta
repository.name.fl_str_mv Informação em Pauta - Universidade Federal do Ceará (UFC)
repository.mail.fl_str_mv informacaoempauta@gmail.com||
_version_ 1797231542214328320