O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Informação em Pauta |
Texto Completo: | http://www.periodicos.ufc.br/informacaoempauta/article/view/92075 |
Resumo: | O crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica. |
id |
UFC-15_13758bfd48189d5f6e593bcd1b9b7daf |
---|---|
oai_identifier_str |
oai:periodicos.ufc:article/92075 |
network_acronym_str |
UFC-15 |
network_name_str |
Informação em Pauta |
repository_id_str |
|
spelling |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicosModelagem de tópicosAlocação de Dirichlet LatenteProximidade e distanciamentoComportamento diacrônicoResumo de tese.O crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica.Universidade Federal do Ceará2023-10-20info:eu-repo/semantics/articleinfo:eu-repo/semantics/publishedVersionResumo de teseapplication/pdfhttp://www.periodicos.ufc.br/informacaoempauta/article/view/9207510.36517/2525-3468.ip.v8i0.2023.92075.1-3Informação em Pauta; Vol. 8 (2023): Informação em Pauta; 1-3Informação em Pauta; v. 8 (2023): Informação em Pauta; 1-32525-346810.36517/2525-3468.ip.v8i0.2023reponame:Informação em Pautainstname:Universidade Federal do Ceará (UFC)instacron:UFCporhttp://www.periodicos.ufc.br/informacaoempauta/article/view/92075/249858Copyright (c) 2023 Marcos de Souzainfo:eu-repo/semantics/openAccessSouza, Marcos de2023-10-21T01:41:26Zoai:periodicos.ufc:article/92075Revistahttp://www.periodicos.ufc.br/informacaoempauta/indexPUBhttp://www.periodicos.ufc.br/informacaoempauta/oaiinformacaoempauta@gmail.com||2525-34682525-3468opendoar:2023-10-21T01:41:26Informação em Pauta - Universidade Federal do Ceará (UFC)false |
dc.title.none.fl_str_mv |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
title |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
spellingShingle |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos Souza, Marcos de Modelagem de tópicos Alocação de Dirichlet Latente Proximidade e distanciamento Comportamento diacrônico Resumo de tese. |
title_short |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
title_full |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
title_fullStr |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
title_full_unstemmed |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
title_sort |
O comportamento de termos da Ciência da Informação por meio da modelagem de tópicos |
author |
Souza, Marcos de |
author_facet |
Souza, Marcos de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Souza, Marcos de |
dc.subject.por.fl_str_mv |
Modelagem de tópicos Alocação de Dirichlet Latente Proximidade e distanciamento Comportamento diacrônico Resumo de tese. |
topic |
Modelagem de tópicos Alocação de Dirichlet Latente Proximidade e distanciamento Comportamento diacrônico Resumo de tese. |
description |
O crescimento da pesquisa, ciência e tecnologia na perspectiva acadêmica tem contribuído para a produção de uma quantidade elevada de informações científicas produzidas em diversos formatos e tipos de documentos da comunicação científica. Levando em consideração a quantidade, variedade e complexidade de informações produzidas, tem sido cada vez mais necessário o uso de tecnologias e métodos para elaboração e produção de registros de informação, além da necessidade de produzir informações sobre informações. A Modelagem de Tópicos, constituída de métodos estatísticos/probabilísticos e recursos tecnológicos, utiliza modelos de algoritmos de aprendizagem que possibilita identificar padrões, organizar coleções, resumir conteúdos, extrair tópicos mais frequentes, identificar relações entre assuntos e mudanças realizadas ao longo do tempo em corpora de documentos. Partindo desse princípio, questiona-se: de que forma tem se apresentado, na segunda década do século XXI, os temas da produção científica brasileira na área da Ciência da Informação quando se comparado às áreas e disciplinas já estabelecidas na literatura por pesquisadores como núcleo da área? O objetivo geral buscou verificar a proximidade e o distanciamento entre os temas extraídos dos corpora de dados constituídos por documentos científicos com as áreas e disciplinas da Ciência da Informação estabelecidas na literatura. Dentre os objetivos específicos constam identificar, analisar e discutir o comportamento diacrônico dos termos extraídos dos corpora de dados, bem com suas respectivas relações, além de analisar e discutir os modelos de treinamento de extração de tópicos, selecionar os resultados significativos e validar junto à comunidade científica brasileira da Ciência da Informação. Justifica-se a importância desta pesquisa uma vez que a comparação entre estudos – mesmo que utilizando de metodologias e intervalos de tempo diferentes na composição de documentos – permite apresentar, por meio do mapeamento científico, novos resultados e prospectar diferentes cenários e perspectivas para a ciência estudada. Para a pesquisa empírica foram realizadas as etapas de coleta de dados e formação dos corpora de dados; preparação e pré-processamento referente à limpeza, manipulação, combinação e normalização dos dados; transformação dos dados referentes às operações matemáticas e estatísticas aplicadas; modelagem e processamento, ao qual conecta os dados tratados aos modelos Latent Semantic Indexing e Latent Dirichlet Allocation; apresentação dos resultados por meio de sínteses textuais e gráficos interativos e estatísticos; validação dos resultados junto a pesquisadores da área estudada; e documentação gerada a partir dos resultados empíricos com o referencial teórico. Dentre os principais resultados constam: o comportamento parcialmente diferente entre o mapeamento científico das disciplinas do núcleo da Ciência da Informação encontrado na literatura com os resultados empíricos desta pesquisa; o comportamento diacrônico e surgimento de termos em pesquisas na área da Ciência da Informação, como fake news, big data e machine learning; a proximidade e o distanciamento entre disciplinas como Sistemas de Informação e Comunicação Científica Eletrônica; os melhores resultados na modelagem de tópicos realizada por meio do modelo Latent Dirichlet Allocation, levando em consideração o equilíbrio entre os pesos dos resultados e um maior número de bigramas e trigramas que contribuem para a uma melhor interpretação dos dados, realizada pelo indexador e validada pela comunidade científica. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-10-20 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion Resumo de tese |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.periodicos.ufc.br/informacaoempauta/article/view/92075 10.36517/2525-3468.ip.v8i0.2023.92075.1-3 |
url |
http://www.periodicos.ufc.br/informacaoempauta/article/view/92075 |
identifier_str_mv |
10.36517/2525-3468.ip.v8i0.2023.92075.1-3 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
http://www.periodicos.ufc.br/informacaoempauta/article/view/92075/249858 |
dc.rights.driver.fl_str_mv |
Copyright (c) 2023 Marcos de Souza info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Copyright (c) 2023 Marcos de Souza |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Ceará |
publisher.none.fl_str_mv |
Universidade Federal do Ceará |
dc.source.none.fl_str_mv |
Informação em Pauta; Vol. 8 (2023): Informação em Pauta; 1-3 Informação em Pauta; v. 8 (2023): Informação em Pauta; 1-3 2525-3468 10.36517/2525-3468.ip.v8i0.2023 reponame:Informação em Pauta instname:Universidade Federal do Ceará (UFC) instacron:UFC |
instname_str |
Universidade Federal do Ceará (UFC) |
instacron_str |
UFC |
institution |
UFC |
reponame_str |
Informação em Pauta |
collection |
Informação em Pauta |
repository.name.fl_str_mv |
Informação em Pauta - Universidade Federal do Ceará (UFC) |
repository.mail.fl_str_mv |
informacaoempauta@gmail.com|| |
_version_ |
1797231542214328320 |