[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Outros |
Idioma: | por |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2 http://doi.org/10.17771/PUCRio.acad.55901 |
Resumo: | [pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot. |
id |
PUC_RIO-1_116b1dc174d74d0cdc7d451060e9129a |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:55901 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS[pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES[pt] APRENDIZADO DE MAQUINA[pt] EMBEDDINGS[pt] PERGUNTA-RESPOSTA INTERATIVO[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[en] MACHINE LEARNING[en] EMBEDDINGS[en] INTERACTIVE QUESTION ANSWER[en] NATURAL LANGUAGE PROCESSING[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot.[en] Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society. Machine learning models in particular, have an increasing need for training data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks. This work makes the effort of collecting, constructing, analyzing and training of models for the biggest known academic corpus in the Portuguese language. Word embeddings, bag of words and transformers models have been trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation. A semantic analysis of the academic corpus is made through topic modelling, and an unprecedented visualization of the knowledge areas is presented. Lastly, an application that uses the trained models is showcased, the SucupiraBot.MAXWELLSERGIO COLCHERIVAN DE JESUS PEREIRA PINTO2021-11-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2http://doi.org/10.17771/PUCRio.acad.55901porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-08-17T00:00:00Zoai:MAXWELL.puc-rio.br:55901Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-17T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.none.fl_str_mv |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS [pt] CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES |
title |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS |
spellingShingle |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS IVAN DE JESUS PEREIRA PINTO [pt] APRENDIZADO DE MAQUINA [pt] EMBEDDINGS [pt] PERGUNTA-RESPOSTA INTERATIVO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] EMBEDDINGS [en] INTERACTIVE QUESTION ANSWER [en] NATURAL LANGUAGE PROCESSING |
title_short |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS |
title_full |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS |
title_fullStr |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS |
title_full_unstemmed |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS |
title_sort |
[en] CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS |
author |
IVAN DE JESUS PEREIRA PINTO |
author_facet |
IVAN DE JESUS PEREIRA PINTO |
author_role |
author |
dc.contributor.none.fl_str_mv |
SERGIO COLCHER |
dc.contributor.author.fl_str_mv |
IVAN DE JESUS PEREIRA PINTO |
dc.subject.por.fl_str_mv |
[pt] APRENDIZADO DE MAQUINA [pt] EMBEDDINGS [pt] PERGUNTA-RESPOSTA INTERATIVO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] EMBEDDINGS [en] INTERACTIVE QUESTION ANSWER [en] NATURAL LANGUAGE PROCESSING |
topic |
[pt] APRENDIZADO DE MAQUINA [pt] EMBEDDINGS [pt] PERGUNTA-RESPOSTA INTERATIVO [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] EMBEDDINGS [en] INTERACTIVE QUESTION ANSWER [en] NATURAL LANGUAGE PROCESSING |
description |
[pt] Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-11-16 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/other |
format |
other |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2 http://doi.org/10.17771/PUCRio.acad.55901 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2 http://doi.org/10.17771/PUCRio.acad.55901 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
MAXWELL |
publisher.none.fl_str_mv |
MAXWELL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1814822632713879552 |