CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS

IVAN DE JESUS PEREIRA PINTO

CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS

Detalhes bibliográficos
Autor(a) principal:	IVAN DE JESUS PEREIRA PINTO
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2
Resumo:	Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot.

Metadados do item

id	PUC_RIO-1_116b1dc174d74d0cdc7d451060e9129a
oai_identifier_str	oai:MAXWELL.puc-rio.br:55901
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisCORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONSCORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES2021-09-15SERGIO COLCHER92656625734lattes.cnpq.br/1104157433492666SERGIO COLCHERJONATAS WEHRMANNJULIO CESAR DUARTEJULIO CESAR DUARTE04647596338lattes.cnpq.br/5229824680871242IVAN DE JESUS PEREIRA PINTOPONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROPPG EM INFORMÁTICAPUC-RioBRDados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot.Academic data (i.e., Thesis, Dissertation) encompasses aspects of a whole society, as well as its scientific knowledge. There is a wealth of information to be explored by computational models, and that can be positive for society. Machine learning models in particular, have an increasing need for training data, that are efficient and of considerable size. Its use in the area of natural language processing (NLP) is pervasive in many different tasks. This work makes the effort of collecting, constructing, analyzing and training of models for the biggest known academic corpus in the Portuguese language. Word embeddings, bag of words and transformers models have been trained. The Bert-Academico has shown the better result, with 77 percent of f1-score in Great area of knowledge and 63 percent in knowledge area classification of Thesis and Dissertation. A semantic analysis of the academic corpus is made through topic modelling, and an unprecedented visualization of the knowledge areas is presented. Lastly, an application that uses the trained models is showcased, the SucupiraBot.PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIROCONSELHO NACIONAL DE DESENVOLVIMENTO CIENTÍFICO E TECNOLÓGICOhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-11-01T14:03:59Zoai:MAXWELL.puc-rio.br:55901Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-08-17T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.en.fl_str_mv	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
dc.title.alternative.pt.fl_str_mv	CORPUS PARA O DOMÍNIO ACADÊMICO: MODELOS E APLICAÇÕES
title	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
spellingShingle	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS IVAN DE JESUS PEREIRA PINTO
title_short	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
title_full	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
title_fullStr	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
title_full_unstemmed	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
title_sort	CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS
author	IVAN DE JESUS PEREIRA PINTO
author_facet	IVAN DE JESUS PEREIRA PINTO
author_role	author
dc.contributor.advisor1.fl_str_mv	SERGIO COLCHER
dc.contributor.advisor1ID.fl_str_mv	92656625734
dc.contributor.advisor1Lattes.fl_str_mv	lattes.cnpq.br/1104157433492666
dc.contributor.referee1.fl_str_mv	SERGIO COLCHER
dc.contributor.referee2.fl_str_mv	JONATAS WEHRMANN
dc.contributor.referee3.fl_str_mv	JULIO CESAR DUARTE
dc.contributor.referee4.fl_str_mv	JULIO CESAR DUARTE
dc.contributor.authorID.fl_str_mv	04647596338
dc.contributor.authorLattes.fl_str_mv	lattes.cnpq.br/5229824680871242
dc.contributor.author.fl_str_mv	IVAN DE JESUS PEREIRA PINTO
contributor_str_mv	SERGIO COLCHER SERGIO COLCHER JONATAS WEHRMANN JULIO CESAR DUARTE JULIO CESAR DUARTE
description	Dados acadêmicos (e.g., Teses, Dissertações) englobam aspectos de toda uma sociedade, bem como seu conhecimento científico. Neles, há uma riqueza de informações a ser explorada por modelos computacionais, e que podem ser positivos para sociedade. Os modelos de aprendizado de máquina, em especial, possuem uma crescente necessidade de dados para treinamento, que precisam ser estruturados e de tamanho considerável. Seu uso na área de processamento de linguagem natural é pervasivo nas mais diversas tarefas. Este trabalho realiza o esforço de coleta, construção, análise do maior corpus acadêmico conhecido na língua portuguesa. Foram treinados modelos de vetores de palavras, bag-of-words e transformer. O modelo transformer BERTAcadêmico apresentou os melhores resultados, com 77 por cento de f1-score na classificação da Grande Área de conhecimento e 63 por cento de f1-score na classificação da Área de conhecimento nas categorizações de Teses e Dissertações. É feita ainda uma análise semântica do corpus acadêmico através da modelagem de tópicos, e uma visualização inédita das áreas de conhecimento em forma de clusters. Por fim, é apresentada uma aplicação que faz uso dos modelos treinados, o SucupiraBot.
publishDate	2021
dc.date.issued.fl_str_mv	2021-09-15
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=55901@2
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.publisher.program.fl_str_mv	PPG EM INFORMÁTICA
dc.publisher.initials.fl_str_mv	PUC-Rio
dc.publisher.country.fl_str_mv	BR
publisher.none.fl_str_mv	PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1748324960354435072

CORPUS FOR ACADEMIC DOMAIN: MODELS AND APPLICATIONS

Registros relacionados