Applying BERT language model to poem classification : a study on data imbalance issues

Ceccon, Tiago Silveira

Applying BERT language model to poem classification : a study on data imbalance issues

Detalhes bibliográficos
Autor(a) principal:	Ceccon, Tiago Silveira
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/259959
Resumo:	Arte, e em específico poesia, sempre foi um recurso muito valioso para a compreensão da identidade e visão de mundo de uma sociedade. Recentemente, com o crescimento da revolução de big data, grandes conjuntos de dados dos mais variados assuntos estão começando a aparecer. Também estamos presenciando uma nova onda de sistemas de In teligência Artificial muito poderosos baseados em aprendizado profundo, em especial na área de Processamento de Linguagem Natural. É razoável, então, explorar o quão adequa dos são esses sistemas para processar dados dentro do campo da poesia, já que podemos ganhar tanto entendimento sobre as culturas humanas através deles. Nesse trabalho apli camos o modelo pré-treinado de linguagem BERT a um dataset de poemas do mundo real, de modo a criar classificadores para reconhecer com quais tópicos os poemas lidam. Listamos alguns dos problemas que apareceram durante esse processo e experimentamos com estratégias possíveis para mitigar um deles, a saber o desbalanceamento de classes. Descobrimos que é possível melhorar os resultados iniciais ao aplicar duas das estratégias propostas, sendo estas undersampling da classe majoritária e o uso de diferentes pesos para cada classe escalando a função de perda.

Metadados do item

id	UFRGS-2_93eebdaa75e50804106ab40fb1a37bed
oai_identifier_str	oai:www.lume.ufrgs.br:10183/259959
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Ceccon, Tiago SilveiraCarbonera, Joel LuisGarcia, Luan Fonseca2023-07-04T03:52:31Z2023http://hdl.handle.net/10183/259959001172384Arte, e em específico poesia, sempre foi um recurso muito valioso para a compreensão da identidade e visão de mundo de uma sociedade. Recentemente, com o crescimento da revolução de big data, grandes conjuntos de dados dos mais variados assuntos estão começando a aparecer. Também estamos presenciando uma nova onda de sistemas de In teligência Artificial muito poderosos baseados em aprendizado profundo, em especial na área de Processamento de Linguagem Natural. É razoável, então, explorar o quão adequa dos são esses sistemas para processar dados dentro do campo da poesia, já que podemos ganhar tanto entendimento sobre as culturas humanas através deles. Nesse trabalho apli camos o modelo pré-treinado de linguagem BERT a um dataset de poemas do mundo real, de modo a criar classificadores para reconhecer com quais tópicos os poemas lidam. Listamos alguns dos problemas que apareceram durante esse processo e experimentamos com estratégias possíveis para mitigar um deles, a saber o desbalanceamento de classes. Descobrimos que é possível melhorar os resultados iniciais ao aplicar duas das estratégias propostas, sendo estas undersampling da classe majoritária e o uso de diferentes pesos para cada classe escalando a função de perda.Art, and specifically poetry, has always been a very valuable resource to understand a society’s identity and view of life. Recently, with the rise of the big data revolution, large datasets of the most varied subjects are starting to appear. Also, we are seeing a new wave of very powerful Artificial Intelligence systems based on deep learning, especially in the area of Natural Language Processing (NLP). It is reasonable, then, to explore how well suited these systems are to process data within the realm of poetry, since we stand to gain so much insight about human cultures from it. In this work we apply the BERT pre-trained language model to a real-world dataset of poems, in order to create classifiers to recognize the topics the poems deal with. We list some of the issues that appeared during this process and experiment with possible strategies to mitigate one of them, namely imbalance of classes. We found that it was possible to improve the baseline results by applying two of the strategies explored, those being undersampling of the majority class and the use of different weights for each class to scale the loss functionapplication/pdfengInteligência artificialAprendizado de máquinaAprendizado profundoNLPLarge Language ModelsBERTPoetryApplying BERT language model to poem classification : a study on data imbalance issuesAplicando o modelo de linguagem BERT à classificação de poemas: um estudo sobre problemas de desbalancamento de dados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001172384.pdf.txt001172384.pdf.txtExtracted Texttext/plain112233http://www.lume.ufrgs.br/bitstream/10183/259959/2/001172384.pdf.txtc1dba33627e9a1f8d74fd2bfb237fa53MD52ORIGINAL001172384.pdfTexto completo (inglês)application/pdf643078http://www.lume.ufrgs.br/bitstream/10183/259959/1/001172384.pdf8c22690d1b1bb026ea9cc74cd0df65c3MD5110183/2599592023-07-05 03:49:38.519311oai:www.lume.ufrgs.br:10183/259959Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-07-05T06:49:38Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Applying BERT language model to poem classification : a study on data imbalance issues
dc.title.alternative.en.fl_str_mv	Aplicando o modelo de linguagem BERT à classificação de poemas: um estudo sobre problemas de desbalancamento de dados
title	Applying BERT language model to poem classification : a study on data imbalance issues
spellingShingle	Applying BERT language model to poem classification : a study on data imbalance issues Ceccon, Tiago Silveira Inteligência artificial Aprendizado de máquina Aprendizado profundo NLP Large Language Models BERT Poetry
title_short	Applying BERT language model to poem classification : a study on data imbalance issues
title_full	Applying BERT language model to poem classification : a study on data imbalance issues
title_fullStr	Applying BERT language model to poem classification : a study on data imbalance issues
title_full_unstemmed	Applying BERT language model to poem classification : a study on data imbalance issues
title_sort	Applying BERT language model to poem classification : a study on data imbalance issues
author	Ceccon, Tiago Silveira
author_facet	Ceccon, Tiago Silveira
author_role	author
dc.contributor.author.fl_str_mv	Ceccon, Tiago Silveira
dc.contributor.advisor1.fl_str_mv	Carbonera, Joel Luis
dc.contributor.advisor-co1.fl_str_mv	Garcia, Luan Fonseca
contributor_str_mv	Carbonera, Joel Luis Garcia, Luan Fonseca
dc.subject.por.fl_str_mv	Inteligência artificial Aprendizado de máquina Aprendizado profundo
topic	Inteligência artificial Aprendizado de máquina Aprendizado profundo NLP Large Language Models BERT Poetry
dc.subject.eng.fl_str_mv	NLP Large Language Models BERT Poetry
description	Arte, e em específico poesia, sempre foi um recurso muito valioso para a compreensão da identidade e visão de mundo de uma sociedade. Recentemente, com o crescimento da revolução de big data, grandes conjuntos de dados dos mais variados assuntos estão começando a aparecer. Também estamos presenciando uma nova onda de sistemas de In teligência Artificial muito poderosos baseados em aprendizado profundo, em especial na área de Processamento de Linguagem Natural. É razoável, então, explorar o quão adequa dos são esses sistemas para processar dados dentro do campo da poesia, já que podemos ganhar tanto entendimento sobre as culturas humanas através deles. Nesse trabalho apli camos o modelo pré-treinado de linguagem BERT a um dataset de poemas do mundo real, de modo a criar classificadores para reconhecer com quais tópicos os poemas lidam. Listamos alguns dos problemas que apareceram durante esse processo e experimentamos com estratégias possíveis para mitigar um deles, a saber o desbalanceamento de classes. Descobrimos que é possível melhorar os resultados iniciais ao aplicar duas das estratégias propostas, sendo estas undersampling da classe majoritária e o uso de diferentes pesos para cada classe escalando a função de perda.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-07-04T03:52:31Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/259959
dc.identifier.nrb.pt_BR.fl_str_mv	001172384
url	http://hdl.handle.net/10183/259959
identifier_str_mv	001172384
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/259959/2/001172384.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/259959/1/001172384.pdf
bitstream.checksum.fl_str_mv	c1dba33627e9a1f8d74fd2bfb237fa53 8c22690d1b1bb026ea9cc74cd0df65c3
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224663220617216

Applying BERT language model to poem classification : a study on data imbalance issues

Registros relacionados