Mineração de padrões morfo-semânticos em textos literários com o BERT

Detalhes bibliográficos
Autor(a) principal: Silveira Dias, Leandro
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/243399
Resumo: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
id UFSC_7589d2f369f98ef890a1f6aea8529812
oai_identifier_str oai:repositorio.ufsc.br:123456789/243399
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Mineração de padrões morfo-semânticos em textos literários com o BERTPadrões Morfo-semânticos em TextosProcessamento de Linguagem Natural (PLN)Mineração de TextosEmbeddingsTextos literáriosTCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.Grande parte da informação atualmente disponível está na forma de textos, em documentos digitais como livros, artigos de jornais e revistas, páginas Web e textos em mídias sociais. O tratamento manual desses textos é frequentemente inviável, devido ao grande volume de dados, tornando-se necessário o desenvolvimento de soluções automatizadas para diversas tarefas de processamento de texto em linguagem natural. A análise semântica automatizada de discursos em torno de tópicos de interesse em documentos textuais é um problema ainda em aberto, com diversas aplicações práticas, incluindo detecção de certos tipos de discurso (e.g. discurso de ódio) e classificação não supervisionada de textos com base em similaridades e padrões semânticos dos discursos neles encontrados. Este trabalho se propõe a desenvolver novas técnicas e algoritmos para minerar padrões morfo-semânticos de discursos centrados em tópicos do interesse de especialistas de domínio. Tais tópicos podem ser mencionadas nos textos literalmente (através das palavras que os definem) ou via léxicos que tenham semântica equivalente ou muito próxima a tais tópicos. A implementação do protótipo utiliza embeddings do BERTimbau, uma versão do modelo contextualizado de linguagem BERT pré-treinada para o português brasileiro atual, como meio de determinar similaridades semânticas entre palavras, que podem indicar tópicos de interesse ou expressar a semântica dos discursos em torno de tais tópicos. Ferramentas de Processamento de Linguagem Natural (PLN) existentes também são utilizadas para realizar tarefas como segmentação de sentenças, normalização de texto (e.g., tokenização, stemming) e classificação morfossintática de palavras (Part-Of-Speech - POS-tagging). Os algoritmos sendo desenvolvidos para minerar padrões morfo-semânticos em textos se apoiam nas funcionalidades dessas ferramentas, principalmente similaridade semântica entre embeddings contextualizados de palavras e compatibilidade de PoS-tags. A proposta está sendo desenvolvida e avaliada em um estudo de caso na área de literatura brasileira, em que especialistas de domínio fornecem os textos a analisar, indicam os tópicos de interesse e auxiliam na aferição dos resultados. Os resultados serão avaliados quantitativamente, em termos da distribuição das instâncias dos padrões minerados nas coleções de documentos e, na medida das possibilidades, comparação com o desempenho humano na identificação dos padrões e classificação dos textos.Florianópolis, SC.Oliveira Braz Junior, OsmarFileto, RenatoUniversidade Federal de Santa Catarina.Silveira Dias, Leandro2022-12-22T14:16:49Z2022-12-22T14:16:49Z2022-12-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis56application/pdfhttps://repositorio.ufsc.br/handle/123456789/243399Open Access.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2022-12-22T14:16:50Zoai:repositorio.ufsc.br:123456789/243399Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-12-22T14:16:50Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Mineração de padrões morfo-semânticos em textos literários com o BERT
title Mineração de padrões morfo-semânticos em textos literários com o BERT
spellingShingle Mineração de padrões morfo-semânticos em textos literários com o BERT
Silveira Dias, Leandro
Padrões Morfo-semânticos em Textos
Processamento de Linguagem Natural (PLN)
Mineração de Textos
Embeddings
Textos literários
title_short Mineração de padrões morfo-semânticos em textos literários com o BERT
title_full Mineração de padrões morfo-semânticos em textos literários com o BERT
title_fullStr Mineração de padrões morfo-semânticos em textos literários com o BERT
title_full_unstemmed Mineração de padrões morfo-semânticos em textos literários com o BERT
title_sort Mineração de padrões morfo-semânticos em textos literários com o BERT
author Silveira Dias, Leandro
author_facet Silveira Dias, Leandro
author_role author
dc.contributor.none.fl_str_mv Oliveira Braz Junior, Osmar
Fileto, Renato
Universidade Federal de Santa Catarina.
dc.contributor.author.fl_str_mv Silveira Dias, Leandro
dc.subject.por.fl_str_mv Padrões Morfo-semânticos em Textos
Processamento de Linguagem Natural (PLN)
Mineração de Textos
Embeddings
Textos literários
topic Padrões Morfo-semânticos em Textos
Processamento de Linguagem Natural (PLN)
Mineração de Textos
Embeddings
Textos literários
description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-22T14:16:49Z
2022-12-22T14:16:49Z
2022-12-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/243399
url https://repositorio.ufsc.br/handle/123456789/243399
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Open Access.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Open Access.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 56
application/pdf
dc.publisher.none.fl_str_mv Florianópolis, SC.
publisher.none.fl_str_mv Florianópolis, SC.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652339932823552