Mineração de padrões morfo-semânticos em textos literários com o BERT
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSC |
Texto Completo: | https://repositorio.ufsc.br/handle/123456789/243399 |
Resumo: | TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. |
id |
UFSC_7589d2f369f98ef890a1f6aea8529812 |
---|---|
oai_identifier_str |
oai:repositorio.ufsc.br:123456789/243399 |
network_acronym_str |
UFSC |
network_name_str |
Repositório Institucional da UFSC |
repository_id_str |
2373 |
spelling |
Mineração de padrões morfo-semânticos em textos literários com o BERTPadrões Morfo-semânticos em TextosProcessamento de Linguagem Natural (PLN)Mineração de TextosEmbeddingsTextos literáriosTCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.Grande parte da informação atualmente disponível está na forma de textos, em documentos digitais como livros, artigos de jornais e revistas, páginas Web e textos em mídias sociais. O tratamento manual desses textos é frequentemente inviável, devido ao grande volume de dados, tornando-se necessário o desenvolvimento de soluções automatizadas para diversas tarefas de processamento de texto em linguagem natural. A análise semântica automatizada de discursos em torno de tópicos de interesse em documentos textuais é um problema ainda em aberto, com diversas aplicações práticas, incluindo detecção de certos tipos de discurso (e.g. discurso de ódio) e classificação não supervisionada de textos com base em similaridades e padrões semânticos dos discursos neles encontrados. Este trabalho se propõe a desenvolver novas técnicas e algoritmos para minerar padrões morfo-semânticos de discursos centrados em tópicos do interesse de especialistas de domínio. Tais tópicos podem ser mencionadas nos textos literalmente (através das palavras que os definem) ou via léxicos que tenham semântica equivalente ou muito próxima a tais tópicos. A implementação do protótipo utiliza embeddings do BERTimbau, uma versão do modelo contextualizado de linguagem BERT pré-treinada para o português brasileiro atual, como meio de determinar similaridades semânticas entre palavras, que podem indicar tópicos de interesse ou expressar a semântica dos discursos em torno de tais tópicos. Ferramentas de Processamento de Linguagem Natural (PLN) existentes também são utilizadas para realizar tarefas como segmentação de sentenças, normalização de texto (e.g., tokenização, stemming) e classificação morfossintática de palavras (Part-Of-Speech - POS-tagging). Os algoritmos sendo desenvolvidos para minerar padrões morfo-semânticos em textos se apoiam nas funcionalidades dessas ferramentas, principalmente similaridade semântica entre embeddings contextualizados de palavras e compatibilidade de PoS-tags. A proposta está sendo desenvolvida e avaliada em um estudo de caso na área de literatura brasileira, em que especialistas de domínio fornecem os textos a analisar, indicam os tópicos de interesse e auxiliam na aferição dos resultados. Os resultados serão avaliados quantitativamente, em termos da distribuição das instâncias dos padrões minerados nas coleções de documentos e, na medida das possibilidades, comparação com o desempenho humano na identificação dos padrões e classificação dos textos.Florianópolis, SC.Oliveira Braz Junior, OsmarFileto, RenatoUniversidade Federal de Santa Catarina.Silveira Dias, Leandro2022-12-22T14:16:49Z2022-12-22T14:16:49Z2022-12-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis56application/pdfhttps://repositorio.ufsc.br/handle/123456789/243399Open Access.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2022-12-22T14:16:50Zoai:repositorio.ufsc.br:123456789/243399Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-12-22T14:16:50Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
title |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
spellingShingle |
Mineração de padrões morfo-semânticos em textos literários com o BERT Silveira Dias, Leandro Padrões Morfo-semânticos em Textos Processamento de Linguagem Natural (PLN) Mineração de Textos Embeddings Textos literários |
title_short |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
title_full |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
title_fullStr |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
title_full_unstemmed |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
title_sort |
Mineração de padrões morfo-semânticos em textos literários com o BERT |
author |
Silveira Dias, Leandro |
author_facet |
Silveira Dias, Leandro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Oliveira Braz Junior, Osmar Fileto, Renato Universidade Federal de Santa Catarina. |
dc.contributor.author.fl_str_mv |
Silveira Dias, Leandro |
dc.subject.por.fl_str_mv |
Padrões Morfo-semânticos em Textos Processamento de Linguagem Natural (PLN) Mineração de Textos Embeddings Textos literários |
topic |
Padrões Morfo-semânticos em Textos Processamento de Linguagem Natural (PLN) Mineração de Textos Embeddings Textos literários |
description |
TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-12-22T14:16:49Z 2022-12-22T14:16:49Z 2022-12-14 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufsc.br/handle/123456789/243399 |
url |
https://repositorio.ufsc.br/handle/123456789/243399 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Open Access. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Open Access. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
56 application/pdf |
dc.publisher.none.fl_str_mv |
Florianópolis, SC. |
publisher.none.fl_str_mv |
Florianópolis, SC. |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Repositório Institucional da UFSC |
collection |
Repositório Institucional da UFSC |
repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
|
_version_ |
1808652339932823552 |