Mineração de padrões morfo-semânticos em textos clínicos

Detalhes bibliográficos
Autor(a) principal: Cardoso, Nathan Cezar
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/243398
Resumo: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
id UFSC_f3b1ff57a67f98a1ee8dd548c2606c44
oai_identifier_str oai:repositorio.ufsc.br:123456789/243398
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Mineração de padrões morfo-semânticos em textos clínicosMineração de textosProcessamento de linguagem naturalEmbeddingsReconhecimento de entidadesTextos clínicosTCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.Atualmente, enormes volumes de textos de diversos domínios (microblogs, notícias, artigos, prontuários médicos, etc.) têm sido coletados diariamente em plataformas digitais. Várias fer- ramentas para Processamento de Linguagem Natural (PLN), mineração de textos e ciência de dados permitem extrair informação, analisar e classificar certos textos conforme os seus conteú- dos. Recentemente, técnicas de embedding de texto, principalmente embeddings contextualiza- dos, têm possibilitado ganhos de desempenho em diversas tarefas de Processamento de Lingua- gem Natural (PLN). Nosso grupo de pesquisa tem investigado a aplicação de tais recursos na mineração de padrões morfo-semânticos em textos, visando extração e análise de informação. Tais padrões têm se mostrado úteis em tarefas como análise de discurso, desambiguação do sentido de palavras e classificação de textos, usando métodos não-supervisionados, que dispen- sam grandes volumes de dados rotulados para treinamento, possibilitam certa explicabilidade e flexibilidade, por exemplo no detalhamento de categorias de classificação. Este trabalho desen- volveu e avaliou métodos e algoritmos baseados em PLN e embeddings contextualizados para minerar eficientemente padrões morfo-semânticos em textos clínicos (inseridos por profissio- nais de saúde, como médicos, nos prontuários de pacientes em atendimentos), com o intuito de automatizar a classificação e a triagem desses textos e possibilitar análises de seus conteúdos com métodos inovadores. Os textos clínicos e exemplos dos padrões a serem minerados foram fornecidos por uma empresa que presta serviços a operadoras de planos de saúde, com interme- diação de um mestrando a ela ligado. Foram gerados embeddings do BERT pré-treinados para a língua portuguesa (BERTimbau), assim como classes morfossintáticas e reconhecimento de entidades (e.g., medicamentos, doenças, especialidades médicas) de acordo com terminologia específica da área médica para calcular similaridade e/ou determinar casamento na mineração dos padrões nos documentos. Os embeddings gerados foram utilizados em experimentos de visualização e agrupamento a fim de selecionar conjuntos de dados ao redor das entidades re- conhecidas mencionadas nos textos clínicos. Com o uso dos algoritmos desenvolvidos e as visualizações geradas foi possível concluir que o modelo do BERT utilizado usa o contexto dos documentos para gerar os embeddings dos medicamentos próximos aos embeddings de outras palavras mencionadas nos mesmos contextos textuais, tais como doenças tratadas com os res- pectivos medicamentos. Isso não permite discriminar medicamentos e doenças, por exemplo, em grupos distintos de embeddings.Currently, huge volumes of texts from different domains (microblogs, news, articles, medical records, etc.) have been collected daily on digital platforms. Various tools for Natural Language Processing (NLP), text mining, and data science allow extracting information and analyzing and classifying certain texts according to their contents. Recently, text embedding techniques, mainly contextualized embeddings, have enabled performance gains in several NLP tasks. Our research group has investigated the application of such resources in the mining of morpho- semantic patterns in texts, aiming at extracting and analyzing information. Such patterns are useful in tasks such as discourse analysis, disambiguation of the meaning of words, and clas- sification of texts, using unsupervised methods, which do not require large volumes of labeled data for training, allowing some explainability, and flexibility, for example in detailing classi- fication categories. This work aims to develop and evaluate methods based on contextualized NLP and embeddings to efficiently mine morpho-semantic patterns in clinical texts (inserted by health professionals, such as doctors, in the records of patients in attendance), intending to automate the classification and sorting of these texts and enable an analysis of their contents with innovative methods. The clinical texts and examples of the standards to be mined have been provided by a company that provides services to health plan operators, with the interme- diation of a master’s student linked to it. It is intended to use pre-trained BERT embeddings for the Portuguese language, as well as morphosyntactic classes and entity recognition (e.g., drugs, diseases, medical specialties) according to specific medical terminology to calculate similarity and/or determine matching by mining the patterns in the documents. The generated embed- dings were used in visualization and clustering experiments in order to select datasets around recognized entities mentioned in clinical texts. With the use of the developed algorithms and the generated visualizations, it was possible to conclude that the BERT model used uses the context of the documents to generate the embeddings of the drugs close to the embeddings of other words mentioned in the same textual contexts, such as diseases treated with the respective drugs . This does not allow discriminating drugs and diseases, for example, in distinct groups of embeddings.Florianópolis, SC.Braz Junior, Osmar de OliveiraFileto, RenatoUniversidade Federal de Santa Catarina.Cardoso, Nathan Cezar2022-12-22T14:13:45Z2022-12-22T14:13:45Z2022-12-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis99 f.application/pdfhttps://repositorio.ufsc.br/handle/123456789/243398Open Access.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2022-12-22T14:13:45Zoai:repositorio.ufsc.br:123456789/243398Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-12-22T14:13:45Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Mineração de padrões morfo-semânticos em textos clínicos
title Mineração de padrões morfo-semânticos em textos clínicos
spellingShingle Mineração de padrões morfo-semânticos em textos clínicos
Cardoso, Nathan Cezar
Mineração de textos
Processamento de linguagem natural
Embeddings
Reconhecimento de entidades
Textos clínicos
title_short Mineração de padrões morfo-semânticos em textos clínicos
title_full Mineração de padrões morfo-semânticos em textos clínicos
title_fullStr Mineração de padrões morfo-semânticos em textos clínicos
title_full_unstemmed Mineração de padrões morfo-semânticos em textos clínicos
title_sort Mineração de padrões morfo-semânticos em textos clínicos
author Cardoso, Nathan Cezar
author_facet Cardoso, Nathan Cezar
author_role author
dc.contributor.none.fl_str_mv Braz Junior, Osmar de Oliveira
Fileto, Renato
Universidade Federal de Santa Catarina.
dc.contributor.author.fl_str_mv Cardoso, Nathan Cezar
dc.subject.por.fl_str_mv Mineração de textos
Processamento de linguagem natural
Embeddings
Reconhecimento de entidades
Textos clínicos
topic Mineração de textos
Processamento de linguagem natural
Embeddings
Reconhecimento de entidades
Textos clínicos
description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Ciências da Computação.
publishDate 2022
dc.date.none.fl_str_mv 2022-12-22T14:13:45Z
2022-12-22T14:13:45Z
2022-12-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/243398
url https://repositorio.ufsc.br/handle/123456789/243398
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Open Access.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Open Access.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 99 f.
application/pdf
dc.publisher.none.fl_str_mv Florianópolis, SC.
publisher.none.fl_str_mv Florianópolis, SC.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652316755099648