Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro

Detalhes bibliográficos
Autor(a) principal: Leite, Janaína da Silva
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFABC
Texto Completo: http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681
Resumo: Orientador: Prof. Dr. André Kazuo Takahata
id UFBC_c8ad5975a9c8fdca749d3ca5c4ede381
oai_identifier_str oai:BDTD:124681
network_acronym_str UFBC
network_name_str Repositório Institucional da UFABC
repository_id_str
spelling Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiroCOVID-19CORPUS DE TEXTOS BIOMÉDICOSCOMPLEXIDADE TEXTUALSIMPLIFICAÇÃO TEXTUALCORPUS OF BIOMEDICAL TEXTSCOMPLEX WORD IDENTICATIONLEXICAL SIMPLIFICATIONPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientador: Prof. Dr. André Kazuo TakahataCoorientadora: Profa. Dra. Margarethe Steinberger-EliasDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2022.Esta dissertação propõe-se a apresentar a fundamentação teórica e o processo metodológico que nortearam a elaboração do corpus COVID-19 UFABC. O corpus aqui proposto compõe-se de textos de linguagem especializada do domínio da saúde em língua portuguesa publicados entre os meses de março de 2020 a setembro de 2020, período inicial da pandemia. À época indicada, o conhecimento a respeito do coronavírus era inicialmente restrito à comunidade acadêmica especializada e, em consequência disso, a difusão de conhecimento acerca do COVID-19 e dos seus protocolos de prevenção, como o isolamento social, desempenhou papel de protagonismo no enfrentamento da pandemia. Dessa forma, os textos reunidos nesse corpus comportam termos oriundos de domínios especializados, contendo expressões complexas que podem trazer ao leitor leigo ou pouco familiarizado com o jargão médico alguma dificuldade de compreensão. Essa dissertação apresenta esforços de um primeiro estudo para elaboração de recursos de corpora compatíveis com pesquisas sobre tarefas de simplificação lexical e identificação de palavras complexas no contexto de combate à COVID-19. A metodologia baseou-se na extração, compilação, armazenamento e categorização de textos da base de dados científicos Pubmed, resultando em um corpus de 254 textos. A aplicação de técnicas de categorização mostrou que o maior grupo, de cerca de 30% dos textos, situa-se nas áreas de Saúde Coletiva e Epidemiologia, em detrimento de outras especialidades médicas e áreas mais exploratórias de pesquisa que tratam, por exemplo, de virologia ou genômica. Este resultado pode indicar padrões de um recorte do comportamento da comunidade científica no período inicial da pandemia, em especial no que concerne às publicações em língua portuguesa.This dissertation proposes to present the theoretical foundation and the methodological process that guided the elaboration of the COVID-19 UFABC corpus. The corpus proposed here is composed of specialized language texts in the field of health in Portuguese published between March 2020 and September 2020, the initial period of the pandemic. At the time indicated, knowledge about the coronavirus was initially restricted to the specialized academic community and, as a result, the dissemination of knowledge about COVID-19 and its prevention protocols, such as social isolation, played a leading role in confronting it. of the pandemic. In this way, the texts gathered in this corpus contain terms from specialized domains, containing complex expressions that may cause the lay reader or one who is unfamiliar with medical jargon some difficulty in understanding. This dissertation presents efforts from a first study to develop corpora resources compatible with research on lexical simplification tasks and identification of complex words in the context of combating COVID-19. The methodology was based on the extraction, compilation, storage and categorization of texts from the Pubmed scientific database, resulting in a corpus of 254 texts. The application of categorization techniques showed that the largest group, around 30% of the texts, is located in the areas of Collective Health and Epidemiology, to the detriment of other medical specialties and more exploratory areas of research that deal, for example, with virology or genomics. This result may indicate patterns of a cut of the behavior of the scientific community in the initial period of the pandemic, especially with regard to publications in Portuguese.Takahata, André KazuoSteinberger-Elias, Margarethe BornTanaka, HarkiNose Filho, KenjiLeite, Janaína da Silva2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf86 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681&midiaext=80949Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124681porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2023-08-10T16:18:13Zoai:BDTD:124681Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2023-08-10T16:18:13Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
spellingShingle Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
Leite, Janaína da Silva
COVID-19
CORPUS DE TEXTOS BIOMÉDICOS
COMPLEXIDADE TEXTUAL
SIMPLIFICAÇÃO TEXTUAL
CORPUS OF BIOMEDICAL TEXTS
COMPLEX WORD IDENTICATION
LEXICAL SIMPLIFICATION
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
title_short Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_full Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_fullStr Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_full_unstemmed Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_sort Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
author Leite, Janaína da Silva
author_facet Leite, Janaína da Silva
author_role author
dc.contributor.none.fl_str_mv Takahata, André Kazuo
Steinberger-Elias, Margarethe Born
Tanaka, Harki
Nose Filho, Kenji
dc.contributor.author.fl_str_mv Leite, Janaína da Silva
dc.subject.por.fl_str_mv COVID-19
CORPUS DE TEXTOS BIOMÉDICOS
COMPLEXIDADE TEXTUAL
SIMPLIFICAÇÃO TEXTUAL
CORPUS OF BIOMEDICAL TEXTS
COMPLEX WORD IDENTICATION
LEXICAL SIMPLIFICATION
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
topic COVID-19
CORPUS DE TEXTOS BIOMÉDICOS
COMPLEXIDADE TEXTUAL
SIMPLIFICAÇÃO TEXTUAL
CORPUS OF BIOMEDICAL TEXTS
COMPLEX WORD IDENTICATION
LEXICAL SIMPLIFICATION
PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
description Orientador: Prof. Dr. André Kazuo Takahata
publishDate 2022
dc.date.none.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681
url http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681&midiaext=80949
Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124681
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
86 f. : il.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFABC
instname:Universidade Federal do ABC (UFABC)
instacron:UFABC
instname_str Universidade Federal do ABC (UFABC)
instacron_str UFABC
institution UFABC
reponame_str Repositório Institucional da UFABC
collection Repositório Institucional da UFABC
repository.name.fl_str_mv Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_ 1813263962727251968