Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFABC |
Texto Completo: | http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681 |
Resumo: | Orientador: Prof. Dr. André Kazuo Takahata |
id |
UFBC_c8ad5975a9c8fdca749d3ca5c4ede381 |
---|---|
oai_identifier_str |
oai:BDTD:124681 |
network_acronym_str |
UFBC |
network_name_str |
Repositório Institucional da UFABC |
repository_id_str |
|
spelling |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiroCOVID-19CORPUS DE TEXTOS BIOMÉDICOSCOMPLEXIDADE TEXTUALSIMPLIFICAÇÃO TEXTUALCORPUS OF BIOMEDICAL TEXTSCOMPLEX WORD IDENTICATIONLEXICAL SIMPLIFICATIONPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientador: Prof. Dr. André Kazuo TakahataCoorientadora: Profa. Dra. Margarethe Steinberger-EliasDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2022.Esta dissertação propõe-se a apresentar a fundamentação teórica e o processo metodológico que nortearam a elaboração do corpus COVID-19 UFABC. O corpus aqui proposto compõe-se de textos de linguagem especializada do domínio da saúde em língua portuguesa publicados entre os meses de março de 2020 a setembro de 2020, período inicial da pandemia. À época indicada, o conhecimento a respeito do coronavírus era inicialmente restrito à comunidade acadêmica especializada e, em consequência disso, a difusão de conhecimento acerca do COVID-19 e dos seus protocolos de prevenção, como o isolamento social, desempenhou papel de protagonismo no enfrentamento da pandemia. Dessa forma, os textos reunidos nesse corpus comportam termos oriundos de domínios especializados, contendo expressões complexas que podem trazer ao leitor leigo ou pouco familiarizado com o jargão médico alguma dificuldade de compreensão. Essa dissertação apresenta esforços de um primeiro estudo para elaboração de recursos de corpora compatíveis com pesquisas sobre tarefas de simplificação lexical e identificação de palavras complexas no contexto de combate à COVID-19. A metodologia baseou-se na extração, compilação, armazenamento e categorização de textos da base de dados científicos Pubmed, resultando em um corpus de 254 textos. A aplicação de técnicas de categorização mostrou que o maior grupo, de cerca de 30% dos textos, situa-se nas áreas de Saúde Coletiva e Epidemiologia, em detrimento de outras especialidades médicas e áreas mais exploratórias de pesquisa que tratam, por exemplo, de virologia ou genômica. Este resultado pode indicar padrões de um recorte do comportamento da comunidade científica no período inicial da pandemia, em especial no que concerne às publicações em língua portuguesa.This dissertation proposes to present the theoretical foundation and the methodological process that guided the elaboration of the COVID-19 UFABC corpus. The corpus proposed here is composed of specialized language texts in the field of health in Portuguese published between March 2020 and September 2020, the initial period of the pandemic. At the time indicated, knowledge about the coronavirus was initially restricted to the specialized academic community and, as a result, the dissemination of knowledge about COVID-19 and its prevention protocols, such as social isolation, played a leading role in confronting it. of the pandemic. In this way, the texts gathered in this corpus contain terms from specialized domains, containing complex expressions that may cause the lay reader or one who is unfamiliar with medical jargon some difficulty in understanding. This dissertation presents efforts from a first study to develop corpora resources compatible with research on lexical simplification tasks and identification of complex words in the context of combating COVID-19. The methodology was based on the extraction, compilation, storage and categorization of texts from the Pubmed scientific database, resulting in a corpus of 254 texts. The application of categorization techniques showed that the largest group, around 30% of the texts, is located in the areas of Collective Health and Epidemiology, to the detriment of other medical specialties and more exploratory areas of research that deal, for example, with virology or genomics. This result may indicate patterns of a cut of the behavior of the scientific community in the initial period of the pandemic, especially with regard to publications in Portuguese.Takahata, André KazuoSteinberger-Elias, Margarethe BornTanaka, HarkiNose Filho, KenjiLeite, Janaína da Silva2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf86 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681&midiaext=80949Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124681porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2023-08-10T16:18:13Zoai:BDTD:124681Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2023-08-10T16:18:13Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false |
dc.title.none.fl_str_mv |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
title |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
spellingShingle |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro Leite, Janaína da Silva COVID-19 CORPUS DE TEXTOS BIOMÉDICOS COMPLEXIDADE TEXTUAL SIMPLIFICAÇÃO TEXTUAL CORPUS OF BIOMEDICAL TEXTS COMPLEX WORD IDENTICATION LEXICAL SIMPLIFICATION PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
title_short |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
title_full |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
title_fullStr |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
title_full_unstemmed |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
title_sort |
Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro |
author |
Leite, Janaína da Silva |
author_facet |
Leite, Janaína da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Takahata, André Kazuo Steinberger-Elias, Margarethe Born Tanaka, Harki Nose Filho, Kenji |
dc.contributor.author.fl_str_mv |
Leite, Janaína da Silva |
dc.subject.por.fl_str_mv |
COVID-19 CORPUS DE TEXTOS BIOMÉDICOS COMPLEXIDADE TEXTUAL SIMPLIFICAÇÃO TEXTUAL CORPUS OF BIOMEDICAL TEXTS COMPLEX WORD IDENTICATION LEXICAL SIMPLIFICATION PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
topic |
COVID-19 CORPUS DE TEXTOS BIOMÉDICOS COMPLEXIDADE TEXTUAL SIMPLIFICAÇÃO TEXTUAL CORPUS OF BIOMEDICAL TEXTS COMPLEX WORD IDENTICATION LEXICAL SIMPLIFICATION PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC |
description |
Orientador: Prof. Dr. André Kazuo Takahata |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681 |
url |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681&midiaext=80949 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124681 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 86 f. : il. |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC |
instname_str |
Universidade Federal do ABC (UFABC) |
instacron_str |
UFABC |
institution |
UFABC |
reponame_str |
Repositório Institucional da UFABC |
collection |
Repositório Institucional da UFABC |
repository.name.fl_str_mv |
Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC) |
repository.mail.fl_str_mv |
|
_version_ |
1813263962727251968 |