Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro

Leite, Janaína da Silva

Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro

Detalhes bibliográficos
Autor(a) principal:	Leite, Janaína da Silva
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFABC
Texto Completo:	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681
Resumo:	Orientador: Prof. Dr. André Kazuo Takahata

Metadados do item

id	UFBC_c8ad5975a9c8fdca749d3ca5c4ede381
oai_identifier_str	oai:BDTD:124681
network_acronym_str	UFBC
network_name_str	Repositório Institucional da UFABC
repository_id_str
spelling	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiroCOVID-19CORPUS DE TEXTOS BIOMÉDICOSCOMPLEXIDADE TEXTUALSIMPLIFICAÇÃO TEXTUALCORPUS OF BIOMEDICAL TEXTSCOMPLEX WORD IDENTICATIONLEXICAL SIMPLIFICATIONPROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABCOrientador: Prof. Dr. André Kazuo TakahataCoorientadora: Profa. Dra. Margarethe Steinberger-EliasDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Engenharia da Informação, Santo André, 2022.Esta dissertação propõe-se a apresentar a fundamentação teórica e o processo metodológico que nortearam a elaboração do corpus COVID-19 UFABC. O corpus aqui proposto compõe-se de textos de linguagem especializada do domínio da saúde em língua portuguesa publicados entre os meses de março de 2020 a setembro de 2020, período inicial da pandemia. À época indicada, o conhecimento a respeito do coronavírus era inicialmente restrito à comunidade acadêmica especializada e, em consequência disso, a difusão de conhecimento acerca do COVID-19 e dos seus protocolos de prevenção, como o isolamento social, desempenhou papel de protagonismo no enfrentamento da pandemia. Dessa forma, os textos reunidos nesse corpus comportam termos oriundos de domínios especializados, contendo expressões complexas que podem trazer ao leitor leigo ou pouco familiarizado com o jargão médico alguma dificuldade de compreensão. Essa dissertação apresenta esforços de um primeiro estudo para elaboração de recursos de corpora compatíveis com pesquisas sobre tarefas de simplificação lexical e identificação de palavras complexas no contexto de combate à COVID-19. A metodologia baseou-se na extração, compilação, armazenamento e categorização de textos da base de dados científicos Pubmed, resultando em um corpus de 254 textos. A aplicação de técnicas de categorização mostrou que o maior grupo, de cerca de 30% dos textos, situa-se nas áreas de Saúde Coletiva e Epidemiologia, em detrimento de outras especialidades médicas e áreas mais exploratórias de pesquisa que tratam, por exemplo, de virologia ou genômica. Este resultado pode indicar padrões de um recorte do comportamento da comunidade científica no período inicial da pandemia, em especial no que concerne às publicações em língua portuguesa.This dissertation proposes to present the theoretical foundation and the methodological process that guided the elaboration of the COVID-19 UFABC corpus. The corpus proposed here is composed of specialized language texts in the field of health in Portuguese published between March 2020 and September 2020, the initial period of the pandemic. At the time indicated, knowledge about the coronavirus was initially restricted to the specialized academic community and, as a result, the dissemination of knowledge about COVID-19 and its prevention protocols, such as social isolation, played a leading role in confronting it. of the pandemic. In this way, the texts gathered in this corpus contain terms from specialized domains, containing complex expressions that may cause the lay reader or one who is unfamiliar with medical jargon some difficulty in understanding. This dissertation presents efforts from a first study to develop corpora resources compatible with research on lexical simplification tasks and identification of complex words in the context of combating COVID-19. The methodology was based on the extraction, compilation, storage and categorization of texts from the Pubmed scientific database, resulting in a corpus of 254 texts. The application of categorization techniques showed that the largest group, around 30% of the texts, is located in the areas of Collective Health and Epidemiology, to the detriment of other medical specialties and more exploratory areas of research that deal, for example, with virology or genomics. This result may indicate patterns of a cut of the behavior of the scientific community in the initial period of the pandemic, especially with regard to publications in Portuguese.Takahata, André KazuoSteinberger-Elias, Margarethe BornTanaka, HarkiNose Filho, KenjiLeite, Janaína da Silva2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf86 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681&midiaext=80949Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124681porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2023-08-10T16:18:13Zoai:BDTD:124681Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2023-08-10T16:18:13Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false
dc.title.none.fl_str_mv	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
spellingShingle	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro Leite, Janaína da Silva COVID-19 CORPUS DE TEXTOS BIOMÉDICOS COMPLEXIDADE TEXTUAL SIMPLIFICAÇÃO TEXTUAL CORPUS OF BIOMEDICAL TEXTS COMPLEX WORD IDENTICATION LEXICAL SIMPLIFICATION PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
title_short	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_full	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_fullStr	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_full_unstemmed	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
title_sort	Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro
author	Leite, Janaína da Silva
author_facet	Leite, Janaína da Silva
author_role	author
dc.contributor.none.fl_str_mv	Takahata, André Kazuo Steinberger-Elias, Margarethe Born Tanaka, Harki Nose Filho, Kenji
dc.contributor.author.fl_str_mv	Leite, Janaína da Silva
dc.subject.por.fl_str_mv	COVID-19 CORPUS DE TEXTOS BIOMÉDICOS COMPLEXIDADE TEXTUAL SIMPLIFICAÇÃO TEXTUAL CORPUS OF BIOMEDICAL TEXTS COMPLEX WORD IDENTICATION LEXICAL SIMPLIFICATION PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
topic	COVID-19 CORPUS DE TEXTOS BIOMÉDICOS COMPLEXIDADE TEXTUAL SIMPLIFICAÇÃO TEXTUAL CORPUS OF BIOMEDICAL TEXTS COMPLEX WORD IDENTICATION LEXICAL SIMPLIFICATION PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DA INFORMAÇÃO - UFABC
description	Orientador: Prof. Dr. André Kazuo Takahata
publishDate	2022
dc.date.none.fl_str_mv	2022
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681
url	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124681&midiaext=80949 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124681
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf 86 f. : il.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC
instname_str	Universidade Federal do ABC (UFABC)
instacron_str	UFABC
institution	UFABC
reponame_str	Repositório Institucional da UFABC
collection	Repositório Institucional da UFABC
repository.name.fl_str_mv	Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)
repository.mail.fl_str_mv
_version_	1813263962727251968

Fundamentação e elaboração de corpus de linguagem especializada para o domínio da saúde sobre a COVID-19 em português brasileiro

Registros relacionados