Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies

Detalhes bibliográficos
Autor(a) principal: Souza, Aleksander Tomaz de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/
Resumo: A análise sintática superficial, também conhecida pelo termo inglês \'shallow parsing\', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina.
id USP_6f145f12e41f85fb5a995be47f8ca945
oai_identifier_str oai:teses.usp.br:tde-27072023-075811
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal DependenciesText chunking: a shallow parsing method for identification of lexical noun phrases of texts in Brazilian Portuguese according to the formalism Universal DependenciesAnálise sintática parcialLexical noun phraseShallow parsingSintagmas nominais lexicaisUniversal DependenciesUniversal DependenciesA análise sintática superficial, também conhecida pelo termo inglês \'shallow parsing\', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina.The superficial syntactic analysis, also known by the English term \'shallow parsing\', is a computational method that identifies constituent parts of a sentence (e.g., verbs, nouns, and adjectives) and relates them with hierarchically superior grammatical structures, the phrases (nominal, verbal, prepositions, etc.). This project addresses the identification of a specific type of noun phrase defined as a lexical noun phrase (SNL) in texts written in Brazilian Portuguese and annotated according to the Universal Dependencies (UD) formalism. The SNL, due to their discriminatory nature, typically assume thematic or semantic functions and compose a reserved set of segments that we call textual descriptors. SNL are used in various natural language processing tasks, such as information extraction and retrieval, named entity recognition, text categorization, sentiment analysis, fact extraction, relationship extraction, and summarization of texts. Unlike the grammar of sentence structures, that is, the grammar of constituents, the UD establishes a syntax of dependency between words that intends to represent any human language. The UD is based on the identification, description, and attribution of the dependency relationships existing in the elements of a sentence, that is, its terms and words. In this work, we extracted SNL from sentences annotated in UD in an abstract and inferential way using Machine Learning algorithms.Biblioteca Digitais de Teses e Dissertações da USPRuiz, Evandro Eduardo SeronSouza, Aleksander Tomaz de2023-06-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-08-22T15:25:02Zoai:teses.usp.br:tde-27072023-075811Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-08-22T15:25:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
Text chunking: a shallow parsing method for identification of lexical noun phrases of texts in Brazilian Portuguese according to the formalism Universal Dependencies
title Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
spellingShingle Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
Souza, Aleksander Tomaz de
Análise sintática parcial
Lexical noun phrase
Shallow parsing
Sintagmas nominais lexicais
Universal Dependencies
Universal Dependencies
title_short Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
title_full Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
title_fullStr Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
title_full_unstemmed Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
title_sort Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
author Souza, Aleksander Tomaz de
author_facet Souza, Aleksander Tomaz de
author_role author
dc.contributor.none.fl_str_mv Ruiz, Evandro Eduardo Seron
dc.contributor.author.fl_str_mv Souza, Aleksander Tomaz de
dc.subject.por.fl_str_mv Análise sintática parcial
Lexical noun phrase
Shallow parsing
Sintagmas nominais lexicais
Universal Dependencies
Universal Dependencies
topic Análise sintática parcial
Lexical noun phrase
Shallow parsing
Sintagmas nominais lexicais
Universal Dependencies
Universal Dependencies
description A análise sintática superficial, também conhecida pelo termo inglês \'shallow parsing\', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina.
publishDate 2023
dc.date.none.fl_str_mv 2023-06-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/
url https://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257415339212800