Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/ |
Resumo: | A análise sintática superficial, também conhecida pelo termo inglês \'shallow parsing\', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina. |
id |
USP_6f145f12e41f85fb5a995be47f8ca945 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-27072023-075811 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal DependenciesText chunking: a shallow parsing method for identification of lexical noun phrases of texts in Brazilian Portuguese according to the formalism Universal DependenciesAnálise sintática parcialLexical noun phraseShallow parsingSintagmas nominais lexicaisUniversal DependenciesUniversal DependenciesA análise sintática superficial, também conhecida pelo termo inglês \'shallow parsing\', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina.The superficial syntactic analysis, also known by the English term \'shallow parsing\', is a computational method that identifies constituent parts of a sentence (e.g., verbs, nouns, and adjectives) and relates them with hierarchically superior grammatical structures, the phrases (nominal, verbal, prepositions, etc.). This project addresses the identification of a specific type of noun phrase defined as a lexical noun phrase (SNL) in texts written in Brazilian Portuguese and annotated according to the Universal Dependencies (UD) formalism. The SNL, due to their discriminatory nature, typically assume thematic or semantic functions and compose a reserved set of segments that we call textual descriptors. SNL are used in various natural language processing tasks, such as information extraction and retrieval, named entity recognition, text categorization, sentiment analysis, fact extraction, relationship extraction, and summarization of texts. Unlike the grammar of sentence structures, that is, the grammar of constituents, the UD establishes a syntax of dependency between words that intends to represent any human language. The UD is based on the identification, description, and attribution of the dependency relationships existing in the elements of a sentence, that is, its terms and words. In this work, we extracted SNL from sentences annotated in UD in an abstract and inferential way using Machine Learning algorithms.Biblioteca Digitais de Teses e Dissertações da USPRuiz, Evandro Eduardo SeronSouza, Aleksander Tomaz de2023-06-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-08-22T15:25:02Zoai:teses.usp.br:tde-27072023-075811Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-08-22T15:25:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies Text chunking: a shallow parsing method for identification of lexical noun phrases of texts in Brazilian Portuguese according to the formalism Universal Dependencies |
title |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies |
spellingShingle |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies Souza, Aleksander Tomaz de Análise sintática parcial Lexical noun phrase Shallow parsing Sintagmas nominais lexicais Universal Dependencies Universal Dependencies |
title_short |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies |
title_full |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies |
title_fullStr |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies |
title_full_unstemmed |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies |
title_sort |
Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies |
author |
Souza, Aleksander Tomaz de |
author_facet |
Souza, Aleksander Tomaz de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ruiz, Evandro Eduardo Seron |
dc.contributor.author.fl_str_mv |
Souza, Aleksander Tomaz de |
dc.subject.por.fl_str_mv |
Análise sintática parcial Lexical noun phrase Shallow parsing Sintagmas nominais lexicais Universal Dependencies Universal Dependencies |
topic |
Análise sintática parcial Lexical noun phrase Shallow parsing Sintagmas nominais lexicais Universal Dependencies Universal Dependencies |
description |
A análise sintática superficial, também conhecida pelo termo inglês \'shallow parsing\', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-06-02 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/ |
url |
https://www.teses.usp.br/teses/disponiveis/59/59143/tde-27072023-075811/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257415339212800 |