Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil

Detalhes bibliográficos
Autor(a) principal: Cabezudo, Marco Antonio Sobrevilla
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/
Resumo: Abstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos de geração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados.
id USP_fce2b2c304b6dd2f4100eba5d32b63c9
oai_identifier_str oai:teses.usp.br:tde-19042023-103916
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Geração de linguagem natural por meio de representações semânticas abstratas para o português do BrasilNatural language generation from abstract meaning representation for brazilian portugueseAbstract meaning representationBrazilian portuguese.Entorno de pocos recursosGeração de linguagem naturalLow-resource settingNatural language generationPortuguês brasileiro.Representação semântica abstrataAbstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos de geração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados.Abstract Meaning Representation (AMR) is a semantic formalism that encodes the meaning of a sentence as a graph. This representation includes several semantic information, such as semantic roles, coreference and named entities, among others. AMR has become a relevant research topic in meaning representation, semantic parsing, and natural language generation (NLG). Its success is grounded in its attempt to abstract away from syntactic idiosyncrasies and its wide use of mature linguistic resources such as PropBank. The AMR-to-Text generation task aims to produce a text that conveys the meaning encoded by an input AMR graph. For English, this has been widely studied, and several approaches like Statistical Machine Translation, tree and graph to string transducers, and, recently, neural models have been explored. Besides, the corpus used contains thousands of instances, enabling to explore diverse methods and achieve high performance. Conversely, getting high-quality corpora limits the research in other languages (as it usually comprises a difficult and expensive annotation task), resulting in smaller corpora and the inability for state-of-the-art methods to be replicated and/or achieve similar performance to the English ones. For Brazilian Portuguese, there is an AMR corpus containing annotated sentences of the The Little Prince book and various AMR parsers developed. In this context, this thesis aimed to investigate diverse AMR-to-Text generation methods, contributing to the development of this research area. In this way, we first adapted the AMR guidelines to Brazilian Portuguese, built a new multi-genre AMR corpus, and made an analysis of hard cases in the news and opinative genres. Moreover, we adapted some AMR-to-Text generation methods and tested them on our corpus. Subsequently, we explored diverse strategies to overcome the limited corpus size. In particular, we explored cross-lingual strategies using the English AMR corpus and advanced strategies that aimed to use resources (such as pre-trained models) and tasks (such as paraphrase generation) to improve the performance. Among the results, we evaluated the strengths and limitations of all strategies, with a special focus on those useful for languages with few resources, being the cross-lingual approaches the ones that produced the best results. The contributions of this thesis also include the various AMR resources made available.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroCabezudo, Marco Antonio Sobrevilla2023-02-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-05-11T13:10:57Zoai:teses.usp.br:tde-19042023-103916Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-05-11T13:10:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
Natural language generation from abstract meaning representation for brazilian portuguese
title Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
spellingShingle Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
Cabezudo, Marco Antonio Sobrevilla
Abstract meaning representation
Brazilian portuguese.
Entorno de pocos recursos
Geração de linguagem natural
Low-resource setting
Natural language generation
Português brasileiro.
Representação semântica abstrata
title_short Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
title_full Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
title_fullStr Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
title_full_unstemmed Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
title_sort Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
author Cabezudo, Marco Antonio Sobrevilla
author_facet Cabezudo, Marco Antonio Sobrevilla
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Cabezudo, Marco Antonio Sobrevilla
dc.subject.por.fl_str_mv Abstract meaning representation
Brazilian portuguese.
Entorno de pocos recursos
Geração de linguagem natural
Low-resource setting
Natural language generation
Português brasileiro.
Representação semântica abstrata
topic Abstract meaning representation
Brazilian portuguese.
Entorno de pocos recursos
Geração de linguagem natural
Low-resource setting
Natural language generation
Português brasileiro.
Representação semântica abstrata
description Abstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos de geração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados.
publishDate 2023
dc.date.none.fl_str_mv 2023-02-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-19042023-103916/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090859103158272