Indução gramatical automática para o português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/ |
Resumo: | A indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método. |
id |
USP_45698759640fb3c885d8bcb30ee4329b |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-01082024-152437 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Indução gramatical automática para o portuguêsGrammar induction for portuguese.Gramatical inferenceGrammar inductionIndução gramaticalInferência gramaticalParsing não supervisionadoUnsupervised parsingA indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método.Grammar induction is a task that aims to extract syntactic structures from unannotated sentences. This task is important for various applications not only in Natural Language Processing but also in Bioinformatics, Linguistics, Software Engineering, and Psycholinguistics, to name a few. There is a significant limitation of works for Portuguese, as most are targeted towards the English language. Existing works for other languages are generally built to generalize to other languages, which naturally may have different linguistic structures. Given the importance of the Portuguese language, one of the top 10 spoken languages ones the planet, as well as the lack of precise models for Portuguese, there is a need for investigation into the possibility of filling this gap. The goal of this work was to study grammar induction methods from the perspective of the Portuguese language and propose new methods for Portuguese using raw text (without any type of annotation made by humans or unsupervised automatization). To achieve these objectives, an exhaustive literature review was conducted. Studies were then carried out to analyze the feasibility of certain approaches, such as Mutual Information, in grammar induction for Portuguese. The results obtained in this study demonstrate the feasibility of recovering grammatical structures, including certain types of syntactic relationships, such as the subject, with a certain level of confidence. Additionally, it was observed that the use of intrinsic language features, such as word length, contributes to improved method performance.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSilva, Diego Pedro Gonçalves da2024-06-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-01T19:09:02Zoai:teses.usp.br:tde-01082024-152437Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-01T19:09:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Indução gramatical automática para o português Grammar induction for portuguese. |
title |
Indução gramatical automática para o português |
spellingShingle |
Indução gramatical automática para o português Silva, Diego Pedro Gonçalves da Gramatical inference Grammar induction Indução gramatical Inferência gramatical Parsing não supervisionado Unsupervised parsing |
title_short |
Indução gramatical automática para o português |
title_full |
Indução gramatical automática para o português |
title_fullStr |
Indução gramatical automática para o português |
title_full_unstemmed |
Indução gramatical automática para o português |
title_sort |
Indução gramatical automática para o português |
author |
Silva, Diego Pedro Gonçalves da |
author_facet |
Silva, Diego Pedro Gonçalves da |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pardo, Thiago Alexandre Salgueiro |
dc.contributor.author.fl_str_mv |
Silva, Diego Pedro Gonçalves da |
dc.subject.por.fl_str_mv |
Gramatical inference Grammar induction Indução gramatical Inferência gramatical Parsing não supervisionado Unsupervised parsing |
topic |
Gramatical inference Grammar induction Indução gramatical Inferência gramatical Parsing não supervisionado Unsupervised parsing |
description |
A indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-06-26 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090281765601280 |