Indução gramatical automática para o português

Detalhes bibliográficos
Autor(a) principal: Silva, Diego Pedro Gonçalves da
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/
Resumo: A indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método.
id USP_45698759640fb3c885d8bcb30ee4329b
oai_identifier_str oai:teses.usp.br:tde-01082024-152437
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Indução gramatical automática para o portuguêsGrammar induction for portuguese.Gramatical inferenceGrammar inductionIndução gramaticalInferência gramaticalParsing não supervisionadoUnsupervised parsingA indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método.Grammar induction is a task that aims to extract syntactic structures from unannotated sentences. This task is important for various applications not only in Natural Language Processing but also in Bioinformatics, Linguistics, Software Engineering, and Psycholinguistics, to name a few. There is a significant limitation of works for Portuguese, as most are targeted towards the English language. Existing works for other languages are generally built to generalize to other languages, which naturally may have different linguistic structures. Given the importance of the Portuguese language, one of the top 10 spoken languages ones the planet, as well as the lack of precise models for Portuguese, there is a need for investigation into the possibility of filling this gap. The goal of this work was to study grammar induction methods from the perspective of the Portuguese language and propose new methods for Portuguese using raw text (without any type of annotation made by humans or unsupervised automatization). To achieve these objectives, an exhaustive literature review was conducted. Studies were then carried out to analyze the feasibility of certain approaches, such as Mutual Information, in grammar induction for Portuguese. The results obtained in this study demonstrate the feasibility of recovering grammatical structures, including certain types of syntactic relationships, such as the subject, with a certain level of confidence. Additionally, it was observed that the use of intrinsic language features, such as word length, contributes to improved method performance.Biblioteca Digitais de Teses e Dissertações da USPPardo, Thiago Alexandre SalgueiroSilva, Diego Pedro Gonçalves da2024-06-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-01T19:09:02Zoai:teses.usp.br:tde-01082024-152437Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-01T19:09:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Indução gramatical automática para o português
Grammar induction for portuguese.
title Indução gramatical automática para o português
spellingShingle Indução gramatical automática para o português
Silva, Diego Pedro Gonçalves da
Gramatical inference
Grammar induction
Indução gramatical
Inferência gramatical
Parsing não supervisionado
Unsupervised parsing
title_short Indução gramatical automática para o português
title_full Indução gramatical automática para o português
title_fullStr Indução gramatical automática para o português
title_full_unstemmed Indução gramatical automática para o português
title_sort Indução gramatical automática para o português
author Silva, Diego Pedro Gonçalves da
author_facet Silva, Diego Pedro Gonçalves da
author_role author
dc.contributor.none.fl_str_mv Pardo, Thiago Alexandre Salgueiro
dc.contributor.author.fl_str_mv Silva, Diego Pedro Gonçalves da
dc.subject.por.fl_str_mv Gramatical inference
Grammar induction
Indução gramatical
Inferência gramatical
Parsing não supervisionado
Unsupervised parsing
topic Gramatical inference
Grammar induction
Indução gramatical
Inferência gramatical
Parsing não supervisionado
Unsupervised parsing
description A indução gramatical automática é uma tarefa que busca extrair estruturas sintáticas de sentença não anotada. Esta tarefa é importante para diversas aplicações não apenas para Processamento de Língua Natural, mas também para Bioinformática, Linguística, Engenharia de Software e Psicolinguística, para citar algumas. Há uma grande limitação de trabalhos para o português, pois a maioria são direcionados para a língua inglesa. Os trabalhos existentes para outras línguas são construídos, geralmente, para tentar generalizar para outras línguas, que naturalmente podem apresentar estruturas linguísticas distintas. Com a importância da língua portuguesa, uma das 10 mais faladas no planeta, assim como a falta de modelos precisos para a língua portuguesa, faz-se necessário uma investigação sobre a possibilidade de preencher esta lacuna. O objetivo deste trabalho foi estudar os métodos em Indução Gramatical sobre a perspectiva da língua portuguesa e propor novos métodos para o Português usando texto puro (sem nenhum tipo de anotação feita por humanos, ou automatizada não supervisionada). Para atingir estes objetivos, foi realizada uma exaustiva revisão da literatura. Em seguida foram realizados estudos a fim de analisar a viabilidade de determinadas abordagens, como a Informação Mútua, na indução gramatical para o português. Os resultados alcançados neste estudo evidenciam a viabilidade de recuperar estruturas gramaticais, inclusive certos tipos de relações sintáticas, como sujeito e objeto, com uma certa confiança, 74.9% para objetos e 50.1% para sujeitos. Além disso, notou-se que a utilização de características intrínsecas da língua, como o comprimento das palavras, contribuem para um melhor desempenho do método.
publishDate 2024
dc.date.none.fl_str_mv 2024-06-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-01082024-152437/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090281765601280