Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE

Detalhes bibliográficos
Autor(a) principal: Vaz, Mafalda Silva
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/51054
Resumo: As ferramentas de processamento da linguagem natural são cada vez mais usadas na automatização de processos no contexto de aquisição de segunda língua e no tratamento de dados de falantes não-nativos. Um dos principais passos intermédios na construção destas ferramentas de processamento automático de dados de falantes não-nativos é a análise sintática automática, realizada por parsers. No entanto, a maioria dos parsers assume que o texto a ser analisado respeita a norma, uma vez que estes foram treinados e avaliados com esse tipo de texto. Por conseguinte, o seu uso em textos de aprendentes de uma L2 poderá afetar o seu desempenho e originar resultados menos fiáveis. O conhecimento das limitações específicas do parser ao lidar com este tipo de texto pode ser muito vantajoso e influenciar a forma como usamos estes sistemas. É com vista a contribuir para uma melhor compreensão deste aspeto que se desenvolveu este projeto. Neste âmbito, foi feita uma avaliação do desempenho de dois parsers de dependências baseados em paradigmas diferentes – baseado em regras vs. baseado em estatística. Foi selecionado um corpus de aprendentes de Português L2/LE com o objetivo de identificar os tipos de erro de aprendentes que mais frequentemente alteram a análise produzida pelos parsers. A análise dos resultados permitiu, entre outras coisas, verificar que os erros com maior impacto nos outputs produzidos são os mesmos em ambos os parsers. No entanto, também se verificaram diferenças significativas entre as análises produzidas pelos sistemas de diferentes paradigmas, principalmente ao nível de padrões de alteração dos outputs dos sistemas perante a presença/ausência de certos tipos de erro. Este trabalho contribuiu, assim, para elucidar os desafios que os parsers poderão enfrentar quando lhes são apresentados textos produzidos por aprendentes, abrindo portas para o desenvolvimento futuro de ferramentas dedicadas ao tratamento deste tipo de texto, tais como sistemas de deteção automática de erros e de identificação automática de proficiência.
id RCAP_e265abbb9062b779d9f5104e403c0850
oai_identifier_str oai:repositorio.ul.pt:10451/51054
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LEDomínio/Área Científica::Humanidades::Línguas e LiteraturasAs ferramentas de processamento da linguagem natural são cada vez mais usadas na automatização de processos no contexto de aquisição de segunda língua e no tratamento de dados de falantes não-nativos. Um dos principais passos intermédios na construção destas ferramentas de processamento automático de dados de falantes não-nativos é a análise sintática automática, realizada por parsers. No entanto, a maioria dos parsers assume que o texto a ser analisado respeita a norma, uma vez que estes foram treinados e avaliados com esse tipo de texto. Por conseguinte, o seu uso em textos de aprendentes de uma L2 poderá afetar o seu desempenho e originar resultados menos fiáveis. O conhecimento das limitações específicas do parser ao lidar com este tipo de texto pode ser muito vantajoso e influenciar a forma como usamos estes sistemas. É com vista a contribuir para uma melhor compreensão deste aspeto que se desenvolveu este projeto. Neste âmbito, foi feita uma avaliação do desempenho de dois parsers de dependências baseados em paradigmas diferentes – baseado em regras vs. baseado em estatística. Foi selecionado um corpus de aprendentes de Português L2/LE com o objetivo de identificar os tipos de erro de aprendentes que mais frequentemente alteram a análise produzida pelos parsers. A análise dos resultados permitiu, entre outras coisas, verificar que os erros com maior impacto nos outputs produzidos são os mesmos em ambos os parsers. No entanto, também se verificaram diferenças significativas entre as análises produzidas pelos sistemas de diferentes paradigmas, principalmente ao nível de padrões de alteração dos outputs dos sistemas perante a presença/ausência de certos tipos de erro. Este trabalho contribuiu, assim, para elucidar os desafios que os parsers poderão enfrentar quando lhes são apresentados textos produzidos por aprendentes, abrindo portas para o desenvolvimento futuro de ferramentas dedicadas ao tratamento deste tipo de texto, tais como sistemas de deteção automática de erros e de identificação automática de proficiência.Natural language processing tools have been increasingly used to automatize processes in the context of second language acquisition and to process non-native speaker data. Automatic syntactic analysis, performed by parsers, is an important intermediate step in the development of these tools. However, most parsers assume that the text to be analyzed is canonical since they have been trained and evaluated with that type of text. Therefore, using these systems on texts written by language learners may affect their performance and lead to less reliable results. This project aims to contribute to a better understanding of the specific limitations of the parser when dealing with this type of text. Learning more about this can influence the way we use these systems. With this in mind, we evaluated the performance of two dependency parsers based on different paradigms – rule-based vs. statistic-based. A corpus of Portuguese L2/FL learner sentences was compiled in order to identify which types of errors produced by learners most frequently modify the parser output. The analysis of the results allowed us to verify that the errors with the most considerable impact on the output produced are the same in both parsers. Nevertheless, there were significant differences between the outputs of the parsers based on different paradigms, especially regarding mismatch patterns of the outputs depending on the presence/absence of certain types of errors. The results of this study contribute to elucidate the challenges parsers face when presented with texts produced by learners, opening the door for the future development of tools better suited to handle this type of text, such as automated error detection systems and automatic classification of learner proficiency systems.Mendes, SaraRepositório da Universidade de LisboaVaz, Mafalda Silva2022-01-31T13:54:31Z2021-11-252022-01-142021-11-25T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51054TID:202831922porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:55:31Zoai:repositorio.ul.pt:10451/51054Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:02:23.087972Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
title Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
spellingShingle Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
Vaz, Mafalda Silva
Domínio/Área Científica::Humanidades::Línguas e Literaturas
title_short Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
title_full Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
title_fullStr Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
title_full_unstemmed Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
title_sort Análise sintática automática de texto real com estruturas desviantes: o desempenho de sistemas de parsing baseados em dependências com textos de aprendentes de Português L2/LE
author Vaz, Mafalda Silva
author_facet Vaz, Mafalda Silva
author_role author
dc.contributor.none.fl_str_mv Mendes, Sara
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Vaz, Mafalda Silva
dc.subject.por.fl_str_mv Domínio/Área Científica::Humanidades::Línguas e Literaturas
topic Domínio/Área Científica::Humanidades::Línguas e Literaturas
description As ferramentas de processamento da linguagem natural são cada vez mais usadas na automatização de processos no contexto de aquisição de segunda língua e no tratamento de dados de falantes não-nativos. Um dos principais passos intermédios na construção destas ferramentas de processamento automático de dados de falantes não-nativos é a análise sintática automática, realizada por parsers. No entanto, a maioria dos parsers assume que o texto a ser analisado respeita a norma, uma vez que estes foram treinados e avaliados com esse tipo de texto. Por conseguinte, o seu uso em textos de aprendentes de uma L2 poderá afetar o seu desempenho e originar resultados menos fiáveis. O conhecimento das limitações específicas do parser ao lidar com este tipo de texto pode ser muito vantajoso e influenciar a forma como usamos estes sistemas. É com vista a contribuir para uma melhor compreensão deste aspeto que se desenvolveu este projeto. Neste âmbito, foi feita uma avaliação do desempenho de dois parsers de dependências baseados em paradigmas diferentes – baseado em regras vs. baseado em estatística. Foi selecionado um corpus de aprendentes de Português L2/LE com o objetivo de identificar os tipos de erro de aprendentes que mais frequentemente alteram a análise produzida pelos parsers. A análise dos resultados permitiu, entre outras coisas, verificar que os erros com maior impacto nos outputs produzidos são os mesmos em ambos os parsers. No entanto, também se verificaram diferenças significativas entre as análises produzidas pelos sistemas de diferentes paradigmas, principalmente ao nível de padrões de alteração dos outputs dos sistemas perante a presença/ausência de certos tipos de erro. Este trabalho contribuiu, assim, para elucidar os desafios que os parsers poderão enfrentar quando lhes são apresentados textos produzidos por aprendentes, abrindo portas para o desenvolvimento futuro de ferramentas dedicadas ao tratamento deste tipo de texto, tais como sistemas de deteção automática de erros e de identificação automática de proficiência.
publishDate 2021
dc.date.none.fl_str_mv 2021-11-25
2021-11-25T00:00:00Z
2022-01-31T13:54:31Z
2022-01-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/51054
TID:202831922
url http://hdl.handle.net/10451/51054
identifier_str_mv TID:202831922
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134573526777856