Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital

Detalhes bibliográficos
Autor(a) principal: Arnaldo Candido Junior
Data de Publicação: 2013
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://doi.org/10.11606/T.55.2013.tde-24062013-090016
Resumo: O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédico
id USP_1de370c1487ac9258d19889cc8473ac7
oai_identifier_str oai:teses.usp.br:tde-24062013-090016
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital Biderectional language analysis in syntactic simplification of portuguese texts focused on digital accessibility 2013-03-28Sandra Maria AluisioAndré Carlos Ponce de Leon Ferreira de CarvalhoValéria Delisandra FeltrimMarcelo FingerEstevam Rafael Hruschka JúniorArnaldo Candido JuniorUniversidade de São PauloCiências da Computação e Matemática ComputacionalUSPBR Análise da língua Language analysis Simplificação sintática Syntactic simplification O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédico Natural Language Processing is an interdisciplinary research area that encompasses two large research avenues: language analysis and language synthesis. This thesis contributes for both of them. In what concerns language analysis, it presents an integrative model that links different levels of linguistic analysis. The evaluation of such model takes into consideration several levels: morphologic (including lexical and morph-syntactic sub-levels), syntactic and semantic. Whereas traditional analysis are undertaken from the lower levels to the upper ones, propagating errors in such direction, the model proposed herein is able to unify different levels of analysis using a bidirectional approach. The model is based on a large-scale neural network trained in corpus, which extracts its training features from tokens within the sentences. A type of recurrence denominated co-activation is applied to the model to make the analysis of a pattern able to modify (and to be modified by) the analysis of other patterns in a same context. This model may be used for purposes different from those for which it was conceived and yields satisfactory results in lemmatization and part-of-speech analysis, but still needs work on syntactic analysis. The tool associated to this model makes it possible to analyze the proposed recurrence language and the bidirectional influence of different levels on each other, including sub-level interaction. Experiments on both co-activation and bidirectional level integration were performed, and the results were considered satisfactory. On the other hand, in what concerns language synthesis, this thesis presents a rule-based model of syntactic simplification (one of text adaptation techniques), applicable to syntactically parsed texts in order to render them simpler for low literacy readers. The tool associated to this model makes it possible to carry out the task of syntactic simplification in Portuguese language. Such tool achieved 77.2% of f-measure in a task that simplified approximately 16% of the sentences of an encyclopedic text https://doi.org/10.11606/T.55.2013.tde-24062013-090016info:eu-repo/semantics/openAccessporreponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USP2023-12-21T20:03:27Zoai:teses.usp.br:tde-24062013-090016Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-12-22T13:14:34.336627Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.pt.fl_str_mv Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
dc.title.alternative.en.fl_str_mv Biderectional language analysis in syntactic simplification of portuguese texts focused on digital accessibility
title Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
spellingShingle Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
Arnaldo Candido Junior
title_short Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
title_full Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
title_fullStr Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
title_full_unstemmed Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
title_sort Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
author Arnaldo Candido Junior
author_facet Arnaldo Candido Junior
author_role author
dc.contributor.advisor1.fl_str_mv Sandra Maria Aluisio
dc.contributor.referee1.fl_str_mv André Carlos Ponce de Leon Ferreira de Carvalho
dc.contributor.referee2.fl_str_mv Valéria Delisandra Feltrim
dc.contributor.referee3.fl_str_mv Marcelo Finger
dc.contributor.referee4.fl_str_mv Estevam Rafael Hruschka Júnior
dc.contributor.author.fl_str_mv Arnaldo Candido Junior
contributor_str_mv Sandra Maria Aluisio
André Carlos Ponce de Leon Ferreira de Carvalho
Valéria Delisandra Feltrim
Marcelo Finger
Estevam Rafael Hruschka Júnior
description O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédico
publishDate 2013
dc.date.issued.fl_str_mv 2013-03-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.11606/T.55.2013.tde-24062013-090016
url https://doi.org/10.11606/T.55.2013.tde-24062013-090016
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de São Paulo
dc.publisher.program.fl_str_mv Ciências da Computação e Matemática Computacional
dc.publisher.initials.fl_str_mv USP
dc.publisher.country.fl_str_mv BR
publisher.none.fl_str_mv Universidade de São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1794503019541299200