Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062013-090016/ |
Resumo: | O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédico |
id |
USP_1de370c1487ac9258d19889cc8473ac7 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-24062013-090016 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digitalBiderectional language analysis in syntactic simplification of portuguese texts focused on digital accessibilityAnálise da línguaLanguage analysisSimplificação sintáticaSyntactic simplificationO Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédicoNatural Language Processing is an interdisciplinary research area that encompasses two large research avenues: language analysis and language synthesis. This thesis contributes for both of them. In what concerns language analysis, it presents an integrative model that links different levels of linguistic analysis. The evaluation of such model takes into consideration several levels: morphologic (including lexical and morph-syntactic sub-levels), syntactic and semantic. Whereas traditional analysis are undertaken from the lower levels to the upper ones, propagating errors in such direction, the model proposed herein is able to unify different levels of analysis using a bidirectional approach. The model is based on a large-scale neural network trained in corpus, which extracts its training features from tokens within the sentences. A type of recurrence denominated co-activation is applied to the model to make the analysis of a pattern able to modify (and to be modified by) the analysis of other patterns in a same context. This model may be used for purposes different from those for which it was conceived and yields satisfactory results in lemmatization and part-of-speech analysis, but still needs work on syntactic analysis. The tool associated to this model makes it possible to analyze the proposed recurrence language and the bidirectional influence of different levels on each other, including sub-level interaction. Experiments on both co-activation and bidirectional level integration were performed, and the results were considered satisfactory. On the other hand, in what concerns language synthesis, this thesis presents a rule-based model of syntactic simplification (one of text adaptation techniques), applicable to syntactically parsed texts in order to render them simpler for low literacy readers. The tool associated to this model makes it possible to carry out the task of syntactic simplification in Portuguese language. Such tool achieved 77.2% of f-measure in a task that simplified approximately 16% of the sentences of an encyclopedic textBiblioteca Digitais de Teses e Dissertações da USPAluisio, Sandra MariaCandido Junior, Arnaldo2013-03-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062013-090016/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:36Zoai:teses.usp.br:tde-24062013-090016Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:10:36Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital Biderectional language analysis in syntactic simplification of portuguese texts focused on digital accessibility |
title |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital |
spellingShingle |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital Candido Junior, Arnaldo Análise da língua Language analysis Simplificação sintática Syntactic simplification |
title_short |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital |
title_full |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital |
title_fullStr |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital |
title_full_unstemmed |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital |
title_sort |
Análise bidirecional da língua na simplificação sintática em textos do português voltada à acessibilidade digital |
author |
Candido Junior, Arnaldo |
author_facet |
Candido Junior, Arnaldo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Aluisio, Sandra Maria |
dc.contributor.author.fl_str_mv |
Candido Junior, Arnaldo |
dc.subject.por.fl_str_mv |
Análise da língua Language analysis Simplificação sintática Syntactic simplification |
topic |
Análise da língua Language analysis Simplificação sintática Syntactic simplification |
description |
O Processamento de Línguas Naturais é uma área interdisciplinar cujas pesquisas podem ser divididas em duas grandes linhas: análise e síntese da língua. Esta pesquisa de doutorado traz contribuições para ambas. Para a análise da língua, um modelo integrativo capaz de unir diferentes níveis linguísticos é apresentado e avaliado em relação aos níveis morfológico, (incluindo subníveis léxico e morfossintático), sintático e semântico. Enquanto análises tradicionais são feitas dos níveis mais baixos da língua para os mais altos, em uma estratégia em cascata, na qual erros dos níveis mais baixos são propagados para os níveis mais altos, o modelo de análise proposto é capaz de unificar a análise de diferentes níveis a partir de uma abordagem bidirecional. O modelo é baseado em uma grande rede neural, treinada em córpus, cujos padrões de treinamento são extraídos de tokens presentes nas orações. Um tipo de recorrência denominado coativação é aplicado no modelo para permitir que a análise de um padrão modifique e seja modificada pela análise de outros padrões em um mesmo contexto. O modelo de análise permite investigações para as quais não foi originalmente planejado, além de apresentar resultados considerados satisfatórios em lematização e análise morfossintática, porém ainda demandando aprimoramento para a tarefa de análise sintática. A ferramenta associada a esse modelo permitiu investigar a recorrência proposta e a interação bidirecional entre níveis da língua, incluindo seus subníveis. Experimentos para coativação e bidirecionalidade foram realizados e considerados satisfatórios. Para a área de síntese da língua, um modelo de simplificação sintática, tarefa considerada como adaptação de texto para texto, baseado em regras manuais é aplicado em textos analisados sintaticamente, tendo como objetivo tornar os textos sintaticamente mais simples para leitores com letramento rudimentar ou básico. A ferramenta associada a esse modelo permitiu realizar simplificação sintática com medida-f de 77,2%, simplificando aproximadamente 16% de orações em textos do gênero enciclopédico |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013-03-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062013-090016/ |
url |
http://www.teses.usp.br/teses/disponiveis/55/55134/tde-24062013-090016/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257306563084288 |