Análise automática de coerência usando o modelo grade de entidades para o português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
Texto Completo: | http://repositorio.uem.br:8080/jspui/handle/1/2562 |
Resumo: | A well-written text should be coherent, it means that each new piece of information can be interpreted as the preceding context, a key factor for the readability and interpretability the text. Coherence is usually reflected by the structure of discourse and its relations, which can be analyzed by theories such as RST (Rhetorical Structure Theory), Centering, and models like LSA (Latent Semantic Analysis), which are the main sources of studies for developing tools that can distinguish coherent texts of incoherent in the generation, automatic summarization and evaluation of texts. For the Portuguese language, SciPo (Scientific Portuguese) is an example of a writing tool which has a coherence analysis module that detects potential problems of semantic coherence in abstracts. Based on LSA, this module analyzes different semantic relationships among sentences, according to a pre-established set of dimensions. For one of these dimensions, named Linearity-break, evaluation results were not satisfactory, suggesting the use of other coherence models. In this context, our purpose was to investigate the applicability of the Entity-Grid model, a statistical model based on the Centering theory, in the evaluation of coherence in scientific abstracts written in Portuguese. More specifically, we aimed at assessing whether such model could be employed in the implementation of a classifier capable of detecting local coherence problems, similar to those assessed by the dimension Linearity-break, aiming at future inclusion of such classifier as part of coherence analysis module. Our experimental results are close to those of the original entity-grid model for English language and very similar to the results reported by related works for other languages. Results are also close to those obtained by human judges in an annotation experiment, showing that the entity-grid model can be applied in the context of SciPo system. |
id |
UEM-10_0382542ab3c60d499f6dba644bd6f6b5 |
---|---|
oai_identifier_str |
oai:localhost:1/2562 |
network_acronym_str |
UEM-10 |
network_name_str |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
repository_id_str |
|
spelling |
Análise automática de coerência usando o modelo grade de entidades para o portuguêsAutomatic coherence analysis using the entity-grid model in portugueseCoerência semânticaAnálise automática de coerênciaModelo de grade de entidadesBrasil.Semantic coherenceAutomatic analysis of coherenceEntity-grid modelBrazil.Ciências Exatas e da TerraCiência da ComputaçãoA well-written text should be coherent, it means that each new piece of information can be interpreted as the preceding context, a key factor for the readability and interpretability the text. Coherence is usually reflected by the structure of discourse and its relations, which can be analyzed by theories such as RST (Rhetorical Structure Theory), Centering, and models like LSA (Latent Semantic Analysis), which are the main sources of studies for developing tools that can distinguish coherent texts of incoherent in the generation, automatic summarization and evaluation of texts. For the Portuguese language, SciPo (Scientific Portuguese) is an example of a writing tool which has a coherence analysis module that detects potential problems of semantic coherence in abstracts. Based on LSA, this module analyzes different semantic relationships among sentences, according to a pre-established set of dimensions. For one of these dimensions, named Linearity-break, evaluation results were not satisfactory, suggesting the use of other coherence models. In this context, our purpose was to investigate the applicability of the Entity-Grid model, a statistical model based on the Centering theory, in the evaluation of coherence in scientific abstracts written in Portuguese. More specifically, we aimed at assessing whether such model could be employed in the implementation of a classifier capable of detecting local coherence problems, similar to those assessed by the dimension Linearity-break, aiming at future inclusion of such classifier as part of coherence analysis module. Our experimental results are close to those of the original entity-grid model for English language and very similar to the results reported by related works for other languages. Results are also close to those obtained by human judges in an annotation experiment, showing that the entity-grid model can be applied in the context of SciPo system.Um texto bem escrito deve ser coerente de forma que cada novo trecho de informação possa ser interpretado de acordo com o contexto precedente, um fator fundamental para a inteligibilidade e interpretabilidade do texto. A coerência é normalmente refletida pela estrutura do discurso e suas relações, as quais podem ser analisadas por meios de teorias como a RST (Rethorical Structure Theory), Centering e o modelo LSA (Latent Semantic Analysis), sendo essas as principais fontes de estudos para o esenvolvimento de ferramentas que possam distinguir textos coerentes e incoerentes, seja na geração, sumarização ou avaliação automática de textos. Para a língua portuguesa, o SciPo (Scientific Portuguese) é um exemplo de ferramenta de auxílio à escrita que possui um módulo de análise de coerência para a detecção de potenciais problemas de coerência semântica em resumos. Baseado em LSA, esse módulo analisa os relacionamentos semânticos entre as sentenças de um resumo, de acordo com um conjunto pré-estabelecido de dimensões. Para uma das dimensões propostas para o módulo de análise de coerência,chamada Quebra de Linearidade, os resultados obtidos por meio de LSA foram pouco satisfatórios, sugerindo a utilização de outros modelos de coerência. Nesse contexto, este trabalho teve por objetivo investigar a aplicabilidade do modelo grade de entidades (do inglês Entity-Grid), um modelo estatístico baseado na teoria de Centering, na avaliação de coerência de resumos científicos escritos em português. Mais especificamente, se buscou avaliar se tal modelo poderia ser empregado na implementação de um classificador capaz de detectar problemas locais de coerência, semelhantes aos descritos na dimensão Quebra de Linearidade, visando a futura inclusão de tal classificador no módulo de análise de coerência. Os resultados obtidos nos experimentos se mostraram próximos aos resultados do modelo grade de entidades original para a língua inglesa e semelhantes aos resultados relatados por trabalhos relacionados para outras línguas. Os resultados também foram próximos ao obtido em experimento com juízes humanos, mostrando que o modelo grade de entidades tem potencial para ser usado no contexto do sistema SciPo.85 fUniversidade Estadual de MaringáBrasilDepartamento de InformáticaPrograma de Pós-Graduação em Ciência da ComputaçãoUEMMaringá, PRCentro de TecnologiaValéria Delisandra FeltrimSérgio Roberto Pereira da Silva - UEMSandra Maria Aluísio - ICMC/USPFreitas, Alison Rafael Polpeta2018-04-10T20:12:26Z2018-04-10T20:12:26Z2013info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://repositorio.uem.br:8080/jspui/handle/1/2562porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM)instname:Universidade Estadual de Maringá (UEM)instacron:UEM2018-10-18T19:23:46Zoai:localhost:1/2562Repositório InstitucionalPUBhttp://repositorio.uem.br:8080/oai/requestopendoar:2024-04-23T14:55:37.603585Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM)false |
dc.title.none.fl_str_mv |
Análise automática de coerência usando o modelo grade de entidades para o português Automatic coherence analysis using the entity-grid model in portuguese |
title |
Análise automática de coerência usando o modelo grade de entidades para o português |
spellingShingle |
Análise automática de coerência usando o modelo grade de entidades para o português Freitas, Alison Rafael Polpeta Coerência semântica Análise automática de coerência Modelo de grade de entidades Brasil. Semantic coherence Automatic analysis of coherence Entity-grid model Brazil. Ciências Exatas e da Terra Ciência da Computação |
title_short |
Análise automática de coerência usando o modelo grade de entidades para o português |
title_full |
Análise automática de coerência usando o modelo grade de entidades para o português |
title_fullStr |
Análise automática de coerência usando o modelo grade de entidades para o português |
title_full_unstemmed |
Análise automática de coerência usando o modelo grade de entidades para o português |
title_sort |
Análise automática de coerência usando o modelo grade de entidades para o português |
author |
Freitas, Alison Rafael Polpeta |
author_facet |
Freitas, Alison Rafael Polpeta |
author_role |
author |
dc.contributor.none.fl_str_mv |
Valéria Delisandra Feltrim Sérgio Roberto Pereira da Silva - UEM Sandra Maria Aluísio - ICMC/USP |
dc.contributor.author.fl_str_mv |
Freitas, Alison Rafael Polpeta |
dc.subject.por.fl_str_mv |
Coerência semântica Análise automática de coerência Modelo de grade de entidades Brasil. Semantic coherence Automatic analysis of coherence Entity-grid model Brazil. Ciências Exatas e da Terra Ciência da Computação |
topic |
Coerência semântica Análise automática de coerência Modelo de grade de entidades Brasil. Semantic coherence Automatic analysis of coherence Entity-grid model Brazil. Ciências Exatas e da Terra Ciência da Computação |
description |
A well-written text should be coherent, it means that each new piece of information can be interpreted as the preceding context, a key factor for the readability and interpretability the text. Coherence is usually reflected by the structure of discourse and its relations, which can be analyzed by theories such as RST (Rhetorical Structure Theory), Centering, and models like LSA (Latent Semantic Analysis), which are the main sources of studies for developing tools that can distinguish coherent texts of incoherent in the generation, automatic summarization and evaluation of texts. For the Portuguese language, SciPo (Scientific Portuguese) is an example of a writing tool which has a coherence analysis module that detects potential problems of semantic coherence in abstracts. Based on LSA, this module analyzes different semantic relationships among sentences, according to a pre-established set of dimensions. For one of these dimensions, named Linearity-break, evaluation results were not satisfactory, suggesting the use of other coherence models. In this context, our purpose was to investigate the applicability of the Entity-Grid model, a statistical model based on the Centering theory, in the evaluation of coherence in scientific abstracts written in Portuguese. More specifically, we aimed at assessing whether such model could be employed in the implementation of a classifier capable of detecting local coherence problems, similar to those assessed by the dimension Linearity-break, aiming at future inclusion of such classifier as part of coherence analysis module. Our experimental results are close to those of the original entity-grid model for English language and very similar to the results reported by related works for other languages. Results are also close to those obtained by human judges in an annotation experiment, showing that the entity-grid model can be applied in the context of SciPo system. |
publishDate |
2013 |
dc.date.none.fl_str_mv |
2013 2018-04-10T20:12:26Z 2018-04-10T20:12:26Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://repositorio.uem.br:8080/jspui/handle/1/2562 |
url |
http://repositorio.uem.br:8080/jspui/handle/1/2562 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Estadual de Maringá Brasil Departamento de Informática Programa de Pós-Graduação em Ciência da Computação UEM Maringá, PR Centro de Tecnologia |
publisher.none.fl_str_mv |
Universidade Estadual de Maringá Brasil Departamento de Informática Programa de Pós-Graduação em Ciência da Computação UEM Maringá, PR Centro de Tecnologia |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) instname:Universidade Estadual de Maringá (UEM) instacron:UEM |
instname_str |
Universidade Estadual de Maringá (UEM) |
instacron_str |
UEM |
institution |
UEM |
reponame_str |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
collection |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Estadual de Maringá (RI-UEM) - Universidade Estadual de Maringá (UEM) |
repository.mail.fl_str_mv |
|
_version_ |
1813258652574810112 |