Um ambiente para a analise superficial de linguas baseado em automatos finitos

Detalhes bibliográficos
Autor(a) principal: Cáccamo, Mario José
Data de Publicação: 1998
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1585791
Resumo: Orientador: Tomasz Kowaltowski
id UNICAMP-30_0b22b813e41006c4a6371dd58796a91a
oai_identifier_str oai::128354
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Um ambiente para a analise superficial de linguas baseado em automatos finitosProcessamento de linguagem natural (Computação)AlgoritmosOrientador: Tomasz KowaltowskiDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: A análise sintática é uma componente fundamental da maioria dos sistemas de processamento automático de línguas. Tradicionalmente, esta tarefa foi implementada com técnicas derivadas do formalismo das Gramáticas Livres de Contexto. A demanda por sistemas eficientes motivou a pesquisa em busca de outras alternativas para a análise sintática. Alguns sistemas de processamento de línguas naturais não precisam de uma análise completa da estrutura profunda das sentenças (árvores de derivação), senão apenas dispor das relações superficiais entre às palavras de um texto. O objetivo de um analisador-superficial é determinar quais são as sentenças de uma língua, fornecendo apenas a informação sobre alguma característica em particular, evitando entrar em detalhes correspondentes à estrutura profunda. Este tipo de sistemas é mais eficientes e pode substituir uma análise sintática completa em várias aplicações. Nesta dissertação propõe-se um ambiente para implementar a análise superficial de línguas. A proposta consiste em representar as sentenças de uma língua usando seqüências de marcas chamadas de padrões sintáticos. Cada marca é uma categoria de palavras (adjetivos, substantivos, advérbios, etc). A hipótese é que o núcleo das sentenças usadas nos textos de uma língua pode ser capturado com um número computacionalmente tratável de padrões sintáticos. Estruturas de dados baseadas em autômatos finitos foram utilizadas para representar de forma compacta grandes vocabulários de palavras. Os padrões sintáticos são cadeias de símbolos comparáveis, em certo sentido, às palavras de um vocabulário e autômatos mostraram-se adequadas para armazená-los. Além disso, os autômatos permitem a implementação eficiente do algoritmo de reconhecimento proposto, e outros mais complexos, como o conselheiro gramatical apresentado nesta dissertação. Um dos problemas de muitas das propostas para a análise sintática de línguas é a falta de um método ou fonte de informação para construir um sistema que possa modelar um exemplo real. Como uma alternativa, propõe-se aqui a coleta de padrões sintáticos a partir de corpos de texto marcados.Abstract: Syntactic analysis is an important component of most natural language processing systems. Typically parsers were implemented using techniques derived from Context Free Grammars. The increasing need for efficient systems was one of the reasons to search for new approaches to syntactic analysis. Some natural language applications do not need complete parsing of the deep structure of the sentences (derivation trees). In these cases, a representation of the surface relations among words in a text is enough. The goal of a surface parser is to recognize the natural language sentences providing information only about some particular features. It is not concerned with the deep structure of the sentences. This kind of parsers are more efficient and can replace a parser implementing a complete syntactic analysis in different situations. We propose in this dissertation an environment to implement surface parsing of natural languages. In our approach every sentence is represented by a sequence of part-of-speech tags cal\ed syntactic pattern. The hypothesis underlying our work is that the core of the sentences used in natural language texts can be captured with a computationally tractable number of syntactic patterns. Data structures based on finite-state automata have been used in representing1large word vocabularies. Syntactic patterns are strings of symbols that can be compared in some sense with words. We have shown that finite-state automata are adequate to' store syntactic patterns. Furthermore they allow an efficient implementation of the recognizing algorithms, and other more complex ones, as the agreement adviser presented in this work. One of the problems common to many approaches for syntactic parsing is the lack of a method or information source to build a system capable of mastering a real example. As an option, we propose the collection of syntactic patterns from annotated corpora of texts.MestradoMestre em Ciência da Computação[s.n.]Kowaltowski, Tomasz, 1942-Nunes, Maria das Graças VolpeLucchesi, Cláudio LeonardoStolfi, JorgeUniversidade Estadual de Campinas (UNICAMP). Instituto de ComputaçãoPrograma de Pós-Graduação em Ciência da ComputaçãoUNIVERSIDADE ESTADUAL DE CAMPINASCáccamo, Mario José19981998-03-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf108f. : il.https://hdl.handle.net/20.500.12733/1585791CÁCCAMO, Mario José. Um ambiente para a analise superficial de linguas baseado em automatos finitos. 1998. 108f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1585791. Acesso em: 2 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/128354porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T02:44:13Zoai::128354Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T02:44:13Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Um ambiente para a analise superficial de linguas baseado em automatos finitos
title Um ambiente para a analise superficial de linguas baseado em automatos finitos
spellingShingle Um ambiente para a analise superficial de linguas baseado em automatos finitos
Cáccamo, Mario José
Processamento de linguagem natural (Computação)
Algoritmos
title_short Um ambiente para a analise superficial de linguas baseado em automatos finitos
title_full Um ambiente para a analise superficial de linguas baseado em automatos finitos
title_fullStr Um ambiente para a analise superficial de linguas baseado em automatos finitos
title_full_unstemmed Um ambiente para a analise superficial de linguas baseado em automatos finitos
title_sort Um ambiente para a analise superficial de linguas baseado em automatos finitos
author Cáccamo, Mario José
author_facet Cáccamo, Mario José
author_role author
dc.contributor.none.fl_str_mv Kowaltowski, Tomasz, 1942-
Nunes, Maria das Graças Volpe
Lucchesi, Cláudio Leonardo
Stolfi, Jorge
Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Programa de Pós-Graduação em Ciência da Computação
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Cáccamo, Mario José
dc.subject.por.fl_str_mv Processamento de linguagem natural (Computação)
Algoritmos
topic Processamento de linguagem natural (Computação)
Algoritmos
description Orientador: Tomasz Kowaltowski
publishDate 1998
dc.date.none.fl_str_mv 1998
1998-03-30T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1585791
CÁCCAMO, Mario José. Um ambiente para a analise superficial de linguas baseado em automatos finitos. 1998. 108f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1585791. Acesso em: 2 set. 2024.
url https://hdl.handle.net/20.500.12733/1585791
identifier_str_mv CÁCCAMO, Mario José. Um ambiente para a analise superficial de linguas baseado em automatos finitos. 1998. 108f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1585791. Acesso em: 2 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/128354
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
108f. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809188808146550784