Um ambiente para a analise superficial de linguas baseado em automatos finitos
Autor(a) principal: | |
---|---|
Data de Publicação: | 1998 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
Texto Completo: | https://hdl.handle.net/20.500.12733/1585791 |
Resumo: | Orientador: Tomasz Kowaltowski |
id |
UNICAMP-30_0b22b813e41006c4a6371dd58796a91a |
---|---|
oai_identifier_str |
oai::128354 |
network_acronym_str |
UNICAMP-30 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository_id_str |
|
spelling |
Um ambiente para a analise superficial de linguas baseado em automatos finitosProcessamento de linguagem natural (Computação)AlgoritmosOrientador: Tomasz KowaltowskiDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: A análise sintática é uma componente fundamental da maioria dos sistemas de processamento automático de línguas. Tradicionalmente, esta tarefa foi implementada com técnicas derivadas do formalismo das Gramáticas Livres de Contexto. A demanda por sistemas eficientes motivou a pesquisa em busca de outras alternativas para a análise sintática. Alguns sistemas de processamento de línguas naturais não precisam de uma análise completa da estrutura profunda das sentenças (árvores de derivação), senão apenas dispor das relações superficiais entre às palavras de um texto. O objetivo de um analisador-superficial é determinar quais são as sentenças de uma língua, fornecendo apenas a informação sobre alguma característica em particular, evitando entrar em detalhes correspondentes à estrutura profunda. Este tipo de sistemas é mais eficientes e pode substituir uma análise sintática completa em várias aplicações. Nesta dissertação propõe-se um ambiente para implementar a análise superficial de línguas. A proposta consiste em representar as sentenças de uma língua usando seqüências de marcas chamadas de padrões sintáticos. Cada marca é uma categoria de palavras (adjetivos, substantivos, advérbios, etc). A hipótese é que o núcleo das sentenças usadas nos textos de uma língua pode ser capturado com um número computacionalmente tratável de padrões sintáticos. Estruturas de dados baseadas em autômatos finitos foram utilizadas para representar de forma compacta grandes vocabulários de palavras. Os padrões sintáticos são cadeias de símbolos comparáveis, em certo sentido, às palavras de um vocabulário e autômatos mostraram-se adequadas para armazená-los. Além disso, os autômatos permitem a implementação eficiente do algoritmo de reconhecimento proposto, e outros mais complexos, como o conselheiro gramatical apresentado nesta dissertação. Um dos problemas de muitas das propostas para a análise sintática de línguas é a falta de um método ou fonte de informação para construir um sistema que possa modelar um exemplo real. Como uma alternativa, propõe-se aqui a coleta de padrões sintáticos a partir de corpos de texto marcados.Abstract: Syntactic analysis is an important component of most natural language processing systems. Typically parsers were implemented using techniques derived from Context Free Grammars. The increasing need for efficient systems was one of the reasons to search for new approaches to syntactic analysis. Some natural language applications do not need complete parsing of the deep structure of the sentences (derivation trees). In these cases, a representation of the surface relations among words in a text is enough. The goal of a surface parser is to recognize the natural language sentences providing information only about some particular features. It is not concerned with the deep structure of the sentences. This kind of parsers are more efficient and can replace a parser implementing a complete syntactic analysis in different situations. We propose in this dissertation an environment to implement surface parsing of natural languages. In our approach every sentence is represented by a sequence of part-of-speech tags cal\ed syntactic pattern. The hypothesis underlying our work is that the core of the sentences used in natural language texts can be captured with a computationally tractable number of syntactic patterns. Data structures based on finite-state automata have been used in representing1large word vocabularies. Syntactic patterns are strings of symbols that can be compared in some sense with words. We have shown that finite-state automata are adequate to' store syntactic patterns. Furthermore they allow an efficient implementation of the recognizing algorithms, and other more complex ones, as the agreement adviser presented in this work. One of the problems common to many approaches for syntactic parsing is the lack of a method or information source to build a system capable of mastering a real example. As an option, we propose the collection of syntactic patterns from annotated corpora of texts.MestradoMestre em Ciência da Computação[s.n.]Kowaltowski, Tomasz, 1942-Nunes, Maria das Graças VolpeLucchesi, Cláudio LeonardoStolfi, JorgeUniversidade Estadual de Campinas (UNICAMP). Instituto de ComputaçãoPrograma de Pós-Graduação em Ciência da ComputaçãoUNIVERSIDADE ESTADUAL DE CAMPINASCáccamo, Mario José19981998-03-30T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf108f. : il.https://hdl.handle.net/20.500.12733/1585791CÁCCAMO, Mario José. Um ambiente para a analise superficial de linguas baseado em automatos finitos. 1998. 108f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1585791. Acesso em: 2 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/128354porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T02:44:13Zoai::128354Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T02:44:13Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
title |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
spellingShingle |
Um ambiente para a analise superficial de linguas baseado em automatos finitos Cáccamo, Mario José Processamento de linguagem natural (Computação) Algoritmos |
title_short |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
title_full |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
title_fullStr |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
title_full_unstemmed |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
title_sort |
Um ambiente para a analise superficial de linguas baseado em automatos finitos |
author |
Cáccamo, Mario José |
author_facet |
Cáccamo, Mario José |
author_role |
author |
dc.contributor.none.fl_str_mv |
Kowaltowski, Tomasz, 1942- Nunes, Maria das Graças Volpe Lucchesi, Cláudio Leonardo Stolfi, Jorge Universidade Estadual de Campinas (UNICAMP). Instituto de Computação Programa de Pós-Graduação em Ciência da Computação UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Cáccamo, Mario José |
dc.subject.por.fl_str_mv |
Processamento de linguagem natural (Computação) Algoritmos |
topic |
Processamento de linguagem natural (Computação) Algoritmos |
description |
Orientador: Tomasz Kowaltowski |
publishDate |
1998 |
dc.date.none.fl_str_mv |
1998 1998-03-30T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/1585791 CÁCCAMO, Mario José. Um ambiente para a analise superficial de linguas baseado em automatos finitos. 1998. 108f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1585791. Acesso em: 2 set. 2024. |
url |
https://hdl.handle.net/20.500.12733/1585791 |
identifier_str_mv |
CÁCCAMO, Mario José. Um ambiente para a analise superficial de linguas baseado em automatos finitos. 1998. 108f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1585791. Acesso em: 2 set. 2024. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/128354 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 108f. : il. |
dc.publisher.none.fl_str_mv |
[s.n.] |
publisher.none.fl_str_mv |
[s.n.] |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
collection |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
sbubd@unicamp.br |
_version_ |
1809188808146550784 |