Criando "bancos de árvores" : o sistema de anotação e o processamento automático
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Outros Autores: | |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório da Produção Científica e Intelectual da Unicamp |
Texto Completo: | https://hdl.handle.net/20.500.12733/8673 |
Resumo: | Resumo: Neste trabalho, assinalamos a estreita relação entre sistemas de anotação e análise sintática automática, apresentando um experimento para comparar análises automáticas baseadas nas versões atual e modificada do sistema de etiquetas morfológicas verbais utilizado no Corpus Tycho Brahe. A modificação resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurácia, conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotação pode ser pensado de modo a ser mais conciso e informativo ao analisador sintático automático (doravante, analisador). Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do analisador. Por fim, a discussão é contextualizada por uma visão geral e uma breve discussão do processo de construção de "bancos de árvores" (treebanks) e de sua importância na pesquisa linguística |
id |
CAMP_efee6d2eda677e5f305098085edaae7b |
---|---|
oai_identifier_str |
oai:https://www.repositorio.unicamp.br/:1168508 |
network_acronym_str |
CAMP |
network_name_str |
Repositório da Produção Científica e Intelectual da Unicamp |
repository_id_str |
|
spelling |
Criando "bancos de árvores" : o sistema de anotação e o processamento automáticoLinguística de corpusCorpora (Linguistics)Corpora anotadosArtigo originalResumo: Neste trabalho, assinalamos a estreita relação entre sistemas de anotação e análise sintática automática, apresentando um experimento para comparar análises automáticas baseadas nas versões atual e modificada do sistema de etiquetas morfológicas verbais utilizado no Corpus Tycho Brahe. A modificação resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurácia, conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotação pode ser pensado de modo a ser mais conciso e informativo ao analisador sintático automático (doravante, analisador). Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do analisador. Por fim, a discussão é contextualizada por uma visão geral e uma breve discussão do processo de construção de "bancos de árvores" (treebanks) e de sua importância na pesquisa linguísticaAbstract: In this paper, we highlight the tight relation between annotation systems and parsing by presenting an experiment for evaluation of alternative parses based on current and modified versions of the verbal tag system used in the Tycho Brahe Corpus. The modified version resulted in an improvement of two percentage points in the F1 measure of parsing accuracy, as evaluated by the evalb software. This result shows that the annotation system can be devised in order to be more concise and informative to the parser. As a conclusion, we suggest two guidelines for the specification of annotation systems and the training of the parser. Finally, the present discussion is contextualized by an outline and a brief discussion of the process of treebank building and of its importance for linguistic researchFUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO - FAPESPAbertoUNIVERSIDADE ESTADUAL DE CAMPINASFaria, Pablo, 1978-Galves, Charlotte, 1950-2016info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://hdl.handle.net/20.500.12733/8673FARIA, Pablo; GALVES, Charlotte. Criando "bancos de árvores": o sistema de anotação e o processamento automático. Cadernos de estudos linguísticos. Campinas, SP : UNICAMP/IEL, 2016. Vol. 58, n. 2 pt A diacronia da língua portuguesa em estudo, (set., 2016), p. 299-315. Disponível em: https://hdl.handle.net/20.500.12733/8673. Acesso em: 7 mai. 2024.https://repositorio.unicamp.br/acervo/detalhe/1168508porreponame:Repositório da Produção Científica e Intelectual da Unicampinstname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2023-09-15T16:45:01Zoai:https://www.repositorio.unicamp.br/:1168508Repositório InstitucionalPUBhttp://repositorio.unicamp.br/oai/requestreposip@unicamp.bropendoar:2023-09-15T16:45:01Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP)false |
dc.title.none.fl_str_mv |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
title |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
spellingShingle |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático Faria, Pablo, 1978- Linguística de corpus Corpora (Linguistics) Corpora anotados Artigo original |
title_short |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
title_full |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
title_fullStr |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
title_full_unstemmed |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
title_sort |
Criando "bancos de árvores" : o sistema de anotação e o processamento automático |
author |
Faria, Pablo, 1978- |
author_facet |
Faria, Pablo, 1978- Galves, Charlotte, 1950- |
author_role |
author |
author2 |
Galves, Charlotte, 1950- |
author2_role |
author |
dc.contributor.none.fl_str_mv |
UNIVERSIDADE ESTADUAL DE CAMPINAS |
dc.contributor.author.fl_str_mv |
Faria, Pablo, 1978- Galves, Charlotte, 1950- |
dc.subject.por.fl_str_mv |
Linguística de corpus Corpora (Linguistics) Corpora anotados Artigo original |
topic |
Linguística de corpus Corpora (Linguistics) Corpora anotados Artigo original |
description |
Resumo: Neste trabalho, assinalamos a estreita relação entre sistemas de anotação e análise sintática automática, apresentando um experimento para comparar análises automáticas baseadas nas versões atual e modificada do sistema de etiquetas morfológicas verbais utilizado no Corpus Tycho Brahe. A modificação resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurácia, conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotação pode ser pensado de modo a ser mais conciso e informativo ao analisador sintático automático (doravante, analisador). Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do analisador. Por fim, a discussão é contextualizada por uma visão geral e uma breve discussão do processo de construção de "bancos de árvores" (treebanks) e de sua importância na pesquisa linguística |
publishDate |
2016 |
dc.date.none.fl_str_mv |
2016 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/20.500.12733/8673 FARIA, Pablo; GALVES, Charlotte. Criando "bancos de árvores": o sistema de anotação e o processamento automático. Cadernos de estudos linguísticos. Campinas, SP : UNICAMP/IEL, 2016. Vol. 58, n. 2 pt A diacronia da língua portuguesa em estudo, (set., 2016), p. 299-315. Disponível em: https://hdl.handle.net/20.500.12733/8673. Acesso em: 7 mai. 2024. |
url |
https://hdl.handle.net/20.500.12733/8673 |
identifier_str_mv |
FARIA, Pablo; GALVES, Charlotte. Criando "bancos de árvores": o sistema de anotação e o processamento automático. Cadernos de estudos linguísticos. Campinas, SP : UNICAMP/IEL, 2016. Vol. 58, n. 2 pt A diacronia da língua portuguesa em estudo, (set., 2016), p. 299-315. Disponível em: https://hdl.handle.net/20.500.12733/8673. Acesso em: 7 mai. 2024. |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://repositorio.unicamp.br/acervo/detalhe/1168508 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório da Produção Científica e Intelectual da Unicamp instname:Universidade Estadual de Campinas (UNICAMP) instacron:UNICAMP |
instname_str |
Universidade Estadual de Campinas (UNICAMP) |
instacron_str |
UNICAMP |
institution |
UNICAMP |
reponame_str |
Repositório da Produção Científica e Intelectual da Unicamp |
collection |
Repositório da Produção Científica e Intelectual da Unicamp |
repository.name.fl_str_mv |
Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP) |
repository.mail.fl_str_mv |
reposip@unicamp.br |
_version_ |
1799030817711718400 |