Criando "bancos de árvores" : o sistema de anotação e o processamento automático

Detalhes bibliográficos
Autor(a) principal: Faria, Pablo, 1978-
Data de Publicação: 2016
Outros Autores: Galves, Charlotte, 1950-
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório da Produção Científica e Intelectual da Unicamp
Texto Completo: https://hdl.handle.net/20.500.12733/8673
Resumo: Resumo: Neste trabalho, assinalamos a estreita relação entre sistemas de anotação e análise sintática automática, apresentando um experimento para comparar análises automáticas baseadas nas versões atual e modificada do sistema de etiquetas morfológicas verbais utilizado no Corpus Tycho Brahe. A modificação resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurácia, conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotação pode ser pensado de modo a ser mais conciso e informativo ao analisador sintático automático (doravante, analisador). Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do analisador. Por fim, a discussão é contextualizada por uma visão geral e uma breve discussão do processo de construção de "bancos de árvores" (treebanks) e de sua importância na pesquisa linguística
id CAMP_efee6d2eda677e5f305098085edaae7b
oai_identifier_str oai:https://www.repositorio.unicamp.br/:1168508
network_acronym_str CAMP
network_name_str Repositório da Produção Científica e Intelectual da Unicamp
repository_id_str
spelling Criando "bancos de árvores" : o sistema de anotação e o processamento automáticoLinguística de corpusCorpora (Linguistics)Corpora anotadosArtigo originalResumo: Neste trabalho, assinalamos a estreita relação entre sistemas de anotação e análise sintática automática, apresentando um experimento para comparar análises automáticas baseadas nas versões atual e modificada do sistema de etiquetas morfológicas verbais utilizado no Corpus Tycho Brahe. A modificação resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurácia, conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotação pode ser pensado de modo a ser mais conciso e informativo ao analisador sintático automático (doravante, analisador). Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do analisador. Por fim, a discussão é contextualizada por uma visão geral e uma breve discussão do processo de construção de "bancos de árvores" (treebanks) e de sua importância na pesquisa linguísticaAbstract: In this paper, we highlight the tight relation between annotation systems and parsing by presenting an experiment for evaluation of alternative parses based on current and modified versions of the verbal tag system used in the Tycho Brahe Corpus. The modified version resulted in an improvement of two percentage points in the F1 measure of parsing accuracy, as evaluated by the evalb software. This result shows that the annotation system can be devised in order to be more concise and informative to the parser. As a conclusion, we suggest two guidelines for the specification of annotation systems and the training of the parser. Finally, the present discussion is contextualized by an outline and a brief discussion of the process of treebank building and of its importance for linguistic researchFUNDAÇÃO DE AMPARO À PESQUISA DO ESTADO DE SÃO PAULO - FAPESPAbertoUNIVERSIDADE ESTADUAL DE CAMPINASFaria, Pablo, 1978-Galves, Charlotte, 1950-2016info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://hdl.handle.net/20.500.12733/8673FARIA, Pablo; GALVES, Charlotte. Criando "bancos de árvores": o sistema de anotação e o processamento automático. Cadernos de estudos linguísticos. Campinas, SP : UNICAMP/IEL, 2016. Vol. 58, n. 2 pt A diacronia da língua portuguesa em estudo, (set., 2016), p. 299-315. Disponível em: https://hdl.handle.net/20.500.12733/8673. Acesso em: 7 mai. 2024.https://repositorio.unicamp.br/acervo/detalhe/1168508porreponame:Repositório da Produção Científica e Intelectual da Unicampinstname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2023-09-15T16:45:01Zoai:https://www.repositorio.unicamp.br/:1168508Repositório InstitucionalPUBhttp://repositorio.unicamp.br/oai/requestreposip@unicamp.bropendoar:2023-09-15T16:45:01Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Criando "bancos de árvores" : o sistema de anotação e o processamento automático
title Criando "bancos de árvores" : o sistema de anotação e o processamento automático
spellingShingle Criando "bancos de árvores" : o sistema de anotação e o processamento automático
Faria, Pablo, 1978-
Linguística de corpus
Corpora (Linguistics)
Corpora anotados
Artigo original
title_short Criando "bancos de árvores" : o sistema de anotação e o processamento automático
title_full Criando "bancos de árvores" : o sistema de anotação e o processamento automático
title_fullStr Criando "bancos de árvores" : o sistema de anotação e o processamento automático
title_full_unstemmed Criando "bancos de árvores" : o sistema de anotação e o processamento automático
title_sort Criando "bancos de árvores" : o sistema de anotação e o processamento automático
author Faria, Pablo, 1978-
author_facet Faria, Pablo, 1978-
Galves, Charlotte, 1950-
author_role author
author2 Galves, Charlotte, 1950-
author2_role author
dc.contributor.none.fl_str_mv UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Faria, Pablo, 1978-
Galves, Charlotte, 1950-
dc.subject.por.fl_str_mv Linguística de corpus
Corpora (Linguistics)
Corpora anotados
Artigo original
topic Linguística de corpus
Corpora (Linguistics)
Corpora anotados
Artigo original
description Resumo: Neste trabalho, assinalamos a estreita relação entre sistemas de anotação e análise sintática automática, apresentando um experimento para comparar análises automáticas baseadas nas versões atual e modificada do sistema de etiquetas morfológicas verbais utilizado no Corpus Tycho Brahe. A modificação resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurácia, conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotação pode ser pensado de modo a ser mais conciso e informativo ao analisador sintático automático (doravante, analisador). Como conclusão, são sugeridos dois princípios norteadores para especificação do sistema de anotação e treinamento do analisador. Por fim, a discussão é contextualizada por uma visão geral e uma breve discussão do processo de construção de "bancos de árvores" (treebanks) e de sua importância na pesquisa linguística
publishDate 2016
dc.date.none.fl_str_mv 2016
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/8673
FARIA, Pablo; GALVES, Charlotte. Criando "bancos de árvores": o sistema de anotação e o processamento automático. Cadernos de estudos linguísticos. Campinas, SP : UNICAMP/IEL, 2016. Vol. 58, n. 2 pt A diacronia da língua portuguesa em estudo, (set., 2016), p. 299-315. Disponível em: https://hdl.handle.net/20.500.12733/8673. Acesso em: 7 mai. 2024.
url https://hdl.handle.net/20.500.12733/8673
identifier_str_mv FARIA, Pablo; GALVES, Charlotte. Criando "bancos de árvores": o sistema de anotação e o processamento automático. Cadernos de estudos linguísticos. Campinas, SP : UNICAMP/IEL, 2016. Vol. 58, n. 2 pt A diacronia da língua portuguesa em estudo, (set., 2016), p. 299-315. Disponível em: https://hdl.handle.net/20.500.12733/8673. Acesso em: 7 mai. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/1168508
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório da Produção Científica e Intelectual da Unicamp
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Repositório da Produção Científica e Intelectual da Unicamp
collection Repositório da Produção Científica e Intelectual da Unicamp
repository.name.fl_str_mv Repositório da Produção Científica e Intelectual da Unicamp - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv reposip@unicamp.br
_version_ 1799030817711718400