A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies

Passos, Guilherme Paulino

A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies

Detalhes bibliográficos
Autor(a) principal:	Passos, Guilherme Paulino
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRJ
Texto Completo:	http://hdl.handle.net/11422/13142
Resumo:	Dados anotados linguisticamente são atualmente um recurso crucial para processamento de linguagem natural (NLP). Tais dados são necessários tanto para avaliação empírica de sistemas, quanto para o treinamento de modelos de aprendizado de máquina de linguagem. Contudo, produzir novos conjuntos de dados é muito custoso em tempo e trabalho humano. Usualmente algum domínio em linguística é necessário aos anotadores, e ainda assim a decisão de como anotar não é trivial. Em projetos com muitos anotadores ou abrangendo longos períodos de tempo, a consistência da anotação pode ser comprometida. Ademais, anotar dados de domínios específicos requer anotadores com conhecimentos correspondentes. Isso se torna um sério problema para domínios técnicos como ciências biomédicas, óleo e gás e direito. Neste trabalho, contribuímos para diminuir esta dificuldade na produção de textos com anotação sintática (treebanks) por métodos formais. Nós desenvolvemos uma especificação formal do padrão de anotação sintático Dependências Universais (Universal Dependencies), um projeto desenvolvido pela comunidade internacional de NLP e de crescente importância. Sustentamos que essa especificação formal é útil para melhorar a qualidade de treebanks e reduzir custos de anotação, pela imposição de consistência nos dados. Discutimos as características, decisões de projeto e limitações da nossa ontologia, implementada na linguagem OWL2-DL. Avaliamos experimentalmente a utilidade de nossa ontologia na tarefa de detectar análises incorretas automaticamente, mostrando alta precisão em quatro idiomas. Finalmente, contextualizamos nossa contribuição revisando o estado da arte no desenvolvimento e manutenção de treebanks.

Metadados do item

id	UFRJ_358667460f0ffa241810398c7c7c2d6e
oai_identifier_str	oai:pantheon.ufrj.br:11422/13142
network_acronym_str	UFRJ
network_name_str	Repositório Institucional da UFRJ
repository_id_str
spelling	Passos, Guilherme Paulinohttp://lattes.cnpq.br/5117568495536090http://lattes.cnpq.br/0858725098195825Rademaker, Alexandrehttp://lattes.cnpq.br/0675365413696898Benevides, Mário Roberto FolhadelaFinger, MarceloZaverucha, Gerson2020-10-02T22:02:34Z2023-11-30T03:01:41Z2018-08http://hdl.handle.net/11422/13142Dados anotados linguisticamente são atualmente um recurso crucial para processamento de linguagem natural (NLP). Tais dados são necessários tanto para avaliação empírica de sistemas, quanto para o treinamento de modelos de aprendizado de máquina de linguagem. Contudo, produzir novos conjuntos de dados é muito custoso em tempo e trabalho humano. Usualmente algum domínio em linguística é necessário aos anotadores, e ainda assim a decisão de como anotar não é trivial. Em projetos com muitos anotadores ou abrangendo longos períodos de tempo, a consistência da anotação pode ser comprometida. Ademais, anotar dados de domínios específicos requer anotadores com conhecimentos correspondentes. Isso se torna um sério problema para domínios técnicos como ciências biomédicas, óleo e gás e direito. Neste trabalho, contribuímos para diminuir esta dificuldade na produção de textos com anotação sintática (treebanks) por métodos formais. Nós desenvolvemos uma especificação formal do padrão de anotação sintático Dependências Universais (Universal Dependencies), um projeto desenvolvido pela comunidade internacional de NLP e de crescente importância. Sustentamos que essa especificação formal é útil para melhorar a qualidade de treebanks e reduzir custos de anotação, pela imposição de consistência nos dados. Discutimos as características, decisões de projeto e limitações da nossa ontologia, implementada na linguagem OWL2-DL. Avaliamos experimentalmente a utilidade de nossa ontologia na tarefa de detectar análises incorretas automaticamente, mostrando alta precisão em quatro idiomas. Finalmente, contextualizamos nossa contribuição revisando o estado da arte no desenvolvimento e manutenção de treebanks.Linguistically annotated data are currently crucial resources for natural language processing (NLP). They are necessary for both evaluation and as input to training machine learning models of language. However, producing new datasets is a very time and labor-consuming. Usually some expertise in linguistics is required for annotators, and even so the annotation decision problem is far from trivial. This difficulty grows in scale: in projects with many annotators or spanning a long period of time, annotation consistency can be compromised. Furthermore, annotating data from specific domain requires annotators with corresponding knowledge. This is a serious problem for technical domains such as biomedical sciences, oil & gas and law. In this work, we contribute to solving the problem of producing syntactically annotated texts (treebanks) by formal methods. We develop a formal specification of the syntactic annotation standard Universal Dependencies, a project developed by the NLP community around the world which is growing in importance. We argue that this formal specification is useful for improving the quality of treebanks and reducing annotation costs, by enforcing consistency in the data. We discuss the features, design choices and limitations of our ontology, implemented in the OWL2- DL language. We evaluate experimentally the usefulness of our ontology in a task of automatically detecting wrong analysis, showing high precision in four languages. Finally, we contextualize our contribution by surveying state-of-the-art methods for developing and maintaining treebanks.Submitted by Moreno Barros (moreno@ct.ufrj.br) on 2020-10-02T22:02:34Z No. of bitstreams: 1 GuilhermePaulinoPassos.pdf: 18656897 bytes, checksum: eec746b0c5734377b04a531d47a40f47 (MD5)Made available in DSpace on 2020-10-02T22:02:34Z (GMT). No. of bitstreams: 1 GuilhermePaulinoPassos.pdf: 18656897 bytes, checksum: eec746b0c5734377b04a531d47a40f47 (MD5) Previous issue date: 2018-08engUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::ENGENHARIASNatural language processingSyntactic parsingKnowledge representationA formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependenciesUma especificação formal para anotação sintática e seu uso no desenvolvimento e na manutenção de corpora: um estudo de caso em dependências universaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINALGuilhermePaulinoPassos.pdfGuilhermePaulinoPassos.pdfapplication/pdf1271073http://pantheon.ufrj.br:80/bitstream/11422/13142/3/GuilhermePaulinoPassos.pdf6d8f8574570d14416ae86871d2d2721eMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/13142/2/license.txtdd32849f2bfb22da963c3aac6e26e255MD5211422/131422023-11-30 00:01:41.562oai:pantheon.ufrj.br:11422/13142TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:01:41Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.en.fl_str_mv	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
dc.title.alternative.pt_BR.fl_str_mv	Uma especificação formal para anotação sintática e seu uso no desenvolvimento e na manutenção de corpora: um estudo de caso em dependências universais
title	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
spellingShingle	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies Passos, Guilherme Paulino CNPQ::ENGENHARIAS Natural language processing Syntactic parsing Knowledge representation
title_short	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
title_full	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
title_fullStr	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
title_full_unstemmed	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
title_sort	A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies
author	Passos, Guilherme Paulino
author_facet	Passos, Guilherme Paulino
author_role	author
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/5117568495536090
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/0858725098195825
dc.contributor.advisorCo1.none.fl_str_mv	Rademaker, Alexandre
dc.contributor.advisorCo1Lattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/0675365413696898
dc.contributor.author.fl_str_mv	Passos, Guilherme Paulino
dc.contributor.referee1.fl_str_mv	Benevides, Mário Roberto Folhadela
dc.contributor.referee2.fl_str_mv	Finger, Marcelo
dc.contributor.advisor1.fl_str_mv	Zaverucha, Gerson
contributor_str_mv	Benevides, Mário Roberto Folhadela Finger, Marcelo Zaverucha, Gerson
dc.subject.cnpq.fl_str_mv	CNPQ::ENGENHARIAS
topic	CNPQ::ENGENHARIAS Natural language processing Syntactic parsing Knowledge representation
dc.subject.por.fl_str_mv	Natural language processing Syntactic parsing Knowledge representation
description	Dados anotados linguisticamente são atualmente um recurso crucial para processamento de linguagem natural (NLP). Tais dados são necessários tanto para avaliação empírica de sistemas, quanto para o treinamento de modelos de aprendizado de máquina de linguagem. Contudo, produzir novos conjuntos de dados é muito custoso em tempo e trabalho humano. Usualmente algum domínio em linguística é necessário aos anotadores, e ainda assim a decisão de como anotar não é trivial. Em projetos com muitos anotadores ou abrangendo longos períodos de tempo, a consistência da anotação pode ser comprometida. Ademais, anotar dados de domínios específicos requer anotadores com conhecimentos correspondentes. Isso se torna um sério problema para domínios técnicos como ciências biomédicas, óleo e gás e direito. Neste trabalho, contribuímos para diminuir esta dificuldade na produção de textos com anotação sintática (treebanks) por métodos formais. Nós desenvolvemos uma especificação formal do padrão de anotação sintático Dependências Universais (Universal Dependencies), um projeto desenvolvido pela comunidade internacional de NLP e de crescente importância. Sustentamos que essa especificação formal é útil para melhorar a qualidade de treebanks e reduzir custos de anotação, pela imposição de consistência nos dados. Discutimos as características, decisões de projeto e limitações da nossa ontologia, implementada na linguagem OWL2-DL. Avaliamos experimentalmente a utilidade de nossa ontologia na tarefa de detectar análises incorretas automaticamente, mostrando alta precisão em quatro idiomas. Finalmente, contextualizamos nossa contribuição revisando o estado da arte no desenvolvimento e manutenção de treebanks.
publishDate	2018
dc.date.issued.fl_str_mv	2018-08
dc.date.accessioned.fl_str_mv	2020-10-02T22:02:34Z
dc.date.available.fl_str_mv	2023-11-30T03:01:41Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/11422/13142
url	http://hdl.handle.net/11422/13142
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Engenharia de Sistemas e Computação
dc.publisher.initials.fl_str_mv	UFRJ
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv	Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRJ instname:Universidade Federal do Rio de Janeiro (UFRJ) instacron:UFRJ
instname_str	Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str	UFRJ
institution	UFRJ
reponame_str	Repositório Institucional da UFRJ
collection	Repositório Institucional da UFRJ
bitstream.url.fl_str_mv	http://pantheon.ufrj.br:80/bitstream/11422/13142/3/GuilhermePaulinoPassos.pdf http://pantheon.ufrj.br:80/bitstream/11422/13142/2/license.txt
bitstream.checksum.fl_str_mv	6d8f8574570d14416ae86871d2d2721e dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_	1784097188825006080

A formal specification for syntactic annotation and its usage in corpus development and maintenance: a case study in universal dependencies

Registros relacionados