[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING

CARLOS EDUARDO MEGER CRESTANA

[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING

Detalhes bibliográficos
Autor(a) principal:	CARLOS EDUARDO MEGER CRESTANA
Data de Publicação:	2010
Tipo de documento:	Outros
Idioma:	eng
Título da fonte:	Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo:	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@2 http://doi.org/10.17771/PUCRio.acad.16458
Resumo:	[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é a análise sintática, onde a estrutura de uma sentença é determinada de acordo com uma dada gramática, informando o significado de uma sentença a partir do significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas de Dependência consiste em identificar para cada palavra a outra palavra na sentença que a governa. Assim, a saída de um analisador sintático de dependência é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples, mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática de dependência utilizam modelos baseados em transições ou modelos baseados em grafos. Essa dissertação apresenta uma abordagem por classificação tokena- token para a análise sintática de dependência ao criar um conjunto especial de classes que permitem a correta identificação de uma palavra na sentença. Usando esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado para identificar corretamente a palavra governante de cada palavra na sentença. Além disso, este conjunto de classes permite tratar igualmente relações de dependência projetivas e não-projetivas, evitando abordagens pseudo-projetivas. Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation Learning aos corpora disponibilizados publicamente na tarefa proposta durante a CoNLL 2006. Esses experimentos foram realizados em três corpora de diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados mostram que os modelos gerados atingem resultados acima da média dos sistemas do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação token-a-token é uma abordagem promissora para o problema de análise sintática de dependência.

Metadados do item

id	PUC_RIO-1_3822019992879a09fd65b459ff7c5230
oai_identifier_str	oai:MAXWELL.puc-rio.br:16458
network_acronym_str	PUC_RIO-1
network_name_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str	534
spelling	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING [pt] UMA ABORDAGEM POR CLASSIFICAÇÃO TOKEN-A-TOKEN PARA O PARSING DE DEPENDÊNCIA [pt] APRENDIZAGEM[pt] CLASSIFICACAO TOKEN-A-TOKEN[pt] PROCESSAMENTO DA LINGUAGEM NATURAL[en] LEARNING[en] NATURAL LANGUAGE PROCESSING[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é a análise sintática, onde a estrutura de uma sentença é determinada de acordo com uma dada gramática, informando o significado de uma sentença a partir do significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas de Dependência consiste em identificar para cada palavra a outra palavra na sentença que a governa. Assim, a saída de um analisador sintático de dependência é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples, mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática de dependência utilizam modelos baseados em transições ou modelos baseados em grafos. Essa dissertação apresenta uma abordagem por classificação tokena- token para a análise sintática de dependência ao criar um conjunto especial de classes que permitem a correta identificação de uma palavra na sentença. Usando esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado para identificar corretamente a palavra governante de cada palavra na sentença. Além disso, este conjunto de classes permite tratar igualmente relações de dependência projetivas e não-projetivas, evitando abordagens pseudo-projetivas. Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation Learning aos corpora disponibilizados publicamente na tarefa proposta durante a CoNLL 2006. Esses experimentos foram realizados em três corpora de diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados mostram que os modelos gerados atingem resultados acima da média dos sistemas do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação token-a-token é uma abordagem promissora para o problema de análise sintática de dependência.[en] One of the most important tasks in Natural Language Processing is syntactic parsing, where the structure of a sentence is inferred according to a given grammar. Syntactic parsing, thus, tells us how to determine the meaning of the sentence fromthemeaning of the words in it. Syntactic parsing based on dependency grammars is called dependency parsing. The Dependency-based syntactic parsing task consists in identifying a head word for each word in an input sentence. Hence, its output is a rooted tree, where the nodes are the words in the sentence. This simple, yet powerful, structure is used in a great variety of applications, like Question Answering,Machine Translation, Information Extraction and Semantic Role Labeling. State-of-the-art dependency parsing systems use transition-based or graph-based models. This dissertation presents a token classification approach to dependency parsing, by creating a special tagging set that helps to correctly find the head of a token. Using this tagging style, any classification algorithm can be trained to identify the syntactic head of each word in a sentence. In addition, this classification model treats projective and non-projective dependency graphs equally, avoiding pseudo-projective approaches. To evaluate its effectiveness, we apply the Entropy Guided Transformation Learning algorithm to the publicly available corpora from the CoNLL 2006 Shared Task. These computational experiments are performed on three corpora in different languages, namely: Danish, Dutch and Portuguese. We use the Unlabelled Attachment Score as the accuracy metric. Our results show that the generated models are above the average CoNLL system performance. Additionally, these findings also indicate that the token classification approach is a promising one.MAXWELLRUY LUIZ MILIDIUCARLOS EDUARDO MEGER CRESTANA2010-10-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@2http://doi.org/10.17771/PUCRio.acad.16458engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2017-09-14T00:00:00Zoai:MAXWELL.puc-rio.br:16458Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342017-09-14T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING [pt] UMA ABORDAGEM POR CLASSIFICAÇÃO TOKEN-A-TOKEN PARA O PARSING DE DEPENDÊNCIA
title	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING
spellingShingle	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING CARLOS EDUARDO MEGER CRESTANA [pt] APRENDIZAGEM [pt] CLASSIFICACAO TOKEN-A-TOKEN [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] LEARNING [en] NATURAL LANGUAGE PROCESSING
title_short	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING
title_full	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING
title_fullStr	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING
title_full_unstemmed	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING
title_sort	[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING
author	CARLOS EDUARDO MEGER CRESTANA
author_facet	CARLOS EDUARDO MEGER CRESTANA
author_role	author
dc.contributor.none.fl_str_mv	RUY LUIZ MILIDIU
dc.contributor.author.fl_str_mv	CARLOS EDUARDO MEGER CRESTANA
dc.subject.por.fl_str_mv	[pt] APRENDIZAGEM [pt] CLASSIFICACAO TOKEN-A-TOKEN [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] LEARNING [en] NATURAL LANGUAGE PROCESSING
topic	[pt] APRENDIZAGEM [pt] CLASSIFICACAO TOKEN-A-TOKEN [pt] PROCESSAMENTO DA LINGUAGEM NATURAL [en] LEARNING [en] NATURAL LANGUAGE PROCESSING
description	[pt] Uma das tarefas mais importantes em Processamento de Linguagem Natural é a análise sintática, onde a estrutura de uma sentença é determinada de acordo com uma dada gramática, informando o significado de uma sentença a partir do significado das palavras nela contidas. A Análise Sintática baseada em Gramáticas de Dependência consiste em identificar para cada palavra a outra palavra na sentença que a governa. Assim, a saída de um analisador sintático de dependência é uma árvore onde os nós são as palavras da sentença. Esta estrutura simples, mas rica, é utilizada em uma grande variedade de aplicações, entre elas Sistemas de Pergunta-Resposta, Tradução Automática, Extração de Informação, e Identificação de Papéis Semânticos. Os sistemas estado-da-arte em análise sintática de dependência utilizam modelos baseados em transições ou modelos baseados em grafos. Essa dissertação apresenta uma abordagem por classificação tokena- token para a análise sintática de dependência ao criar um conjunto especial de classes que permitem a correta identificação de uma palavra na sentença. Usando esse conjunto de classes, qualquer algoritmo de classificação pode ser treinado para identificar corretamente a palavra governante de cada palavra na sentença. Além disso, este conjunto de classes permite tratar igualmente relações de dependência projetivas e não-projetivas, evitando abordagens pseudo-projetivas. Para avaliar a sua eficácia, aplicamos o algoritmo Entropy Guided Transformation Learning aos corpora disponibilizados publicamente na tarefa proposta durante a CoNLL 2006. Esses experimentos foram realizados em três corpora de diferentes idiomas: dinamarquês, holandês e português. Para avaliação de desempenho foi utilizada a métrica de Unlabeled Attachment Score. Nossos resultados mostram que os modelos gerados atingem resultados acima da média dos sistemas do CoNLL. Ainda, nossos resultados indicam que a abordagem por classificação token-a-token é uma abordagem promissora para o problema de análise sintática de dependência.
publishDate	2010
dc.date.none.fl_str_mv	2010-10-13
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/other
format	other
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@2 http://doi.org/10.17771/PUCRio.acad.16458
url	https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=16458@2 http://doi.org/10.17771/PUCRio.acad.16458
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	MAXWELL
publisher.none.fl_str_mv	MAXWELL
dc.source.none.fl_str_mv	reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO
instname_str	Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str	PUC_RIO
institution	PUC_RIO
reponame_str	Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection	Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv	Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_	1814822577058611200

[en] A TOKEN CLASSIFICATION APPROACH TO DEPENDENCY PARSING

Registros relacionados