[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Outros |
Idioma: | por |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@2 http://doi.org/10.17771/PUCRio.acad.38016 |
Resumo: | [pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. |
id |
PUC_RIO-1_02f1c808914943709cfa691696b15f34 |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:38016 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO [en] DEEP LEARNING APPLIED TO TEXT CHUNKING [pt] APRENDIZADO DE MAQUINA[pt] APRENDIZADO PROFUNDO[pt] SEGMENTACAO TEXTUAL[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[en] MACHINE LEARNING[en] DEEP LEARNING[en] TEXT CHUNKING[en] NATURAL LANGUAGE PROCESSING[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87.[en] Natural Language Processing is a research field that explores how computers can understand and manipulate natural language texts. Sequence tagging is amongst the most well-known tasks in NLP. Text Chunking is one of the problems that can be approached as a sequence tagging problem. Thus, we classify which words belong to a chunk, where each chunk represents a disjoint group of syntactically correlated words. This type of chunking has important applications in more complex tasks of natural language processing, such as dependency parsing, machine translation, semantic role labeling, clause identification and much more. The goal of this work is to present a deep neural network archtecture for the Portuguese text chunking problem. The corpus used in the experiments is the Bosque, from the Floresta Sintá(c)tica project. Based on recent work in the field, our approach surpass the state-of-the-art for Portuguese by achieving a F(beta)=1 of 90.51, which corresponds to an increase of 2.56 in comparison with the previous work. In addition, in order to attest the chunker effectiveness we use the tags obtained by our system as feature for the depedency parsing task. These features improved the accuracy of the parser by 0.87.MAXWELLSERGIO COLCHERMIGUEL MENDES DE BRITO2019-05-15info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@2http://doi.org/10.17771/PUCRio.acad.38016porreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2022-07-26T00:00:00Zoai:MAXWELL.puc-rio.br:38016Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342022-07-26T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.none.fl_str_mv |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO [en] DEEP LEARNING APPLIED TO TEXT CHUNKING |
title |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO |
spellingShingle |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO MIGUEL MENDES DE BRITO [pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING |
title_short |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO |
title_full |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO |
title_fullStr |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO |
title_full_unstemmed |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO |
title_sort |
[pt] APRENDIZADO PROFUNDO APLICADO À SEGMENTAÇÃO DE TEXTO |
author |
MIGUEL MENDES DE BRITO |
author_facet |
MIGUEL MENDES DE BRITO |
author_role |
author |
dc.contributor.none.fl_str_mv |
SERGIO COLCHER |
dc.contributor.author.fl_str_mv |
MIGUEL MENDES DE BRITO |
dc.subject.por.fl_str_mv |
[pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING |
topic |
[pt] APRENDIZADO DE MAQUINA [pt] APRENDIZADO PROFUNDO [pt] SEGMENTACAO TEXTUAL [pt] PROCESSAMENTO DE LINGUAGEM NATURAL [en] MACHINE LEARNING [en] DEEP LEARNING [en] TEXT CHUNKING [en] NATURAL LANGUAGE PROCESSING |
description |
[pt] O Processamento de Linguagem natural é uma área de pesquisa que explora como computadores podem entender e manipular textos em linguagem natural. Dentre as tarefas mais conhecidas em PLN está a de rotular sequências de texto. O problema de segmentação de texto em sintagmas é um dos problemas que pode ser abordado como rotulagem de sequências. Para isto, classificamos quais palavras pertencem a um sintagma, onde cada sintagma representa um grupo disjunto de palavras sintaticamente correlacionadas. Este tipo de segmentação possui importantes aplicações em tarefas mais complexas de processamento de linguagem natural, como análise de dependências, tradução automática, anotação de papéis semânticos, identificação de orações e outras. O objetivo deste trabalho é apresentar uma arquitetura de rede neural profunda para o problema de segmentação textual em sintagmas para a língua portuguesa. O corpus usado nos experimentos é o Bosque, do projeto Floresta Sintá(c)tica. Baseado em trabalhos recentes na área, nossa abordagem supera o estado-da-arte para o português ao alcançar um F(beta)=1 de 90,51, que corresponde a um aumento de 2,56 em comparação com o trabalho anterior. Além disso, como forma de comprovar a qualidade do segmentador, usamos os rótulos obtidos pelo nosso sistema como um dos atributos de entrada para a tarefa de análise de dependências. Esses atributos melhoraram a acurácia do analisador em 0,87. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-05-15 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/other |
format |
other |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@2 http://doi.org/10.17771/PUCRio.acad.38016 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=38016@2 http://doi.org/10.17771/PUCRio.acad.38016 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
MAXWELL |
publisher.none.fl_str_mv |
MAXWELL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1814822616258576384 |