[pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS

Detalhes bibliográficos
Autor(a) principal: WILLIAM PAULO DUCCA FERNANDES
Data de Publicação: 2017
Tipo de documento: Outros
Idioma: eng
Título da fonte: Repositório Institucional da PUC-RIO (Projeto Maxwell)
Texto Completo: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@2
http://doi.org/10.17771/PUCRio.acad.28807
Resumo: [pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento.
id PUC_RIO-1_a632976328a74929b1cdbb66d5aaef92
oai_identifier_str oai:MAXWELL.puc-rio.br:28807
network_acronym_str PUC_RIO-1
network_name_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository_id_str 534
spelling [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS [en] QUOTATION EXTRACTION FOR PORTUGUESE [pt] APRENDIZADO DE MAQUINA[pt] AGENDAMENTO DE TAREFAS PONDERADO[pt] PERCEPTRON ESTRUTURADO[pt] APRENDIZADO DE TRANSFORMACOES GUIADO POR ENTROPIA[pt] EXTRACAO DE CITACOES[pt] PROCESSAMENTO DE LINGUAGEM NATURAL[pt] EXTRACAO DE INFORMACAO[en] MACHINE LEARNING[en] QUOTATION EXTRACTION[en] NATURAL LANGUAGE PROCESSING[en] EXTRATION OF INFORMATION[pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento.[en] Quotation Extraction consists of identifying quotations from a text and associating them to their authors. In this work, we present a Quotation Extraction system for Portuguese. Quotation Extraction has been previously approached using different techniques and for several languages. Our proposal differs from previous work since we use Machine Learning to automatically build specialized rules instead of human-derived rules. Machine Learning models usually present stronger generalization power compared to human-derived models. In addition, we are able to easily adapt our model to other languages, needing only a list of verbs of speech for a given language. The previously proposed systems would probably need a rule set adaptation to correctly classify the quotations, which would be time consuming. We tackle the Quotation Extraction task using one model for the Entropy Guided Transformation Learning algorithm and another one for the Structured Perceptron algorithm. In order to train and evaluate the system, we have build the GloboQuotes corpus, with news extracted from the globo.com portal. We add part-of-speech tags to the corpus using a state-of-the-art tagger. The Structured Perceptron based on weighted interval scheduling obtains an F sub Beta equal 1 score of 76.80 per cent.MAXWELLRUY LUIZ MILIDIUWILLIAM PAULO DUCCA FERNANDES2017-01-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@2http://doi.org/10.17771/PUCRio.acad.28807engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2018-07-04T00:00:00Zoai:MAXWELL.puc-rio.br:28807Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342018-07-04T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false
dc.title.none.fl_str_mv [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
[en] QUOTATION EXTRACTION FOR PORTUGUESE
title [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
spellingShingle [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
WILLIAM PAULO DUCCA FERNANDES
[pt] APRENDIZADO DE MAQUINA
[pt] AGENDAMENTO DE TAREFAS PONDERADO
[pt] PERCEPTRON ESTRUTURADO
[pt] APRENDIZADO DE TRANSFORMACOES GUIADO POR ENTROPIA
[pt] EXTRACAO DE CITACOES
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[pt] EXTRACAO DE INFORMACAO
[en] MACHINE LEARNING
[en] QUOTATION EXTRACTION
[en] NATURAL LANGUAGE PROCESSING
[en] EXTRATION OF INFORMATION
title_short [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
title_full [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
title_fullStr [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
title_full_unstemmed [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
title_sort [pt] EXTRAÇÃO DE CITAÇÕES PARA O PORTUGUÊS
author WILLIAM PAULO DUCCA FERNANDES
author_facet WILLIAM PAULO DUCCA FERNANDES
author_role author
dc.contributor.none.fl_str_mv RUY LUIZ MILIDIU
dc.contributor.author.fl_str_mv WILLIAM PAULO DUCCA FERNANDES
dc.subject.por.fl_str_mv [pt] APRENDIZADO DE MAQUINA
[pt] AGENDAMENTO DE TAREFAS PONDERADO
[pt] PERCEPTRON ESTRUTURADO
[pt] APRENDIZADO DE TRANSFORMACOES GUIADO POR ENTROPIA
[pt] EXTRACAO DE CITACOES
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[pt] EXTRACAO DE INFORMACAO
[en] MACHINE LEARNING
[en] QUOTATION EXTRACTION
[en] NATURAL LANGUAGE PROCESSING
[en] EXTRATION OF INFORMATION
topic [pt] APRENDIZADO DE MAQUINA
[pt] AGENDAMENTO DE TAREFAS PONDERADO
[pt] PERCEPTRON ESTRUTURADO
[pt] APRENDIZADO DE TRANSFORMACOES GUIADO POR ENTROPIA
[pt] EXTRACAO DE CITACOES
[pt] PROCESSAMENTO DE LINGUAGEM NATURAL
[pt] EXTRACAO DE INFORMACAO
[en] MACHINE LEARNING
[en] QUOTATION EXTRACTION
[en] NATURAL LANGUAGE PROCESSING
[en] EXTRATION OF INFORMATION
description [pt] A Extração de Citações consiste na identificação de citações de um texto e na associação destas com seus autores. Neste trabalho, apresentamos um sistema de Extração de Citações para Português. A tarefa de Extração de Citações já foi abordada usando diversas técnicas e para diversas línguas.Nossa proposta é diferente dos trabalhos anteriores, pois usamos Aprendizado de Máquina para construir automaticamente regras especializadas ao invés de regras criadas por humanos. Modelos de Aprendizado de Máquina geralmente apresentam forte capacidade de generalização comparados a modelos feitos por humanos. Além disso, nós podemos facilmente adaptar nosso modelo para outras línguas, precisando apenas de uma lista de verbos de citação para uma dada língua. Os sistemas propostos anteriormente provavelmente precisariam de uma adaptação no conjunto de regras de forma a classificar corretamente as citações, o que consumiria tempo. Nós atacamos a tarefa de Extração de Citações usando um modelo para o algoritmo de Aprendizado de Transformações Guiado por Entropia e um modelo para o algoritmo do Perceptron Estruturado. Com o objetivo de treinar e avaliar o sistema, nós construímos o corpus GloboQuotes com notícias extraídas do portal globo.com. Adicionamos etiquetas morfossintáticas ao corpus, utilizando um anotador estado da arte. O Perceptron Estruturado baseado no agendamento de tarefas ponderado tem desempenho F sub Beta igual a 1 igual a 76,80 por cento.
publishDate 2017
dc.date.none.fl_str_mv 2017-01-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/other
format other
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@2
http://doi.org/10.17771/PUCRio.acad.28807
url https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=28807@2
http://doi.org/10.17771/PUCRio.acad.28807
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MAXWELL
publisher.none.fl_str_mv MAXWELL
dc.source.none.fl_str_mv reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)
instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron:PUC_RIO
instname_str Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
instacron_str PUC_RIO
institution PUC_RIO
reponame_str Repositório Institucional da PUC-RIO (Projeto Maxwell)
collection Repositório Institucional da PUC-RIO (Projeto Maxwell)
repository.name.fl_str_mv Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)
repository.mail.fl_str_mv
_version_ 1814822599047249920