Resolução de correferências em língua portuguesa : pessoa, local e organização

Detalhes bibliográficos
Autor(a) principal: Fonseca, Evandro Brasil
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/5257
Resumo: Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains. These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest.Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability.The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains.Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art.
id P_RS_a27819087100674152fadc83d50c91a9
oai_identifier_str oai:tede2.pucrs.br:tede/5257
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Vieira, RenataCPF:45133433034http://lattes.cnpq.br/6218967777630412CPF:01005406006http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4247903U3Fonseca, Evandro Brasil2015-04-14T14:50:12Z2014-06-262014-03-21FONSECA, Evandro Brasil. Resolução de correferências em língua portuguesa : pessoa, local e organização. 2014. 78 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.http://tede2.pucrs.br/tede2/handle/tede/5257Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains. These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest.Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability.The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains.Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art.Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização. Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência.Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte.Made available in DSpace on 2015-04-14T14:50:12Z (GMT). No. of bitstreams: 1 458767.pdf: 3173862 bytes, checksum: 0f4ea1ec0b9741e176522697d0d4dd1d (MD5) Previous issue date: 2014-03-21application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/15441/458767.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBRFaculdade de InformácaINFORMÁTICAPROCESSAMENTO DA LINGUAGEM NATURALLINGUÍSTICA COMPUTACIONALAPRENDIZAGEM DE MÁQUINACNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOResolução de correferências em língua portuguesa : pessoa, local e organizaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19749965330812744705006001946639708616176246info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL458767.pdf.jpg458767.pdf.jpgimage/jpeg3718http://tede2.pucrs.br/tede2/bitstream/tede/5257/3/458767.pdf.jpg12c929ee33b3c8566cf453ccd30ab9d3MD53TEXT458767.pdf.txt458767.pdf.txttext/plain105304http://tede2.pucrs.br/tede2/bitstream/tede/5257/2/458767.pdf.txt5232c9c4f3b1e821aca6a4fe77391678MD52ORIGINAL458767.pdfapplication/pdf3173862http://tede2.pucrs.br/tede2/bitstream/tede/5257/1/458767.pdf0f4ea1ec0b9741e176522697d0d4dd1dMD51tede/52572015-04-17 11:57:32.149oai:tede2.pucrs.br:tede/5257Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-17T14:57:32Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Resolução de correferências em língua portuguesa : pessoa, local e organização
title Resolução de correferências em língua portuguesa : pessoa, local e organização
spellingShingle Resolução de correferências em língua portuguesa : pessoa, local e organização
Fonseca, Evandro Brasil
INFORMÁTICA
PROCESSAMENTO DA LINGUAGEM NATURAL
LINGUÍSTICA COMPUTACIONAL
APRENDIZAGEM DE MÁQUINA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Resolução de correferências em língua portuguesa : pessoa, local e organização
title_full Resolução de correferências em língua portuguesa : pessoa, local e organização
title_fullStr Resolução de correferências em língua portuguesa : pessoa, local e organização
title_full_unstemmed Resolução de correferências em língua portuguesa : pessoa, local e organização
title_sort Resolução de correferências em língua portuguesa : pessoa, local e organização
author Fonseca, Evandro Brasil
author_facet Fonseca, Evandro Brasil
author_role author
dc.contributor.advisor1.fl_str_mv Vieira, Renata
dc.contributor.advisor1ID.fl_str_mv CPF:45133433034
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6218967777630412
dc.contributor.authorID.fl_str_mv CPF:01005406006
dc.contributor.authorLattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4247903U3
dc.contributor.author.fl_str_mv Fonseca, Evandro Brasil
contributor_str_mv Vieira, Renata
dc.subject.por.fl_str_mv INFORMÁTICA
PROCESSAMENTO DA LINGUAGEM NATURAL
LINGUÍSTICA COMPUTACIONAL
APRENDIZAGEM DE MÁQUINA
topic INFORMÁTICA
PROCESSAMENTO DA LINGUAGEM NATURAL
LINGUÍSTICA COMPUTACIONAL
APRENDIZAGEM DE MÁQUINA
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Coreference resolution is a process that consists in identifying the several forms that a specific named entity may assume on certain text. In other words, this process consists in identifying certain terms and expressions that refer certain named entity. The automatic textual coreference resolution is in a very important context in the Natural Language Processing (NLP) area, because several systems need itstasks, such as the relation extraction between named entities. The linguistic processing level depends on the knowledgeabout the world, and this is a challenge for thisarea, mainly for the Portuguese language. The growing necessity of NLP tools and the lack of open source resources for Portuguese have inspired the research on this language, and they became the focus of this dissertation. The present work aims at building an open source tool for the Coreference resolution in Portuguese, focusing on the Person, Location and Organization domains. These three categories were chosen given their relevance for most NLP tasks, because they represent more specifically entities of common interest.Furthermore, they are the most explored categories in the related works. The choice for working only with open source resourcesis because most of related works forPortuguese usesprivate software, which limits his availability and his usability.The methodology is based on supervised machine learning. For this task, the use of features that help on the correct classification of noun phrase pairs as coreferent or non-coreferent are essential for grouping them later, thus building coreference chains.Although there are still many challenges to be overcome, the results of the system described in this dissertationare encouraging when compared indirectly, by using the same metric,to the current state of the art.
publishDate 2014
dc.date.available.fl_str_mv 2014-06-26
dc.date.issued.fl_str_mv 2014-03-21
dc.date.accessioned.fl_str_mv 2015-04-14T14:50:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FONSECA, Evandro Brasil. Resolução de correferências em língua portuguesa : pessoa, local e organização. 2014. 78 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/5257
identifier_str_mv FONSECA, Evandro Brasil. Resolução de correferências em língua portuguesa : pessoa, local e organização. 2014. 78 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2014.
url http://tede2.pucrs.br/tede2/handle/tede/5257
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 1974996533081274470
dc.relation.confidence.fl_str_mv 500
600
dc.relation.department.fl_str_mv 1946639708616176246
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Faculdade de Informáca
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/5257/3/458767.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/5257/2/458767.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/5257/1/458767.pdf
bitstream.checksum.fl_str_mv 12c929ee33b3c8566cf453ccd30ab9d3
5232c9c4f3b1e821aca6a4fe77391678
0f4ea1ec0b9741e176522697d0d4dd1d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765306771505152