Anotação de papéis semânticos para o português por Conditional Random Fields

Detalhes bibliográficos
Autor(a) principal: Garrido, Luan Barbosa
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFRJ
Texto Completo: http://hdl.handle.net/11422/8654
Resumo: A anotação de papéis semânticos (APS) pode ser descrita como um meio para diversos fins. Muitas são as áreas dentro do processamento de linguagem natural (PLN) que se beneficiam das etiquetas semânticas dos constituintes da sentença para enriquecer os dados em seus próprios objetivos. Relatado na literatura a diversos séculos, a tarefa de APS renova sua popularidade a partir dos anos 2000, quando o primeiro trabalho de anotação automática foi escrito. Principalmente analisadas para o inglês, muitos trabalhos avaliam cada constituinte da frase separadamente, e não se beneficiam da natureza sequencial de palavras em que a tarefa está incluída. Os últimos trabalho de APS tendem a descentralizar o enfoque inicial e reaproveitam metodologias utilizadas para a língua inglesa em suas próprias línguas, como o espanhol, chinês, francês, sueco e português. Alguns trabalhos já foram realizados para o português, porém, nenhum conseguiu atingir o nível de qualidade obtido para a língua inglesa, e não obstante, somente um trabalho capaz de anotar papéis semânticos a partir de textos puros foi encontrado. Desta forma, esta dissertação visa disponibilizar uma alternativa para anotar papéis semânticos em textos de português sem nenhuma informação agregada, utilizando o modelo de classificação sequencial, denominado Conditional Random Fields.
id UFRJ_959c3be248d94b0a4ef6968ce0b2caea
oai_identifier_str oai:pantheon.ufrj.br:11422/8654
network_acronym_str UFRJ
network_name_str Repositório Institucional da UFRJ
repository_id_str
spelling Garrido, Luan Barbosahttp://lattes.cnpq.br/6062983811271536Souza, Jano Moreira deLopes, Giseli RabelloXexéo, Geraldo Bonorino2019-07-04T13:47:19Z2023-11-30T03:00:31Z2017-03http://hdl.handle.net/11422/8654A anotação de papéis semânticos (APS) pode ser descrita como um meio para diversos fins. Muitas são as áreas dentro do processamento de linguagem natural (PLN) que se beneficiam das etiquetas semânticas dos constituintes da sentença para enriquecer os dados em seus próprios objetivos. Relatado na literatura a diversos séculos, a tarefa de APS renova sua popularidade a partir dos anos 2000, quando o primeiro trabalho de anotação automática foi escrito. Principalmente analisadas para o inglês, muitos trabalhos avaliam cada constituinte da frase separadamente, e não se beneficiam da natureza sequencial de palavras em que a tarefa está incluída. Os últimos trabalho de APS tendem a descentralizar o enfoque inicial e reaproveitam metodologias utilizadas para a língua inglesa em suas próprias línguas, como o espanhol, chinês, francês, sueco e português. Alguns trabalhos já foram realizados para o português, porém, nenhum conseguiu atingir o nível de qualidade obtido para a língua inglesa, e não obstante, somente um trabalho capaz de anotar papéis semânticos a partir de textos puros foi encontrado. Desta forma, esta dissertação visa disponibilizar uma alternativa para anotar papéis semânticos em textos de português sem nenhuma informação agregada, utilizando o modelo de classificação sequencial, denominado Conditional Random Fields.Semantic Role Labeling (SRL) can be described as a mean to achieve different purposes. Several subfields inside Natural Language Processing (NLP) benefit from semantic tags for their own goals. Reported in the literature over several centuries, the SRL task regained its popularity since 2000, when the first automatic annotated system was written. Large part of the literature is about SRL for the English language. Moreover, many papers evaluate each constituent of the sentence separately, and do not benefit from the sequential nature of words in which the task is included. The latest SRL works tend to decentralize the initial approach and reuse methodologies applied for the English language in their own languages, such as Spanish, Chinese, French, Swedish and Portuguese. Some methods were proposed for Portuguese, however, they failed to reach the level of quality obtained for the English language, and nonetheless, only one work was capable of annotating semantic roles from raw text. Thus, this work proposes an alternative system for semantically annotate portuguese text without embedded information, using a sequential model called Conditional Random Fields.Submitted by Christianne Fontes de Andrade (cfontes@ct.ufrj.br) on 2019-07-04T13:47:19Z No. of bitstreams: 1 880224.pdf: 978442 bytes, checksum: 7e36c3b9c08875827b23ef7b00032368 (MD5)Made available in DSpace on 2019-07-04T13:47:19Z (GMT). No. of bitstreams: 1 880224.pdf: 978442 bytes, checksum: 7e36c3b9c08875827b23ef7b00032368 (MD5) Previous issue date: 2017-03porUniversidade Federal do Rio de JaneiroPrograma de Pós-Graduação em Engenharia de Sistemas e ComputaçãoUFRJBrasilInstituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de EngenhariaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOProcessamento de linguagem naturalAprendizado computacionalAnotação de papéis semânticos para o português por Conditional Random Fieldsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisabertoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRJinstname:Universidade Federal do Rio de Janeiro (UFRJ)instacron:UFRJORIGINAL880224.pdf880224.pdfapplication/pdf978442http://pantheon.ufrj.br:80/bitstream/11422/8654/2/880224.pdf7e36c3b9c08875827b23ef7b00032368MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81853http://pantheon.ufrj.br:80/bitstream/11422/8654/3/license.txtdd32849f2bfb22da963c3aac6e26e255MD5311422/86542023-11-30 00:00:31.446oai:pantheon.ufrj.br:11422/8654TElDRU7Dh0EgTsODTy1FWENMVVNJVkEgREUgRElTVFJJQlVJw4fDg08KCkFvIGFzc2luYXIgZSBlbnRyZWdhciBlc3RhIGxpY2Vuw6dhLCB2b2PDqihzKSBvKHMpIGF1dG9yKGVzKSBvdSBwcm9wcmlldMOhcmlvKHMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBjb25jZWRlKG0pIGFvIFJlcG9zaXTDs3JpbyBQYW50aGVvbiBkYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gZGUgSmFuZWlybyAoVUZSSikgbyBkaXJlaXRvIG7Do28gLSBleGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vKSBlbSB0b2RvIG8gbXVuZG8sIGVtIGZvcm1hdG8gZWxldHLDtG5pY28gZSBlbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8sIG1hcyBuw6NvIGxpbWl0YWRvIGEgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZSSiBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhZHV6aXIgYSBhcHJlc2VudGHDp8OjbyBkZSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gY29tIGEgZmluYWxpZGFkZSBkZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogdGFtYsOpbSBjb25jb3JkYSBxdWUgYSBVRlJKIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXNzYSBzdWJtaXNzw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8OjbyBkaWdpdGFsLgoKRGVjbGFyYSBxdWUgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgc2V1IHRyYWJhbGhvIG9yaWdpbmFsLCBlIHF1ZSB2b2PDqiB0ZW0gbyBkaXJlaXRvIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIGEgc3VhIGFwcmVzZW50YcOnw6NvLCBjb20gbyBtZWxob3IgZGUgc2V1cyBjb25oZWNpbWVudG9zLCBuw6NvIGluZnJpbmdpIGRpcmVpdG9zIGF1dG9yYWlzIGRlIHRlcmNlaXJvcy4KClNlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIGNvbnTDqW0gbWF0ZXJpYWwgZG8gcXVhbCB2b2PDqiBuw6NvIHRlbSBkaXJlaXRvcyBkZSBhdXRvciwgZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBlIGNvbmNlZGUgYSBVRlJKIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRhIHN1Ym1pc3PDo28uCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIHF1ZSBmb2ksIG91IHRlbSBzaWRvIHBhdHJvY2luYWRvIG91IGFwb2lhZG8gcG9yIHVtYSBhZ8OqbmNpYSBvdSBvdXRybyhzKSBvcmdhbmlzbW8ocykgcXVlIG7Do28gYSBVRlJKLCB2b2PDqiBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWxxdWVyIGRpcmVpdG8gZGUgUkVWSVPDg08gb3UgZGUgb3V0cmFzIG9icmlnYcOnw7VlcyByZXF1ZXJpZGFzIHBvciBjb250cmF0byBvdSBhY29yZG8uCgpBIFVGUkogaXLDoSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8ocykgc2V1KHMpIG5vbWUocykgY29tbyBhdXRvcihlcykgb3UgcHJvcHJpZXTDoXJpbyhzKSBkYSBzdWJtaXNzw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EsIG5vIGF0byBkZSBzdWJtaXNzw6NvLgo=Repositório de PublicaçõesPUBhttp://www.pantheon.ufrj.br/oai/requestopendoar:2023-11-30T03:00:31Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)false
dc.title.pt_BR.fl_str_mv Anotação de papéis semânticos para o português por Conditional Random Fields
title Anotação de papéis semânticos para o português por Conditional Random Fields
spellingShingle Anotação de papéis semânticos para o português por Conditional Random Fields
Garrido, Luan Barbosa
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Processamento de linguagem natural
Aprendizado computacional
title_short Anotação de papéis semânticos para o português por Conditional Random Fields
title_full Anotação de papéis semânticos para o português por Conditional Random Fields
title_fullStr Anotação de papéis semânticos para o português por Conditional Random Fields
title_full_unstemmed Anotação de papéis semânticos para o português por Conditional Random Fields
title_sort Anotação de papéis semânticos para o português por Conditional Random Fields
author Garrido, Luan Barbosa
author_facet Garrido, Luan Barbosa
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6062983811271536
dc.contributor.author.fl_str_mv Garrido, Luan Barbosa
dc.contributor.referee1.fl_str_mv Souza, Jano Moreira de
dc.contributor.referee2.fl_str_mv Lopes, Giseli Rabello
dc.contributor.advisor1.fl_str_mv Xexéo, Geraldo Bonorino
contributor_str_mv Souza, Jano Moreira de
Lopes, Giseli Rabello
Xexéo, Geraldo Bonorino
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
Processamento de linguagem natural
Aprendizado computacional
dc.subject.por.fl_str_mv Processamento de linguagem natural
Aprendizado computacional
description A anotação de papéis semânticos (APS) pode ser descrita como um meio para diversos fins. Muitas são as áreas dentro do processamento de linguagem natural (PLN) que se beneficiam das etiquetas semânticas dos constituintes da sentença para enriquecer os dados em seus próprios objetivos. Relatado na literatura a diversos séculos, a tarefa de APS renova sua popularidade a partir dos anos 2000, quando o primeiro trabalho de anotação automática foi escrito. Principalmente analisadas para o inglês, muitos trabalhos avaliam cada constituinte da frase separadamente, e não se beneficiam da natureza sequencial de palavras em que a tarefa está incluída. Os últimos trabalho de APS tendem a descentralizar o enfoque inicial e reaproveitam metodologias utilizadas para a língua inglesa em suas próprias línguas, como o espanhol, chinês, francês, sueco e português. Alguns trabalhos já foram realizados para o português, porém, nenhum conseguiu atingir o nível de qualidade obtido para a língua inglesa, e não obstante, somente um trabalho capaz de anotar papéis semânticos a partir de textos puros foi encontrado. Desta forma, esta dissertação visa disponibilizar uma alternativa para anotar papéis semânticos em textos de português sem nenhuma informação agregada, utilizando o modelo de classificação sequencial, denominado Conditional Random Fields.
publishDate 2017
dc.date.issued.fl_str_mv 2017-03
dc.date.accessioned.fl_str_mv 2019-07-04T13:47:19Z
dc.date.available.fl_str_mv 2023-11-30T03:00:31Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11422/8654
url http://hdl.handle.net/11422/8654
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia de Sistemas e Computação
dc.publisher.initials.fl_str_mv UFRJ
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia
publisher.none.fl_str_mv Universidade Federal do Rio de Janeiro
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRJ
instname:Universidade Federal do Rio de Janeiro (UFRJ)
instacron:UFRJ
instname_str Universidade Federal do Rio de Janeiro (UFRJ)
instacron_str UFRJ
institution UFRJ
reponame_str Repositório Institucional da UFRJ
collection Repositório Institucional da UFRJ
bitstream.url.fl_str_mv http://pantheon.ufrj.br:80/bitstream/11422/8654/2/880224.pdf
http://pantheon.ufrj.br:80/bitstream/11422/8654/3/license.txt
bitstream.checksum.fl_str_mv 7e36c3b9c08875827b23ef7b00032368
dd32849f2bfb22da963c3aac6e26e255
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRJ - Universidade Federal do Rio de Janeiro (UFRJ)
repository.mail.fl_str_mv
_version_ 1784097148068954112