Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal: Carvalho, Wesley Seidel
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/
Resumo: O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina.
id USP_d9b2c70a792f900c0bafd5f369ec4bb5
oai_identifier_str oai:teses.usp.br:tde-23052013-104248
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquinaPortuguese named entity recognition using machine learningAprendizado de MáquinaInformation ExtractionMachine LearningMáxima EntropiaMaximum Entropy FrameworkNamed Entity RecognitionNatural Language Processing.PLNProcessamento de Linguagem NaturalReconhecimento de Entidades MencionadasReconhecimento de Entidades NomeadasREMO Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina.Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.Biblioteca Digitais de Teses e Dissertações da USPFinger, MarceloCarvalho, Wesley Seidel2012-02-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:36Zoai:teses.usp.br:tde-23052013-104248Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212016-07-28T16:10:36Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
Portuguese named entity recognition using machine learning
title Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
spellingShingle Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
Carvalho, Wesley Seidel
Aprendizado de Máquina
Information Extraction
Machine Learning
Máxima Entropia
Maximum Entropy Framework
Named Entity Recognition
Natural Language Processing.
PLN
Processamento de Linguagem Natural
Reconhecimento de Entidades Mencionadas
Reconhecimento de Entidades Nomeadas
REM
title_short Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_full Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_fullStr Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_full_unstemmed Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_sort Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
author Carvalho, Wesley Seidel
author_facet Carvalho, Wesley Seidel
author_role author
dc.contributor.none.fl_str_mv Finger, Marcelo
dc.contributor.author.fl_str_mv Carvalho, Wesley Seidel
dc.subject.por.fl_str_mv Aprendizado de Máquina
Information Extraction
Machine Learning
Máxima Entropia
Maximum Entropy Framework
Named Entity Recognition
Natural Language Processing.
PLN
Processamento de Linguagem Natural
Reconhecimento de Entidades Mencionadas
Reconhecimento de Entidades Nomeadas
REM
topic Aprendizado de Máquina
Information Extraction
Machine Learning
Máxima Entropia
Maximum Entropy Framework
Named Entity Recognition
Natural Language Processing.
PLN
Processamento de Linguagem Natural
Reconhecimento de Entidades Mencionadas
Reconhecimento de Entidades Nomeadas
REM
description O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina.
publishDate 2012
dc.date.none.fl_str_mv 2012-02-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/
url http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809091013489197056