Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina

Carvalho, Wesley Seidel

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal:	Carvalho, Wesley Seidel
Data de Publicação:	2012
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/
Resumo:	O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina.

Metadados do item

id	USP_d9b2c70a792f900c0bafd5f369ec4bb5
oai_identifier_str	oai:teses.usp.br:tde-23052013-104248
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquinaPortuguese named entity recognition using machine learningAprendizado de MáquinaInformation ExtractionMachine LearningMáxima EntropiaMaximum Entropy FrameworkNamed Entity RecognitionNatural Language Processing.PLNProcessamento de Linguagem NaturalReconhecimento de Entidades MencionadasReconhecimento de Entidades NomeadasREMO Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina.Named Entity Recognition (NER), a task related to information extraction, aims to classify textual elements according to predefined categories such as names, places, dates etc. This enables the execution of more advanced tasks. NER is a first step towards semantic textual analysis and is also a crucial task for systems of information extraction and other types of systems. In this thesis, I analyze some Machine Learning methods applied to NER tasks, including two methods applied to Portuguese language. I present three ways of evaluating these types of systems found in the literature. I also develop an NER system for the Portuguese language utilizing Machine Learning that entails working with a maximum entropy framework. The results are comparable to the best NER systems for the Portuguese language developed with other Machine Learning alternatives.Biblioteca Digitais de Teses e Dissertações da USPFinger, MarceloCarvalho, Wesley Seidel2012-02-24info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2016-07-28T16:10:36Zoai:teses.usp.br:tde-23052013-104248Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212016-07-28T16:10:36Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina Portuguese named entity recognition using machine learning
title	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
spellingShingle	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina Carvalho, Wesley Seidel Aprendizado de Máquina Information Extraction Machine Learning Máxima Entropia Maximum Entropy Framework Named Entity Recognition Natural Language Processing. PLN Processamento de Linguagem Natural Reconhecimento de Entidades Mencionadas Reconhecimento de Entidades Nomeadas REM
title_short	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_full	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_fullStr	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_full_unstemmed	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
title_sort	Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina
author	Carvalho, Wesley Seidel
author_facet	Carvalho, Wesley Seidel
author_role	author
dc.contributor.none.fl_str_mv	Finger, Marcelo
dc.contributor.author.fl_str_mv	Carvalho, Wesley Seidel
dc.subject.por.fl_str_mv	Aprendizado de Máquina Information Extraction Machine Learning Máxima Entropia Maximum Entropy Framework Named Entity Recognition Natural Language Processing. PLN Processamento de Linguagem Natural Reconhecimento de Entidades Mencionadas Reconhecimento de Entidades Nomeadas REM
topic	Aprendizado de Máquina Information Extraction Machine Learning Máxima Entropia Maximum Entropy Framework Named Entity Recognition Natural Language Processing. PLN Processamento de Linguagem Natural Reconhecimento de Entidades Mencionadas Reconhecimento de Entidades Nomeadas REM
description	O Reconhecimento de Entidades Mencionadas (REM) é uma subtarefa da extração de informações e tem como objetivo localizar e classificar elementos do texto em categorias pré-definidas tais como nome de pessoas, organizações, lugares, datas e outras classes de interesse. Esse conhecimento obtido possibilita a execução de outras tarefas mais avançadas. O REM pode ser considerado um dos primeiros passos para a análise semântica de textos, além de ser uma subtarefa crucial para sistemas de gerenciamento de documentos, mineração de textos, extração da informação, entre outros. Neste trabalho, estudamos alguns métodos de Aprendizado de Máquina aplicados na tarefa de REM que estão relacionados ao atual estado da arte, dentre eles, dois métodos aplicados na tarefa de REM para a língua portuguesa. Apresentamos três diferentes formas de avaliação destes tipos de sistemas presentes na literatura da área. Além disso, desenvolvemos um sistema de REM para língua portuguesa utilizando Aprendizado de Máquina, mais especificamente, o arcabouço de máxima entropia. Os resultados obtidos com o nosso sistema alcançaram resultados equiparáveis aos melhores sistemas de REM para a língua portuguesa desenvolvidos utilizando outras abordagens de aprendizado de máquina.
publishDate	2012
dc.date.none.fl_str_mv	2012-02-24
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/
url	http://www.teses.usp.br/teses/disponiveis/45/45134/tde-23052013-104248/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1809091013489197056

Reconhecimento de entidades mencionadas em português utilizando aprendizado de máquina

Registros relacionados