Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/46487 |
Resumo: | Orientador : Marcos Didonet Del Fabro |
id |
UFPR_9942f23eec5b3d566074980eb88bb62b |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/46487 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaDidonet Del Fabro, Marcos, 1978-Ferri, Junior2024-02-01T19:29:24Z2024-02-01T19:29:24Z2016https://hdl.handle.net/1884/46487Orientador : Marcos Didonet Del FabroDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 29/08/2016Inclui referências : f. 47-50Área de concentração: Ciência da computaçãoResumo: As técnicas de extração de informações estão sempre evoluindo para serem capazes de trabalhar com a quantidade crescente de dados disponíveis através de textos em linguagem natural e não estruturados. Destacamos a subtarefa da extração de informação conhecida como reconhecimento de entidades nomeadas baseado em dicionário, que realiza a identificação de sequências de caracteres que representam entidades de um determinado grupo, e o bom desempenho dessa subtarefa é fundamental para um bom processo de extração de informação. O reconhecimento de entidades nomeadas (NER) permite definir os sujeitos que são abordados pelo texto como organizações, pessoas, locais, etc. Pontos que ainda são desafios dentro da subtarefa de NER para sistemas baseados em dicionário são a presença de erros ortográficos nos textos e a existência de poucos sistemas de NER capazes de trabalhar em diferentes contextos. Esse trabalho apresenta uma abordagem para o reconhecimento de entidades nomeadas baseado em dicionário. Para trabalhar com textos que podem apresentar erros ortográficos, é utilizada uma busca por associação aproximada baseada na distância de edição entre as sequências de caracteres que representam a entrada do dicionário e as sub-partes do texto. Para promover a redução do erro entre as sequências de caracteres (SC) e facilitar a busca por associação aproximada são utilizados algoritmos de transformação. Esses algoritmos permitem a busca sobre o dicionário encontrar uma quantidade maior de entidades se comparada com as buscas utilizando as SCs originais para um mesmo valor da distância de edição aceita. As transformações também colaboram com a redução do tamanho das SCs e com a criação de mais prefixos similares, promovendo uma redução no tamanho da árvore de prefixo que indexa o dicionário. Para melhorar a precisão da nossa abordagem, disponibilizamos recursos de filtragem que fazem uso de métricas de similaridade para eliminar entidades falsas que foram retornadas da busca sobre o dicionário. Nossa abordagem também foi projetada para permitir a configuração de alguns componentes de forma a ser adaptada para diferentes casos de estudo. Palavras-chave: Reconhecimento de entidades nomeadas, Associação Aproximada de Sequências de Caracteres, Conversão fonética.Abstract: The information extraction techniques are always evolving to be able to work with the increasing amount of unstructured data available through texts in natural language. We highlight the information extraction subtask known as dictionary-based named entity recognition, which performs the identification of strings that represent entities of a particular group, and the good performance of this sub-task is critical for a good extracting information process. The named entity recognition (NER) defines the nouns that are covered by the text as organizations, people, places, etc. Some subjects that still represent chalenges in the sub-task of NER for currently systems that are dictionary-based are the presence of spelling errors in the text and the existence of few NER systems that are able to work in different contexts. This work presents an approach of a dictionary-based named entity recognition. Looking to work with texts that may have spelling errors, we use an approximate string matching search based on edit distance between the strings that represent the entries of the dictionary and the substrings of the text. To further the reduction of the error between the strings and facilitate the search using approximate matching we used transformation algorithms. These algorithms allow the search on the dictionary find a greater amount of entities if compared with the search using the original strings, for the same value of Edit Distance. Transformations also promote the strings size reduction and create more similar prefixes, promoting a reduction in the size of the prefix tree (trie) that indexes the dictionary. To improve the precision of our approach, we provide filtering capabilities that make use of similarity metrics to eliminate false entities that have been returned from the search on the dictionary trie. Our approach is also designed to enable the configuration of some components to be adapted to different study cases. Keywords: Named entity recognition, Approximate string matching, Phonetic conversion.50 f. : il., algumas color., tabs., grafs.application/pdfDisponível em formato digitalCiência da computaçãoProcessamento eletronico de dadosSistemas eletrônicosAbordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximadainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - JUNIOR FERRI.pdfapplication/pdf1791208https://acervodigital.ufpr.br/bitstream/1884/46487/1/R%20-%20D%20-%20JUNIOR%20FERRI.pdfdaf6ec2ba66fed937edf6d8c717c282fMD51open access1884/464872024-02-01 16:29:24.549open accessoai:acervodigital.ufpr.br:1884/46487Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082024-02-01T19:29:24Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
title |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
spellingShingle |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada Ferri, Junior Ciência da computação Processamento eletronico de dados Sistemas eletrônicos |
title_short |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
title_full |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
title_fullStr |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
title_full_unstemmed |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
title_sort |
Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada |
author |
Ferri, Junior |
author_facet |
Ferri, Junior |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática |
dc.contributor.advisor1.fl_str_mv |
Didonet Del Fabro, Marcos, 1978- |
dc.contributor.author.fl_str_mv |
Ferri, Junior |
contributor_str_mv |
Didonet Del Fabro, Marcos, 1978- |
dc.subject.por.fl_str_mv |
Ciência da computação Processamento eletronico de dados Sistemas eletrônicos |
topic |
Ciência da computação Processamento eletronico de dados Sistemas eletrônicos |
description |
Orientador : Marcos Didonet Del Fabro |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016 |
dc.date.accessioned.fl_str_mv |
2024-02-01T19:29:24Z |
dc.date.available.fl_str_mv |
2024-02-01T19:29:24Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/46487 |
url |
https://hdl.handle.net/1884/46487 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.pt_BR.fl_str_mv |
Disponível em formato digital |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
50 f. : il., algumas color., tabs., grafs. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/46487/1/R%20-%20D%20-%20JUNIOR%20FERRI.pdf |
bitstream.checksum.fl_str_mv |
daf6ec2ba66fed937edf6d8c717c282f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1813898801898848256 |