Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada

Detalhes bibliográficos
Autor(a) principal: Ferri, Junior
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/46487
Resumo: Orientador : Marcos Didonet Del Fabro
id UFPR_9942f23eec5b3d566074980eb88bb62b
oai_identifier_str oai:acervodigital.ufpr.br:1884/46487
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaDidonet Del Fabro, Marcos, 1978-Ferri, Junior2024-02-01T19:29:24Z2024-02-01T19:29:24Z2016https://hdl.handle.net/1884/46487Orientador : Marcos Didonet Del FabroDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 29/08/2016Inclui referências : f. 47-50Área de concentração: Ciência da computaçãoResumo: As técnicas de extração de informações estão sempre evoluindo para serem capazes de trabalhar com a quantidade crescente de dados disponíveis através de textos em linguagem natural e não estruturados. Destacamos a subtarefa da extração de informação conhecida como reconhecimento de entidades nomeadas baseado em dicionário, que realiza a identificação de sequências de caracteres que representam entidades de um determinado grupo, e o bom desempenho dessa subtarefa é fundamental para um bom processo de extração de informação. O reconhecimento de entidades nomeadas (NER) permite definir os sujeitos que são abordados pelo texto como organizações, pessoas, locais, etc. Pontos que ainda são desafios dentro da subtarefa de NER para sistemas baseados em dicionário são a presença de erros ortográficos nos textos e a existência de poucos sistemas de NER capazes de trabalhar em diferentes contextos. Esse trabalho apresenta uma abordagem para o reconhecimento de entidades nomeadas baseado em dicionário. Para trabalhar com textos que podem apresentar erros ortográficos, é utilizada uma busca por associação aproximada baseada na distância de edição entre as sequências de caracteres que representam a entrada do dicionário e as sub-partes do texto. Para promover a redução do erro entre as sequências de caracteres (SC) e facilitar a busca por associação aproximada são utilizados algoritmos de transformação. Esses algoritmos permitem a busca sobre o dicionário encontrar uma quantidade maior de entidades se comparada com as buscas utilizando as SCs originais para um mesmo valor da distância de edição aceita. As transformações também colaboram com a redução do tamanho das SCs e com a criação de mais prefixos similares, promovendo uma redução no tamanho da árvore de prefixo que indexa o dicionário. Para melhorar a precisão da nossa abordagem, disponibilizamos recursos de filtragem que fazem uso de métricas de similaridade para eliminar entidades falsas que foram retornadas da busca sobre o dicionário. Nossa abordagem também foi projetada para permitir a configuração de alguns componentes de forma a ser adaptada para diferentes casos de estudo. Palavras-chave: Reconhecimento de entidades nomeadas, Associação Aproximada de Sequências de Caracteres, Conversão fonética.Abstract: The information extraction techniques are always evolving to be able to work with the increasing amount of unstructured data available through texts in natural language. We highlight the information extraction subtask known as dictionary-based named entity recognition, which performs the identification of strings that represent entities of a particular group, and the good performance of this sub-task is critical for a good extracting information process. The named entity recognition (NER) defines the nouns that are covered by the text as organizations, people, places, etc. Some subjects that still represent chalenges in the sub-task of NER for currently systems that are dictionary-based are the presence of spelling errors in the text and the existence of few NER systems that are able to work in different contexts. This work presents an approach of a dictionary-based named entity recognition. Looking to work with texts that may have spelling errors, we use an approximate string matching search based on edit distance between the strings that represent the entries of the dictionary and the substrings of the text. To further the reduction of the error between the strings and facilitate the search using approximate matching we used transformation algorithms. These algorithms allow the search on the dictionary find a greater amount of entities if compared with the search using the original strings, for the same value of Edit Distance. Transformations also promote the strings size reduction and create more similar prefixes, promoting a reduction in the size of the prefix tree (trie) that indexes the dictionary. To improve the precision of our approach, we provide filtering capabilities that make use of similarity metrics to eliminate false entities that have been returned from the search on the dictionary trie. Our approach is also designed to enable the configuration of some components to be adapted to different study cases. Keywords: Named entity recognition, Approximate string matching, Phonetic conversion.50 f. : il., algumas color., tabs., grafs.application/pdfDisponível em formato digitalCiência da computaçãoProcessamento eletronico de dadosSistemas eletrônicosAbordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximadainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - JUNIOR FERRI.pdfapplication/pdf1791208https://acervodigital.ufpr.br/bitstream/1884/46487/1/R%20-%20D%20-%20JUNIOR%20FERRI.pdfdaf6ec2ba66fed937edf6d8c717c282fMD51open access1884/464872024-02-01 16:29:24.549open accessoai:acervodigital.ufpr.br:1884/46487Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082024-02-01T19:29:24Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
title Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
spellingShingle Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
Ferri, Junior
Ciência da computação
Processamento eletronico de dados
Sistemas eletrônicos
title_short Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
title_full Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
title_fullStr Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
title_full_unstemmed Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
title_sort Abordagem modular baseada em dicionário para reconhecimento de entidades nomeadas através de associação aproximada
author Ferri, Junior
author_facet Ferri, Junior
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.advisor1.fl_str_mv Didonet Del Fabro, Marcos, 1978-
dc.contributor.author.fl_str_mv Ferri, Junior
contributor_str_mv Didonet Del Fabro, Marcos, 1978-
dc.subject.por.fl_str_mv Ciência da computação
Processamento eletronico de dados
Sistemas eletrônicos
topic Ciência da computação
Processamento eletronico de dados
Sistemas eletrônicos
description Orientador : Marcos Didonet Del Fabro
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2024-02-01T19:29:24Z
dc.date.available.fl_str_mv 2024-02-01T19:29:24Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/46487
url https://hdl.handle.net/1884/46487
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 50 f. : il., algumas color., tabs., grafs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/46487/1/R%20-%20D%20-%20JUNIOR%20FERRI.pdf
bitstream.checksum.fl_str_mv daf6ec2ba66fed937edf6d8c717c282f
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1813898801898848256