Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos

Detalhes bibliográficos
Autor(a) principal: Abreu, Jean Carlos Oliveira de
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/193641
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.
id UFSC_9cb38123b16d3ee30003f1eb91bde1e8
oai_identifier_str oai:repositorio.ufsc.br:123456789/193641
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textosComputaçãoMineração de dados (Computação)Processamento de linguagem natural (Computação)Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.Menções (e.g., a entidades, a conceitos) identificadas em textos por ferramentas do estado da arte não raramente apresentam incompatibilidades com as respectivas menções da regra ouro (menções anotadas e validadas por humanos em textos). Esta dissertação propõe uma classificação formal desses problemas de incompatibilidade de menções, incluindo correspondências parciais. Além disso, apresenta evidências de que, em muitos casos, menções mais longas levam a maior precisão e a informações mais específicas que menções mais curtas. Com base nisso, foram desenvolvidos no âmbito deste mestrado algoritmos para melhorar a eficácia de ferramentas de reconhecimento de menções, mediante a expansão de menções em textos quando e o quanto possível. Tais algoritmos funcionam como um passo de pós-processamento, baseado em dicionário de nomes de superfície, para melhorar os resultados retornados por qualquer ferramenta que identifique menções em texto. Experimentos realizados com a Coleção Dourada do HAREM e o Gerbil, framework que integra uma variedade de ferramentas do estado da arte e diversos conjuntos de dados contendo textos do mundo real, mostraram que sobre-segmentação (menções da regra outro contendo uma ou mais menções menores identificadas por ferramentas) é a classe de problema de incompatibilidade de menções mais prevalente dentre as classes formalizadas neste trabalho. Alguns dos algoritmos propostos nesta dissertação solucionaram a maior parte dos casos de sobre-segmentação, sem ocasionar muitos casos do problema oposto, sub-segmentação (i.e., menções maiores que as da regra ouro), com consequentes melhorias na precisão e na cobertura. O algoritmo MInT NoOver também gerou ganhos de medida-F sobre os resultados de ligação de entidades da ferramenta AGDISTIS.Abstract : Mentions (e.g., entities, concepts) identified in texts by state-of-the-art tools sometimes present incompatibilities with the respective mentions of the ground truth. This work proposes a formal classification of mention mismatching problems, including partial matching. In addition, it provides evidence that, in many cases, longer mentions lead to greater accuracy and more specific information than shorter mentions. Based on this, algorithms to improve the effectiveness of mention recognition tools have been developed in this work, by expanding mentions in texts when and as much as possible. Such algorithms works as a post-processing step, based on a surface name dictionary, to improve the results returned by any tool that identifies mentions in text. Experiments with the HAREM Gold Collection and Gerbil, a framework that integrates a variety of state-of-the-art tools and several datasets containing real-world texts, have shown that over-segmentation (mentions of the ground truth containing one or more minor mentions identified by tools) is the most prevalent class of mismatching problems among the formalized in this work. Some of the algorithms proposed in this dissertation solved most of the cases of over-segmentation, without causing many cases of the opposite problem, sub-segmentation (i.e., mentions greater than those of the ground truth), with consequent improvements in accuracy and coverage. The MInT NoOver algorithm also generated F-measure gains over the entity binding results of the AGDISTIS tool.Fileto, RenatoUniversidade Federal de Santa CatarinaAbreu, Jean Carlos Oliveira de2019-03-07T04:02:10Z2019-03-07T04:02:10Z2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis92 p.| il., gráfs.application/pdf356035https://repositorio.ufsc.br/handle/123456789/193641porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2019-03-07T04:02:10Zoai:repositorio.ufsc.br:123456789/193641Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732019-03-07T04:02:10Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
spellingShingle Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
Abreu, Jean Carlos Oliveira de
Computação
Mineração de dados (Computação)
Processamento de linguagem natural (Computação)
title_short Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_full Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_fullStr Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_full_unstemmed Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_sort Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
author Abreu, Jean Carlos Oliveira de
author_facet Abreu, Jean Carlos Oliveira de
author_role author
dc.contributor.none.fl_str_mv Fileto, Renato
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Abreu, Jean Carlos Oliveira de
dc.subject.por.fl_str_mv Computação
Mineração de dados (Computação)
Processamento de linguagem natural (Computação)
topic Computação
Mineração de dados (Computação)
Processamento de linguagem natural (Computação)
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.
publishDate 2018
dc.date.none.fl_str_mv 2018
2019-03-07T04:02:10Z
2019-03-07T04:02:10Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 356035
https://repositorio.ufsc.br/handle/123456789/193641
identifier_str_mv 356035
url https://repositorio.ufsc.br/handle/123456789/193641
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 92 p.| il., gráfs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652119329210368