Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos

Abreu, Jean Carlos Oliveira de

Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos

Detalhes bibliográficos
Autor(a) principal:	Abreu, Jean Carlos Oliveira de
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFSC
Texto Completo:	https://repositorio.ufsc.br/handle/123456789/193641
Resumo:	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.

Metadados do item

id	UFSC_9cb38123b16d3ee30003f1eb91bde1e8
oai_identifier_str	oai:repositorio.ufsc.br:123456789/193641
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str	2373
spelling	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textosComputaçãoMineração de dados (Computação)Processamento de linguagem natural (Computação)Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.Menções (e.g., a entidades, a conceitos) identificadas em textos por ferramentas do estado da arte não raramente apresentam incompatibilidades com as respectivas menções da regra ouro (menções anotadas e validadas por humanos em textos). Esta dissertação propõe uma classificação formal desses problemas de incompatibilidade de menções, incluindo correspondências parciais. Além disso, apresenta evidências de que, em muitos casos, menções mais longas levam a maior precisão e a informações mais específicas que menções mais curtas. Com base nisso, foram desenvolvidos no âmbito deste mestrado algoritmos para melhorar a eficácia de ferramentas de reconhecimento de menções, mediante a expansão de menções em textos quando e o quanto possível. Tais algoritmos funcionam como um passo de pós-processamento, baseado em dicionário de nomes de superfície, para melhorar os resultados retornados por qualquer ferramenta que identifique menções em texto. Experimentos realizados com a Coleção Dourada do HAREM e o Gerbil, framework que integra uma variedade de ferramentas do estado da arte e diversos conjuntos de dados contendo textos do mundo real, mostraram que sobre-segmentação (menções da regra outro contendo uma ou mais menções menores identificadas por ferramentas) é a classe de problema de incompatibilidade de menções mais prevalente dentre as classes formalizadas neste trabalho. Alguns dos algoritmos propostos nesta dissertação solucionaram a maior parte dos casos de sobre-segmentação, sem ocasionar muitos casos do problema oposto, sub-segmentação (i.e., menções maiores que as da regra ouro), com consequentes melhorias na precisão e na cobertura. O algoritmo MInT NoOver também gerou ganhos de medida-F sobre os resultados de ligação de entidades da ferramenta AGDISTIS.Abstract : Mentions (e.g., entities, concepts) identified in texts by state-of-the-art tools sometimes present incompatibilities with the respective mentions of the ground truth. This work proposes a formal classification of mention mismatching problems, including partial matching. In addition, it provides evidence that, in many cases, longer mentions lead to greater accuracy and more specific information than shorter mentions. Based on this, algorithms to improve the effectiveness of mention recognition tools have been developed in this work, by expanding mentions in texts when and as much as possible. Such algorithms works as a post-processing step, based on a surface name dictionary, to improve the results returned by any tool that identifies mentions in text. Experiments with the HAREM Gold Collection and Gerbil, a framework that integrates a variety of state-of-the-art tools and several datasets containing real-world texts, have shown that over-segmentation (mentions of the ground truth containing one or more minor mentions identified by tools) is the most prevalent class of mismatching problems among the formalized in this work. Some of the algorithms proposed in this dissertation solved most of the cases of over-segmentation, without causing many cases of the opposite problem, sub-segmentation (i.e., mentions greater than those of the ground truth), with consequent improvements in accuracy and coverage. The MInT NoOver algorithm also generated F-measure gains over the entity binding results of the AGDISTIS tool.Fileto, RenatoUniversidade Federal de Santa CatarinaAbreu, Jean Carlos Oliveira de2019-03-07T04:02:10Z2019-03-07T04:02:10Z2018info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis92 p.\| il., gráfs.application/pdf356035https://repositorio.ufsc.br/handle/123456789/193641porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2019-03-07T04:02:10Zoai:repositorio.ufsc.br:123456789/193641Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732019-03-07T04:02:10Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
spellingShingle	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos Abreu, Jean Carlos Oliveira de Computação Mineração de dados (Computação) Processamento de linguagem natural (Computação)
title_short	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_full	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_fullStr	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_full_unstemmed	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
title_sort	Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos
author	Abreu, Jean Carlos Oliveira de
author_facet	Abreu, Jean Carlos Oliveira de
author_role	author
dc.contributor.none.fl_str_mv	Fileto, Renato Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv	Abreu, Jean Carlos Oliveira de
dc.subject.por.fl_str_mv	Computação Mineração de dados (Computação) Processamento de linguagem natural (Computação)
topic	Computação Mineração de dados (Computação) Processamento de linguagem natural (Computação)
description	Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2018.
publishDate	2018
dc.date.none.fl_str_mv	2018 2019-03-07T04:02:10Z 2019-03-07T04:02:10Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	356035 https://repositorio.ufsc.br/handle/123456789/193641
identifier_str_mv	356035
url	https://repositorio.ufsc.br/handle/123456789/193641
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	92 p.\| il., gráfs. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_	1808652119329210368

Caracterização e tratamento de problemas de casamentos parciais no reconhecimento de menções em textos

Registros relacionados