Normalisation of imprecise temporal expressions extracted from text

Detalhes bibliográficos
Autor(a) principal: Tissot, Hegler Correa
Data de Publicação: 2016
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: http://hdl.handle.net/1884/43255
Resumo: Orientador : Prof. Dr. Marcos Didonet Del Fabro
id UFPR_7de6c3250a102c12fb72963f67ad3d88
oai_identifier_str oai:acervodigital.ufpr.br:1884/43255
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Tissot, Hegler CorreaRoberts, AngusUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaFabro, Marcos Didonet Del2018-02-05T16:00:34Z2018-02-05T16:00:34Z2016http://hdl.handle.net/1884/43255Orientador : Prof. Dr. Marcos Didonet Del FabroCo-Orientador : Prof. Dr. Angus RobertsTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 05/04/2016Inclui referências : f. 95-105Resumo: Técnicas e sistemas de extração de informações são capazes de lidar com a crescente quantidade de dados não estruturados disponíveis hoje em dia. A informação temporal está entre os diferentes tipos de informações que podem ser extraídos a partir de tais fontes de dados não estruturados, como documentos de texto. Informações temporais descrevem as mudanças que acontecem através da ocorrência de eventos, e fornecem uma maneira de gravar, ordenar e medir a duração de tais ocorrências. A impossibilidade de identificar e extrair informação temporal a partir de documentos textuais faz com que seja difícil entender como os eventos são organizados em ordem cronológica. Além disso, em muitas situações, o significado das expressões temporais é impreciso, e não pode ser descrito com precisão, o que leva a erros de interpretação. As soluções existentes proporcionam formas alternativas de representar expressões temporais imprecisas. Elas são, entretanto, específicas e difíceis de generalizar. Além disso, a análise de dados temporais pode ser particularmente ineficiente na presença de erros ortográficos. As abordagens existentes usam métodos de similaridade para procurar palavras válidas dentro de um texto. No entanto, elas não são suficientes para processos erros de ortografia de uma forma eficiente. Nesta tese é apresentada uma metodologia para analisar e normalizar das expressões temporais imprecisas, em que, após a coleta e pré-processamento de dados sobre a forma como as pessoas interpretam descrições vagas de tempo no texto, diferentes técnicas são comparadas a fim de criar e selecionar o modelo de normalização mais apropriada para diferentes tipos de expressões imprecisas. Também são comparados um sistema baseado em regras e uma abordagem de aprendizagem de máquina na tentativa de identificar expressões temporais em texto, e é analisado o processo de produção de padrões de anotação, identificando possíveis fontes de problemas, dando algumas recomendações para serem consideradas no futuro esforços de anotação manual. Finalmente, é proposto um mapa fonético e é avaliado como a codificação de informação fonética poderia ser usado a fim de auxiliar os métodos de busca de similaridade e melhorar a qualidade da informação extraída.Abstract: Information Extraction systems and techniques are able to deal with the increasing amount of unstructured data available nowadays. Time is amongst the different kinds of information that may be extracted from such unstructured data sources, including text documents. Time describes changes which happen through the occurrence of events, and provides a way to record, order, and measure the duration of such occurrences. The inability to identify and extract temporal information from text makes it difficult to understand how the events are organized in a chronological order. Moreover, in many situations, the meaning of temporal expressions is imprecise, and cannot be accurately described, leading to interpretation errors. Existing solutions provide alternative ways of representing imprecise temporal expressions, though they are specific and hard to generalise. Furthermore, the analysis of temporal data may be particularly inefficient in the presence of spelling errors. Existing approaches use string similarity methods to search for valid words within a text. However, they are not rich enough to processes misspellings in an efficient way. In this thesis, we present a methodology to analyse and normalise of imprecise temporal expressions, in which, after collecting and pre-processing data on how people interpret vague descriptions of time in text, we compare different techniques in order to create and select the most appropriate normalisation model for different kinds of imprecise expressions. We also compare how a rule-based system and a machine learning approach perform on trying to identify temporal expression from text, and we analyse the process of producing gold standards, identifying possible sources of issues, giving some recommendations to be considered in future manual annotation efforts. Finally, we propose a phonetic map and evaluate how encoding phonetic information could be used in order to assist similarity search methods and improve information extraction quality.127 f. : il.application/pdfDisponível em formato digitalCiência da computaçãoRecuperação da informaçãoBanco de dadosRecuperação de dados (Computação)TesesNormalisation of imprecise temporal expressions extracted from textinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - HEGLER CORREA TISSOT.pdfapplication/pdf1693473https://acervodigital.ufpr.br/bitstream/1884/43255/1/R%20-%20T%20-%20HEGLER%20CORREA%20TISSOT.pdf8875891773944b9a9b86efba85cbb283MD51open accessTEXTR - T - HEGLER CORREA TISSOT.pdf.txtExtracted Texttext/plain379080https://acervodigital.ufpr.br/bitstream/1884/43255/2/R%20-%20T%20-%20HEGLER%20CORREA%20TISSOT.pdf.txtcd1840746f270dae2556b5cb29318dfaMD52open accessTHUMBNAILR - T - HEGLER CORREA TISSOT.pdf.jpgGenerated Thumbnailimage/jpeg1159https://acervodigital.ufpr.br/bitstream/1884/43255/3/R%20-%20T%20-%20HEGLER%20CORREA%20TISSOT.pdf.jpg5cc8b42b0ca5d67c92c47ecf79cca2ebMD53open access1884/432552018-02-05 14:00:35.107open accessoai:acervodigital.ufpr.br:1884/43255Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082018-02-05T16:00:35Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Normalisation of imprecise temporal expressions extracted from text
title Normalisation of imprecise temporal expressions extracted from text
spellingShingle Normalisation of imprecise temporal expressions extracted from text
Tissot, Hegler Correa
Ciência da computação
Recuperação da informação
Banco de dados
Recuperação de dados (Computação)
Teses
title_short Normalisation of imprecise temporal expressions extracted from text
title_full Normalisation of imprecise temporal expressions extracted from text
title_fullStr Normalisation of imprecise temporal expressions extracted from text
title_full_unstemmed Normalisation of imprecise temporal expressions extracted from text
title_sort Normalisation of imprecise temporal expressions extracted from text
author Tissot, Hegler Correa
author_facet Tissot, Hegler Correa
author_role author
dc.contributor.other.pt_BR.fl_str_mv Roberts, Angus
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Tissot, Hegler Correa
dc.contributor.advisor1.fl_str_mv Fabro, Marcos Didonet Del
contributor_str_mv Fabro, Marcos Didonet Del
dc.subject.por.fl_str_mv Ciência da computação
Recuperação da informação
Banco de dados
Recuperação de dados (Computação)
Teses
topic Ciência da computação
Recuperação da informação
Banco de dados
Recuperação de dados (Computação)
Teses
description Orientador : Prof. Dr. Marcos Didonet Del Fabro
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2018-02-05T16:00:34Z
dc.date.available.fl_str_mv 2018-02-05T16:00:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1884/43255
url http://hdl.handle.net/1884/43255
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 127 f. : il.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/43255/1/R%20-%20T%20-%20HEGLER%20CORREA%20TISSOT.pdf
https://acervodigital.ufpr.br/bitstream/1884/43255/2/R%20-%20T%20-%20HEGLER%20CORREA%20TISSOT.pdf.txt
https://acervodigital.ufpr.br/bitstream/1884/43255/3/R%20-%20T%20-%20HEGLER%20CORREA%20TISSOT.pdf.jpg
bitstream.checksum.fl_str_mv 8875891773944b9a9b86efba85cbb283
cd1840746f270dae2556b5cb29318dfa
5cc8b42b0ca5d67c92c47ecf79cca2eb
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860444772630528