Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos

Detalhes bibliográficos
Autor(a) principal: Torres, Gustavo Enrique Salazar
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/
Resumo: Este trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição. Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCR
id USP_9ab41937e6bfda556e20a0e87bd50918
oai_identifier_str oai:teses.usp.br:tde-20230727-113129
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricosA recognition, approximate search and multiple align system for historical documentsComputação GráficaProcessamento De ImagensProgramação DinâmicaProgramação MatemáticaRecuperação Da InformaçãoEste trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição. Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCRThis thesis describes the design, implementation and experiments on a software system that integrates digital irnage pracessing for historical docurnents with appraxirnate search and multiple alignrnent for these kind of documents. Old typography along with a bad preservation state is very cornmon in historical docurnents. These two features generate noise when irnages of this kind are pracessed by modern OCR systems. Therefore, in order to perform comparison and rnultiple alignment that would lead to a reconstruction of the phylogenetic tree for these documents, one should use Appraxirnate Search techniques to overcorne this problern. We also prapose an scoring systern for historical documents based on the alignment of similar words bounded by an errar rate or with diverse spelling. To identify similar words considering a fixed errar rate, we use an an efficient Ukkonen's edit distance algorithm which still demands a Iot of computational resources. Thus, we proposed and ran experiments on a filter that uses a distance based on bag of characters that not only guarantees the sarne results but also drastically reduces the number of calls to Ukkonen's edit distance. In order to identify similar passages among historical documents allowing errors, we praposed a multiple local alignment algorithm that lends techniques like seeding and local alignment expansion from tools like BLAST, very popular in Bioinformatics. We also identified limitations in many solutions proposed for the problem of touching character segmentation in the image pracessing literature. We proposed and irnplemented a novel segmentation algorithm based on an model that allows to intraduce an optimization algorithm that uses dynamic programming, unlike existing heuristics based on greedy strategies. We also proposed an architecture that harnesses on the alignments generated against a ground-truth text document in order to retrain and increase accuracy for an OCR systemBiblioteca Digitais de Teses e Dissertações da USPLago, Alair Pereira doTorres, Gustavo Enrique Salazar2017-12-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-27T18:47:04Zoai:teses.usp.br:tde-20230727-113129Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-27T18:47:04Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
A recognition, approximate search and multiple align system for historical documents
title Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
spellingShingle Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
Torres, Gustavo Enrique Salazar
Computação Gráfica
Processamento De Imagens
Programação Dinâmica
Programação Matemática
Recuperação Da Informação
title_short Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
title_full Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
title_fullStr Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
title_full_unstemmed Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
title_sort Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
author Torres, Gustavo Enrique Salazar
author_facet Torres, Gustavo Enrique Salazar
author_role author
dc.contributor.none.fl_str_mv Lago, Alair Pereira do
dc.contributor.author.fl_str_mv Torres, Gustavo Enrique Salazar
dc.subject.por.fl_str_mv Computação Gráfica
Processamento De Imagens
Programação Dinâmica
Programação Matemática
Recuperação Da Informação
topic Computação Gráfica
Processamento De Imagens
Programação Dinâmica
Programação Matemática
Recuperação Da Informação
description Este trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição. Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCR
publishDate 2017
dc.date.none.fl_str_mv 2017-12-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/
url https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257218450194432