Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/ |
Resumo: | Este trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição. Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCR |
id |
USP_9ab41937e6bfda556e20a0e87bd50918 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-20230727-113129 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricosA recognition, approximate search and multiple align system for historical documentsComputação GráficaProcessamento De ImagensProgramação DinâmicaProgramação MatemáticaRecuperação Da InformaçãoEste trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição. Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCRThis thesis describes the design, implementation and experiments on a software system that integrates digital irnage pracessing for historical docurnents with appraxirnate search and multiple alignrnent for these kind of documents. Old typography along with a bad preservation state is very cornmon in historical docurnents. These two features generate noise when irnages of this kind are pracessed by modern OCR systems. Therefore, in order to perform comparison and rnultiple alignment that would lead to a reconstruction of the phylogenetic tree for these documents, one should use Appraxirnate Search techniques to overcorne this problern. We also prapose an scoring systern for historical documents based on the alignment of similar words bounded by an errar rate or with diverse spelling. To identify similar words considering a fixed errar rate, we use an an efficient Ukkonen's edit distance algorithm which still demands a Iot of computational resources. Thus, we proposed and ran experiments on a filter that uses a distance based on bag of characters that not only guarantees the sarne results but also drastically reduces the number of calls to Ukkonen's edit distance. In order to identify similar passages among historical documents allowing errors, we praposed a multiple local alignment algorithm that lends techniques like seeding and local alignment expansion from tools like BLAST, very popular in Bioinformatics. We also identified limitations in many solutions proposed for the problem of touching character segmentation in the image pracessing literature. We proposed and irnplemented a novel segmentation algorithm based on an model that allows to intraduce an optimization algorithm that uses dynamic programming, unlike existing heuristics based on greedy strategies. We also proposed an architecture that harnesses on the alignments generated against a ground-truth text document in order to retrain and increase accuracy for an OCR systemBiblioteca Digitais de Teses e Dissertações da USPLago, Alair Pereira doTorres, Gustavo Enrique Salazar2017-12-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-07-27T18:47:04Zoai:teses.usp.br:tde-20230727-113129Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-07-27T18:47:04Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos A recognition, approximate search and multiple align system for historical documents |
title |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos |
spellingShingle |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos Torres, Gustavo Enrique Salazar Computação Gráfica Processamento De Imagens Programação Dinâmica Programação Matemática Recuperação Da Informação |
title_short |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos |
title_full |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos |
title_fullStr |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos |
title_full_unstemmed |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos |
title_sort |
Um sistema de reconhecimento, busca aproximada, e alinhamento múltiplo de documentos históricos |
author |
Torres, Gustavo Enrique Salazar |
author_facet |
Torres, Gustavo Enrique Salazar |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lago, Alair Pereira do |
dc.contributor.author.fl_str_mv |
Torres, Gustavo Enrique Salazar |
dc.subject.por.fl_str_mv |
Computação Gráfica Processamento De Imagens Programação Dinâmica Programação Matemática Recuperação Da Informação |
topic |
Computação Gráfica Processamento De Imagens Programação Dinâmica Programação Matemática Recuperação Da Informação |
description |
Este trabalho relata o projeto, implementação e teste de um sistema que integra reconhecimento digital de textos em imagens de documentos antigos com busca e indexação aproximada e alinhamento múltiplo dos documentos. O reconhecimento de texto em documentos históricos, com tipografia muito diferente da atual e estado de conservação precário, é altamente sujeito a erro de forma que a comparação e o alinhamento múltiplo necessário a uma reconstituição de um estudo da origem filogenética precisa usar técnicas de Busca Aproximada para contornar o problema. Assim, propomos um sistema de pontuação para documentos históricos que releva o alinhamento de termos similares sujeito aos erros de OCR ou grafias diversas. Para a identificação de palavras semelhantes dentro de uma taxa de erro preestabelecida, usamos um cálculo da distância de edição proposto por Ukkonen que ainda requer muito recurso computacional. Nós propomos e testamos o uso de um filtro que usa sacos de símbolos que garante os mesmos resultados com uma redução drástica da computação das distâncias de edição. Desta forma, para identificação de trechos semelhantes em documentos históricos diversos sujeito a erros, foi proposta uma estratégia de alinhamento múltiplo local que utiliza técnicas de extração de sementes e expansões de alinhamentos locais como a usada pela ferramenta BLAST, muito conhecida na área de Bioinformática. Diante das deficiências encontradas nos trabalhos de processamento de imagens de documentos históricos no que diz respeito à segmentação de caracteres, propusemos e implementamos um novo algoritmo de segmentação baseado em uma modelagem que permite a elaboração de um algoritmo de otimização através de programação dinâmica, ao contrário das heurísticas existentes baseadas em estratégias gulosas. Foi também proposta uma arquitetura que aproveita dos alinhamentos produzidos contra documentos gabarito de forma a retreinar e aumentar a acurácia do classificador OCR |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-12-06 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/ |
url |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113129/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257218450194432 |