Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain

Oliveira, Lucas Lima de

Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain

Detalhes bibliográficos
Autor(a) principal:	Oliveira, Lucas Lima de
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/236344
Resumo:	O Formato de Documento Portátil (PDF) se tornou um dos padrões mais usados para armazenamento e compartilhamento de documentos. Artigos científicos, propostas de projetos, contratos, livros e documentos jurídicos são normalmente armazenados e distri buídos como arquivos PDF. Embora a extração do conteúdo textual de documentos PDF originados de forma digital possa ser feita com alta precisão, se o documento consistir em uma imagem digitalizada, o Reconhecimento Óptico de Caracteres (OCR) é normal mente necessário. A saída do OCR pode ser ruidosa, especialmente quando a qualidade da imagem digitalizada é ruim – muito comum em documentos históricos –, o que por sua vez pode impactar tarefas posteriores, como Recuperação de Informação (IR). O pós processamento de documentos OCR é uma alternativa para corrigir erros de extração e, intuitivamente, melhorar os resultados em tarefas posteriores. Este trabalho avalia o im pacto da extração e correção de OCR em IR. Comparamos diferentes métodos de extração e correção em textos extraídos por OCR de documentos escaneados reais. Para avaliar as tarefas de IR, o paradigma padrão requer uma coleção de testes com documentos, consul tas e julgamentos de relevância. A criação de coleções de teste requer um esforço humano significativo, principalmente na realização dos julgamentos de relevância. Como resul tado, ainda existem muitos domínios e idiomas que, até hoje, carecem de um ambiente de teste para avaliação adequada. O português é um exemplo de uma importante língua mundial que tem sido negligenciada em termos de pesquisas de IR - a única coleção de testes disponível é composta por notícias de 1994 e uma centena de consultas. Com o objetivo de preencher essa lacuna, desenvolvemos a REGIS (Retrieval Evaluation for Ge oscientific Information Systems), uma coleção de testes para o domínio geocientífico em português. REGIS contém 20 mil documentos e 34 tópicos de consulta, juntamente com julgamentos de relevância. Nossos resultados dos experimentos utilizando a REGIS mos traram que, em média, para o conjunto completo de tópicos de consulta, as métricas de qualidade de recuperação variam muito pouco. No entanto, uma análise mais detalhada revelou que a maioria dos tópicos de consulta melhorou com a correção de erros.

Metadados do item

id	URGS_2571b234ee5d3ebf0e21c02d54f961b7
oai_identifier_str	oai:www.lume.ufrgs.br:10183/236344
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Oliveira, Lucas Lima deMoreira, Viviane Pereira2022-03-29T04:35:53Z2022http://hdl.handle.net/10183/236344001138876O Formato de Documento Portátil (PDF) se tornou um dos padrões mais usados para armazenamento e compartilhamento de documentos. Artigos científicos, propostas de projetos, contratos, livros e documentos jurídicos são normalmente armazenados e distri buídos como arquivos PDF. Embora a extração do conteúdo textual de documentos PDF originados de forma digital possa ser feita com alta precisão, se o documento consistir em uma imagem digitalizada, o Reconhecimento Óptico de Caracteres (OCR) é normal mente necessário. A saída do OCR pode ser ruidosa, especialmente quando a qualidade da imagem digitalizada é ruim – muito comum em documentos históricos –, o que por sua vez pode impactar tarefas posteriores, como Recuperação de Informação (IR). O pós processamento de documentos OCR é uma alternativa para corrigir erros de extração e, intuitivamente, melhorar os resultados em tarefas posteriores. Este trabalho avalia o im pacto da extração e correção de OCR em IR. Comparamos diferentes métodos de extração e correção em textos extraídos por OCR de documentos escaneados reais. Para avaliar as tarefas de IR, o paradigma padrão requer uma coleção de testes com documentos, consul tas e julgamentos de relevância. A criação de coleções de teste requer um esforço humano significativo, principalmente na realização dos julgamentos de relevância. Como resul tado, ainda existem muitos domínios e idiomas que, até hoje, carecem de um ambiente de teste para avaliação adequada. O português é um exemplo de uma importante língua mundial que tem sido negligenciada em termos de pesquisas de IR - a única coleção de testes disponível é composta por notícias de 1994 e uma centena de consultas. Com o objetivo de preencher essa lacuna, desenvolvemos a REGIS (Retrieval Evaluation for Ge oscientific Information Systems), uma coleção de testes para o domínio geocientífico em português. REGIS contém 20 mil documentos e 34 tópicos de consulta, juntamente com julgamentos de relevância. Nossos resultados dos experimentos utilizando a REGIS mos traram que, em média, para o conjunto completo de tópicos de consulta, as métricas de qualidade de recuperação variam muito pouco. No entanto, uma análise mais detalhada revelou que a maioria dos tópicos de consulta melhorou com a correção de erros.The Portable Document Format (PDF) has become the de facto standard for document storage and sharing. Scientific papers, project proposals, contracts, books, legal doc uments are typically stored and distributed as PDF files. While extracting the textual contents of born-digital PDF documents can be done with high accuracy, if the document consists of a scanned image, Optical Character Recognition (OCR) is typically required. The output of OCR can be noisy, especially when the quality of the scanned image is poor – really common on historical documents –, which in turn can impact downstream tasks such as Information Retrieval (IR). Post-processing OCR-ed documents is an alternative to fix extraction errors and, intuitively, improve the results of downstream tasks. This work evaluates the impact of OCR extraction and correction on IR. We compared dif ferent extraction and correction methods on OCR-ed data from real scanned documents. To evaluate IR tasks, the standard paradigm requires a test collection with documents, queries, and relevance judgments. Creating test collections requires significant human ef fort, mainly for providing relevance judgments. As a result, there are still many domains and languages that, to this day, lack a proper evaluation testbed. Portuguese is an example of a major world language that has been overlooked in terms of IR research – the only test collection available is composed of news articles from 1994 and a hundred queries. With the aim of bridging this gap, we developed REGIS (Retrieval Evaluation for Geosci entific Information Systems), a test collection for the geoscientific domain in Portuguese. REGIS contains 20K documents and 34 query topics along with relevance assessments. Our results from the experiments with REGIS showed that on average for the complete set of query topics, retrieval quality metrics change very little. However, a more detailed analysis revealed that most query topics improved with error correction.application/pdfengRecuperacao de informacoesFormato PDFInformation retrievalTest collectionOCR errorsError correctionCreating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domainCriando recursos e avaliando o impacto da qualidade do OCR na recuperação da informação: um estudo de caso no domínio geocientífico info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001138876.pdf.txt001138876.pdf.txtExtracted Texttext/plain125753http://www.lume.ufrgs.br/bitstream/10183/236344/2/001138876.pdf.txt7126b4162366c3fb27a0af5bb2d68af5MD52ORIGINAL001138876.pdfTexto completo (inglês)application/pdf2858672http://www.lume.ufrgs.br/bitstream/10183/236344/1/001138876.pdff7041292d7e6ac1f4000590317d480ccMD5110183/2363442022-04-05 04:38:58.686119oai:www.lume.ufrgs.br:10183/236344Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532022-04-05T07:38:58Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
dc.title.alternative.pt.fl_str_mv	Criando recursos e avaliando o impacto da qualidade do OCR na recuperação da informação: um estudo de caso no domínio geocientífico
title	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
spellingShingle	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain Oliveira, Lucas Lima de Recuperacao de informacoes Formato PDF Information retrieval Test collection OCR errors Error correction
title_short	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
title_full	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
title_fullStr	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
title_full_unstemmed	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
title_sort	Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain
author	Oliveira, Lucas Lima de
author_facet	Oliveira, Lucas Lima de
author_role	author
dc.contributor.author.fl_str_mv	Oliveira, Lucas Lima de
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
contributor_str_mv	Moreira, Viviane Pereira
dc.subject.por.fl_str_mv	Recuperacao de informacoes Formato PDF
topic	Recuperacao de informacoes Formato PDF Information retrieval Test collection OCR errors Error correction
dc.subject.eng.fl_str_mv	Information retrieval Test collection OCR errors Error correction
description	O Formato de Documento Portátil (PDF) se tornou um dos padrões mais usados para armazenamento e compartilhamento de documentos. Artigos científicos, propostas de projetos, contratos, livros e documentos jurídicos são normalmente armazenados e distri buídos como arquivos PDF. Embora a extração do conteúdo textual de documentos PDF originados de forma digital possa ser feita com alta precisão, se o documento consistir em uma imagem digitalizada, o Reconhecimento Óptico de Caracteres (OCR) é normal mente necessário. A saída do OCR pode ser ruidosa, especialmente quando a qualidade da imagem digitalizada é ruim – muito comum em documentos históricos –, o que por sua vez pode impactar tarefas posteriores, como Recuperação de Informação (IR). O pós processamento de documentos OCR é uma alternativa para corrigir erros de extração e, intuitivamente, melhorar os resultados em tarefas posteriores. Este trabalho avalia o im pacto da extração e correção de OCR em IR. Comparamos diferentes métodos de extração e correção em textos extraídos por OCR de documentos escaneados reais. Para avaliar as tarefas de IR, o paradigma padrão requer uma coleção de testes com documentos, consul tas e julgamentos de relevância. A criação de coleções de teste requer um esforço humano significativo, principalmente na realização dos julgamentos de relevância. Como resul tado, ainda existem muitos domínios e idiomas que, até hoje, carecem de um ambiente de teste para avaliação adequada. O português é um exemplo de uma importante língua mundial que tem sido negligenciada em termos de pesquisas de IR - a única coleção de testes disponível é composta por notícias de 1994 e uma centena de consultas. Com o objetivo de preencher essa lacuna, desenvolvemos a REGIS (Retrieval Evaluation for Ge oscientific Information Systems), uma coleção de testes para o domínio geocientífico em português. REGIS contém 20 mil documentos e 34 tópicos de consulta, juntamente com julgamentos de relevância. Nossos resultados dos experimentos utilizando a REGIS mos traram que, em média, para o conjunto completo de tópicos de consulta, as métricas de qualidade de recuperação variam muito pouco. No entanto, uma análise mais detalhada revelou que a maioria dos tópicos de consulta melhorou com a correção de erros.
publishDate	2022
dc.date.accessioned.fl_str_mv	2022-03-29T04:35:53Z
dc.date.issued.fl_str_mv	2022
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/236344
dc.identifier.nrb.pt_BR.fl_str_mv	001138876
url	http://hdl.handle.net/10183/236344
identifier_str_mv	001138876
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/236344/2/001138876.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/236344/1/001138876.pdf
bitstream.checksum.fl_str_mv	7126b4162366c3fb27a0af5bb2d68af5 f7041292d7e6ac1f4000590317d480cc
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1800309193855467520

Creating resources and evaluating the impact of OCR quality on information retrieval: a case study in the geoscientific domain

Registros relacionados