Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas

Maia, Ana Lucia Lima Marreiros

Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas

Detalhes bibliográficos
Autor(a) principal:	Maia, Ana Lucia Lima Marreiros
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31072023-115633/
Resumo:	Muitos documentos originalmente gerados em papel são digitalizados para possibilitar sua preservação ou para agilizar seu processamento por meio de ferramentas computacionais. Consultar documentos em bancos de dados de imagens ou extrair informações de interesse de imagens de documentos requer a análiseddo conteúdo da imagem. Em particular, uma etapa crítica nesta análise é a análise lógica de leiaute, que consiste em detectar os componentes da página e identificar suas funções lógicas. A análise lógica de leiaute permite estabelecer as relações entre os componentes e determinar informações mportantes, como a ordem de leitura. Uma etapa fundamental na análise lógica de leiaute é detectar e classificar essas componentes de página, como blocos de texto, figuras e tabelas, problema conhecido como segmentação de página. Nesta tese, propomos um método que segue uma abordagem bottom-up, combinando modelagem de grafos e técnicas de aprendizado de máquina, para o problema de segmentação de páginas. O método proposto consiste em um pipeline no qual algumas etapas estratégicas são implementadas por meio de algoritmos de aprendizado de máquina. Como os algoritmos de aprendizado de máquina são treináveis a partir de dados, o método proposto pode ser facilmente adaptado a conjuntos de documentos com diferentes características, desde que os dados de treinamento estejam disponíveis. Esta tese também discute um procedimento experimental para otimizar o pipeline. Os experimentos utilizaram imagens de documentos (revistas e artigos científicos) do PRIMA Layout Analysis Dataset, com leiautes diversificados e complexos. Os resultados experimentais demonstram o potencial do método proposto.

Metadados do item

id	USP_2515d14ec770ae133e7f72dbc7bb9cef
oai_identifier_str	oai:teses.usp.br:tde-31072023-115633
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginasA machine learning and graph based approach to page segmentationAdjacency graphConvolutional neural networkDocument imageDocument page layoutGrafo de adjacênciasImage segmentationImagem de documentoLeiaute de página de documentoRede neural convolucionalSegmentação de imagemMuitos documentos originalmente gerados em papel são digitalizados para possibilitar sua preservação ou para agilizar seu processamento por meio de ferramentas computacionais. Consultar documentos em bancos de dados de imagens ou extrair informações de interesse de imagens de documentos requer a análiseddo conteúdo da imagem. Em particular, uma etapa crítica nesta análise é a análise lógica de leiaute, que consiste em detectar os componentes da página e identificar suas funções lógicas. A análise lógica de leiaute permite estabelecer as relações entre os componentes e determinar informações mportantes, como a ordem de leitura. Uma etapa fundamental na análise lógica de leiaute é detectar e classificar essas componentes de página, como blocos de texto, figuras e tabelas, problema conhecido como segmentação de página. Nesta tese, propomos um método que segue uma abordagem bottom-up, combinando modelagem de grafos e técnicas de aprendizado de máquina, para o problema de segmentação de páginas. O método proposto consiste em um pipeline no qual algumas etapas estratégicas são implementadas por meio de algoritmos de aprendizado de máquina. Como os algoritmos de aprendizado de máquina são treináveis a partir de dados, o método proposto pode ser facilmente adaptado a conjuntos de documentos com diferentes características, desde que os dados de treinamento estejam disponíveis. Esta tese também discute um procedimento experimental para otimizar o pipeline. Os experimentos utilizaram imagens de documentos (revistas e artigos científicos) do PRIMA Layout Analysis Dataset, com leiautes diversificados e complexos. Os resultados experimentais demonstram o potencial do método proposto.Many documents originally generated on paper are digitized to enable their preservation or to streamline their processing through computational tools. Querying documents in image databases or extracting information of interest from document images requires the analysis of image content. In particular, a critical step in this analysis is the logical layout analysis, which consists of detecting page components and identifying their logical function. Logical layout analysis enables establishing the relationships between the page components and determining important information, such as the reading order. A fundamental step in logical layout analysis is detecting and classifying these page components, such as blocks of text, figures, and tables, a problem known as page segmentation. In this thesis, we propose a method that follows a bottom-up approach, combining graph modeling and machine learning techniques, for the page segmentation problem. The proposed method consists of a pipeline in which some strategic steps are implemented through machine learning algorithms. Since machine learning algorithms are trainable from data, the proposed method can be easily adapted to document sets with different characteristics as long as training data is available. This thesis also discusses an experimental procedure to optimize the pipeline. The experiments used document images (magazines and scientific papers) from PRImA Layout Analysis Dataset, with diverse and complex layouts. The experimental results demonstrate the potential of the proposed method.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaMaia, Ana Lucia Lima Marreiros2023-05-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-31072023-115633/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-08-02T16:43:58Zoai:teses.usp.br:tde-31072023-115633Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212023-08-02T16:43:58Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas A machine learning and graph based approach to page segmentation
title	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
spellingShingle	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas Maia, Ana Lucia Lima Marreiros Adjacency graph Convolutional neural network Document image Document page layout Grafo de adjacências Image segmentation Imagem de documento Leiaute de página de documento Rede neural convolucional Segmentação de imagem
title_short	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
title_full	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
title_fullStr	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
title_full_unstemmed	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
title_sort	Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas
author	Maia, Ana Lucia Lima Marreiros
author_facet	Maia, Ana Lucia Lima Marreiros
author_role	author
dc.contributor.none.fl_str_mv	Hirata, Nina Sumiko Tomita
dc.contributor.author.fl_str_mv	Maia, Ana Lucia Lima Marreiros
dc.subject.por.fl_str_mv	Adjacency graph Convolutional neural network Document image Document page layout Grafo de adjacências Image segmentation Imagem de documento Leiaute de página de documento Rede neural convolucional Segmentação de imagem
topic	Adjacency graph Convolutional neural network Document image Document page layout Grafo de adjacências Image segmentation Imagem de documento Leiaute de página de documento Rede neural convolucional Segmentação de imagem
description	Muitos documentos originalmente gerados em papel são digitalizados para possibilitar sua preservação ou para agilizar seu processamento por meio de ferramentas computacionais. Consultar documentos em bancos de dados de imagens ou extrair informações de interesse de imagens de documentos requer a análiseddo conteúdo da imagem. Em particular, uma etapa crítica nesta análise é a análise lógica de leiaute, que consiste em detectar os componentes da página e identificar suas funções lógicas. A análise lógica de leiaute permite estabelecer as relações entre os componentes e determinar informações mportantes, como a ordem de leitura. Uma etapa fundamental na análise lógica de leiaute é detectar e classificar essas componentes de página, como blocos de texto, figuras e tabelas, problema conhecido como segmentação de página. Nesta tese, propomos um método que segue uma abordagem bottom-up, combinando modelagem de grafos e técnicas de aprendizado de máquina, para o problema de segmentação de páginas. O método proposto consiste em um pipeline no qual algumas etapas estratégicas são implementadas por meio de algoritmos de aprendizado de máquina. Como os algoritmos de aprendizado de máquina são treináveis a partir de dados, o método proposto pode ser facilmente adaptado a conjuntos de documentos com diferentes características, desde que os dados de treinamento estejam disponíveis. Esta tese também discute um procedimento experimental para otimizar o pipeline. Os experimentos utilizaram imagens de documentos (revistas e artigos científicos) do PRIMA Layout Analysis Dataset, com leiautes diversificados e complexos. Os resultados experimentais demonstram o potencial do método proposto.
publishDate	2023
dc.date.none.fl_str_mv	2023-05-31
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31072023-115633/
url	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-31072023-115633/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1809091222954835968

Uma abordagem baseada em aprendizagem de máquina e grafos para segmentação de páginas

Registros relacionados