Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19022021-142206/ |
Resumo: | Criar manualmente um operador de imagem para performar uma transformação imagem-a-imagem específica é uma tarefa árdua e dificil. O problema do aprendizado automático de operadores de imagens tem sido estudado através dos anos. Métodos que atacam ese problema podem ser divididos em três tipos: as abordagens tradicionais pixel-a-pixel ou janelas deslizantes, abordagens patch-a-patch que foram possibilitadas por modelos de aprendizado profundo, e abordagens orientadas a estrutura que são baseadas em técnicas gerativas. Cada abordagem possui suas vantagens e desvantagens próprias. O objetivo dessa dissertação é estudar as similaridades e diferenças dessas abordagens, tanto conceptualmente quanto experimentalmente. Particularmente, estamos interessados em entender o quanto de informação estrutural da imagem, como conectividade de linhas, é preservado. A primeira contribuição desse trabalho é um método que une as vantagens das abordagens pixel-a-pixel e patch-a-patch, que chamamos de SConvNet. A segunda contribuição é um estudo que mostra que a métrica baseada em similaridades de esqueletos é válida para avaliar binarização de documentos manuscritos de forma complementar a métricas pixel-a-pixel tradicionais. Por fim, apresentamos uma comparação experimental entre métodos representativos de cada uma das três abordagens, calculando métricas pixel-a-pixel e as métricas de similaridade de esqueletos em dois problemas de processamento de imagens (segmentação de vasos sanguineos de retina e binarização de documentos manuscritos). As melhores métricas pixel-a-pixel foram obtidas por métodos patch-a-patch, enquanto os métodos estruturais obtiveram vantagens nas métricas de similaridade de esqueletos, de forma consistente com uma inspeção visual, que mostra que as abordagens estruturais melhor preservam a estrutura geral enquanto os métodos patch-a-patch geram contornos mais precisos. |
id |
USP_133974638a57a99d33e4262621515e6e |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-19022021-142206 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagemComparative analysis of image-to-image transformation learning approachesAprendizado de máquinaBinarização de imagensConvolutional neural networksImage binarizationImage segmentationImage-to-image transformationsMachine learningPredição de estruturaRedes neurais convolucionaisSegmentação de imagensStructure predictionTransformação imagem-a-imagemCriar manualmente um operador de imagem para performar uma transformação imagem-a-imagem específica é uma tarefa árdua e dificil. O problema do aprendizado automático de operadores de imagens tem sido estudado através dos anos. Métodos que atacam ese problema podem ser divididos em três tipos: as abordagens tradicionais pixel-a-pixel ou janelas deslizantes, abordagens patch-a-patch que foram possibilitadas por modelos de aprendizado profundo, e abordagens orientadas a estrutura que são baseadas em técnicas gerativas. Cada abordagem possui suas vantagens e desvantagens próprias. O objetivo dessa dissertação é estudar as similaridades e diferenças dessas abordagens, tanto conceptualmente quanto experimentalmente. Particularmente, estamos interessados em entender o quanto de informação estrutural da imagem, como conectividade de linhas, é preservado. A primeira contribuição desse trabalho é um método que une as vantagens das abordagens pixel-a-pixel e patch-a-patch, que chamamos de SConvNet. A segunda contribuição é um estudo que mostra que a métrica baseada em similaridades de esqueletos é válida para avaliar binarização de documentos manuscritos de forma complementar a métricas pixel-a-pixel tradicionais. Por fim, apresentamos uma comparação experimental entre métodos representativos de cada uma das três abordagens, calculando métricas pixel-a-pixel e as métricas de similaridade de esqueletos em dois problemas de processamento de imagens (segmentação de vasos sanguineos de retina e binarização de documentos manuscritos). As melhores métricas pixel-a-pixel foram obtidas por métodos patch-a-patch, enquanto os métodos estruturais obtiveram vantagens nas métricas de similaridade de esqueletos, de forma consistente com uma inspeção visual, que mostra que as abordagens estruturais melhor preservam a estrutura geral enquanto os métodos patch-a-patch geram contornos mais precisos.Manually designing an image operator that performs a specific transformation of images is a hard and time consuming task. The problem of automatically learning image operators has been researched throughout the years. Methods that tackle this problem can be roughly divided into three types: the traditional pixelwise or sliding-window approaches, the patch-to-patch approaches enabled by recent end-to-end deep learning models, and the structurally oriented approaches based on generative techniques. Each approach has its own advantages and drawbacks. The goal of this dissertation is to study the similarities and differences among these approaches, both conceptually and experimentally. In particular, we are interested in understanding how well structural information of the images such as connected thin lines are preserved. The first contribution of this work is an end-to-end method that joins the advantages of pixelwise and patch-to-patch approaches, which we call SConvNet. A second contribution is a study that shows that the skeletal similarity based metric is well suited for evaluating handwritten document binarization algorithms in a complementary way to traditional pixelwise metrics. At last, we present an experimental comparison among representative methods of the outlined three types of approaches, with respect to traditional pixelwise as well as the skeletal similarity metrics, on two image processing tasks (retinal blood vessel segmentation and handwritten document binarization). Better pixelwise metrics were achieved by patch-to-patch methods while better structural metrics were achieved by structural approaches. This is consistent with visual inspection, which shows that structural approaches better preserve the overall structure while patch-to-patch methods generate more precise contours.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaSilva, Augusto Cesar Monteiro2020-12-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-19022021-142206/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-06-15T01:13:02Zoai:teses.usp.br:tde-19022021-142206Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-06-15T01:13:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem Comparative analysis of image-to-image transformation learning approaches |
title |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem |
spellingShingle |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem Silva, Augusto Cesar Monteiro Aprendizado de máquina Binarização de imagens Convolutional neural networks Image binarization Image segmentation Image-to-image transformations Machine learning Predição de estrutura Redes neurais convolucionais Segmentação de imagens Structure prediction Transformação imagem-a-imagem |
title_short |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem |
title_full |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem |
title_fullStr |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem |
title_full_unstemmed |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem |
title_sort |
Análise comparativa de abordagens para aprendizado de transformações imagem-a-imagem |
author |
Silva, Augusto Cesar Monteiro |
author_facet |
Silva, Augusto Cesar Monteiro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Hirata, Nina Sumiko Tomita |
dc.contributor.author.fl_str_mv |
Silva, Augusto Cesar Monteiro |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Binarização de imagens Convolutional neural networks Image binarization Image segmentation Image-to-image transformations Machine learning Predição de estrutura Redes neurais convolucionais Segmentação de imagens Structure prediction Transformação imagem-a-imagem |
topic |
Aprendizado de máquina Binarização de imagens Convolutional neural networks Image binarization Image segmentation Image-to-image transformations Machine learning Predição de estrutura Redes neurais convolucionais Segmentação de imagens Structure prediction Transformação imagem-a-imagem |
description |
Criar manualmente um operador de imagem para performar uma transformação imagem-a-imagem específica é uma tarefa árdua e dificil. O problema do aprendizado automático de operadores de imagens tem sido estudado através dos anos. Métodos que atacam ese problema podem ser divididos em três tipos: as abordagens tradicionais pixel-a-pixel ou janelas deslizantes, abordagens patch-a-patch que foram possibilitadas por modelos de aprendizado profundo, e abordagens orientadas a estrutura que são baseadas em técnicas gerativas. Cada abordagem possui suas vantagens e desvantagens próprias. O objetivo dessa dissertação é estudar as similaridades e diferenças dessas abordagens, tanto conceptualmente quanto experimentalmente. Particularmente, estamos interessados em entender o quanto de informação estrutural da imagem, como conectividade de linhas, é preservado. A primeira contribuição desse trabalho é um método que une as vantagens das abordagens pixel-a-pixel e patch-a-patch, que chamamos de SConvNet. A segunda contribuição é um estudo que mostra que a métrica baseada em similaridades de esqueletos é válida para avaliar binarização de documentos manuscritos de forma complementar a métricas pixel-a-pixel tradicionais. Por fim, apresentamos uma comparação experimental entre métodos representativos de cada uma das três abordagens, calculando métricas pixel-a-pixel e as métricas de similaridade de esqueletos em dois problemas de processamento de imagens (segmentação de vasos sanguineos de retina e binarização de documentos manuscritos). As melhores métricas pixel-a-pixel foram obtidas por métodos patch-a-patch, enquanto os métodos estruturais obtiveram vantagens nas métricas de similaridade de esqueletos, de forma consistente com uma inspeção visual, que mostra que as abordagens estruturais melhor preservam a estrutura geral enquanto os métodos patch-a-patch geram contornos mais precisos. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-12-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19022021-142206/ |
url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-19022021-142206/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090853632737280 |