Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção

Detalhes bibliográficos
Autor(a) principal: Hayashi, Sergio Yuji
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/
Resumo: O reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.
id USP_dcbc58b361c28e848b9ab692e92d0d77
oai_identifier_str oai:teses.usp.br:tde-14012022-204025
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atençãoReading handwritten chess score sheets with attention networksAttention mechanismConvolutional neural networkHandwritten text recognitionMecanismo de atençãoNeural networkReconhecimento de texto escrito a mãoRecurrent neural networkRede convolucionalRede neuralRede neural recorrenteO reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.Handwriting recognition remains an open problem, a subject of intense research in the area of machine learning. In this project we focus on a specific category of problem in this area, the automatic reading of chess score sheets. Chess score sheets contain notation of game moves handwritten by the players themselves in a format called algebraic notation. Compared to traditional natural language text, chess score sheets are fixed-format forms, their textual content is restricted to a reduced vocabulary, and writing in general is not entirely cursive. Even so, they still present a high variability of handwriting styles, making their reading a sufficiently complex problem. The objective of this work is the end-to-end training of a neural network for reading these score sheets, in scenarios with a limited amount of data. The network should receive an image of a score sheet and produce as output the sequence of moves that are written in the score sheet. Besides recognizing the handwriting, the network must be able to learn the correct reading order. As we have found no records about this problem in the literature, the adopted method consisted of creating a dataset and an extensive experimental investigation using a recurrent neural network with attention mechanism. We have identified three underlying subtasks of the problem: (1) the learning of the language model, related to the predictability of the moves, (2) the alignment between input and output, and (3) the recognition properly said. We found out that these tasks have distinct levels of difficulty and that there are critical factors for learning them. More than that, we also found out that an adequate combination of these factors is fundamental for a successful end-to-end training. A basic model was evaluated regarding the recognition of the first sixteen moves and it achieved an accuracy of 65.78% in terms of correctly recognized moves.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaHayashi, Sergio Yuji2021-12-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-01-18T17:09:02Zoai:teses.usp.br:tde-14012022-204025Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-01-18T17:09:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
Reading handwritten chess score sheets with attention networks
title Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
spellingShingle Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
Hayashi, Sergio Yuji
Attention mechanism
Convolutional neural network
Handwritten text recognition
Mecanismo de atenção
Neural network
Reconhecimento de texto escrito a mão
Recurrent neural network
Rede convolucional
Rede neural
Rede neural recorrente
title_short Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_full Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_fullStr Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_full_unstemmed Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_sort Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
author Hayashi, Sergio Yuji
author_facet Hayashi, Sergio Yuji
author_role author
dc.contributor.none.fl_str_mv Hirata, Nina Sumiko Tomita
dc.contributor.author.fl_str_mv Hayashi, Sergio Yuji
dc.subject.por.fl_str_mv Attention mechanism
Convolutional neural network
Handwritten text recognition
Mecanismo de atenção
Neural network
Reconhecimento de texto escrito a mão
Recurrent neural network
Rede convolucional
Rede neural
Rede neural recorrente
topic Attention mechanism
Convolutional neural network
Handwritten text recognition
Mecanismo de atenção
Neural network
Reconhecimento de texto escrito a mão
Recurrent neural network
Rede convolucional
Rede neural
Rede neural recorrente
description O reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.
publishDate 2021
dc.date.none.fl_str_mv 2021-12-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090700905545728