Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção

Hayashi, Sergio Yuji

Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção

Detalhes bibliográficos
Autor(a) principal:	Hayashi, Sergio Yuji
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/
Resumo:	O reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.

Metadados do item

id	USP_dcbc58b361c28e848b9ab692e92d0d77
oai_identifier_str	oai:teses.usp.br:tde-14012022-204025
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atençãoReading handwritten chess score sheets with attention networksAttention mechanismConvolutional neural networkHandwritten text recognitionMecanismo de atençãoNeural networkReconhecimento de texto escrito a mãoRecurrent neural networkRede convolucionalRede neuralRede neural recorrenteO reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.Handwriting recognition remains an open problem, a subject of intense research in the area of machine learning. In this project we focus on a specific category of problem in this area, the automatic reading of chess score sheets. Chess score sheets contain notation of game moves handwritten by the players themselves in a format called algebraic notation. Compared to traditional natural language text, chess score sheets are fixed-format forms, their textual content is restricted to a reduced vocabulary, and writing in general is not entirely cursive. Even so, they still present a high variability of handwriting styles, making their reading a sufficiently complex problem. The objective of this work is the end-to-end training of a neural network for reading these score sheets, in scenarios with a limited amount of data. The network should receive an image of a score sheet and produce as output the sequence of moves that are written in the score sheet. Besides recognizing the handwriting, the network must be able to learn the correct reading order. As we have found no records about this problem in the literature, the adopted method consisted of creating a dataset and an extensive experimental investigation using a recurrent neural network with attention mechanism. We have identified three underlying subtasks of the problem: (1) the learning of the language model, related to the predictability of the moves, (2) the alignment between input and output, and (3) the recognition properly said. We found out that these tasks have distinct levels of difficulty and that there are critical factors for learning them. More than that, we also found out that an adequate combination of these factors is fundamental for a successful end-to-end training. A basic model was evaluated regarding the recognition of the first sixteen moves and it achieved an accuracy of 65.78% in terms of correctly recognized moves.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaHayashi, Sergio Yuji2021-12-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-01-18T17:09:02Zoai:teses.usp.br:tde-14012022-204025Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212022-01-18T17:09:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção Reading handwritten chess score sheets with attention networks
title	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
spellingShingle	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção Hayashi, Sergio Yuji Attention mechanism Convolutional neural network Handwritten text recognition Mecanismo de atenção Neural network Reconhecimento de texto escrito a mão Recurrent neural network Rede convolucional Rede neural Rede neural recorrente
title_short	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_full	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_fullStr	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_full_unstemmed	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
title_sort	Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
author	Hayashi, Sergio Yuji
author_facet	Hayashi, Sergio Yuji
author_role	author
dc.contributor.none.fl_str_mv	Hirata, Nina Sumiko Tomita
dc.contributor.author.fl_str_mv	Hayashi, Sergio Yuji
dc.subject.por.fl_str_mv	Attention mechanism Convolutional neural network Handwritten text recognition Mecanismo de atenção Neural network Reconhecimento de texto escrito a mão Recurrent neural network Rede convolucional Rede neural Rede neural recorrente
topic	Attention mechanism Convolutional neural network Handwritten text recognition Mecanismo de atenção Neural network Reconhecimento de texto escrito a mão Recurrent neural network Rede convolucional Rede neural Rede neural recorrente
description	O reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.
publishDate	2021
dc.date.none.fl_str_mv	2021-12-20
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/
url	https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1809090700905545728

Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção

Registros relacionados