Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/ |
Resumo: | O reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos. |
id |
USP_dcbc58b361c28e848b9ab692e92d0d77 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-14012022-204025 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atençãoReading handwritten chess score sheets with attention networksAttention mechanismConvolutional neural networkHandwritten text recognitionMecanismo de atençãoNeural networkReconhecimento de texto escrito a mãoRecurrent neural networkRede convolucionalRede neuralRede neural recorrenteO reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos.Handwriting recognition remains an open problem, a subject of intense research in the area of machine learning. In this project we focus on a specific category of problem in this area, the automatic reading of chess score sheets. Chess score sheets contain notation of game moves handwritten by the players themselves in a format called algebraic notation. Compared to traditional natural language text, chess score sheets are fixed-format forms, their textual content is restricted to a reduced vocabulary, and writing in general is not entirely cursive. Even so, they still present a high variability of handwriting styles, making their reading a sufficiently complex problem. The objective of this work is the end-to-end training of a neural network for reading these score sheets, in scenarios with a limited amount of data. The network should receive an image of a score sheet and produce as output the sequence of moves that are written in the score sheet. Besides recognizing the handwriting, the network must be able to learn the correct reading order. As we have found no records about this problem in the literature, the adopted method consisted of creating a dataset and an extensive experimental investigation using a recurrent neural network with attention mechanism. We have identified three underlying subtasks of the problem: (1) the learning of the language model, related to the predictability of the moves, (2) the alignment between input and output, and (3) the recognition properly said. We found out that these tasks have distinct levels of difficulty and that there are critical factors for learning them. More than that, we also found out that an adequate combination of these factors is fundamental for a successful end-to-end training. A basic model was evaluated regarding the recognition of the first sixteen moves and it achieved an accuracy of 65.78% in terms of correctly recognized moves.Biblioteca Digitais de Teses e Dissertações da USPHirata, Nina Sumiko TomitaHayashi, Sergio Yuji2021-12-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-01-18T17:09:02Zoai:teses.usp.br:tde-14012022-204025Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-01-18T17:09:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção Reading handwritten chess score sheets with attention networks |
title |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção |
spellingShingle |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção Hayashi, Sergio Yuji Attention mechanism Convolutional neural network Handwritten text recognition Mecanismo de atenção Neural network Reconhecimento de texto escrito a mão Recurrent neural network Rede convolucional Rede neural Rede neural recorrente |
title_short |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção |
title_full |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção |
title_fullStr |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção |
title_full_unstemmed |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção |
title_sort |
Leitura de planilhas de xadrez manuscritas usando redes neurais com mecanismos de atenção |
author |
Hayashi, Sergio Yuji |
author_facet |
Hayashi, Sergio Yuji |
author_role |
author |
dc.contributor.none.fl_str_mv |
Hirata, Nina Sumiko Tomita |
dc.contributor.author.fl_str_mv |
Hayashi, Sergio Yuji |
dc.subject.por.fl_str_mv |
Attention mechanism Convolutional neural network Handwritten text recognition Mecanismo de atenção Neural network Reconhecimento de texto escrito a mão Recurrent neural network Rede convolucional Rede neural Rede neural recorrente |
topic |
Attention mechanism Convolutional neural network Handwritten text recognition Mecanismo de atenção Neural network Reconhecimento de texto escrito a mão Recurrent neural network Rede convolucional Rede neural Rede neural recorrente |
description |
O reconhecimento de texto manuscrito continua sendo um problema em aberto, objeto de intensa pesquisa na área de aprendizado de máquina. Neste projeto focamos numa categoria específica de problema nesta área, a leitura automática de planilhas de xadrez. Planilhas de xadrez contém anotações de lances de jogos escritos à mão pelos próprios jogadores num formato chamado de notação algébrica. Em comparação com um texto tradicional em linguagem natural, planilhas de xadrez são formulários de formato fixo, seu conteúdo textual é restrito a um vocabulário reduzido e a escrita em geral não é totalmente cursiva. Mesmo assim, elas ainda apresentam uma alta variabilidade de estilos de escrita à mão, tornando a sua leitura um problema suficientemente complexo. O objetivo deste trabalho é o treinamento ponta a ponta de uma rede neural para a leitura destas planilhas, em cenários com uma quantidade limitada de dados. A rede neural deverá receber a imagem de uma planilha e produzir em sua saída a sequência de lances que estão escritos na planilha. Além do reconhecimento da escrita propriamente, a rede deverá aprender a ordem correta de leitura. Por se tratar de um problema para o qual não encontramos trabalhos na literatura da área, o método utilizado consistiu na criação de um conjunto de dados e uma ampla investigação experimental utilizando uma rede neural recorrente com mecanismo de atenção. Identificamos três subtarefas subjacentes ao problema: (1) o aprendizado do modelo de linguagem, relacionado com a previsibilidade dos lances, (2) o alinhamento entre a entrada e a saída, e (3) o reconhecimento da escrita propriamente. Constatamos que essas tarefas possuem distintos graus de dificuldade e que existem alguns fatores que são críticos no aprendizado delas. Mais do que isso, constatamos também que uma combinação adequada desses fatores é fundamental para um treinamento ponta a ponta bem sucedido. Um modelo básico foi avaliado quanto ao reconhecimento dos 16 primeiros lances e alcançou acurácia de 65,78% em termos de lances corretamente reconhecidos. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-12-20 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/ |
url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-14012022-204025/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090700905545728 |