O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores

Detalhes bibliográficos
Autor(a) principal: Righetto, Guilherme
Data de Publicação: 2016
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/6031
Resumo: Contexto: No contexto da identificação de escritores, frequentemente pesquisadores propõem diferentes métodos para a extração, processamento das características e classificação. Podemos dividir a identificação de escritores em dois grandes grupos. O primeiro extraí características locais referentes a escrita, como espaçamento, vales, laços, angulações, dentre outras. O segundo representa a escrita através de descritores de textura, que extraem características globais. As bases de documentos manuscritos normalmente possuem um único estilo de escrita. Entretanto atualmente o conteúdo de cada amostra do mesmo escritor produz documentos em línguas diferentes, como, português, árabe, inglês, alemão, dentre outras. Ao considerar mais de um estilo de escrita para o problema de identificação de escritores, a tarefa torna-se ainda mais difícil, pois é necessário construir um sistema de identificação independente do alfabeto utilizado. A fim de solucionar o problema de identificação de escritores que produzem documentos em línguas diferentes, foram utilizados diversas técnicas como citado anteriormente. Uma delas é utilizar uma rede neural convolucional (CNN) como extrator de características e classificador, na qual, também foi utilizada neste trabalho, além da abordagem de dissimilaridade, que transforma um problema n-classes em binário. Objetivo: O principal objetivo deste trabalho é avaliar o desempenho propiciado através das características extraídas pela rede neural convolucional (CNN) no processo de identificação off-line de escritores. Para isso utilizaremos as bases de dados BFL, CVL e QUWI. Método: O método proposto neste trabalho cumpriu as seguintes etapas: Realizou um pré-processamento nos documentos manuscritos utilizando uma abordagem de geração de textura. Posteriormente a textura foi dividida em blocos de tamanho igual a 128 × 128. Na etapa seguinte com uso do classificador CNN / extrator universal de características foi utilizado dois recursos providos pela CNN, sendo a classificação de cada bloco de entrada. Portanto, o processo tradicional do classificador CNN e também o uso da CNN como um extrator de características. Em seguida, o cálculo da dissimilaridade sobre os vetores de características extraídos a partir de cada bloco. Na etapa seguinte foi utilizado o classificador SVM para classificar os blocos de textura. Por fim, foi realizado a combinação das predições geradas de cada bloco, pelo SVM e pela CNN, a fim de obter uma decisão final sobre quem escreveu determinado documento. Resultados: Os principais resultados obtidos foram utilizando a abordagem de dissimilaridade no vetor de características extraído pela rede neural convolucional, sendo eles 98,26% (BFL), 97,91% (CVL) e 86,96% (QUWI). Conclusões: Concluímos neste trabalho, que a abordagem de dissimilariadde se mantém robusta em relação a identificação de escritores de documentos manuscritos de diferentes línguas. Além disso, observou-se que as características extraídas pela CNN obteve bons resultados nos casos em que a língua escrita seguia um alfabeto similar.
id UTFPR-12_a5fc1c58cf6983dc463c1b181bbbcffe
oai_identifier_str oai:repositorio.utfpr.edu.br:1/6031
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling 2020-11-09T19:10:37Z2020-11-09T19:10:37Z2016-11-22RIGHETTO, Guilherme. O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores. 2016. 49 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.http://repositorio.utfpr.edu.br/jspui/handle/1/6031Contexto: No contexto da identificação de escritores, frequentemente pesquisadores propõem diferentes métodos para a extração, processamento das características e classificação. Podemos dividir a identificação de escritores em dois grandes grupos. O primeiro extraí características locais referentes a escrita, como espaçamento, vales, laços, angulações, dentre outras. O segundo representa a escrita através de descritores de textura, que extraem características globais. As bases de documentos manuscritos normalmente possuem um único estilo de escrita. Entretanto atualmente o conteúdo de cada amostra do mesmo escritor produz documentos em línguas diferentes, como, português, árabe, inglês, alemão, dentre outras. Ao considerar mais de um estilo de escrita para o problema de identificação de escritores, a tarefa torna-se ainda mais difícil, pois é necessário construir um sistema de identificação independente do alfabeto utilizado. A fim de solucionar o problema de identificação de escritores que produzem documentos em línguas diferentes, foram utilizados diversas técnicas como citado anteriormente. Uma delas é utilizar uma rede neural convolucional (CNN) como extrator de características e classificador, na qual, também foi utilizada neste trabalho, além da abordagem de dissimilaridade, que transforma um problema n-classes em binário. Objetivo: O principal objetivo deste trabalho é avaliar o desempenho propiciado através das características extraídas pela rede neural convolucional (CNN) no processo de identificação off-line de escritores. Para isso utilizaremos as bases de dados BFL, CVL e QUWI. Método: O método proposto neste trabalho cumpriu as seguintes etapas: Realizou um pré-processamento nos documentos manuscritos utilizando uma abordagem de geração de textura. Posteriormente a textura foi dividida em blocos de tamanho igual a 128 × 128. Na etapa seguinte com uso do classificador CNN / extrator universal de características foi utilizado dois recursos providos pela CNN, sendo a classificação de cada bloco de entrada. Portanto, o processo tradicional do classificador CNN e também o uso da CNN como um extrator de características. Em seguida, o cálculo da dissimilaridade sobre os vetores de características extraídos a partir de cada bloco. Na etapa seguinte foi utilizado o classificador SVM para classificar os blocos de textura. Por fim, foi realizado a combinação das predições geradas de cada bloco, pelo SVM e pela CNN, a fim de obter uma decisão final sobre quem escreveu determinado documento. Resultados: Os principais resultados obtidos foram utilizando a abordagem de dissimilaridade no vetor de características extraído pela rede neural convolucional, sendo eles 98,26% (BFL), 97,91% (CVL) e 86,96% (QUWI). Conclusões: Concluímos neste trabalho, que a abordagem de dissimilariadde se mantém robusta em relação a identificação de escritores de documentos manuscritos de diferentes línguas. Além disso, observou-se que as características extraídas pela CNN obteve bons resultados nos casos em que a língua escrita seguia um alfabeto similar.Context: In the context of the writer identification, researchers often propose different methods for extraction, processing of features and classification. In which we can divide the writer identification in two groups. The first one extracted local features related to writing, like as spacing, concavity, angulations, among others. The second represents writing through texture descriptors, which extract global features. Bases of handwritten documents usually have a unique writing style. However, currently the content of each sample of the same writer produces documents in different languages, such as Portuguese, Arabic, English, German, among others. When considering more than one writing style for the problem of identifying writers, the task becomes even more difficult as it is necessary to construct an identification system independent of the alphabet used. In order to solve the problem of writer identification who produce documents in different languages, several techniques were used as mentioned above. One of them is to use a convolutional neural network (CNN) as a feature extractor and classifier, in which it was also used in this work, in addition to the dissimilarity approach, which turns a n-classes problem into binary. Objective: The main objective of this work is to evaluate the performance provided by the features extracted by the convolutional neural network (CNN) in the process of the off-line writer identification. For this we will use the databases BFL, CVL and QUWI. Method: The method proposed in this work fulfilled the following steps: Preprocessed manuscript documents using a texture generation approach. Subsequently the texture was divided into blocks of different sizes. In the next step using the CNN classifier / universal features extractor, two CNN resources were used, the classification of each input block, that is, the traditional CNN classifier process and also the use of CNN as a features extractor. Then, dissimilarity feature vectors are computed by feature vectors extracted from each block. In the next step, the SVM classifier was used to classify the texture blocks. Finally, a combination of the predictions generated from each block was made by the SVM and CNN in order to obtain a final decision on who wrote a particular document. Results: The main results were obtained using the dissimilarity approach in the feature vector extracted by the convolutional neural network, 98.26% (BFL), 97.91% (CVL) and 86.96% (QUWI). Conclusions: We conclude in this work that the dissimilarity approach remains robust in relation to the writer identification of handwritten documents of different languages. In addition, it was observed that the features extracted by CNN obtained good results in cases where the written language followed a similar alphabet.porUniversidade Tecnológica Federal do ParanáCampo MouraoCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAORedes neurais (Computação)Escrita - IdentificaçãoEscritaNeural networks (Computer science)Writing - IdentificationWritingO uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritoresinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCampo MourãoGonçalves, Diego BertoliniAlencar, Aretha BarbosaBorsato, Frank HelbertGonçalves, Diego BertoliniRighetto, Guilhermeinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALCM_COCIC_2016_2_02.pdfapplication/pdf2193214http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6031/1/CM_COCIC_2016_2_02.pdf61c4c158b45a6434a4fa3d320858a8dcMD51LICENSElicense.txttext/plain1291http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6031/2/license.txtdfb14e53a8c6b76b85e77d7a5a3b3809MD521/60312020-11-09 17:10:37.522oai:repositorio.utfpr.edu.br:1/6031IE5hIHF1YWxpZGFkZSBkZSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkYSBwdWJsaWNhw6fDo28sIGF1dG9yaXpvIGEgVVRGUFIgYSB2ZWljdWxhciwgCmF0cmF2w6lzIGRvIFBvcnRhbCBkZSBJbmZvcm1hw6fDo28gZW0gQWNlc3NvIEFiZXJ0byAoUElBQSkgZSBkb3MgQ2F0w6Fsb2dvcyBkYXMgQmlibGlvdGVjYXMgCmRlc3RhIEluc3RpdHVpw6fDo28sIHNlbSByZXNzYXJjaW1lbnRvIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgZGUgYWNvcmRvIGNvbSBhIExlaSBubyA5LjYxMC85OCwgCm8gdGV4dG8gZGVzdGEgb2JyYSwgb2JzZXJ2YW5kbyBhcyBjb25kacOnw7VlcyBkZSBkaXNwb25pYmlsaXphw6fDo28gcmVnaXN0cmFkYXMgbm8gaXRlbSA0IGRvIArigJxUZXJtbyBkZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIFRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgCkVzcGVjaWFsaXphw6fDo28sIERpc3NlcnRhw6fDtWVzIGUgVGVzZXMgbm8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyAKU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBkYSBVVEZQUuKAnSwgcGFyYSBmaW5zIGRlIGxlaXR1cmEsIGltcHJlc3PDo28gZS9vdSBkb3dubG9hZCwgdmlzYW5kbyBhIApkaXZ1bGdhw6fDo28gZGEgcHJvZHXDp8OjbyBjaWVudMOtZmljYSBicmFzaWxlaXJhLgoKICBBcyB2aWFzIG9yaWdpbmFpcyBlIGFzc2luYWRhcyBwZWxvKHMpIGF1dG9yKGVzKSBkbyDigJxUZXJtbyBkZSBBdXRvcml6YcOnw6NvIHBhcmEgUHVibGljYcOnw6NvIGRlIApUcmFiYWxob3MgZGUgQ29uY2x1c8OjbyBkZSBDdXJzbyBkZSBHcmFkdWHDp8OjbyBlIEVzcGVjaWFsaXphw6fDo28sIERpc3NlcnRhw6fDtWVzIGUgVGVzZXMgbm8gUG9ydGFsIApkZSBJbmZvcm1hw6fDo28gZSBub3MgQ2F0w6Fsb2dvcyBFbGV0csO0bmljb3MgZG8gU2lzdGVtYSBkZSBCaWJsaW90ZWNhcyBkYSBVVEZQUuKAnSBlIGRhIOKAnERlY2xhcmHDp8OjbyAKZGUgQXV0b3JpYeKAnSBlbmNvbnRyYW0tc2UgYXJxdWl2YWRhcyBuYSBCaWJsaW90ZWNhIGRvIEPDom1wdXMgbm8gcXVhbCBvIHRyYWJhbGhvIGZvaSBkZWZlbmRpZG8uIApObyBjYXNvIGRlIHB1YmxpY2HDp8O1ZXMgZGUgYXV0b3JpYSBjb2xldGl2YSBlIG11bHRpY8OibXB1cywgb3MgZG9jdW1lbnRvcyBmaWNhcsOjbyBzb2IgZ3VhcmRhIGRhIApCaWJsaW90ZWNhIGNvbSBhIHF1YWwgbyDigJxwcmltZWlybyBhdXRvcuKAnSBwb3NzdWEgdsOtbmN1bG8uCg==Repositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2020-11-09T19:10:37Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
title O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
spellingShingle O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
Righetto, Guilherme
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Redes neurais (Computação)
Escrita - Identificação
Escrita
Neural networks (Computer science)
Writing - Identification
Writing
title_short O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
title_full O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
title_fullStr O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
title_full_unstemmed O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
title_sort O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores
author Righetto, Guilherme
author_facet Righetto, Guilherme
author_role author
dc.contributor.advisor1.fl_str_mv Gonçalves, Diego Bertolini
dc.contributor.referee1.fl_str_mv Alencar, Aretha Barbosa
dc.contributor.referee2.fl_str_mv Borsato, Frank Helbert
dc.contributor.referee3.fl_str_mv Gonçalves, Diego Bertolini
dc.contributor.author.fl_str_mv Righetto, Guilherme
contributor_str_mv Gonçalves, Diego Bertolini
Alencar, Aretha Barbosa
Borsato, Frank Helbert
Gonçalves, Diego Bertolini
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Redes neurais (Computação)
Escrita - Identificação
Escrita
Neural networks (Computer science)
Writing - Identification
Writing
dc.subject.por.fl_str_mv Redes neurais (Computação)
Escrita - Identificação
Escrita
Neural networks (Computer science)
Writing - Identification
Writing
description Contexto: No contexto da identificação de escritores, frequentemente pesquisadores propõem diferentes métodos para a extração, processamento das características e classificação. Podemos dividir a identificação de escritores em dois grandes grupos. O primeiro extraí características locais referentes a escrita, como espaçamento, vales, laços, angulações, dentre outras. O segundo representa a escrita através de descritores de textura, que extraem características globais. As bases de documentos manuscritos normalmente possuem um único estilo de escrita. Entretanto atualmente o conteúdo de cada amostra do mesmo escritor produz documentos em línguas diferentes, como, português, árabe, inglês, alemão, dentre outras. Ao considerar mais de um estilo de escrita para o problema de identificação de escritores, a tarefa torna-se ainda mais difícil, pois é necessário construir um sistema de identificação independente do alfabeto utilizado. A fim de solucionar o problema de identificação de escritores que produzem documentos em línguas diferentes, foram utilizados diversas técnicas como citado anteriormente. Uma delas é utilizar uma rede neural convolucional (CNN) como extrator de características e classificador, na qual, também foi utilizada neste trabalho, além da abordagem de dissimilaridade, que transforma um problema n-classes em binário. Objetivo: O principal objetivo deste trabalho é avaliar o desempenho propiciado através das características extraídas pela rede neural convolucional (CNN) no processo de identificação off-line de escritores. Para isso utilizaremos as bases de dados BFL, CVL e QUWI. Método: O método proposto neste trabalho cumpriu as seguintes etapas: Realizou um pré-processamento nos documentos manuscritos utilizando uma abordagem de geração de textura. Posteriormente a textura foi dividida em blocos de tamanho igual a 128 × 128. Na etapa seguinte com uso do classificador CNN / extrator universal de características foi utilizado dois recursos providos pela CNN, sendo a classificação de cada bloco de entrada. Portanto, o processo tradicional do classificador CNN e também o uso da CNN como um extrator de características. Em seguida, o cálculo da dissimilaridade sobre os vetores de características extraídos a partir de cada bloco. Na etapa seguinte foi utilizado o classificador SVM para classificar os blocos de textura. Por fim, foi realizado a combinação das predições geradas de cada bloco, pelo SVM e pela CNN, a fim de obter uma decisão final sobre quem escreveu determinado documento. Resultados: Os principais resultados obtidos foram utilizando a abordagem de dissimilaridade no vetor de características extraído pela rede neural convolucional, sendo eles 98,26% (BFL), 97,91% (CVL) e 86,96% (QUWI). Conclusões: Concluímos neste trabalho, que a abordagem de dissimilariadde se mantém robusta em relação a identificação de escritores de documentos manuscritos de diferentes línguas. Além disso, observou-se que as características extraídas pela CNN obteve bons resultados nos casos em que a língua escrita seguia um alfabeto similar.
publishDate 2016
dc.date.issued.fl_str_mv 2016-11-22
dc.date.accessioned.fl_str_mv 2020-11-09T19:10:37Z
dc.date.available.fl_str_mv 2020-11-09T19:10:37Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv RIGHETTO, Guilherme. O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores. 2016. 49 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.
dc.identifier.uri.fl_str_mv http://repositorio.utfpr.edu.br/jspui/handle/1/6031
identifier_str_mv RIGHETTO, Guilherme. O uso da rede neural convolucional como extrator de características aplicado ao problema de identificação de escritores. 2016. 49 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2016.
url http://repositorio.utfpr.edu.br/jspui/handle/1/6031
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Campo Mourao
dc.publisher.program.fl_str_mv Ciência da Computação
dc.publisher.initials.fl_str_mv UTFPR
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Departamento Acadêmico de Computação
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Campo Mourao
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6031/1/CM_COCIC_2016_2_02.pdf
http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6031/2/license.txt
bitstream.checksum.fl_str_mv 61c4c158b45a6434a4fa3d320858a8dc
dfb14e53a8c6b76b85e77d7a5a3b3809
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_ 1797043940935860224