Identificação de escritores usando dissimilaridade em bases multi-script

Noya, Guilherme Pereira

Identificação de escritores usando dissimilaridade em bases multi-script

Detalhes bibliográficos
Autor(a) principal:	Noya, Guilherme Pereira
Data de Publicação:	2017
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo:	http://repositorio.utfpr.edu.br/jspui/handle/1/6035
Resumo:	Contexto: Na área de reconhecimento de padrões, cenários com apenas um estilo de escrita já foram vastamente estudados. Atualmente, pesquisadores tem avaliado o problema com a utilização de vários estilos de escrita (multi-script). Nesses estudos, a área vem se provando mais complexa e desafiadora que cenários single-script. Existem diversas abordagens, mas um estudo recente utilizando dissimilaridade (abordagem escritor-independente) aplicado em um cenário multi-script apresentou resultados promissores. Objetivo: O objetivo é avaliar o desempenho da utilização de dissimilaridade em cenários multi-script e single-script, assim como avaliar as taxas de acerto em casos que o treino e classificação são executados em bases diferentes (transferência de conhecimento). Método: Quatro bases de dados multi-script são utilizadas. Gera-se texturas a partir dos documentos (cartas) de cada escritor, que são então divididas em blocos. Em seguida, são extraídas as características com os descritores de texturas LBP, RLBP e LPQ. A partir destes vetores de características, os vetores de dissimilaridade são calculados e então são realizados os experimentos nos cenários desejados. Por fim, é realizada uma combinação dos resultados a fim de se obter uma decisão final quanto a classificação dos escritores. Resultados: Para escritor-dependente, os experimentos no cenário single-script tiveram um melhor desempenho que no cenário multi-script, com destaque para o LPQ. Já a dissimilaridade melhorou os resultados em todos os casos, chegando a 100% de acerto em diversos deles. O uso do LPQ também apresentou excelentes resultados na transferência de conhecimentos. Conclusões: Os experimentos mostraram grandes variações entre as abordagens usadas. As taxas de reconhecimento comprovam que um cenário multi-script é mais complexo, e o uso da dissimilaridade proveu um grande salto de desempenho na maioria das bases. Mostrou-se também que treinando em uma base e testando em outra, o desempenho mantém-se satisfatório. Levantou-se ainda questões que podem originar outros estudos.

Metadados do item

id	UTFPR-12_ab2891d30f9224905056ce35de7ebaf7
oai_identifier_str	oai:repositorio.utfpr.edu.br:1/6035
network_acronym_str	UTFPR-12
network_name_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling	2020-11-09T19:10:42Z2020-11-09T19:10:42Z2017-06-21NOYA, Guilherme Pereira. Identificação de escritores usando dissimilaridade em bases multi-script. 2017. 46 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2017.http://repositorio.utfpr.edu.br/jspui/handle/1/6035Contexto: Na área de reconhecimento de padrões, cenários com apenas um estilo de escrita já foram vastamente estudados. Atualmente, pesquisadores tem avaliado o problema com a utilização de vários estilos de escrita (multi-script). Nesses estudos, a área vem se provando mais complexa e desafiadora que cenários single-script. Existem diversas abordagens, mas um estudo recente utilizando dissimilaridade (abordagem escritor-independente) aplicado em um cenário multi-script apresentou resultados promissores. Objetivo: O objetivo é avaliar o desempenho da utilização de dissimilaridade em cenários multi-script e single-script, assim como avaliar as taxas de acerto em casos que o treino e classificação são executados em bases diferentes (transferência de conhecimento). Método: Quatro bases de dados multi-script são utilizadas. Gera-se texturas a partir dos documentos (cartas) de cada escritor, que são então divididas em blocos. Em seguida, são extraídas as características com os descritores de texturas LBP, RLBP e LPQ. A partir destes vetores de características, os vetores de dissimilaridade são calculados e então são realizados os experimentos nos cenários desejados. Por fim, é realizada uma combinação dos resultados a fim de se obter uma decisão final quanto a classificação dos escritores. Resultados: Para escritor-dependente, os experimentos no cenário single-script tiveram um melhor desempenho que no cenário multi-script, com destaque para o LPQ. Já a dissimilaridade melhorou os resultados em todos os casos, chegando a 100% de acerto em diversos deles. O uso do LPQ também apresentou excelentes resultados na transferência de conhecimentos. Conclusões: Os experimentos mostraram grandes variações entre as abordagens usadas. As taxas de reconhecimento comprovam que um cenário multi-script é mais complexo, e o uso da dissimilaridade proveu um grande salto de desempenho na maioria das bases. Mostrou-se também que treinando em uma base e testando em outra, o desempenho mantém-se satisfatório. Levantou-se ainda questões que podem originar outros estudos.Context: In Pattern Recognition, single-scripts situations were vastly studied. Recently, researchers are trying to evaluate multi-script problems. As of new studies are published, this branch is revealing to be more complex and challenging than single-script scenarios. There are some variations to writer-dependent and writer-independent approaches, but a recent study using dissimilarity (a writer-independent approach) applied in a multi-script problem showed promising results. Objective: The objective is to evaluate the performance of the dissimilarity approach in multi-script and single-script scenarios, and also to evaluate the identification rate in cases where the train set and the test set belong to different datasets. Method: Four multi-script datasets are used. The textures are generated from these datasets’ documents and divided in blocks, then the features are extracted with the LBP, RLBP and LPQ texture descriptors. The dissimilarity vectors are calculated from the feature vectors and then the different experiments are executed, in the desired configurations. Finally, the results are combined, in order to obtain a final decision about the classification of the writers. Results: For the writer-dependent approach, the single-script experiments had a better performance than when using multi-script, specially with LPQ. The dissimilarity improved the results in every case, reaching an accuracy of 100% in identification in some of them. The use of LPQ also presented excellent results in transfer learning. Conclusions: The experiments showed variations within the approaches used. The identification rates show that a multi-script configuration is more complex, and the use of dissimilarity provided a huge gain in performance in most of the datasets. It was also showed that when training on one dataset and testing on another, the performance remains satisfactory. Some questions were raised that can originate new studies.porUniversidade Tecnológica Federal do ParanáCampo MouraoCiência da ComputaçãoUTFPRBrasilDepartamento Acadêmico de ComputaçãoCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOSistemas de reconhecimento de padrõesEscrita - IdentificaçãoComputaçãoPattern recognition systemsWriting - IdentificationComputer scienceIdentificação de escritores usando dissimilaridade em bases multi-scriptinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisCampo MourãoGonçalves, Diego BertoliniGonçalves, Rogério AparecidoKawamoto, André Luiz SatoshiGonçalves, Diego BertoliniNoya, Guilherme Pereirainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPRORIGINALidentificacaoescritoresusandodissimilaridade.pdfapplication/pdf1194972http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/1/identificacaoescritoresusandodissimilaridade.pdfb4d9a28c08533a1f79c0ce958033b6c1MD51LICENSElicense.txttext/plain1290http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/2/license.txtb9d82215ab23456fa2d8b49c5df1b95bMD52TEXTidentificacaoescritoresusandodissimilaridade.pdf.txtExtracted texttext/plain83674http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/3/identificacaoescritoresusandodissimilaridade.pdf.txt0a8a504ad6f950aa4df79b2ebeb2f89dMD53THUMBNAILidentificacaoescritoresusandodissimilaridade.pdf.jpgGenerated Thumbnailimage/jpeg1311http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/4/identificacaoescritoresusandodissimilaridade.pdf.jpg6dfedfeb4c1be8c53211f17a486ffd80MD541/60352021-12-16 11:59:58.932oai:repositorio.utfpr.edu.br:1/6035TmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVVEZQUiBhIHZlaWN1bGFyLCAKYXRyYXbDqXMgZG8gUG9ydGFsIGRlIEluZm9ybWHDp8OjbyBlbSBBY2Vzc28gQWJlcnRvIChQSUFBKSBlIGRvcyBDYXTDoWxvZ29zIGRhcyBCaWJsaW90ZWNhcyAKZGVzdGEgSW5zdGl0dWnDp8Ojbywgc2VtIHJlc3NhcmNpbWVudG8gZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG5vIDkuNjEwLzk4LCAKbyB0ZXh0byBkZXN0YSBvYnJhLCBvYnNlcnZhbmRvIGFzIGNvbmRpw6fDtWVzIGRlIGRpc3BvbmliaWxpemHDp8OjbyByZWdpc3RyYWRhcyBubyBpdGVtIDQgZG8gCuKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgVHJhYmFsaG9zIGRlIENvbmNsdXPDo28gZGUgQ3Vyc28gZGUgR3JhZHVhw6fDo28gZSAKRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgZGUgSW5mb3JtYcOnw6NvIGUgbm9zIENhdMOhbG9nb3MgRWxldHLDtG5pY29zIGRvIApTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdLCBwYXJhIGZpbnMgZGUgbGVpdHVyYSwgaW1wcmVzc8OjbyBlL291IGRvd25sb2FkLCB2aXNhbmRvIGEgCmRpdnVsZ2HDp8OjbyBkYSBwcm9kdcOnw6NvIGNpZW50w61maWNhIGJyYXNpbGVpcmEuCgogIEFzIHZpYXMgb3JpZ2luYWlzIGUgYXNzaW5hZGFzIHBlbG8ocykgYXV0b3IoZXMpIGRvIOKAnFRlcm1vIGRlIEF1dG9yaXphw6fDo28gcGFyYSBQdWJsaWNhw6fDo28gZGUgClRyYWJhbGhvcyBkZSBDb25jbHVzw6NvIGRlIEN1cnNvIGRlIEdyYWR1YcOnw6NvIGUgRXNwZWNpYWxpemHDp8OjbywgRGlzc2VydGHDp8O1ZXMgZSBUZXNlcyBubyBQb3J0YWwgCmRlIEluZm9ybWHDp8OjbyBlIG5vcyBDYXTDoWxvZ29zIEVsZXRyw7RuaWNvcyBkbyBTaXN0ZW1hIGRlIEJpYmxpb3RlY2FzIGRhIFVURlBS4oCdIGUgZGEg4oCcRGVjbGFyYcOnw6NvIApkZSBBdXRvcmlh4oCdIGVuY29udHJhbS1zZSBhcnF1aXZhZGFzIG5hIEJpYmxpb3RlY2EgZG8gQ8OibXB1cyBubyBxdWFsIG8gdHJhYmFsaG8gZm9pIGRlZmVuZGlkby4gCk5vIGNhc28gZGUgcHVibGljYcOnw7VlcyBkZSBhdXRvcmlhIGNvbGV0aXZhIGUgbXVsdGljw6JtcHVzLCBvcyBkb2N1bWVudG9zIGZpY2Fyw6NvIHNvYiBndWFyZGEgZGEgCkJpYmxpb3RlY2EgY29tIGEgcXVhbCBvIOKAnHByaW1laXJvIGF1dG9y4oCdIHBvc3N1YSB2w61uY3Vsby4KRepositório de PublicaçõesPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestopendoar:2021-12-16T13:59:58Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.pt_BR.fl_str_mv	Identificação de escritores usando dissimilaridade em bases multi-script
title	Identificação de escritores usando dissimilaridade em bases multi-script
spellingShingle	Identificação de escritores usando dissimilaridade em bases multi-script Noya, Guilherme Pereira CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Sistemas de reconhecimento de padrões Escrita - Identificação Computação Pattern recognition systems Writing - Identification Computer science
title_short	Identificação de escritores usando dissimilaridade em bases multi-script
title_full	Identificação de escritores usando dissimilaridade em bases multi-script
title_fullStr	Identificação de escritores usando dissimilaridade em bases multi-script
title_full_unstemmed	Identificação de escritores usando dissimilaridade em bases multi-script
title_sort	Identificação de escritores usando dissimilaridade em bases multi-script
author	Noya, Guilherme Pereira
author_facet	Noya, Guilherme Pereira
author_role	author
dc.contributor.advisor1.fl_str_mv	Gonçalves, Diego Bertolini
dc.contributor.referee1.fl_str_mv	Gonçalves, Rogério Aparecido
dc.contributor.referee2.fl_str_mv	Kawamoto, André Luiz Satoshi
dc.contributor.referee3.fl_str_mv	Gonçalves, Diego Bertolini
dc.contributor.author.fl_str_mv	Noya, Guilherme Pereira
contributor_str_mv	Gonçalves, Diego Bertolini Gonçalves, Rogério Aparecido Kawamoto, André Luiz Satoshi Gonçalves, Diego Bertolini
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Sistemas de reconhecimento de padrões Escrita - Identificação Computação Pattern recognition systems Writing - Identification Computer science
dc.subject.por.fl_str_mv	Sistemas de reconhecimento de padrões Escrita - Identificação Computação Pattern recognition systems Writing - Identification Computer science
description	Contexto: Na área de reconhecimento de padrões, cenários com apenas um estilo de escrita já foram vastamente estudados. Atualmente, pesquisadores tem avaliado o problema com a utilização de vários estilos de escrita (multi-script). Nesses estudos, a área vem se provando mais complexa e desafiadora que cenários single-script. Existem diversas abordagens, mas um estudo recente utilizando dissimilaridade (abordagem escritor-independente) aplicado em um cenário multi-script apresentou resultados promissores. Objetivo: O objetivo é avaliar o desempenho da utilização de dissimilaridade em cenários multi-script e single-script, assim como avaliar as taxas de acerto em casos que o treino e classificação são executados em bases diferentes (transferência de conhecimento). Método: Quatro bases de dados multi-script são utilizadas. Gera-se texturas a partir dos documentos (cartas) de cada escritor, que são então divididas em blocos. Em seguida, são extraídas as características com os descritores de texturas LBP, RLBP e LPQ. A partir destes vetores de características, os vetores de dissimilaridade são calculados e então são realizados os experimentos nos cenários desejados. Por fim, é realizada uma combinação dos resultados a fim de se obter uma decisão final quanto a classificação dos escritores. Resultados: Para escritor-dependente, os experimentos no cenário single-script tiveram um melhor desempenho que no cenário multi-script, com destaque para o LPQ. Já a dissimilaridade melhorou os resultados em todos os casos, chegando a 100% de acerto em diversos deles. O uso do LPQ também apresentou excelentes resultados na transferência de conhecimentos. Conclusões: Os experimentos mostraram grandes variações entre as abordagens usadas. As taxas de reconhecimento comprovam que um cenário multi-script é mais complexo, e o uso da dissimilaridade proveu um grande salto de desempenho na maioria das bases. Mostrou-se também que treinando em uma base e testando em outra, o desempenho mantém-se satisfatório. Levantou-se ainda questões que podem originar outros estudos.
publishDate	2017
dc.date.issued.fl_str_mv	2017-06-21
dc.date.accessioned.fl_str_mv	2020-11-09T19:10:42Z
dc.date.available.fl_str_mv	2020-11-09T19:10:42Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	NOYA, Guilherme Pereira. Identificação de escritores usando dissimilaridade em bases multi-script. 2017. 46 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2017.
dc.identifier.uri.fl_str_mv	http://repositorio.utfpr.edu.br/jspui/handle/1/6035
identifier_str_mv	NOYA, Guilherme Pereira. Identificação de escritores usando dissimilaridade em bases multi-script. 2017. 46 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2017.
url	http://repositorio.utfpr.edu.br/jspui/handle/1/6035
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Campo Mourao
dc.publisher.program.fl_str_mv	Ciência da Computação
dc.publisher.initials.fl_str_mv	UTFPR
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Departamento Acadêmico de Computação
publisher.none.fl_str_mv	Universidade Tecnológica Federal do Paraná Campo Mourao
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR
instname_str	Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str	UTFPR
institution	UTFPR
reponame_str	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
bitstream.url.fl_str_mv	http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/1/identificacaoescritoresusandodissimilaridade.pdf http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/2/license.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/3/identificacaoescritoresusandodissimilaridade.pdf.txt http://repositorio.utfpr.edu.br:8080/jspui/bitstream/1/6035/4/identificacaoescritoresusandodissimilaridade.pdf.jpg
bitstream.checksum.fl_str_mv	b4d9a28c08533a1f79c0ce958033b6c1 b9d82215ab23456fa2d8b49c5df1b95b 0a8a504ad6f950aa4df79b2ebeb2f89d 6dfedfeb4c1be8c53211f17a486ffd80
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv
_version_	1797043846430851072

Identificação de escritores usando dissimilaridade em bases multi-script

Registros relacionados