Scene text detection and recognition

Detalhes bibliográficos
Autor(a) principal: Germano, André Ricardo Covelo
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/80298
Resumo: Dissertação de mestrado em Computer Science
id RCAP_45abc1b85619b741e23c28a5a428e8a0
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/80298
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Scene text detection and recognitionDeep LearningMachine LearningNeural NetworksOptical Character RecognitionCNNRNNOCRText DetectionText RecognitionText SpottingPlacard ExtractionInteligência ArtificialRedes NeuronaisDeteção de TextoReconhecimento de TextoLocalização de TextoEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Computer ScienceDetecting and recognizing information contained in urban scenery such as informative boards or billboard advertising is increasingly becoming a trending topic in the machine vi sion community duo to it’s increased utility in automated applications such as, for example, assisted and autonomous software for self-driving vehicles and maintenance assessment of urban signage. Compared to text recognition in documents, which is for the most part solved with state of-art Optical Character Recognition (OCR) algorithms, text detection and recognition in urban scenes still presents several problems to the community. There is no single algorithm that can handle all the difficulties encountered in real-world scenery (scale, perspective, distortions, defocus, occlusion, etc.), making it an arduous task in real world scenes compared with text detection and recognition in documents. Regarding image pre-processing in documents, a simple image translation, such as a rotation or scaling, in most cases is sufficient to overcome some recognition issues whilst in urban scene imagery, text can appear with different alignments, languages and fonts, requiring some sort of sequential pipeline to overcome the difficulties and increase the success rate. The main goal of this dissertation is to explore and reproduce end-to-end state-of-art techniques both in urban scene text detection and recognition, further comparing the top ranked algorithms in a testing environment through several challenging benchmarks. Furthermore, we develop a pipeline combining computer vision and deep learning tech niques to assess the conditioning of informative placards in urban scenery by employing the models with the best results reported in our benchmarks. The pipeline is divided in 3 main components: Placard Extraction, Text Detection and Text Recognition. In the Placard Extraction step we crop placards of interest from the rest of the background, the Text Detection component detects text boxes in the placard and the Text Recognition component predicts character sequences in every text box detected. Additionally, we develop an intuitive front-end prototype displaying some of the results attained throughout our pipeline, showcasing the potential and usability of our research in the assessment and management of street placards.A informação contida em cenários urbanos tal como placares informativos e publicitários é cada vez mais um tópico relevante na comunidade de processamento de imagem devido ao aumento da necessidade e utilidade em aplicações autónomas tais como no auxílio de veículos de condução autónoma e assistida. Comparado com o problema de reconhecimento de texto em documentos, que está em grande parte resolvido com algoritmos de Optical Character Recognition (OCR), a deteção e reconhecimento de texto em ambientes urbanos apresenta muitos problemas para a comunidade. Apesar de nos últimos anos ter havido melhorias tanto no desempenho como exatidão dos algoritmos, ainda não existe um único algoritmo ou combinação de algoritmos que resolva todas as dificuldades encontradas em cenários do mundo real (escala, perspetiva, distorção, desfocagem, oclusão, etc.). Em relação ao pre-processamento requerido quando tratamos de texto em documentos, uma simples translação, como uma rotação ou escala, é na maioria dos casos suficiente para ultrapassar alguns problemas de reconhecimento, enquanto que, em cenários urbanos, o texto pode aparecer com diferentes alinhamentos, tamanhos, fontes e até mesmo em diferentes línguas, requerendo algum tipo de pipeline para ultrapassar estas mesmas dificuldades. O objetivo desta dissertação é então explorar e replicar técnicas de estado-da-arte nos domínios de deteção e reconhecimento de texto em ambientes urbanos, comparando os "melhores" algoritmos através de um conjunto de testes em diferentes benchmarks. Para além disso, foi desenvolvida uma pipeline combinando técnicas de visão por computador e deep learning para determinar a condição de placardes de informação em cenários urbanos, combinando os algoritmos com os melhores resultados nos nossos benchmarks. A pipeline é composta por 3 componentes: Extração do Placar, Deteção do Texto e Reconhecimento do Texto. Na Extração do Placar recortamos o placar de interesse do resto da imagem, no componente de Deteção de Texto detetamos as caixas de texto do placar e no componente de Reconhecimento de Texto prevemos sequências de caracteres para cada caixa de texto detetada. Adicionalmente, desenvolvemos um protótipo de front-end intuitivo, demonstrando alguns dos resultados obtidos na pipeline, exibindo o potencial e usabilidade do nosso projeto na avaliação e manutenção de placares urbanos.Fernandes, António RamiresFerreira, Manuel JoãoUniversidade do MinhoGermano, André Ricardo Covelo2019-122019-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80298eng203024737info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:52:42Zoai:repositorium.sdum.uminho.pt:1822/80298Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:51:53.144153Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Scene text detection and recognition
title Scene text detection and recognition
spellingShingle Scene text detection and recognition
Germano, André Ricardo Covelo
Deep Learning
Machine Learning
Neural Networks
Optical Character Recognition
CNN
RNN
OCR
Text Detection
Text Recognition
Text Spotting
Placard Extraction
Inteligência Artificial
Redes Neuronais
Deteção de Texto
Reconhecimento de Texto
Localização de Texto
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Scene text detection and recognition
title_full Scene text detection and recognition
title_fullStr Scene text detection and recognition
title_full_unstemmed Scene text detection and recognition
title_sort Scene text detection and recognition
author Germano, André Ricardo Covelo
author_facet Germano, André Ricardo Covelo
author_role author
dc.contributor.none.fl_str_mv Fernandes, António Ramires
Ferreira, Manuel João
Universidade do Minho
dc.contributor.author.fl_str_mv Germano, André Ricardo Covelo
dc.subject.por.fl_str_mv Deep Learning
Machine Learning
Neural Networks
Optical Character Recognition
CNN
RNN
OCR
Text Detection
Text Recognition
Text Spotting
Placard Extraction
Inteligência Artificial
Redes Neuronais
Deteção de Texto
Reconhecimento de Texto
Localização de Texto
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Deep Learning
Machine Learning
Neural Networks
Optical Character Recognition
CNN
RNN
OCR
Text Detection
Text Recognition
Text Spotting
Placard Extraction
Inteligência Artificial
Redes Neuronais
Deteção de Texto
Reconhecimento de Texto
Localização de Texto
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Computer Science
publishDate 2019
dc.date.none.fl_str_mv 2019-12
2019-12-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/80298
url https://hdl.handle.net/1822/80298
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203024737
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133108849606656