Scene text detection and recognition
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/80298 |
Resumo: | Dissertação de mestrado em Computer Science |
id |
RCAP_45abc1b85619b741e23c28a5a428e8a0 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/80298 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Scene text detection and recognitionDeep LearningMachine LearningNeural NetworksOptical Character RecognitionCNNRNNOCRText DetectionText RecognitionText SpottingPlacard ExtractionInteligência ArtificialRedes NeuronaisDeteção de TextoReconhecimento de TextoLocalização de TextoEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Computer ScienceDetecting and recognizing information contained in urban scenery such as informative boards or billboard advertising is increasingly becoming a trending topic in the machine vi sion community duo to it’s increased utility in automated applications such as, for example, assisted and autonomous software for self-driving vehicles and maintenance assessment of urban signage. Compared to text recognition in documents, which is for the most part solved with state of-art Optical Character Recognition (OCR) algorithms, text detection and recognition in urban scenes still presents several problems to the community. There is no single algorithm that can handle all the difficulties encountered in real-world scenery (scale, perspective, distortions, defocus, occlusion, etc.), making it an arduous task in real world scenes compared with text detection and recognition in documents. Regarding image pre-processing in documents, a simple image translation, such as a rotation or scaling, in most cases is sufficient to overcome some recognition issues whilst in urban scene imagery, text can appear with different alignments, languages and fonts, requiring some sort of sequential pipeline to overcome the difficulties and increase the success rate. The main goal of this dissertation is to explore and reproduce end-to-end state-of-art techniques both in urban scene text detection and recognition, further comparing the top ranked algorithms in a testing environment through several challenging benchmarks. Furthermore, we develop a pipeline combining computer vision and deep learning tech niques to assess the conditioning of informative placards in urban scenery by employing the models with the best results reported in our benchmarks. The pipeline is divided in 3 main components: Placard Extraction, Text Detection and Text Recognition. In the Placard Extraction step we crop placards of interest from the rest of the background, the Text Detection component detects text boxes in the placard and the Text Recognition component predicts character sequences in every text box detected. Additionally, we develop an intuitive front-end prototype displaying some of the results attained throughout our pipeline, showcasing the potential and usability of our research in the assessment and management of street placards.A informação contida em cenários urbanos tal como placares informativos e publicitários é cada vez mais um tópico relevante na comunidade de processamento de imagem devido ao aumento da necessidade e utilidade em aplicações autónomas tais como no auxílio de veículos de condução autónoma e assistida. Comparado com o problema de reconhecimento de texto em documentos, que está em grande parte resolvido com algoritmos de Optical Character Recognition (OCR), a deteção e reconhecimento de texto em ambientes urbanos apresenta muitos problemas para a comunidade. Apesar de nos últimos anos ter havido melhorias tanto no desempenho como exatidão dos algoritmos, ainda não existe um único algoritmo ou combinação de algoritmos que resolva todas as dificuldades encontradas em cenários do mundo real (escala, perspetiva, distorção, desfocagem, oclusão, etc.). Em relação ao pre-processamento requerido quando tratamos de texto em documentos, uma simples translação, como uma rotação ou escala, é na maioria dos casos suficiente para ultrapassar alguns problemas de reconhecimento, enquanto que, em cenários urbanos, o texto pode aparecer com diferentes alinhamentos, tamanhos, fontes e até mesmo em diferentes línguas, requerendo algum tipo de pipeline para ultrapassar estas mesmas dificuldades. O objetivo desta dissertação é então explorar e replicar técnicas de estado-da-arte nos domínios de deteção e reconhecimento de texto em ambientes urbanos, comparando os "melhores" algoritmos através de um conjunto de testes em diferentes benchmarks. Para além disso, foi desenvolvida uma pipeline combinando técnicas de visão por computador e deep learning para determinar a condição de placardes de informação em cenários urbanos, combinando os algoritmos com os melhores resultados nos nossos benchmarks. A pipeline é composta por 3 componentes: Extração do Placar, Deteção do Texto e Reconhecimento do Texto. Na Extração do Placar recortamos o placar de interesse do resto da imagem, no componente de Deteção de Texto detetamos as caixas de texto do placar e no componente de Reconhecimento de Texto prevemos sequências de caracteres para cada caixa de texto detetada. Adicionalmente, desenvolvemos um protótipo de front-end intuitivo, demonstrando alguns dos resultados obtidos na pipeline, exibindo o potencial e usabilidade do nosso projeto na avaliação e manutenção de placares urbanos.Fernandes, António RamiresFerreira, Manuel JoãoUniversidade do MinhoGermano, André Ricardo Covelo2019-122019-12-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/80298eng203024737info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:52:42Zoai:repositorium.sdum.uminho.pt:1822/80298Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:51:53.144153Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Scene text detection and recognition |
title |
Scene text detection and recognition |
spellingShingle |
Scene text detection and recognition Germano, André Ricardo Covelo Deep Learning Machine Learning Neural Networks Optical Character Recognition CNN RNN OCR Text Detection Text Recognition Text Spotting Placard Extraction Inteligência Artificial Redes Neuronais Deteção de Texto Reconhecimento de Texto Localização de Texto Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Scene text detection and recognition |
title_full |
Scene text detection and recognition |
title_fullStr |
Scene text detection and recognition |
title_full_unstemmed |
Scene text detection and recognition |
title_sort |
Scene text detection and recognition |
author |
Germano, André Ricardo Covelo |
author_facet |
Germano, André Ricardo Covelo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Fernandes, António Ramires Ferreira, Manuel João Universidade do Minho |
dc.contributor.author.fl_str_mv |
Germano, André Ricardo Covelo |
dc.subject.por.fl_str_mv |
Deep Learning Machine Learning Neural Networks Optical Character Recognition CNN RNN OCR Text Detection Text Recognition Text Spotting Placard Extraction Inteligência Artificial Redes Neuronais Deteção de Texto Reconhecimento de Texto Localização de Texto Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Deep Learning Machine Learning Neural Networks Optical Character Recognition CNN RNN OCR Text Detection Text Recognition Text Spotting Placard Extraction Inteligência Artificial Redes Neuronais Deteção de Texto Reconhecimento de Texto Localização de Texto Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Computer Science |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12 2019-12-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/80298 |
url |
https://hdl.handle.net/1822/80298 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203024737 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133108849606656 |