Ampliando modelos de Image Captioning em português através das informações linguísticas.

Detalhes bibliográficos
Autor(a) principal: Gondim, João Medrado
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFBA
Texto Completo: https://repositorio.ufba.br/handle/ri/38707
Resumo: O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.
id UFBA-2_110acb6dee9a0573e7d0a0c86d1a0a93
oai_identifier_str oai:repositorio.ufba.br:ri/38707
network_acronym_str UFBA-2
network_name_str Repositório Institucional da UFBA
repository_id_str 1932
spelling 2023-12-18T12:10:28Z2023-12-18T12:10:28Z2023-08-23GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.https://repositorio.ufba.br/handle/ri/38707O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.The increase in the number of applications that require accessibility, information retrieval and human-computer interaction has culminated in a growing need for automated generation of the description of an image. This automated description requires an identification of the scenario, characters and objects present and how these elements relate to each other. From these elements it becomes possible to generate a sentence in natural language describing the content of the image. The development of methods capable of automatically generating a sentence that describes an image permeates a research area called Image Captioning. Most research and datasets in the Image Captioning area focus on the English language, developing models and building efficient state-of-the-art resources. Languages with few resources for development, such as Portuguese, require more research to achieve a descriptive and understandable sentence. However, only the agglomeration of several objects contained in the image does not generate a descriptive sentence of a scene. In this context, this work proposes the analysis and incorporation of linguistic resources that can guide the language model in generating a description that is more informative of the image in Portuguese. Experiments were performed with the translation of datasets for the generation of the description in Portuguese. The results give evidence that there is morphological learning in the training of an Image Captioning model and that the incorporation of grammatical classes during training can contribute to the generation of sentences with greater length and more informative.Submitted by João Gondim (joao.gondim@ufba.br) on 2023-12-15T15:03:57Z No. of bitstreams: 2 license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5) Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5)Approved for entry into archive by Cátia Silva dos Santos (catia.santos@ufba.br) on 2023-12-18T12:10:28Z (GMT) No. of bitstreams: 2 Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5) license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5)Made available in DSpace on 2023-12-18T12:10:28Z (GMT). No. of bitstreams: 2 Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5) license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5) Previous issue date: 2023-08-23porUniversidade Federal da BahiaPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) UFBABrasilInstituto de Computação - ICCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessImage captioningNeural networksComputer visionNatural language processingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAODescrição de imagensRedes neuraisVisão computacionalProcessamento de linguagem naturalAmpliando modelos de Image Captioning em português através das informações linguísticas.Expanding Image Captioning models in portuguese through linguistic information.Mestrado Acadêmicoinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionClaro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Souza, Marlo Vieira dos Santos ehttps://orcid.org/0000-0002-5373-7271http://lattes.cnpq.br/8734792579019380Claro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Rios, Tatiane Nogueirahttp://lattes.cnpq.br/0851148137941240Avila, Sandra Eliza Fontes dehttps://orcid.org/0000-0001-9068-938Xhttp://lattes.cnpq.br/8343699060914150https://orcid.org/0000-0001-7225-1165http://lattes.cnpq.br/0453339976296369Gondim, João Medradoreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBATEXTDissertação___Versão_Final___Capa.pdf.txtDissertação___Versão_Final___Capa.pdf.txtExtracted texttext/plain178533https://repositorio.ufba.br/bitstream/ri/38707/4/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf.txtbe36be91bacc170b1aaad111790dee51MD54ORIGINALDissertação___Versão_Final___Capa.pdfDissertação___Versão_Final___Capa.pdfDissertação mestrado de João Medrado Gondimapplication/pdf7864024https://repositorio.ufba.br/bitstream/ri/38707/1/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf41192902dcff73c9f05a7885a7d6497dMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repositorio.ufba.br/bitstream/ri/38707/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txtlicense.txttext/plain1715https://repositorio.ufba.br/bitstream/ri/38707/3/license.txt67bf4f75790b0d8d38d8f112a48ad90bMD53ri/387072023-12-23 22:06:25.177oai:repositorio.ufba.br:ri/38707TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCBvIGF1dG9yIG91IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIG5vIGZvcm1hdG8gaW1wcmVzc28gZS9vdSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyAKZm9ybWF0b3Mgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gZS9vdSBmb3JtYXRvIHBhcmEgZmlucyBkZSBwcmVzZXJ2YcOnw6NvLCBwb2RlbmRvIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrdXAgZSBwcmVzZXJ2YcOnw6NvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIG9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBICBSRVNVTFRFIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSAgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08sIENPTU8gVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIApFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l0w7NyaW8gc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyLCBjbGFyYW1lbnRlLCBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28gZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322023-12-24T01:06:25Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv Ampliando modelos de Image Captioning em português através das informações linguísticas.
dc.title.alternative.pt_BR.fl_str_mv Expanding Image Captioning models in portuguese through linguistic information.
title Ampliando modelos de Image Captioning em português através das informações linguísticas.
spellingShingle Ampliando modelos de Image Captioning em português através das informações linguísticas.
Gondim, João Medrado
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Descrição de imagens
Redes neurais
Visão computacional
Processamento de linguagem natural
Image captioning
Neural networks
Computer vision
Natural language processing
title_short Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_full Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_fullStr Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_full_unstemmed Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_sort Ampliando modelos de Image Captioning em português através das informações linguísticas.
author Gondim, João Medrado
author_facet Gondim, João Medrado
author_role author
dc.contributor.advisor1.fl_str_mv Claro, Daniela Barreiro
dc.contributor.advisor1ID.fl_str_mv https://orcid.org/0000-0001-8586-1042
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9217378047217370
dc.contributor.advisor-co1.fl_str_mv Souza, Marlo Vieira dos Santos e
dc.contributor.advisor-co1ID.fl_str_mv https://orcid.org/0000-0002-5373-7271
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/8734792579019380
dc.contributor.referee1.fl_str_mv Claro, Daniela Barreiro
dc.contributor.referee1ID.fl_str_mv https://orcid.org/0000-0001-8586-1042
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9217378047217370
dc.contributor.referee2.fl_str_mv Rios, Tatiane Nogueira
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/0851148137941240
dc.contributor.referee3.fl_str_mv Avila, Sandra Eliza Fontes de
dc.contributor.referee3ID.fl_str_mv https://orcid.org/0000-0001-9068-938X
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/8343699060914150
dc.contributor.authorID.fl_str_mv https://orcid.org/0000-0001-7225-1165
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/0453339976296369
dc.contributor.author.fl_str_mv Gondim, João Medrado
contributor_str_mv Claro, Daniela Barreiro
Souza, Marlo Vieira dos Santos e
Claro, Daniela Barreiro
Rios, Tatiane Nogueira
Avila, Sandra Eliza Fontes de
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Descrição de imagens
Redes neurais
Visão computacional
Processamento de linguagem natural
Image captioning
Neural networks
Computer vision
Natural language processing
dc.subject.por.fl_str_mv Descrição de imagens
Redes neurais
Visão computacional
Processamento de linguagem natural
dc.subject.other.pt_BR.fl_str_mv Image captioning
Neural networks
Computer vision
Natural language processing
description O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-12-18T12:10:28Z
dc.date.available.fl_str_mv 2023-12-18T12:10:28Z
dc.date.issued.fl_str_mv 2023-08-23
dc.type.driver.fl_str_mv Mestrado Acadêmico
info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufba.br/handle/ri/38707
identifier_str_mv GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.
url https://repositorio.ufba.br/handle/ri/38707
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Bahia
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
dc.publisher.initials.fl_str_mv UFBA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Computação - IC
publisher.none.fl_str_mv Universidade Federal da Bahia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFBA
instname:Universidade Federal da Bahia (UFBA)
instacron:UFBA
instname_str Universidade Federal da Bahia (UFBA)
instacron_str UFBA
institution UFBA
reponame_str Repositório Institucional da UFBA
collection Repositório Institucional da UFBA
bitstream.url.fl_str_mv https://repositorio.ufba.br/bitstream/ri/38707/4/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf.txt
https://repositorio.ufba.br/bitstream/ri/38707/1/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf
https://repositorio.ufba.br/bitstream/ri/38707/2/license_rdf
https://repositorio.ufba.br/bitstream/ri/38707/3/license.txt
bitstream.checksum.fl_str_mv be36be91bacc170b1aaad111790dee51
41192902dcff73c9f05a7885a7d6497d
42fd4ad1e89814f5e4a476b409eb708c
67bf4f75790b0d8d38d8f112a48ad90b
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv
_version_ 1808459687579877376