Ampliando modelos de Image Captioning em português através das informações linguísticas.

Gondim, João Medrado

Ampliando modelos de Image Captioning em português através das informações linguísticas.

Detalhes bibliográficos
Autor(a) principal:	Gondim, João Medrado
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFBA
Texto Completo:	https://repositorio.ufba.br/handle/ri/38707
Resumo:	O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.

Metadados do item

id	UFBA-2_110acb6dee9a0573e7d0a0c86d1a0a93
oai_identifier_str	oai:repositorio.ufba.br:ri/38707
network_acronym_str	UFBA-2
network_name_str	Repositório Institucional da UFBA
repository_id_str	1932
spelling	2023-12-18T12:10:28Z2023-12-18T12:10:28Z2023-08-23GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.https://repositorio.ufba.br/handle/ri/38707O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.The increase in the number of applications that require accessibility, information retrieval and human-computer interaction has culminated in a growing need for automated generation of the description of an image. This automated description requires an identification of the scenario, characters and objects present and how these elements relate to each other. From these elements it becomes possible to generate a sentence in natural language describing the content of the image. The development of methods capable of automatically generating a sentence that describes an image permeates a research area called Image Captioning. Most research and datasets in the Image Captioning area focus on the English language, developing models and building efficient state-of-the-art resources. Languages with few resources for development, such as Portuguese, require more research to achieve a descriptive and understandable sentence. However, only the agglomeration of several objects contained in the image does not generate a descriptive sentence of a scene. In this context, this work proposes the analysis and incorporation of linguistic resources that can guide the language model in generating a description that is more informative of the image in Portuguese. Experiments were performed with the translation of datasets for the generation of the description in Portuguese. The results give evidence that there is morphological learning in the training of an Image Captioning model and that the incorporation of grammatical classes during training can contribute to the generation of sentences with greater length and more informative.Submitted by João Gondim (joao.gondim@ufba.br) on 2023-12-15T15:03:57Z No. of bitstreams: 2 license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5) Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5)Approved for entry into archive by Cátia Silva dos Santos (catia.santos@ufba.br) on 2023-12-18T12:10:28Z (GMT) No. of bitstreams: 2 Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5) license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5)Made available in DSpace on 2023-12-18T12:10:28Z (GMT). No. of bitstreams: 2 Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5) license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5) Previous issue date: 2023-08-23porUniversidade Federal da BahiaPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) UFBABrasilInstituto de Computação - ICCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessImage captioningNeural networksComputer visionNatural language processingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAODescrição de imagensRedes neuraisVisão computacionalProcessamento de linguagem naturalAmpliando modelos de Image Captioning em português através das informações linguísticas.Expanding Image Captioning models in portuguese through linguistic information.Mestrado Acadêmicoinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionClaro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Souza, Marlo Vieira dos Santos ehttps://orcid.org/0000-0002-5373-7271http://lattes.cnpq.br/8734792579019380Claro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Rios, Tatiane Nogueirahttp://lattes.cnpq.br/0851148137941240Avila, Sandra Eliza Fontes dehttps://orcid.org/0000-0001-9068-938Xhttp://lattes.cnpq.br/8343699060914150https://orcid.org/0000-0001-7225-1165http://lattes.cnpq.br/0453339976296369Gondim, João Medradoreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBATEXTDissertação___Versão_Final___Capa.pdf.txtDissertação___Versão_Final___Capa.pdf.txtExtracted texttext/plain178533https://repositorio.ufba.br/bitstream/ri/38707/4/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf.txtbe36be91bacc170b1aaad111790dee51MD54ORIGINALDissertação___Versão_Final___Capa.pdfDissertação___Versão_Final___Capa.pdfDissertação mestrado de João Medrado Gondimapplication/pdf7864024https://repositorio.ufba.br/bitstream/ri/38707/1/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf41192902dcff73c9f05a7885a7d6497dMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repositorio.ufba.br/bitstream/ri/38707/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txtlicense.txttext/plain1715https://repositorio.ufba.br/bitstream/ri/38707/3/license.txt67bf4f75790b0d8d38d8f112a48ad90bMD53ri/387072023-12-23 22:06:25.177oai:repositorio.ufba.br:ri/38707TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCBvIGF1dG9yIG91IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIG5vIGZvcm1hdG8gaW1wcmVzc28gZS9vdSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyAKZm9ybWF0b3Mgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gZS9vdSBmb3JtYXRvIHBhcmEgZmlucyBkZSBwcmVzZXJ2YcOnw6NvLCBwb2RlbmRvIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrdXAgZSBwcmVzZXJ2YcOnw6NvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIG9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBICBSRVNVTFRFIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSAgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08sIENPTU8gVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIApFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l0w7NyaW8gc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyLCBjbGFyYW1lbnRlLCBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28gZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322023-12-24T01:06:25Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false
dc.title.pt_BR.fl_str_mv	Ampliando modelos de Image Captioning em português através das informações linguísticas.
dc.title.alternative.pt_BR.fl_str_mv	Expanding Image Captioning models in portuguese through linguistic information.
title	Ampliando modelos de Image Captioning em português através das informações linguísticas.
spellingShingle	Ampliando modelos de Image Captioning em português através das informações linguísticas. Gondim, João Medrado CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural Image captioning Neural networks Computer vision Natural language processing
title_short	Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_full	Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_fullStr	Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_full_unstemmed	Ampliando modelos de Image Captioning em português através das informações linguísticas.
title_sort	Ampliando modelos de Image Captioning em português através das informações linguísticas.
author	Gondim, João Medrado
author_facet	Gondim, João Medrado
author_role	author
dc.contributor.advisor1.fl_str_mv	Claro, Daniela Barreiro
dc.contributor.advisor1ID.fl_str_mv	https://orcid.org/0000-0001-8586-1042
dc.contributor.advisor1Lattes.fl_str_mv	http://lattes.cnpq.br/9217378047217370
dc.contributor.advisor-co1.fl_str_mv	Souza, Marlo Vieira dos Santos e
dc.contributor.advisor-co1ID.fl_str_mv	https://orcid.org/0000-0002-5373-7271
dc.contributor.advisor-co1Lattes.fl_str_mv	http://lattes.cnpq.br/8734792579019380
dc.contributor.referee1.fl_str_mv	Claro, Daniela Barreiro
dc.contributor.referee1ID.fl_str_mv	https://orcid.org/0000-0001-8586-1042
dc.contributor.referee1Lattes.fl_str_mv	http://lattes.cnpq.br/9217378047217370
dc.contributor.referee2.fl_str_mv	Rios, Tatiane Nogueira
dc.contributor.referee2Lattes.fl_str_mv	http://lattes.cnpq.br/0851148137941240
dc.contributor.referee3.fl_str_mv	Avila, Sandra Eliza Fontes de
dc.contributor.referee3ID.fl_str_mv	https://orcid.org/0000-0001-9068-938X
dc.contributor.referee3Lattes.fl_str_mv	http://lattes.cnpq.br/8343699060914150
dc.contributor.authorID.fl_str_mv	https://orcid.org/0000-0001-7225-1165
dc.contributor.authorLattes.fl_str_mv	http://lattes.cnpq.br/0453339976296369
dc.contributor.author.fl_str_mv	Gondim, João Medrado
contributor_str_mv	Claro, Daniela Barreiro Souza, Marlo Vieira dos Santos e Claro, Daniela Barreiro Rios, Tatiane Nogueira Avila, Sandra Eliza Fontes de
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural Image captioning Neural networks Computer vision Natural language processing
dc.subject.por.fl_str_mv	Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural
dc.subject.other.pt_BR.fl_str_mv	Image captioning Neural networks Computer vision Natural language processing
description	O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-12-18T12:10:28Z
dc.date.available.fl_str_mv	2023-12-18T12:10:28Z
dc.date.issued.fl_str_mv	2023-08-23
dc.type.driver.fl_str_mv	Mestrado Acadêmico info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.
dc.identifier.uri.fl_str_mv	https://repositorio.ufba.br/handle/ri/38707
identifier_str_mv	GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.
url	https://repositorio.ufba.br/handle/ri/38707
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ info:eu-repo/semantics/openAccess
rights_invalid_str_mv	CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal da Bahia
dc.publisher.program.fl_str_mv	Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
dc.publisher.initials.fl_str_mv	UFBA
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Instituto de Computação - IC
publisher.none.fl_str_mv	Universidade Federal da Bahia
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFBA instname:Universidade Federal da Bahia (UFBA) instacron:UFBA
instname_str	Universidade Federal da Bahia (UFBA)
instacron_str	UFBA
institution	UFBA
reponame_str	Repositório Institucional da UFBA
collection	Repositório Institucional da UFBA
bitstream.url.fl_str_mv	https://repositorio.ufba.br/bitstream/ri/38707/4/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf.txt https://repositorio.ufba.br/bitstream/ri/38707/1/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf https://repositorio.ufba.br/bitstream/ri/38707/2/license_rdf https://repositorio.ufba.br/bitstream/ri/38707/3/license.txt
bitstream.checksum.fl_str_mv	be36be91bacc170b1aaad111790dee51 41192902dcff73c9f05a7885a7d6497d 42fd4ad1e89814f5e4a476b409eb708c 67bf4f75790b0d8d38d8f112a48ad90b
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)
repository.mail.fl_str_mv
_version_	1808459687579877376

Ampliando modelos de Image Captioning em português através das informações linguísticas.

Registros relacionados