Ampliando modelos de Image Captioning em português através das informações linguísticas.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFBA |
Texto Completo: | https://repositorio.ufba.br/handle/ri/38707 |
Resumo: | O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas. |
id |
UFBA-2_110acb6dee9a0573e7d0a0c86d1a0a93 |
---|---|
oai_identifier_str |
oai:repositorio.ufba.br:ri/38707 |
network_acronym_str |
UFBA-2 |
network_name_str |
Repositório Institucional da UFBA |
repository_id_str |
1932 |
spelling |
2023-12-18T12:10:28Z2023-12-18T12:10:28Z2023-08-23GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023.https://repositorio.ufba.br/handle/ri/38707O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.The increase in the number of applications that require accessibility, information retrieval and human-computer interaction has culminated in a growing need for automated generation of the description of an image. This automated description requires an identification of the scenario, characters and objects present and how these elements relate to each other. From these elements it becomes possible to generate a sentence in natural language describing the content of the image. The development of methods capable of automatically generating a sentence that describes an image permeates a research area called Image Captioning. Most research and datasets in the Image Captioning area focus on the English language, developing models and building efficient state-of-the-art resources. Languages with few resources for development, such as Portuguese, require more research to achieve a descriptive and understandable sentence. However, only the agglomeration of several objects contained in the image does not generate a descriptive sentence of a scene. In this context, this work proposes the analysis and incorporation of linguistic resources that can guide the language model in generating a description that is more informative of the image in Portuguese. Experiments were performed with the translation of datasets for the generation of the description in Portuguese. The results give evidence that there is morphological learning in the training of an Image Captioning model and that the incorporation of grammatical classes during training can contribute to the generation of sentences with greater length and more informative.Submitted by João Gondim (joao.gondim@ufba.br) on 2023-12-15T15:03:57Z No. of bitstreams: 2 license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5) Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5)Approved for entry into archive by Cátia Silva dos Santos (catia.santos@ufba.br) on 2023-12-18T12:10:28Z (GMT) No. of bitstreams: 2 Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5) license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5)Made available in DSpace on 2023-12-18T12:10:28Z (GMT). No. of bitstreams: 2 Dissertação___Versão_Final___Capa.pdf: 7864024 bytes, checksum: 41192902dcff73c9f05a7885a7d6497d (MD5) license_rdf: 701 bytes, checksum: 42fd4ad1e89814f5e4a476b409eb708c (MD5) Previous issue date: 2023-08-23porUniversidade Federal da BahiaPrograma de Pós-Graduação em Ciência da Computação (PGCOMP) UFBABrasilInstituto de Computação - ICCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessImage captioningNeural networksComputer visionNatural language processingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAODescrição de imagensRedes neuraisVisão computacionalProcessamento de linguagem naturalAmpliando modelos de Image Captioning em português através das informações linguísticas.Expanding Image Captioning models in portuguese through linguistic information.Mestrado Acadêmicoinfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionClaro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Souza, Marlo Vieira dos Santos ehttps://orcid.org/0000-0002-5373-7271http://lattes.cnpq.br/8734792579019380Claro, Daniela Barreirohttps://orcid.org/0000-0001-8586-1042http://lattes.cnpq.br/9217378047217370Rios, Tatiane Nogueirahttp://lattes.cnpq.br/0851148137941240Avila, Sandra Eliza Fontes dehttps://orcid.org/0000-0001-9068-938Xhttp://lattes.cnpq.br/8343699060914150https://orcid.org/0000-0001-7225-1165http://lattes.cnpq.br/0453339976296369Gondim, João Medradoreponame:Repositório Institucional da UFBAinstname:Universidade Federal da Bahia (UFBA)instacron:UFBATEXTDissertação___Versão_Final___Capa.pdf.txtDissertação___Versão_Final___Capa.pdf.txtExtracted texttext/plain178533https://repositorio.ufba.br/bitstream/ri/38707/4/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf.txtbe36be91bacc170b1aaad111790dee51MD54ORIGINALDissertação___Versão_Final___Capa.pdfDissertação___Versão_Final___Capa.pdfDissertação mestrado de João Medrado Gondimapplication/pdf7864024https://repositorio.ufba.br/bitstream/ri/38707/1/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf41192902dcff73c9f05a7885a7d6497dMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repositorio.ufba.br/bitstream/ri/38707/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txtlicense.txttext/plain1715https://repositorio.ufba.br/bitstream/ri/38707/3/license.txt67bf4f75790b0d8d38d8f112a48ad90bMD53ri/387072023-12-23 22:06:25.177oai:repositorio.ufba.br:ri/38707TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCBvIGF1dG9yIG91IHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIG5vIGZvcm1hdG8gaW1wcmVzc28gZS9vdSBlbGV0csO0bmljbyBlIGVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyAKZm9ybWF0b3Mgw6F1ZGlvIGUvb3UgdsOtZGVvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gZS9vdSBmb3JtYXRvIHBhcmEgZmlucyBkZSBwcmVzZXJ2YcOnw6NvLCBwb2RlbmRvIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrdXAgZSBwcmVzZXJ2YcOnw6NvLgoKTyBhdXRvciBvdSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIG9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbsOnYSBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlw7pkbyBkYSBwdWJsaWNhw6fDo28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgUFVCTElDQcOHw4NPIE9SQSBERVBPU0lUQURBICBSRVNVTFRFIERFIFVNIFBBVFJPQ8ONTklPIE9VIEFQT0lPIERFIFVNQSAgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08sIENPTU8gVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIApFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKTyBSZXBvc2l0w7NyaW8gc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyLCBjbGFyYW1lbnRlLCBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28gZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Repositório InstitucionalPUBhttp://192.188.11.11:8080/oai/requestopendoar:19322023-12-24T01:06:25Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA)false |
dc.title.pt_BR.fl_str_mv |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
dc.title.alternative.pt_BR.fl_str_mv |
Expanding Image Captioning models in portuguese through linguistic information. |
title |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
spellingShingle |
Ampliando modelos de Image Captioning em português através das informações linguísticas. Gondim, João Medrado CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural Image captioning Neural networks Computer vision Natural language processing |
title_short |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
title_full |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
title_fullStr |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
title_full_unstemmed |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
title_sort |
Ampliando modelos de Image Captioning em português através das informações linguísticas. |
author |
Gondim, João Medrado |
author_facet |
Gondim, João Medrado |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Claro, Daniela Barreiro |
dc.contributor.advisor1ID.fl_str_mv |
https://orcid.org/0000-0001-8586-1042 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/9217378047217370 |
dc.contributor.advisor-co1.fl_str_mv |
Souza, Marlo Vieira dos Santos e |
dc.contributor.advisor-co1ID.fl_str_mv |
https://orcid.org/0000-0002-5373-7271 |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/8734792579019380 |
dc.contributor.referee1.fl_str_mv |
Claro, Daniela Barreiro |
dc.contributor.referee1ID.fl_str_mv |
https://orcid.org/0000-0001-8586-1042 |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/9217378047217370 |
dc.contributor.referee2.fl_str_mv |
Rios, Tatiane Nogueira |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/0851148137941240 |
dc.contributor.referee3.fl_str_mv |
Avila, Sandra Eliza Fontes de |
dc.contributor.referee3ID.fl_str_mv |
https://orcid.org/0000-0001-9068-938X |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/8343699060914150 |
dc.contributor.authorID.fl_str_mv |
https://orcid.org/0000-0001-7225-1165 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/0453339976296369 |
dc.contributor.author.fl_str_mv |
Gondim, João Medrado |
contributor_str_mv |
Claro, Daniela Barreiro Souza, Marlo Vieira dos Santos e Claro, Daniela Barreiro Rios, Tatiane Nogueira Avila, Sandra Eliza Fontes de |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural Image captioning Neural networks Computer vision Natural language processing |
dc.subject.por.fl_str_mv |
Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural |
dc.subject.other.pt_BR.fl_str_mv |
Image captioning Neural networks Computer vision Natural language processing |
description |
O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-12-18T12:10:28Z |
dc.date.available.fl_str_mv |
2023-12-18T12:10:28Z |
dc.date.issued.fl_str_mv |
2023-08-23 |
dc.type.driver.fl_str_mv |
Mestrado Acadêmico info:eu-repo/semantics/masterThesis |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufba.br/handle/ri/38707 |
identifier_str_mv |
GONDIM, João Medrado. Ampliando modelos de Image Captioning em português através das informações linguísticas. 2023. 104 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Computação, Universidade Federal da Bahia, Salvador (Bahia), 2023. |
url |
https://repositorio.ufba.br/handle/ri/38707 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal da Bahia |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação (PGCOMP) |
dc.publisher.initials.fl_str_mv |
UFBA |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Computação - IC |
publisher.none.fl_str_mv |
Universidade Federal da Bahia |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFBA instname:Universidade Federal da Bahia (UFBA) instacron:UFBA |
instname_str |
Universidade Federal da Bahia (UFBA) |
instacron_str |
UFBA |
institution |
UFBA |
reponame_str |
Repositório Institucional da UFBA |
collection |
Repositório Institucional da UFBA |
bitstream.url.fl_str_mv |
https://repositorio.ufba.br/bitstream/ri/38707/4/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf.txt https://repositorio.ufba.br/bitstream/ri/38707/1/Disserta%c3%a7%c3%a3o___Vers%c3%a3o_Final___Capa.pdf https://repositorio.ufba.br/bitstream/ri/38707/2/license_rdf https://repositorio.ufba.br/bitstream/ri/38707/3/license.txt |
bitstream.checksum.fl_str_mv |
be36be91bacc170b1aaad111790dee51 41192902dcff73c9f05a7885a7d6497d 42fd4ad1e89814f5e4a476b409eb708c 67bf4f75790b0d8d38d8f112a48ad90b |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFBA - Universidade Federal da Bahia (UFBA) |
repository.mail.fl_str_mv |
|
_version_ |
1808459687579877376 |