Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | https://hdl.handle.net/11449/255790 |
Resumo: | As inovações na indústria de tecnologia trouxeram maior acessibilidade a tecnologias de Inteligência Artificial (IA) como Large Language Models (LLM) e o GPT-4. Nesse sentido, o presente trabalho tem como objetivo utilizar estas tecnologias para auxiliar e incentivar crianças à leitura por meio de um aplicativo web. A aplicação web utilizou frameworks modernos em linguagem TypeScript, conversão de imagem para texto e uso de inteligência artificial de texto generativa. O aplicativo é capaz de capturar uma foto de uma página de um livro infantil por meio da câmera de um celular (smartphone), e na sequência, realizar a sua leitura com voz sintetizada, além de reproduzir efeitos sonoros previamente especificados. Esses efeitos sonoros são chamados de contextos e são reproduzidos de acordo com a sua presença no trecho do texto lido. O aplicativo foi implementado com um Front-end utilizando React e Material UI (User Interface), um Back-end em Node.JS, a conversão de imagem para texto utilizando as APIs do OCRSpace e o tratamento de texto pelo GPT-4. Três testes independentes foram realizados: um teste geral utilizando a ferramenta de forma completa, analisando sua performance com o Coeficiente de Dice; um teste técnico com imagens de diferentes qualidades, quantificando o acerto do aplicativo pelo mesmo coeficiente; e por fim, um teste de experiência de uso com crianças, no qual, elas utilizaram o aplicativo e responderam a um questionário. A satisfação das crianças quanto ao uso utilizou a métrica Net Promoter Score (NPS). O teste geral obteve um Coeficiente de Dice médio de 0,97. O teste técnico apresentou o Coeficiente de Dice médio de 0,92 de similaridade em casos ideais, e 88,57% em média de acerto de contextos. O teste de experiência foi realizado com 22 crianças na faixa etária de 7 a 12 anos, no qual dentre 7 perguntas do questionário, 6 tiveram respostas positivas acima de 50%, a satisfação média foi de 87%, e o NPS foi de 41. O aplicativo demonstrou ser funcional, operando com o mínimo de custo e com bons resultados técnicos, além das opiniões das crianças que o utilizaram serem favoráveis. |
id |
UNSP_2a1a57dcf1b15dbdf04a9e10e2fe5054 |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/255790 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificialLoolabae: text reading and sound effects reproduction application by artificial intelligenceAplicação webOCRGPT-4TypeScriptSintetização de vozEfeitos sonorosWeb applicationVoice synthesisSound effectsAs inovações na indústria de tecnologia trouxeram maior acessibilidade a tecnologias de Inteligência Artificial (IA) como Large Language Models (LLM) e o GPT-4. Nesse sentido, o presente trabalho tem como objetivo utilizar estas tecnologias para auxiliar e incentivar crianças à leitura por meio de um aplicativo web. A aplicação web utilizou frameworks modernos em linguagem TypeScript, conversão de imagem para texto e uso de inteligência artificial de texto generativa. O aplicativo é capaz de capturar uma foto de uma página de um livro infantil por meio da câmera de um celular (smartphone), e na sequência, realizar a sua leitura com voz sintetizada, além de reproduzir efeitos sonoros previamente especificados. Esses efeitos sonoros são chamados de contextos e são reproduzidos de acordo com a sua presença no trecho do texto lido. O aplicativo foi implementado com um Front-end utilizando React e Material UI (User Interface), um Back-end em Node.JS, a conversão de imagem para texto utilizando as APIs do OCRSpace e o tratamento de texto pelo GPT-4. Três testes independentes foram realizados: um teste geral utilizando a ferramenta de forma completa, analisando sua performance com o Coeficiente de Dice; um teste técnico com imagens de diferentes qualidades, quantificando o acerto do aplicativo pelo mesmo coeficiente; e por fim, um teste de experiência de uso com crianças, no qual, elas utilizaram o aplicativo e responderam a um questionário. A satisfação das crianças quanto ao uso utilizou a métrica Net Promoter Score (NPS). O teste geral obteve um Coeficiente de Dice médio de 0,97. O teste técnico apresentou o Coeficiente de Dice médio de 0,92 de similaridade em casos ideais, e 88,57% em média de acerto de contextos. O teste de experiência foi realizado com 22 crianças na faixa etária de 7 a 12 anos, no qual dentre 7 perguntas do questionário, 6 tiveram respostas positivas acima de 50%, a satisfação média foi de 87%, e o NPS foi de 41. O aplicativo demonstrou ser funcional, operando com o mínimo de custo e com bons resultados técnicos, além das opiniões das crianças que o utilizaram serem favoráveis.Innovations in the technology industry have brought greater accessibility to artificial intelligence (AI) technologies such as Large Language Models (LLM) and GPT-4. In this sense, the present work aims to use these technologies to help and encourage children to read using a web application. The web application used modern frameworks in TypeScript language, image to text conversion and generative text artificial intelligence. The application can capture a photo of a page from a children's book using a cell phone camera (smartphone), and then reading it with a synthesized voice, in addition to reproducing previously specified sound effects. These sound effects are called contexts and are reproduced according to their presence in the portion of the text read. The application was implemented with a Front-end using React and Material UI (User Interface), a Back-end in Node.JS, image-to-text conversion using the OCRSpace APIs and text processing using GPT-4. Three independent tests were carried out: a general test using the tool completely, analyzing its performance with the Dice Coefficient; a technical test with images of different qualities, quantifying the application's success using the same coefficient; and finally, a user experience test with children, in which they used the application and answered a form. Children's satisfaction was measured with the Net Promoter Score (NPS) metric. The general test obtained an average Dice Coefficient of 0.97. The technical test presented an average Dice Coefficient of 0.92 similarity in ideal cases, and 88.57% average context accuracy. The experience test had 22 children aged 7 to 12 years, in which among 7 questions in the questionnaire, 6 had positive responses above 50%, the average satisfaction was 87%, and the NPS was 41. The application proved to be functional, operating with minimal cost and with good technical results, in addition to the favorable opinions of the children who used it.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Marques, Márcio Alexandre [UNESP]Caetano, Caio Alexandre Troti2024-05-29T12:26:05Z2024-05-29T12:26:05Z2024-05-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfCAETANO, Caio Alexandre Troti. Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial. Orientador: Márcio Alexandre Marques. 2024. 71 p. Trabalho de Graduação (Bacharelado em Engenharia de Controle e Automação) - Instituto de Ciência e Tecnologia, Universidade Estadual Paulista, Sorocaba, 2024.https://hdl.handle.net/11449/255790porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2024-05-30T06:14:47Zoai:repositorio.unesp.br:11449/255790Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T20:33:01.370060Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial Loolabae: text reading and sound effects reproduction application by artificial intelligence |
title |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial |
spellingShingle |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial Caetano, Caio Alexandre Troti Aplicação web OCR GPT-4 TypeScript Sintetização de voz Efeitos sonoros Web application Voice synthesis Sound effects |
title_short |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial |
title_full |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial |
title_fullStr |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial |
title_full_unstemmed |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial |
title_sort |
Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial |
author |
Caetano, Caio Alexandre Troti |
author_facet |
Caetano, Caio Alexandre Troti |
author_role |
author |
dc.contributor.none.fl_str_mv |
Marques, Márcio Alexandre [UNESP] |
dc.contributor.author.fl_str_mv |
Caetano, Caio Alexandre Troti |
dc.subject.por.fl_str_mv |
Aplicação web OCR GPT-4 TypeScript Sintetização de voz Efeitos sonoros Web application Voice synthesis Sound effects |
topic |
Aplicação web OCR GPT-4 TypeScript Sintetização de voz Efeitos sonoros Web application Voice synthesis Sound effects |
description |
As inovações na indústria de tecnologia trouxeram maior acessibilidade a tecnologias de Inteligência Artificial (IA) como Large Language Models (LLM) e o GPT-4. Nesse sentido, o presente trabalho tem como objetivo utilizar estas tecnologias para auxiliar e incentivar crianças à leitura por meio de um aplicativo web. A aplicação web utilizou frameworks modernos em linguagem TypeScript, conversão de imagem para texto e uso de inteligência artificial de texto generativa. O aplicativo é capaz de capturar uma foto de uma página de um livro infantil por meio da câmera de um celular (smartphone), e na sequência, realizar a sua leitura com voz sintetizada, além de reproduzir efeitos sonoros previamente especificados. Esses efeitos sonoros são chamados de contextos e são reproduzidos de acordo com a sua presença no trecho do texto lido. O aplicativo foi implementado com um Front-end utilizando React e Material UI (User Interface), um Back-end em Node.JS, a conversão de imagem para texto utilizando as APIs do OCRSpace e o tratamento de texto pelo GPT-4. Três testes independentes foram realizados: um teste geral utilizando a ferramenta de forma completa, analisando sua performance com o Coeficiente de Dice; um teste técnico com imagens de diferentes qualidades, quantificando o acerto do aplicativo pelo mesmo coeficiente; e por fim, um teste de experiência de uso com crianças, no qual, elas utilizaram o aplicativo e responderam a um questionário. A satisfação das crianças quanto ao uso utilizou a métrica Net Promoter Score (NPS). O teste geral obteve um Coeficiente de Dice médio de 0,97. O teste técnico apresentou o Coeficiente de Dice médio de 0,92 de similaridade em casos ideais, e 88,57% em média de acerto de contextos. O teste de experiência foi realizado com 22 crianças na faixa etária de 7 a 12 anos, no qual dentre 7 perguntas do questionário, 6 tiveram respostas positivas acima de 50%, a satisfação média foi de 87%, e o NPS foi de 41. O aplicativo demonstrou ser funcional, operando com o mínimo de custo e com bons resultados técnicos, além das opiniões das crianças que o utilizaram serem favoráveis. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-05-29T12:26:05Z 2024-05-29T12:26:05Z 2024-05-13 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
CAETANO, Caio Alexandre Troti. Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial. Orientador: Márcio Alexandre Marques. 2024. 71 p. Trabalho de Graduação (Bacharelado em Engenharia de Controle e Automação) - Instituto de Ciência e Tecnologia, Universidade Estadual Paulista, Sorocaba, 2024. https://hdl.handle.net/11449/255790 |
identifier_str_mv |
CAETANO, Caio Alexandre Troti. Loolabae: aplicativo de leitura de texto e reprodução de efeitos sonoros por inteligência artificial. Orientador: Márcio Alexandre Marques. 2024. 71 p. Trabalho de Graduação (Bacharelado em Engenharia de Controle e Automação) - Instituto de Ciência e Tecnologia, Universidade Estadual Paulista, Sorocaba, 2024. |
url |
https://hdl.handle.net/11449/255790 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808129219333455872 |