Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.

NASCIMENTO, André Jordão do.

Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.

Detalhes bibliográficos
Autor(a) principal:	NASCIMENTO, André Jordão do.
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36709
Resumo:	Um dos maiores problemas encontrados em aplicações que estão envolvidas no ecossistema de Big Data está relacionado à disponibilidade e qualidade de dados para modelos de IA e outras análises direcionadas. Aplicações com esse foco necessitam de dados que disponham de alta qualidade, já que o resultado de seus serviços depende da integridade da informação usada no processo. Quando pensamos em dados textuais, devemos saber que a informação fornecida para aplicações que envolvem processamento de texto, devem ser as melhores possíveis. Desta forma, foi desenvolvido uma aplicação que trata da gerência da coleta e tratamento contínuo de dados textuais. O contexto da aplicação está fixo na coleta de dados textuais da rede social Reddit. Através da API fornecida pela rede, é feita a ingestão de dados de uma comunidade específica. Com base nos dados coletados, a ferramenta trata de fazer todo o orquestramento de tarefas que gerenciam a coleta, tratamento e disponibilização desses dados. Para teste da ferramenta, os dados disponíveis são passados para um modelo de PLN, que usa LDA para mapear tópicos com base nos textos extraídos do site. A aplicação se baseia nos conceitos de streaming de dados e processamento de texto, de forma contínua e automática, a fim de manter uma base de dados sólida e de qualidade para análises de texto.

Metadados do item

id	UFCG_358a0151639411667a8591ed716ef802
oai_identifier_str	oai:localhost:riufcg/36709
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str	4851
spelling	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.Ingesting and processing textual data from Reddit: a quality and availability solution.Big DataProcessamento de Linguagem NaturalETLRedditInteligência ArtificialNatural Language ProcessingArtificial intelligenceCiência da ComputaçãoUm dos maiores problemas encontrados em aplicações que estão envolvidas no ecossistema de Big Data está relacionado à disponibilidade e qualidade de dados para modelos de IA e outras análises direcionadas. Aplicações com esse foco necessitam de dados que disponham de alta qualidade, já que o resultado de seus serviços depende da integridade da informação usada no processo. Quando pensamos em dados textuais, devemos saber que a informação fornecida para aplicações que envolvem processamento de texto, devem ser as melhores possíveis. Desta forma, foi desenvolvido uma aplicação que trata da gerência da coleta e tratamento contínuo de dados textuais. O contexto da aplicação está fixo na coleta de dados textuais da rede social Reddit. Através da API fornecida pela rede, é feita a ingestão de dados de uma comunidade específica. Com base nos dados coletados, a ferramenta trata de fazer todo o orquestramento de tarefas que gerenciam a coleta, tratamento e disponibilização desses dados. Para teste da ferramenta, os dados disponíveis são passados para um modelo de PLN, que usa LDA para mapear tópicos com base nos textos extraídos do site. A aplicação se baseia nos conceitos de streaming de dados e processamento de texto, de forma contínua e automática, a fim de manter uma base de dados sólida e de qualidade para análises de texto.One of the biggest problems encountered in applications that are involved in the Big Data ecosystem is related to the availability and quality of data for AI models and other targeted analyses. Applications with this focus need high-quality data, since the results of their services depend on the integrity of the information used in the process. When we think of textual data, we should know that the information provided to applications that involve text processing should be the best possible. An application has therefore been developed to manage the collection and ongoing processing of textual data. The context of the application is fixed on the collection of textual data from the Reddit social network. Using the API provided by the network, data is ingested from a specific community. Based on the data collected, the tool orchestrates all the tasks that manage the collection, processing and availability of this data. To test the tool, the available data is passed to a PLN model, which uses LDA to map topics based on the texts extracted from the site. The application is based on the concepts of streaming data and text processing, continuously and automatically, in order to maintain a solid, quality database for text analysis.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIUFCGMORAIS, Fábio Jorge Almeida.MORAIS, F. J. A.http://lattes.cnpq.br/0987042606840444GOMES, Reinaldo Cezar de Morais.GOMES, Reinaldo Cézar de Moraishttp://lattes.cnpq.br/8132074356628564MONGIOVI, Melina Mongiovi.MONGIOVI, M.http://lattes.cnpq.br/7535849756393864NASCIMENTO, André Jordão do.2023-11-172024-07-18T15:29:48Z2024-07-182024-07-18T15:29:48Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36709NASCIMENTO, André Jordão do. Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade. 2023. 12 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2024-07-18T15:29:48Zoai:localhost:riufcg/36709Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512024-07-18T15:29:48Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade. Ingesting and processing textual data from Reddit: a quality and availability solution.
title	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.
spellingShingle	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade. NASCIMENTO, André Jordão do. Big Data Processamento de Linguagem Natural ETL Reddit Inteligência Artificial Natural Language Processing Artificial intelligence Ciência da Computação
title_short	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.
title_full	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.
title_fullStr	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.
title_full_unstemmed	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.
title_sort	Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.
author	NASCIMENTO, André Jordão do.
author_facet	NASCIMENTO, André Jordão do.
author_role	author
dc.contributor.none.fl_str_mv	MORAIS, Fábio Jorge Almeida. MORAIS, F. J. A. http://lattes.cnpq.br/0987042606840444 GOMES, Reinaldo Cezar de Morais. GOMES, Reinaldo Cézar de Morais http://lattes.cnpq.br/8132074356628564 MONGIOVI, Melina Mongiovi. MONGIOVI, M. http://lattes.cnpq.br/7535849756393864
dc.contributor.author.fl_str_mv	NASCIMENTO, André Jordão do.
dc.subject.por.fl_str_mv	Big Data Processamento de Linguagem Natural ETL Reddit Inteligência Artificial Natural Language Processing Artificial intelligence Ciência da Computação
topic	Big Data Processamento de Linguagem Natural ETL Reddit Inteligência Artificial Natural Language Processing Artificial intelligence Ciência da Computação
description	Um dos maiores problemas encontrados em aplicações que estão envolvidas no ecossistema de Big Data está relacionado à disponibilidade e qualidade de dados para modelos de IA e outras análises direcionadas. Aplicações com esse foco necessitam de dados que disponham de alta qualidade, já que o resultado de seus serviços depende da integridade da informação usada no processo. Quando pensamos em dados textuais, devemos saber que a informação fornecida para aplicações que envolvem processamento de texto, devem ser as melhores possíveis. Desta forma, foi desenvolvido uma aplicação que trata da gerência da coleta e tratamento contínuo de dados textuais. O contexto da aplicação está fixo na coleta de dados textuais da rede social Reddit. Através da API fornecida pela rede, é feita a ingestão de dados de uma comunidade específica. Com base nos dados coletados, a ferramenta trata de fazer todo o orquestramento de tarefas que gerenciam a coleta, tratamento e disponibilização desses dados. Para teste da ferramenta, os dados disponíveis são passados para um modelo de PLN, que usa LDA para mapear tópicos com base nos textos extraídos do site. A aplicação se baseia nos conceitos de streaming de dados e processamento de texto, de forma contínua e automática, a fim de manter uma base de dados sólida e de qualidade para análises de texto.
publishDate	2023
dc.date.none.fl_str_mv	2023-11-17 2024-07-18T15:29:48Z 2024-07-18 2024-07-18T15:29:48Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36709 NASCIMENTO, André Jordão do. Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade. 2023. 12 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.
url	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36709
identifier_str_mv	NASCIMENTO, André Jordão do. Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade. 2023. 12 f. Artigo (Bacharelado em Ciência da Computação) - Universidade Federal de Campina Grande, Centro de Engenharia Elétrica e Informática, Campina Grande, Paraíba, Brasil, 2023.
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI UFCG
publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI UFCG
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1809744629317238784

Ingestão e processamento de dados textuais do Reddit: uma solução de qualidade e disponibilidade.

Registros relacionados