Near Real Time Data Aggregation for NLP

Detalhes bibliográficos
Autor(a) principal: Ferreira, Tiago Miguel da Costa
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/24010
Resumo: Com o aumento do uso das redes sociais, o número de opções de rede para usar e a variedade de funcionalidades que elas permitem leva à necessidade de os gestores desportivos prestarem uma atenção especial a estes meios. É seguindo este pensamento que surge o Projeto PLAYOFF e consequentemente esta tese. Foi feito um levantamento da literatura existente de soluções que combinam Apache Kafka com modelos de machine learning e foi possível verificar que, apesar de soluções diferentes, já existem referencias nesses domínios. É apresentada uma comparação entre Apache Kafka e RabbitMQ e as razões da escolha ter recaído para o Kafka. É apresentada de forma geral uma arquitetura de um projeto Kafka e, posteriormente, as diferentes abordagens pensadas e desenvolvidas no âmbito da dissertação, assim como o formato das mensagens trocadas usando este sistema. Uma serie de testes e seus resultados são descritos, de modo a comprovar a sua escolha e utilização. Nestes testes diferentes abordagem de execução paralela (threads e processos) são apresentadas, assim como a forma de obter dados das APIs das redes sociais também possui diferentes abordagens. As alterações que foram realizadas aos modelos originais são descritas e explicadas as razões para essas mudanças e de que forma se enquadram na ferramenta desenvolvida. Foi realizado um teste global e final, designado por “Teste Piloto”, onde em ambiente real, com um evento real foram testados todos os componentes deste projeto, incluindo os sistemas externos desenvolvidos pela MOG Technologies e os componentes desenvolvidos no âmbito desta dissertação. Por fim, é possível comprovar as soluções apresentadas e opções finais escolhidas para o projeto, através dos resultados obtidos nos diferentes testes. É ainda proposto trabalho futuro de continuação do desenvolvido.
id RCAP_9be20ad82220564bbc8d8d2da04ea5b6
oai_identifier_str oai:recipp.ipp.pt:10400.22/24010
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Near Real Time Data Aggregation for NLPNatural Language ProcessingSentiment AnalysisTopic AnalysisApache KafkaHosting of Artificial Intelligence ModelsReal-Time CommunicationDomínio/Área Científica::Engenharia e TecnologiaCom o aumento do uso das redes sociais, o número de opções de rede para usar e a variedade de funcionalidades que elas permitem leva à necessidade de os gestores desportivos prestarem uma atenção especial a estes meios. É seguindo este pensamento que surge o Projeto PLAYOFF e consequentemente esta tese. Foi feito um levantamento da literatura existente de soluções que combinam Apache Kafka com modelos de machine learning e foi possível verificar que, apesar de soluções diferentes, já existem referencias nesses domínios. É apresentada uma comparação entre Apache Kafka e RabbitMQ e as razões da escolha ter recaído para o Kafka. É apresentada de forma geral uma arquitetura de um projeto Kafka e, posteriormente, as diferentes abordagens pensadas e desenvolvidas no âmbito da dissertação, assim como o formato das mensagens trocadas usando este sistema. Uma serie de testes e seus resultados são descritos, de modo a comprovar a sua escolha e utilização. Nestes testes diferentes abordagem de execução paralela (threads e processos) são apresentadas, assim como a forma de obter dados das APIs das redes sociais também possui diferentes abordagens. As alterações que foram realizadas aos modelos originais são descritas e explicadas as razões para essas mudanças e de que forma se enquadram na ferramenta desenvolvida. Foi realizado um teste global e final, designado por “Teste Piloto”, onde em ambiente real, com um evento real foram testados todos os componentes deste projeto, incluindo os sistemas externos desenvolvidos pela MOG Technologies e os componentes desenvolvidos no âmbito desta dissertação. Por fim, é possível comprovar as soluções apresentadas e opções finais escolhidas para o projeto, através dos resultados obtidos nos diferentes testes. É ainda proposto trabalho futuro de continuação do desenvolvido.With the increasing use of social networks, the number of network options to use and the variety of functionalities that they allow leads to the need for sports managers to pay special attention to these media. It is following this thought that the PLAYOFF Project emerges and consequently this thesis. A search of the existing literature on solutions that combine Apache Kafka with machine learning models was carried out and it was possible to verify that, despite different solutions, there are already references in these domains. A comparison between Apache Kafka and RabbitMQ and the reasons for choosing Kafka are presented. A general architecture of a Kafka project is presented, as well as the different approaches thought and developed within the scope of the dissertation, as well as the format of the messages exchanged using this system. A series of tests and their results are described, in order to prove their choice and use. In these tests different parallel execution approaches (threads and processes) are presented, as well as the way of obtaining data from the APIs of social networks also has different approaches. The changes that were made to the original models are described and explained the reasons for these changes and how they fit into the developed tool. A final and global test was carried out, called “Pilot Test”, where in a real environment, with a real event, all the components of this project were tested, including the external systems developed by MOG Technologies and the components developed within the scope of this dissertation. Finally, it is possible to verify the solutions presented and final options chosen for the project, through the results obtained in the different tests. It is also proposed future work of continuation of the developed.Faria, Luiz Felipe Rocha deRepositório Científico do Instituto Politécnico do PortoFerreira, Tiago Miguel da Costa2023-11-28T09:51:17Z2023-10-272023-10-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24010TID:203381157enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-06T01:46:16Zoai:recipp.ipp.pt:10400.22/24010Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:20:01.856105Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Near Real Time Data Aggregation for NLP
title Near Real Time Data Aggregation for NLP
spellingShingle Near Real Time Data Aggregation for NLP
Ferreira, Tiago Miguel da Costa
Natural Language Processing
Sentiment Analysis
Topic Analysis
Apache Kafka
Hosting of Artificial Intelligence Models
Real-Time Communication
Domínio/Área Científica::Engenharia e Tecnologia
title_short Near Real Time Data Aggregation for NLP
title_full Near Real Time Data Aggregation for NLP
title_fullStr Near Real Time Data Aggregation for NLP
title_full_unstemmed Near Real Time Data Aggregation for NLP
title_sort Near Real Time Data Aggregation for NLP
author Ferreira, Tiago Miguel da Costa
author_facet Ferreira, Tiago Miguel da Costa
author_role author
dc.contributor.none.fl_str_mv Faria, Luiz Felipe Rocha de
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Ferreira, Tiago Miguel da Costa
dc.subject.por.fl_str_mv Natural Language Processing
Sentiment Analysis
Topic Analysis
Apache Kafka
Hosting of Artificial Intelligence Models
Real-Time Communication
Domínio/Área Científica::Engenharia e Tecnologia
topic Natural Language Processing
Sentiment Analysis
Topic Analysis
Apache Kafka
Hosting of Artificial Intelligence Models
Real-Time Communication
Domínio/Área Científica::Engenharia e Tecnologia
description Com o aumento do uso das redes sociais, o número de opções de rede para usar e a variedade de funcionalidades que elas permitem leva à necessidade de os gestores desportivos prestarem uma atenção especial a estes meios. É seguindo este pensamento que surge o Projeto PLAYOFF e consequentemente esta tese. Foi feito um levantamento da literatura existente de soluções que combinam Apache Kafka com modelos de machine learning e foi possível verificar que, apesar de soluções diferentes, já existem referencias nesses domínios. É apresentada uma comparação entre Apache Kafka e RabbitMQ e as razões da escolha ter recaído para o Kafka. É apresentada de forma geral uma arquitetura de um projeto Kafka e, posteriormente, as diferentes abordagens pensadas e desenvolvidas no âmbito da dissertação, assim como o formato das mensagens trocadas usando este sistema. Uma serie de testes e seus resultados são descritos, de modo a comprovar a sua escolha e utilização. Nestes testes diferentes abordagem de execução paralela (threads e processos) são apresentadas, assim como a forma de obter dados das APIs das redes sociais também possui diferentes abordagens. As alterações que foram realizadas aos modelos originais são descritas e explicadas as razões para essas mudanças e de que forma se enquadram na ferramenta desenvolvida. Foi realizado um teste global e final, designado por “Teste Piloto”, onde em ambiente real, com um evento real foram testados todos os componentes deste projeto, incluindo os sistemas externos desenvolvidos pela MOG Technologies e os componentes desenvolvidos no âmbito desta dissertação. Por fim, é possível comprovar as soluções apresentadas e opções finais escolhidas para o projeto, através dos resultados obtidos nos diferentes testes. É ainda proposto trabalho futuro de continuação do desenvolvido.
publishDate 2023
dc.date.none.fl_str_mv 2023-11-28T09:51:17Z
2023-10-27
2023-10-27T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/24010
TID:203381157
url http://hdl.handle.net/10400.22/24010
identifier_str_mv TID:203381157
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135499209670656