Near Real Time Data Aggregation for NLP
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/24010 |
Resumo: | Com o aumento do uso das redes sociais, o número de opções de rede para usar e a variedade de funcionalidades que elas permitem leva à necessidade de os gestores desportivos prestarem uma atenção especial a estes meios. É seguindo este pensamento que surge o Projeto PLAYOFF e consequentemente esta tese. Foi feito um levantamento da literatura existente de soluções que combinam Apache Kafka com modelos de machine learning e foi possível verificar que, apesar de soluções diferentes, já existem referencias nesses domínios. É apresentada uma comparação entre Apache Kafka e RabbitMQ e as razões da escolha ter recaído para o Kafka. É apresentada de forma geral uma arquitetura de um projeto Kafka e, posteriormente, as diferentes abordagens pensadas e desenvolvidas no âmbito da dissertação, assim como o formato das mensagens trocadas usando este sistema. Uma serie de testes e seus resultados são descritos, de modo a comprovar a sua escolha e utilização. Nestes testes diferentes abordagem de execução paralela (threads e processos) são apresentadas, assim como a forma de obter dados das APIs das redes sociais também possui diferentes abordagens. As alterações que foram realizadas aos modelos originais são descritas e explicadas as razões para essas mudanças e de que forma se enquadram na ferramenta desenvolvida. Foi realizado um teste global e final, designado por “Teste Piloto”, onde em ambiente real, com um evento real foram testados todos os componentes deste projeto, incluindo os sistemas externos desenvolvidos pela MOG Technologies e os componentes desenvolvidos no âmbito desta dissertação. Por fim, é possível comprovar as soluções apresentadas e opções finais escolhidas para o projeto, através dos resultados obtidos nos diferentes testes. É ainda proposto trabalho futuro de continuação do desenvolvido. |
id |
RCAP_9be20ad82220564bbc8d8d2da04ea5b6 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/24010 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Near Real Time Data Aggregation for NLPNatural Language ProcessingSentiment AnalysisTopic AnalysisApache KafkaHosting of Artificial Intelligence ModelsReal-Time CommunicationDomínio/Área Científica::Engenharia e TecnologiaCom o aumento do uso das redes sociais, o número de opções de rede para usar e a variedade de funcionalidades que elas permitem leva à necessidade de os gestores desportivos prestarem uma atenção especial a estes meios. É seguindo este pensamento que surge o Projeto PLAYOFF e consequentemente esta tese. Foi feito um levantamento da literatura existente de soluções que combinam Apache Kafka com modelos de machine learning e foi possível verificar que, apesar de soluções diferentes, já existem referencias nesses domínios. É apresentada uma comparação entre Apache Kafka e RabbitMQ e as razões da escolha ter recaído para o Kafka. É apresentada de forma geral uma arquitetura de um projeto Kafka e, posteriormente, as diferentes abordagens pensadas e desenvolvidas no âmbito da dissertação, assim como o formato das mensagens trocadas usando este sistema. Uma serie de testes e seus resultados são descritos, de modo a comprovar a sua escolha e utilização. Nestes testes diferentes abordagem de execução paralela (threads e processos) são apresentadas, assim como a forma de obter dados das APIs das redes sociais também possui diferentes abordagens. As alterações que foram realizadas aos modelos originais são descritas e explicadas as razões para essas mudanças e de que forma se enquadram na ferramenta desenvolvida. Foi realizado um teste global e final, designado por “Teste Piloto”, onde em ambiente real, com um evento real foram testados todos os componentes deste projeto, incluindo os sistemas externos desenvolvidos pela MOG Technologies e os componentes desenvolvidos no âmbito desta dissertação. Por fim, é possível comprovar as soluções apresentadas e opções finais escolhidas para o projeto, através dos resultados obtidos nos diferentes testes. É ainda proposto trabalho futuro de continuação do desenvolvido.With the increasing use of social networks, the number of network options to use and the variety of functionalities that they allow leads to the need for sports managers to pay special attention to these media. It is following this thought that the PLAYOFF Project emerges and consequently this thesis. A search of the existing literature on solutions that combine Apache Kafka with machine learning models was carried out and it was possible to verify that, despite different solutions, there are already references in these domains. A comparison between Apache Kafka and RabbitMQ and the reasons for choosing Kafka are presented. A general architecture of a Kafka project is presented, as well as the different approaches thought and developed within the scope of the dissertation, as well as the format of the messages exchanged using this system. A series of tests and their results are described, in order to prove their choice and use. In these tests different parallel execution approaches (threads and processes) are presented, as well as the way of obtaining data from the APIs of social networks also has different approaches. The changes that were made to the original models are described and explained the reasons for these changes and how they fit into the developed tool. A final and global test was carried out, called “Pilot Test”, where in a real environment, with a real event, all the components of this project were tested, including the external systems developed by MOG Technologies and the components developed within the scope of this dissertation. Finally, it is possible to verify the solutions presented and final options chosen for the project, through the results obtained in the different tests. It is also proposed future work of continuation of the developed.Faria, Luiz Felipe Rocha deRepositório Científico do Instituto Politécnico do PortoFerreira, Tiago Miguel da Costa2023-11-28T09:51:17Z2023-10-272023-10-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/24010TID:203381157enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-06T01:46:16Zoai:recipp.ipp.pt:10400.22/24010Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:20:01.856105Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Near Real Time Data Aggregation for NLP |
title |
Near Real Time Data Aggregation for NLP |
spellingShingle |
Near Real Time Data Aggregation for NLP Ferreira, Tiago Miguel da Costa Natural Language Processing Sentiment Analysis Topic Analysis Apache Kafka Hosting of Artificial Intelligence Models Real-Time Communication Domínio/Área Científica::Engenharia e Tecnologia |
title_short |
Near Real Time Data Aggregation for NLP |
title_full |
Near Real Time Data Aggregation for NLP |
title_fullStr |
Near Real Time Data Aggregation for NLP |
title_full_unstemmed |
Near Real Time Data Aggregation for NLP |
title_sort |
Near Real Time Data Aggregation for NLP |
author |
Ferreira, Tiago Miguel da Costa |
author_facet |
Ferreira, Tiago Miguel da Costa |
author_role |
author |
dc.contributor.none.fl_str_mv |
Faria, Luiz Felipe Rocha de Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Ferreira, Tiago Miguel da Costa |
dc.subject.por.fl_str_mv |
Natural Language Processing Sentiment Analysis Topic Analysis Apache Kafka Hosting of Artificial Intelligence Models Real-Time Communication Domínio/Área Científica::Engenharia e Tecnologia |
topic |
Natural Language Processing Sentiment Analysis Topic Analysis Apache Kafka Hosting of Artificial Intelligence Models Real-Time Communication Domínio/Área Científica::Engenharia e Tecnologia |
description |
Com o aumento do uso das redes sociais, o número de opções de rede para usar e a variedade de funcionalidades que elas permitem leva à necessidade de os gestores desportivos prestarem uma atenção especial a estes meios. É seguindo este pensamento que surge o Projeto PLAYOFF e consequentemente esta tese. Foi feito um levantamento da literatura existente de soluções que combinam Apache Kafka com modelos de machine learning e foi possível verificar que, apesar de soluções diferentes, já existem referencias nesses domínios. É apresentada uma comparação entre Apache Kafka e RabbitMQ e as razões da escolha ter recaído para o Kafka. É apresentada de forma geral uma arquitetura de um projeto Kafka e, posteriormente, as diferentes abordagens pensadas e desenvolvidas no âmbito da dissertação, assim como o formato das mensagens trocadas usando este sistema. Uma serie de testes e seus resultados são descritos, de modo a comprovar a sua escolha e utilização. Nestes testes diferentes abordagem de execução paralela (threads e processos) são apresentadas, assim como a forma de obter dados das APIs das redes sociais também possui diferentes abordagens. As alterações que foram realizadas aos modelos originais são descritas e explicadas as razões para essas mudanças e de que forma se enquadram na ferramenta desenvolvida. Foi realizado um teste global e final, designado por “Teste Piloto”, onde em ambiente real, com um evento real foram testados todos os componentes deste projeto, incluindo os sistemas externos desenvolvidos pela MOG Technologies e os componentes desenvolvidos no âmbito desta dissertação. Por fim, é possível comprovar as soluções apresentadas e opções finais escolhidas para o projeto, através dos resultados obtidos nos diferentes testes. É ainda proposto trabalho futuro de continuação do desenvolvido. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-11-28T09:51:17Z 2023-10-27 2023-10-27T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/24010 TID:203381157 |
url |
http://hdl.handle.net/10400.22/24010 |
identifier_str_mv |
TID:203381157 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799135499209670656 |