Visualização de dados em processos de Machine Learning

Detalhes bibliográficos
Autor(a) principal: Scalco, Felipe Fagundes
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UCS
Texto Completo: https://repositorio.ucs.br/11338/9716
Resumo: Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]
id UCS_9ad74595a1f8a12d32069efae68d9893
oai_identifier_str oai:repositorio.ucs.br:11338/9716
network_acronym_str UCS
network_name_str Repositório Institucional da UCS
repository_id_str
spelling Scalco, Felipe FagundesLima, Maria de Fátima Webber do PradoBoff, ElisaWebber, Carine Geltrudes2022-03-21T19:41:52Z2022-03-21T19:41:52Z2021-07-232021-07-07https://repositorio.ucs.br/11338/9716Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]With the recent emergence of Big Data the amount of data being generated on a daily basis has never been greater. In order to extract knowledge from this data Machine Learning plays a key role, due to its ability to learn from historical data. Machine Learning techniques comprise data- driven methods that combine fundamental concepts from computer science with others fields like statistics, probability, optimization and aim to implement algorithms capable of learning, with little or no need for human assistance or intervention. Given the complexity of data sets, visual components are added to the Machine Learning process. The visual components aim to visually represent the information. Helping in the interpretation of data, taking advantage of the visual system of human beings to recognize patterns. Besides offering different ways to show the results in a more friendly way, helping in the decision making process. To demonstrate the relevance of data visualization during the Machine Learning process, this work develops and evaluates a Machine Learning process supported by data visualization tools. The case study method was used, since it is considered that each data set must be treated in a unique way, given its characteristics and distributions. The visualization tools selected were Yellowbrick, Seaborn, Ploty, and MatPlotLib. In this work, two distinct datasets were selected. The first data set, includes public data that contains the number of cases of those contaminated, recovered and killed by the new coronavirus in all continents. Through this set, numerical and categorical data visualization resources were explored, with maps and mixed graphics. The second dataset, widely used in studies in the area, was the Iris dataset. This dataset is commonly used to evaluate classification algorithms because it has a well-defined structure. Moreover, it constitutes an important element for studies in the area because its data present numerical and categorical characteristics (classes). This enables comparisons, analyses, and visualizations that, once understood in an illustrative scenario, can be replicated in other complex contexts. As observed results, we highlight the importance of visualization tools in the Machine Learning process, contributing to the understanding and validation of its steps. In particular, in data sets with Coronavirus, error analysis resources (mean, square, etc.) and statistical measures are the most used. On the other hand, on data sets with Iris, resources for analyzing the accuracy of the classifiers are more relevant. To conclude, it is considered that the results were satisfactory and that visualization tools, besides being necessary for decision making, help the human being in the data exploration process. [resumo fornecido pelo autor]ComputaçãoInteligência artificialAprendizado do computadorVisualizaçãoVisualização de dados em processos de Machine Learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do SulBacharelado em Ciência da ComputaçãoCampus Universitário de Caxias do Sul2021-07-22ORIGINALTCC Felipe Fagundes Scalco.pdfTCC Felipe Fagundes Scalco.pdfapplication/pdf4519675https://repositorio.ucs.br/xmlui/bitstream/11338/9716/1/TCC%20Felipe%20Fagundes%20Scalco.pdf1913ee37db2c6056bcb79d584e583b9bMD51TEXTTCC Felipe Fagundes Scalco.pdf.txtTCC Felipe Fagundes Scalco.pdf.txtExtracted texttext/plain161453https://repositorio.ucs.br/xmlui/bitstream/11338/9716/2/TCC%20Felipe%20Fagundes%20Scalco.pdf.txtf066f674757a2f60289bed393f508bc4MD52THUMBNAILTCC Felipe Fagundes Scalco.pdf.jpgTCC Felipe Fagundes Scalco.pdf.jpgGenerated Thumbnailimage/jpeg1240https://repositorio.ucs.br/xmlui/bitstream/11338/9716/3/TCC%20Felipe%20Fagundes%20Scalco.pdf.jpgc6b80a992d92623d415b954f7a2e3904MD5311338/97162023-05-17 17:48:15.157oai:repositorio.ucs.br:11338/9716Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2023-05-17T17:48:15Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false
dc.title.pt_BR.fl_str_mv Visualização de dados em processos de Machine Learning
title Visualização de dados em processos de Machine Learning
spellingShingle Visualização de dados em processos de Machine Learning
Scalco, Felipe Fagundes
Computação
Inteligência artificial
Aprendizado do computador
Visualização
title_short Visualização de dados em processos de Machine Learning
title_full Visualização de dados em processos de Machine Learning
title_fullStr Visualização de dados em processos de Machine Learning
title_full_unstemmed Visualização de dados em processos de Machine Learning
title_sort Visualização de dados em processos de Machine Learning
author Scalco, Felipe Fagundes
author_facet Scalco, Felipe Fagundes
author_role author
dc.contributor.other.none.fl_str_mv Lima, Maria de Fátima Webber do Prado
Boff, Elisa
dc.contributor.author.fl_str_mv Scalco, Felipe Fagundes
dc.contributor.advisor1.fl_str_mv Webber, Carine Geltrudes
contributor_str_mv Webber, Carine Geltrudes
dc.subject.por.fl_str_mv Computação
Inteligência artificial
Aprendizado do computador
Visualização
topic Computação
Inteligência artificial
Aprendizado do computador
Visualização
description Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]
publishDate 2021
dc.date.submitted.none.fl_str_mv 2021-07-07
dc.date.issued.fl_str_mv 2021-07-23
dc.date.accessioned.fl_str_mv 2022-03-21T19:41:52Z
dc.date.available.fl_str_mv 2022-03-21T19:41:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ucs.br/11338/9716
url https://repositorio.ucs.br/11338/9716
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UCS
instname:Universidade de Caxias do Sul (UCS)
instacron:UCS
instname_str Universidade de Caxias do Sul (UCS)
instacron_str UCS
institution UCS
reponame_str Repositório Institucional da UCS
collection Repositório Institucional da UCS
bitstream.url.fl_str_mv https://repositorio.ucs.br/xmlui/bitstream/11338/9716/1/TCC%20Felipe%20Fagundes%20Scalco.pdf
https://repositorio.ucs.br/xmlui/bitstream/11338/9716/2/TCC%20Felipe%20Fagundes%20Scalco.pdf.txt
https://repositorio.ucs.br/xmlui/bitstream/11338/9716/3/TCC%20Felipe%20Fagundes%20Scalco.pdf.jpg
bitstream.checksum.fl_str_mv 1913ee37db2c6056bcb79d584e583b9b
f066f674757a2f60289bed393f508bc4
c6b80a992d92623d415b954f7a2e3904
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)
repository.mail.fl_str_mv
_version_ 1798308868166516736