Visualização de dados em processos de Machine Learning

Scalco, Felipe Fagundes

Visualização de dados em processos de Machine Learning

Detalhes bibliográficos
Autor(a) principal:	Scalco, Felipe Fagundes
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UCS
Texto Completo:	https://repositorio.ucs.br/11338/9716
Resumo:	Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]

Metadados do item

id	UCS_9ad74595a1f8a12d32069efae68d9893
oai_identifier_str	oai:repositorio.ucs.br:11338/9716
network_acronym_str	UCS
network_name_str	Repositório Institucional da UCS
repository_id_str
spelling	Scalco, Felipe FagundesLima, Maria de Fátima Webber do PradoBoff, ElisaWebber, Carine Geltrudes2022-03-21T19:41:52Z2022-03-21T19:41:52Z2021-07-232021-07-07https://repositorio.ucs.br/11338/9716Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]With the recent emergence of Big Data the amount of data being generated on a daily basis has never been greater. In order to extract knowledge from this data Machine Learning plays a key role, due to its ability to learn from historical data. Machine Learning techniques comprise data- driven methods that combine fundamental concepts from computer science with others fields like statistics, probability, optimization and aim to implement algorithms capable of learning, with little or no need for human assistance or intervention. Given the complexity of data sets, visual components are added to the Machine Learning process. The visual components aim to visually represent the information. Helping in the interpretation of data, taking advantage of the visual system of human beings to recognize patterns. Besides offering different ways to show the results in a more friendly way, helping in the decision making process. To demonstrate the relevance of data visualization during the Machine Learning process, this work develops and evaluates a Machine Learning process supported by data visualization tools. The case study method was used, since it is considered that each data set must be treated in a unique way, given its characteristics and distributions. The visualization tools selected were Yellowbrick, Seaborn, Ploty, and MatPlotLib. In this work, two distinct datasets were selected. The first data set, includes public data that contains the number of cases of those contaminated, recovered and killed by the new coronavirus in all continents. Through this set, numerical and categorical data visualization resources were explored, with maps and mixed graphics. The second dataset, widely used in studies in the area, was the Iris dataset. This dataset is commonly used to evaluate classification algorithms because it has a well-defined structure. Moreover, it constitutes an important element for studies in the area because its data present numerical and categorical characteristics (classes). This enables comparisons, analyses, and visualizations that, once understood in an illustrative scenario, can be replicated in other complex contexts. As observed results, we highlight the importance of visualization tools in the Machine Learning process, contributing to the understanding and validation of its steps. In particular, in data sets with Coronavirus, error analysis resources (mean, square, etc.) and statistical measures are the most used. On the other hand, on data sets with Iris, resources for analyzing the accuracy of the classifiers are more relevant. To conclude, it is considered that the results were satisfactory and that visualization tools, besides being necessary for decision making, help the human being in the data exploration process. [resumo fornecido pelo autor]ComputaçãoInteligência artificialAprendizado do computadorVisualizaçãoVisualização de dados em processos de Machine Learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do SulBacharelado em Ciência da ComputaçãoCampus Universitário de Caxias do Sul2021-07-22ORIGINALTCC Felipe Fagundes Scalco.pdfTCC Felipe Fagundes Scalco.pdfapplication/pdf4519675https://repositorio.ucs.br/xmlui/bitstream/11338/9716/1/TCC%20Felipe%20Fagundes%20Scalco.pdf1913ee37db2c6056bcb79d584e583b9bMD51TEXTTCC Felipe Fagundes Scalco.pdf.txtTCC Felipe Fagundes Scalco.pdf.txtExtracted texttext/plain161453https://repositorio.ucs.br/xmlui/bitstream/11338/9716/2/TCC%20Felipe%20Fagundes%20Scalco.pdf.txtf066f674757a2f60289bed393f508bc4MD52THUMBNAILTCC Felipe Fagundes Scalco.pdf.jpgTCC Felipe Fagundes Scalco.pdf.jpgGenerated Thumbnailimage/jpeg1240https://repositorio.ucs.br/xmlui/bitstream/11338/9716/3/TCC%20Felipe%20Fagundes%20Scalco.pdf.jpgc6b80a992d92623d415b954f7a2e3904MD5311338/97162023-05-17 17:48:15.157oai:repositorio.ucs.br:11338/9716Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2023-05-17T17:48:15Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false
dc.title.pt_BR.fl_str_mv	Visualização de dados em processos de Machine Learning
title	Visualização de dados em processos de Machine Learning
spellingShingle	Visualização de dados em processos de Machine Learning Scalco, Felipe Fagundes Computação Inteligência artificial Aprendizado do computador Visualização
title_short	Visualização de dados em processos de Machine Learning
title_full	Visualização de dados em processos de Machine Learning
title_fullStr	Visualização de dados em processos de Machine Learning
title_full_unstemmed	Visualização de dados em processos de Machine Learning
title_sort	Visualização de dados em processos de Machine Learning
author	Scalco, Felipe Fagundes
author_facet	Scalco, Felipe Fagundes
author_role	author
dc.contributor.other.none.fl_str_mv	Lima, Maria de Fátima Webber do Prado Boff, Elisa
dc.contributor.author.fl_str_mv	Scalco, Felipe Fagundes
dc.contributor.advisor1.fl_str_mv	Webber, Carine Geltrudes
contributor_str_mv	Webber, Carine Geltrudes
dc.subject.por.fl_str_mv	Computação Inteligência artificial Aprendizado do computador Visualização
topic	Computação Inteligência artificial Aprendizado do computador Visualização
description	Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]
publishDate	2021
dc.date.submitted.none.fl_str_mv	2021-07-07
dc.date.issued.fl_str_mv	2021-07-23
dc.date.accessioned.fl_str_mv	2022-03-21T19:41:52Z
dc.date.available.fl_str_mv	2022-03-21T19:41:52Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ucs.br/11338/9716
url	https://repositorio.ucs.br/11338/9716
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UCS instname:Universidade de Caxias do Sul (UCS) instacron:UCS
instname_str	Universidade de Caxias do Sul (UCS)
instacron_str	UCS
institution	UCS
reponame_str	Repositório Institucional da UCS
collection	Repositório Institucional da UCS
bitstream.url.fl_str_mv	https://repositorio.ucs.br/xmlui/bitstream/11338/9716/1/TCC%20Felipe%20Fagundes%20Scalco.pdf https://repositorio.ucs.br/xmlui/bitstream/11338/9716/2/TCC%20Felipe%20Fagundes%20Scalco.pdf.txt https://repositorio.ucs.br/xmlui/bitstream/11338/9716/3/TCC%20Felipe%20Fagundes%20Scalco.pdf.jpg
bitstream.checksum.fl_str_mv	1913ee37db2c6056bcb79d584e583b9b f066f674757a2f60289bed393f508bc4 c6b80a992d92623d415b954f7a2e3904
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)
repository.mail.fl_str_mv
_version_	1798308868166516736

Visualização de dados em processos de Machine Learning

Registros relacionados