Visualização de dados em processos de Machine Learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UCS |
Texto Completo: | https://repositorio.ucs.br/11338/9716 |
Resumo: | Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor] |
id |
UCS_9ad74595a1f8a12d32069efae68d9893 |
---|---|
oai_identifier_str |
oai:repositorio.ucs.br:11338/9716 |
network_acronym_str |
UCS |
network_name_str |
Repositório Institucional da UCS |
repository_id_str |
|
spelling |
Scalco, Felipe FagundesLima, Maria de Fátima Webber do PradoBoff, ElisaWebber, Carine Geltrudes2022-03-21T19:41:52Z2022-03-21T19:41:52Z2021-07-232021-07-07https://repositorio.ucs.br/11338/9716Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor]With the recent emergence of Big Data the amount of data being generated on a daily basis has never been greater. In order to extract knowledge from this data Machine Learning plays a key role, due to its ability to learn from historical data. Machine Learning techniques comprise data- driven methods that combine fundamental concepts from computer science with others fields like statistics, probability, optimization and aim to implement algorithms capable of learning, with little or no need for human assistance or intervention. Given the complexity of data sets, visual components are added to the Machine Learning process. The visual components aim to visually represent the information. Helping in the interpretation of data, taking advantage of the visual system of human beings to recognize patterns. Besides offering different ways to show the results in a more friendly way, helping in the decision making process. To demonstrate the relevance of data visualization during the Machine Learning process, this work develops and evaluates a Machine Learning process supported by data visualization tools. The case study method was used, since it is considered that each data set must be treated in a unique way, given its characteristics and distributions. The visualization tools selected were Yellowbrick, Seaborn, Ploty, and MatPlotLib. In this work, two distinct datasets were selected. The first data set, includes public data that contains the number of cases of those contaminated, recovered and killed by the new coronavirus in all continents. Through this set, numerical and categorical data visualization resources were explored, with maps and mixed graphics. The second dataset, widely used in studies in the area, was the Iris dataset. This dataset is commonly used to evaluate classification algorithms because it has a well-defined structure. Moreover, it constitutes an important element for studies in the area because its data present numerical and categorical characteristics (classes). This enables comparisons, analyses, and visualizations that, once understood in an illustrative scenario, can be replicated in other complex contexts. As observed results, we highlight the importance of visualization tools in the Machine Learning process, contributing to the understanding and validation of its steps. In particular, in data sets with Coronavirus, error analysis resources (mean, square, etc.) and statistical measures are the most used. On the other hand, on data sets with Iris, resources for analyzing the accuracy of the classifiers are more relevant. To conclude, it is considered that the results were satisfactory and that visualization tools, besides being necessary for decision making, help the human being in the data exploration process. [resumo fornecido pelo autor]ComputaçãoInteligência artificialAprendizado do computadorVisualizaçãoVisualização de dados em processos de Machine Learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do SulBacharelado em Ciência da ComputaçãoCampus Universitário de Caxias do Sul2021-07-22ORIGINALTCC Felipe Fagundes Scalco.pdfTCC Felipe Fagundes Scalco.pdfapplication/pdf4519675https://repositorio.ucs.br/xmlui/bitstream/11338/9716/1/TCC%20Felipe%20Fagundes%20Scalco.pdf1913ee37db2c6056bcb79d584e583b9bMD51TEXTTCC Felipe Fagundes Scalco.pdf.txtTCC Felipe Fagundes Scalco.pdf.txtExtracted texttext/plain161453https://repositorio.ucs.br/xmlui/bitstream/11338/9716/2/TCC%20Felipe%20Fagundes%20Scalco.pdf.txtf066f674757a2f60289bed393f508bc4MD52THUMBNAILTCC Felipe Fagundes Scalco.pdf.jpgTCC Felipe Fagundes Scalco.pdf.jpgGenerated Thumbnailimage/jpeg1240https://repositorio.ucs.br/xmlui/bitstream/11338/9716/3/TCC%20Felipe%20Fagundes%20Scalco.pdf.jpgc6b80a992d92623d415b954f7a2e3904MD5311338/97162023-05-17 17:48:15.157oai:repositorio.ucs.br:11338/9716Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2023-05-17T17:48:15Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false |
dc.title.pt_BR.fl_str_mv |
Visualização de dados em processos de Machine Learning |
title |
Visualização de dados em processos de Machine Learning |
spellingShingle |
Visualização de dados em processos de Machine Learning Scalco, Felipe Fagundes Computação Inteligência artificial Aprendizado do computador Visualização |
title_short |
Visualização de dados em processos de Machine Learning |
title_full |
Visualização de dados em processos de Machine Learning |
title_fullStr |
Visualização de dados em processos de Machine Learning |
title_full_unstemmed |
Visualização de dados em processos de Machine Learning |
title_sort |
Visualização de dados em processos de Machine Learning |
author |
Scalco, Felipe Fagundes |
author_facet |
Scalco, Felipe Fagundes |
author_role |
author |
dc.contributor.other.none.fl_str_mv |
Lima, Maria de Fátima Webber do Prado Boff, Elisa |
dc.contributor.author.fl_str_mv |
Scalco, Felipe Fagundes |
dc.contributor.advisor1.fl_str_mv |
Webber, Carine Geltrudes |
contributor_str_mv |
Webber, Carine Geltrudes |
dc.subject.por.fl_str_mv |
Computação Inteligência artificial Aprendizado do computador Visualização |
topic |
Computação Inteligência artificial Aprendizado do computador Visualização |
description |
Com o recente surgimento do Big Data a produção de dados sendo gerados diariamente nunca foi tão grande. E para que se possa extrair conhecimento desses dados o Machine Learning interpreta um papel fundamental, devido a sua capacidade de aprender com dados históricos. As técnicas de Machine Learning compreendem métodos orientados a dados que combinam conceitos fundamentais da ciência da computação com outros das áreas de estatística, probabilidade e otimização e tem como objetivo implementar algoritmos capazes de aprender, com pouca ou nenhuma necessidade de assistência ou intervenção humana. Tendo em vista a complexidade dos conjuntos de dados soma-se ao processo de Machine Learning componentes visuais. Os componentes visuais tem como objetivo representar visualmente as informações. Auxiliando desta maneira a interpretação dos dados, aproveitando o sistema visual dos seres humanos para reconhecer padrões. Além de oferecer diferentes maneiras de mostrar os resultados de uma forma mais amigável, ajudando na tomada de decisão. Para demonstrar a relevância da visualização de dados durante o processo de Machine Learning este trabalho desenvolve e avalia um processo de Machine Learning apoiado em ferramentas de visualização de dados. Utilizou-se como método o estudo de caso, por considerar-se que cada conjunto de dados deve ser tratado de maneira única, dadas as suas características e distribuições. As ferramentas de visualizações selecionadas foram as seguintes: Yellowbrick, Seaborn, Ploty, MatPlotLib. Neste trabalho, selecionou-se dois conjuntos de dados distintos. O primeiro conjunto de dados, contempla dados públicos que contém o número de casos de ocorrências de contaminados, recuperados e mortos pelo novo coronavírus em todos os continentes. Por meio deste conjunto explorou-se recursos de visualização de dados numéricos e categóricos, com mapas e gráficos mistos. Já o segundo conjunto de dados, amplamente utilizado em estudos na área, foi o conjunto de dados Iris. Este conjunto de dados é normalmente usado para avaliar algoritmos de classificação pois apresenta estrutura bem definida. Além disso, ele constitui um elemento importante para os estudos na área, pois seus dados apresentam características numéricas e categóricas (classes). Isso possibilita comparações, análises e visualizações que, uma vez compreendidas em cenário ilustrativo, podem ser replicadas em outros contextos complexos. Como resultados observados, destaca-se a importância das ferramentas de visualização no processo de Machine Learning, contribuindo para o entendimento e validação das suas etapas. Em especial, em conjuntos de dados com o Coronavirus recursos de análise do erro (médio, quadrático, etc) além de medidas estatísticas são as mais usadas. Já em conjuntos de dados com o Iris recursos de análise do precisão dos classificadores são mais relevantes. Para concluir, considera-se que os resultados foram satisfatórios e que as ferramentas de visualização, além de necessárias na tomada da decisão, auxiliam o ser humano no processo de exploração dos dados. [resumo fornecido pelo autor] |
publishDate |
2021 |
dc.date.submitted.none.fl_str_mv |
2021-07-07 |
dc.date.issued.fl_str_mv |
2021-07-23 |
dc.date.accessioned.fl_str_mv |
2022-03-21T19:41:52Z |
dc.date.available.fl_str_mv |
2022-03-21T19:41:52Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ucs.br/11338/9716 |
url |
https://repositorio.ucs.br/11338/9716 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UCS instname:Universidade de Caxias do Sul (UCS) instacron:UCS |
instname_str |
Universidade de Caxias do Sul (UCS) |
instacron_str |
UCS |
institution |
UCS |
reponame_str |
Repositório Institucional da UCS |
collection |
Repositório Institucional da UCS |
bitstream.url.fl_str_mv |
https://repositorio.ucs.br/xmlui/bitstream/11338/9716/1/TCC%20Felipe%20Fagundes%20Scalco.pdf https://repositorio.ucs.br/xmlui/bitstream/11338/9716/2/TCC%20Felipe%20Fagundes%20Scalco.pdf.txt https://repositorio.ucs.br/xmlui/bitstream/11338/9716/3/TCC%20Felipe%20Fagundes%20Scalco.pdf.jpg |
bitstream.checksum.fl_str_mv |
1913ee37db2c6056bcb79d584e583b9b f066f674757a2f60289bed393f508bc4 c6b80a992d92623d415b954f7a2e3904 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS) |
repository.mail.fl_str_mv |
|
_version_ |
1798308868166516736 |