Aplicação de máquinas de suporte vetorial na classificação textual

Bellini, Rafael

Aplicação de máquinas de suporte vetorial na classificação textual

Detalhes bibliográficos
Autor(a) principal:	Bellini, Rafael
Data de Publicação:	2020
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UCS
Texto Completo:	https://repositorio.ucs.br/11338/9693
Resumo:	A área de classificação de dados textuais envolve a coleta, o processamento, a análise e a construção de modelos para classificar textos. Ela se vale de algoritmos de machine learning. Dentre eles, destaca-se o algoritmo de Máquinas de Suporte Vetorial (SVM, do inglês, Support Vector Machines), amplamente utilizado com conjuntos de dados textuais. O objetivo deste trabalho é aplicar o SVM na construção de um modelo de classificação textual, usando como exemplo textos da área da saúde. As amostras textuais utilizadas neste trabalho foram coletadas por uma equipe de médicos especialistas da Universidade de Caxias do Sul e encontram-se em linguagem natural, na língua portuguesa brasileira, tendo sido previamente rotuladas em termos de suas características, tais como: descrição do tratamento, benefícios do tratamento, consequências do tratamento, influência na qualidade de vida do paciente e riscos do tratamento. Os textos de cada uma dessas categorias foram previamente classificados como positivos, negativos e regulares, configurando um problema do tipo multiclasse. A fase de pré-processamento dos textos foi realizada utilizando a biblioteca chamada Natural Language Toolkit (NLTK), já para os testes do algoritmo SVM utilizou-se a biblioteca chamada Scikit-learn e para o balanceamento das classes foi utilizado o algoritmo Synthetic Minority Over-sampling Technique (SMOTE), da biblioteca imblearn. Também foi utilizada a ferramenta Anaconda para Windows, que possibilitou executar tanto a linguagem Python quanto aplicativo, como o Jupyter Notebook. Os resultados obtidos através dos testes revelaram respostas satisfatórias para demonstrar a possibilidade de classificação supervisionada para os dados textuais das diversas categorias mencionadas, tendo apresentado resultados superiores a 90.0% de acurácia. Um dos desafios encontrados foi o desbalanceamento das classes, que necessitou de estudo e uso de métodos apropriados a fim de que se pudesse obter resultados satisfatórios. [resumo fornecido pelo autor]

Metadados do item

id	UCS_6b6529e86b6a2e7a3a8d11d51816ee39
oai_identifier_str	oai:repositorio.ucs.br:11338/9693
network_acronym_str	UCS
network_name_str	Repositório Institucional da UCS
repository_id_str
spelling	Bellini, RafaelBoff, ElisaLima, Maria de Fátima Webber do PradoWebber, Carine Geltrudes2022-03-18T14:12:16Z2022-03-18T14:12:16Z2020-12-192020-12-01https://repositorio.ucs.br/11338/9693A área de classificação de dados textuais envolve a coleta, o processamento, a análise e a construção de modelos para classificar textos. Ela se vale de algoritmos de machine learning. Dentre eles, destaca-se o algoritmo de Máquinas de Suporte Vetorial (SVM, do inglês, Support Vector Machines), amplamente utilizado com conjuntos de dados textuais. O objetivo deste trabalho é aplicar o SVM na construção de um modelo de classificação textual, usando como exemplo textos da área da saúde. As amostras textuais utilizadas neste trabalho foram coletadas por uma equipe de médicos especialistas da Universidade de Caxias do Sul e encontram-se em linguagem natural, na língua portuguesa brasileira, tendo sido previamente rotuladas em termos de suas características, tais como: descrição do tratamento, benefícios do tratamento, consequências do tratamento, influência na qualidade de vida do paciente e riscos do tratamento. Os textos de cada uma dessas categorias foram previamente classificados como positivos, negativos e regulares, configurando um problema do tipo multiclasse. A fase de pré-processamento dos textos foi realizada utilizando a biblioteca chamada Natural Language Toolkit (NLTK), já para os testes do algoritmo SVM utilizou-se a biblioteca chamada Scikit-learn e para o balanceamento das classes foi utilizado o algoritmo Synthetic Minority Over-sampling Technique (SMOTE), da biblioteca imblearn. Também foi utilizada a ferramenta Anaconda para Windows, que possibilitou executar tanto a linguagem Python quanto aplicativo, como o Jupyter Notebook. Os resultados obtidos através dos testes revelaram respostas satisfatórias para demonstrar a possibilidade de classificação supervisionada para os dados textuais das diversas categorias mencionadas, tendo apresentado resultados superiores a 90.0% de acurácia. Um dos desafios encontrados foi o desbalanceamento das classes, que necessitou de estudo e uso de métodos apropriados a fim de que se pudesse obter resultados satisfatórios. [resumo fornecido pelo autor]ComputaçãoMáquinas de suporte vetorialMineração de dados (Computação)Sistemas de reconhecimento de padrõesAplicação de máquinas de suporte vetorial na classificação textualinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UCSinstname:Universidade de Caxias do Sul (UCS)instacron:UCSinfo:eu-repo/semantics/openAccessUniversidade de Caxias do SulBacharelado em Ciência da ComputaçãoCampus Universitário de Caxias do Sul2020-12-18ORIGINALTCC Rafael Bellini.pdfTCC Rafael Bellini.pdfapplication/pdf1455087https://repositorio.ucs.br/xmlui/bitstream/11338/9693/1/TCC%20Rafael%20Bellini.pdf2bc10b091acf114d766c3771f30251c2MD51TEXTTCC Rafael Bellini.pdf.txtTCC Rafael Bellini.pdf.txtExtracted texttext/plain94898https://repositorio.ucs.br/xmlui/bitstream/11338/9693/2/TCC%20Rafael%20Bellini.pdf.txt5ae79bd5a7deed9ccde6c9eefc03807aMD52THUMBNAILTCC Rafael Bellini.pdf.jpgTCC Rafael Bellini.pdf.jpgGenerated Thumbnailimage/jpeg1238https://repositorio.ucs.br/xmlui/bitstream/11338/9693/3/TCC%20Rafael%20Bellini.pdf.jpg2aba8e9556111ed391d5fe0a8de7658fMD5311338/96932023-05-17 17:47:28.181oai:repositorio.ucs.br:11338/9693Repositório de Publicaçõeshttp://repositorio.ucs.br/oai/requestopendoar:2024-05-06T09:58:55.678269Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)false
dc.title.pt_BR.fl_str_mv	Aplicação de máquinas de suporte vetorial na classificação textual
title	Aplicação de máquinas de suporte vetorial na classificação textual
spellingShingle	Aplicação de máquinas de suporte vetorial na classificação textual Bellini, Rafael Computação Máquinas de suporte vetorial Mineração de dados (Computação) Sistemas de reconhecimento de padrões
title_short	Aplicação de máquinas de suporte vetorial na classificação textual
title_full	Aplicação de máquinas de suporte vetorial na classificação textual
title_fullStr	Aplicação de máquinas de suporte vetorial na classificação textual
title_full_unstemmed	Aplicação de máquinas de suporte vetorial na classificação textual
title_sort	Aplicação de máquinas de suporte vetorial na classificação textual
author	Bellini, Rafael
author_facet	Bellini, Rafael
author_role	author
dc.contributor.other.none.fl_str_mv	Boff, Elisa Lima, Maria de Fátima Webber do Prado
dc.contributor.author.fl_str_mv	Bellini, Rafael
dc.contributor.advisor1.fl_str_mv	Webber, Carine Geltrudes
contributor_str_mv	Webber, Carine Geltrudes
dc.subject.por.fl_str_mv	Computação Máquinas de suporte vetorial Mineração de dados (Computação) Sistemas de reconhecimento de padrões
topic	Computação Máquinas de suporte vetorial Mineração de dados (Computação) Sistemas de reconhecimento de padrões
description	A área de classificação de dados textuais envolve a coleta, o processamento, a análise e a construção de modelos para classificar textos. Ela se vale de algoritmos de machine learning. Dentre eles, destaca-se o algoritmo de Máquinas de Suporte Vetorial (SVM, do inglês, Support Vector Machines), amplamente utilizado com conjuntos de dados textuais. O objetivo deste trabalho é aplicar o SVM na construção de um modelo de classificação textual, usando como exemplo textos da área da saúde. As amostras textuais utilizadas neste trabalho foram coletadas por uma equipe de médicos especialistas da Universidade de Caxias do Sul e encontram-se em linguagem natural, na língua portuguesa brasileira, tendo sido previamente rotuladas em termos de suas características, tais como: descrição do tratamento, benefícios do tratamento, consequências do tratamento, influência na qualidade de vida do paciente e riscos do tratamento. Os textos de cada uma dessas categorias foram previamente classificados como positivos, negativos e regulares, configurando um problema do tipo multiclasse. A fase de pré-processamento dos textos foi realizada utilizando a biblioteca chamada Natural Language Toolkit (NLTK), já para os testes do algoritmo SVM utilizou-se a biblioteca chamada Scikit-learn e para o balanceamento das classes foi utilizado o algoritmo Synthetic Minority Over-sampling Technique (SMOTE), da biblioteca imblearn. Também foi utilizada a ferramenta Anaconda para Windows, que possibilitou executar tanto a linguagem Python quanto aplicativo, como o Jupyter Notebook. Os resultados obtidos através dos testes revelaram respostas satisfatórias para demonstrar a possibilidade de classificação supervisionada para os dados textuais das diversas categorias mencionadas, tendo apresentado resultados superiores a 90.0% de acurácia. Um dos desafios encontrados foi o desbalanceamento das classes, que necessitou de estudo e uso de métodos apropriados a fim de que se pudesse obter resultados satisfatórios. [resumo fornecido pelo autor]
publishDate	2020
dc.date.submitted.none.fl_str_mv	2020-12-01
dc.date.issued.fl_str_mv	2020-12-19
dc.date.accessioned.fl_str_mv	2022-03-18T14:12:16Z
dc.date.available.fl_str_mv	2022-03-18T14:12:16Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ucs.br/11338/9693
url	https://repositorio.ucs.br/11338/9693
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UCS instname:Universidade de Caxias do Sul (UCS) instacron:UCS
instname_str	Universidade de Caxias do Sul (UCS)
instacron_str	UCS
institution	UCS
reponame_str	Repositório Institucional da UCS
collection	Repositório Institucional da UCS
bitstream.url.fl_str_mv	https://repositorio.ucs.br/xmlui/bitstream/11338/9693/1/TCC%20Rafael%20Bellini.pdf https://repositorio.ucs.br/xmlui/bitstream/11338/9693/2/TCC%20Rafael%20Bellini.pdf.txt https://repositorio.ucs.br/xmlui/bitstream/11338/9693/3/TCC%20Rafael%20Bellini.pdf.jpg
bitstream.checksum.fl_str_mv	2bc10b091acf114d766c3771f30251c2 5ae79bd5a7deed9ccde6c9eefc03807a 2aba8e9556111ed391d5fe0a8de7658f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UCS - Universidade de Caxias do Sul (UCS)
repository.mail.fl_str_mv
_version_	1822887725670334464

Aplicação de máquinas de suporte vetorial na classificação textual

Registros relacionados