Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas

Silva, Ana Gabriela Faria da

Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas

Detalhes bibliográficos
Autor(a) principal:	Silva, Ana Gabriela Faria da
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
Resumo:	O papel das estatísticas é produzir informações que busquem retratar a realidade. Para que isso seja possível, se faz necessário o estabelecimento de padrões. As estatísticas econômicas no Brasil, seguindo diretrizes internacionais, adotam a Classificação Nacional de Atividades Econômicas (CNAE) para caracterizar as atividades desenvolvidas pelas empresas. A CNAE possui uma estrutura hierárquica onde quanto maior o número de dígitos mais específica é a atividade descrita. Este trabalho objetiva avaliar o uso do aprendizado supervisionado, no âmbito da mineração de dados textuais, para a obtenção da CNAE que corresponde à atividade econômica principal das empresas. Para tanto, são utilizados textos como variáveis preditoras, obtidos via web scraping, de páginas da web e o oriundo da própria URL da companhia. Tanto a URL quanto a variável resposta, a CNAE, têm como origem as Pesquisas Estruturais por Empresa, do Instituto Brasileiro de Geografia e Estatística (IBGE). Por conta da estrutura hierárquica da classificação são testadas duas abordagens para o ajuste dos modelos. A primeira, denominada classificação plana, tem por objetivo obter diretamente a classe mais específica. Já a segunda, enquadrada na categoria de classificação hierárquica, consiste na construção de diversos classificadores locais independentes para cada nível da hierarquia de classes. Nos dois casos, dentre os algoritmos testados, a Regressão Logística apresentou o melhor desempenho, se mostrando apta para extrair padrões capazes de identificar a classificação. As duas abordagens forneceram resultados diferentes por classe, tendo o classificador plano exibido um comportamento mais adequado em categorias que tendiam a ser mais difíceis de caracterizar nos níveis superiores, ou seja, naqueles que representam atividades menos específicas. Apesar disso, nas duas abordagens o resultado ao se considerar todas as classes foi próximo.

Metadados do item

id	USP_729775e19121c3226198ac36e5e77d8f
oai_identifier_str	oai:teses.usp.br:tde-04072022-160436
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicasText mining for classifying main economic activity of companies: a proposal for application in business surveysAprendizado automáticoClassificação de atividades econômicasClassificação hierárquicaClassification of economic activitiesHierarchical classificationMachine learningMineração de dados textuaisText miningWeb scrapingWeb scrapingO papel das estatísticas é produzir informações que busquem retratar a realidade. Para que isso seja possível, se faz necessário o estabelecimento de padrões. As estatísticas econômicas no Brasil, seguindo diretrizes internacionais, adotam a Classificação Nacional de Atividades Econômicas (CNAE) para caracterizar as atividades desenvolvidas pelas empresas. A CNAE possui uma estrutura hierárquica onde quanto maior o número de dígitos mais específica é a atividade descrita. Este trabalho objetiva avaliar o uso do aprendizado supervisionado, no âmbito da mineração de dados textuais, para a obtenção da CNAE que corresponde à atividade econômica principal das empresas. Para tanto, são utilizados textos como variáveis preditoras, obtidos via web scraping, de páginas da web e o oriundo da própria URL da companhia. Tanto a URL quanto a variável resposta, a CNAE, têm como origem as Pesquisas Estruturais por Empresa, do Instituto Brasileiro de Geografia e Estatística (IBGE). Por conta da estrutura hierárquica da classificação são testadas duas abordagens para o ajuste dos modelos. A primeira, denominada classificação plana, tem por objetivo obter diretamente a classe mais específica. Já a segunda, enquadrada na categoria de classificação hierárquica, consiste na construção de diversos classificadores locais independentes para cada nível da hierarquia de classes. Nos dois casos, dentre os algoritmos testados, a Regressão Logística apresentou o melhor desempenho, se mostrando apta para extrair padrões capazes de identificar a classificação. As duas abordagens forneceram resultados diferentes por classe, tendo o classificador plano exibido um comportamento mais adequado em categorias que tendiam a ser mais difíceis de caracterizar nos níveis superiores, ou seja, naqueles que representam atividades menos específicas. Apesar disso, nas duas abordagens o resultado ao se considerar todas as classes foi próximo.The role of statistics is to produce information that aims to portray reality. To make this possible, it is necessary to establish standards. Economic statistics in Brazil, following international guidelines, adopts the National Classification of Economic Activities (CNAE). The CNAE has a hierarchical structure where the greater the number of digits more specific the activity described. The purpose of the present study is to evaluate the use of supervised learning, in the context of text mining, to achieve the CNAE which corresponds to the main economic activity of the companies. Therefore, it is used texts as predictors variables, obtained via web scraping, from business websites and URLs. Both URLs and the response variable, the CNAE, derive from the Annual Business Surveys, from the Brazilian Institute of Geography and Statistics (IBGE). Due to the hierarchical structure of the classification, two approaches are tested to fit the models. The first one, called flat classification, aims to directly obtain the most specific class. The second approach, which is framed in the category of hierarchical classification, consists of training several independent local classifiers for each level of the class hierarchy. In both cases, among the tested algorithms, the Logistic Regression classifier presented the best performance, being able to extract patterns fit to identify the classification. The two approaches provided different results by class, having the flat classifier exhibited a more adequate behavior in categories that tended to be more difficult to characterize in the higher levels, that is, in those that represent less specific activities. Despite this, the result was similar in both approaches when considering all classes.Biblioteca Digitais de Teses e Dissertações da USPLeonardi, Florencia GracielaSilva, Ana Gabriela Faria da2022-05-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-14T23:26:02Zoai:teses.usp.br:tde-04072022-160436Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212024-08-14T23:26:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas Text mining for classifying main economic activity of companies: a proposal for application in business surveys
title	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas
spellingShingle	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas Silva, Ana Gabriela Faria da Aprendizado automático Classificação de atividades econômicas Classificação hierárquica Classification of economic activities Hierarchical classification Machine learning Mineração de dados textuais Text mining Web scraping Web scraping
title_short	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas
title_full	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas
title_fullStr	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas
title_full_unstemmed	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas
title_sort	Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas
author	Silva, Ana Gabriela Faria da
author_facet	Silva, Ana Gabriela Faria da
author_role	author
dc.contributor.none.fl_str_mv	Leonardi, Florencia Graciela
dc.contributor.author.fl_str_mv	Silva, Ana Gabriela Faria da
dc.subject.por.fl_str_mv	Aprendizado automático Classificação de atividades econômicas Classificação hierárquica Classification of economic activities Hierarchical classification Machine learning Mineração de dados textuais Text mining Web scraping Web scraping
topic	Aprendizado automático Classificação de atividades econômicas Classificação hierárquica Classification of economic activities Hierarchical classification Machine learning Mineração de dados textuais Text mining Web scraping Web scraping
description	O papel das estatísticas é produzir informações que busquem retratar a realidade. Para que isso seja possível, se faz necessário o estabelecimento de padrões. As estatísticas econômicas no Brasil, seguindo diretrizes internacionais, adotam a Classificação Nacional de Atividades Econômicas (CNAE) para caracterizar as atividades desenvolvidas pelas empresas. A CNAE possui uma estrutura hierárquica onde quanto maior o número de dígitos mais específica é a atividade descrita. Este trabalho objetiva avaliar o uso do aprendizado supervisionado, no âmbito da mineração de dados textuais, para a obtenção da CNAE que corresponde à atividade econômica principal das empresas. Para tanto, são utilizados textos como variáveis preditoras, obtidos via web scraping, de páginas da web e o oriundo da própria URL da companhia. Tanto a URL quanto a variável resposta, a CNAE, têm como origem as Pesquisas Estruturais por Empresa, do Instituto Brasileiro de Geografia e Estatística (IBGE). Por conta da estrutura hierárquica da classificação são testadas duas abordagens para o ajuste dos modelos. A primeira, denominada classificação plana, tem por objetivo obter diretamente a classe mais específica. Já a segunda, enquadrada na categoria de classificação hierárquica, consiste na construção de diversos classificadores locais independentes para cada nível da hierarquia de classes. Nos dois casos, dentre os algoritmos testados, a Regressão Logística apresentou o melhor desempenho, se mostrando apta para extrair padrões capazes de identificar a classificação. As duas abordagens forneceram resultados diferentes por classe, tendo o classificador plano exibido um comportamento mais adequado em categorias que tendiam a ser mais difíceis de caracterizar nos níveis superiores, ou seja, naqueles que representam atividades menos específicas. Apesar disso, nas duas abordagens o resultado ao se considerar todas as classes foi próximo.
publishDate	2022
dc.date.none.fl_str_mv	2022-05-13
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
url	https://www.teses.usp.br/teses/disponiveis/45/45133/tde-04072022-160436/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1809090377197551616

Mineração de dados textuais para a classificação da atividade econômica principal de empresas: uma proposta de aplicação em pesquisas econômicas

Registros relacionados