SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing

Detalhes bibliográficos
Autor(a) principal: Kieckbusch, Diego Santos
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio2.unb.br/jspui/handle/10482/46750
Resumo: Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
id UNB_cb906b3f33e0278e2a1b07bbb800c870
oai_identifier_str oai:repositorio2.unb.br:10482/46750
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Kieckbusch, Diego Santosdiegokieck@gmail.comWeigang, Li2023-10-25T21:53:30Z2023-10-25T21:53:30Z2023-10-252022-12-08KIECKBUSCH, Diego Santos. SCAN-NF: a machine learning system for invoice product trasaction classification through short-text processing. 2022. 76 f., il. Dissertação (Mestrado em Engenharia de Sistemas Eletrônicos e Automação) — Universidade de Brasília, Brasília, 2022.http://repositorio2.unb.br/jspui/handle/10482/46750Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.Nota Fiscal Eletrônica (NF-e) é um documento que reporta as transações de bens e serviços de forma eletrônica, tanto na transferência quanto no armazenamento. A utilização de notas fiscais eletrônicas é uma tendencia emergente e apresenta uma valiosa fonte de informação para diversas áreas. No entanto, o processamento dessas notas é uma tarefa desafiadora. A informação reportada está geralmente incompleta ou apresenta erros. Antes que qualquer processamento significativo possa ser feito, é necessária identificar o produto representado em cada documento. A literatura disponível indica que são necessárias arquiteturas especializadas para lidar com este tipo de informação. Este trabalho propõe SCAN-NF, uma arquitetura para a classificação das transações de produtos contidas em notas fiscais eletronicas. A arquitetura modela o problema de processamento de notas ficais como um problema de processamento de textos curtos com o objetivo de identificar o produto de cada transação. A solução tem o intuito de auxiliar as tarefas de auditoria manual feita por auditores fiscais sobre grandes massas de dados não rotulados ou mal rotulados presente no contexto de notas fiscais. Para validar a arquitetura proposta, este trabalho apresenta tanto um framework contextual para o processamento de notas fiscais quanto um caso de estudo utilizando dados reais de notas fiscais. Modelos tradicionais baseados em frequência de termos foram comparados a modelos de classificação de sentenças baseado em redes convulsionais artificiais. Experimentos demonstram que embora o texto presente em notas fiscais seja breve e apresente erros e falhas de escrita, modelos simples baseados em frequência de termos apresentam bons resultados para a etiquetagem de código de produtos, atingindo acurácia de até 98% entre as classes de produtos estudadas. Mostramos ainda, que é possível a utilização de transferencia de conhecimento entre os dados de notas fiscais destinadas ao consumidor e notas fiscais de transações entre empresas.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).An electronic invoice (E-invoice) is a document that records the transactions of goods and services electronically, both in storage and exchanges. E-invoice is an emerging practice and presents a valuable source of information for many areas. Processing these invoices is often a challenging task. Information reported is often incomplete or presents mistakes. Before any meaningful processing of these invoices, it is necessary to identify the product represented in each document. The available literature indicates that specialized architectures are necessary to deal with this type of information. This work proposes SCAN-NF, an architecture for invoice product transaction classification. The architecture models the invoice classification problem as a short-text classification problem, in which the goal is to identify the type of product in each transaction based on its short-text description. This solution is intended to aid tax auditors in the analysis of large unlabeled or poorly labeled invoice data. To validate the proposed architecture, this work provides both a contextual framework for invoice processing and a study case utilizing real-world invoice data. We compare traditional term frequency models to sentence classification models based on convolutional neural networks. Experiments demonstrate that even though invoice text descriptions are brief and present many mistakes and typos, simple term frequency models can achieve high baseline results on product code assignment, reaching accuracy scores up to 98% in studied product classes. We have also shown that it is possible to utilize transfer learning between retail invoice data and business to business invoice data.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaengSCAN-NF : a machine learning system for invoice product trasaction classification through short-text processingSCAN-NF : um sistema de aprendizado de máquina para classificação de notas fiscais de transações de produtos atráves do processamento de textos curtosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisAprendizado profundoRedes convolucionaisClassificação de textos curtosinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2022_DiegoSantosKieckbusch.pdf2022_DiegoSantosKieckbusch.pdfapplication/pdf1791835http://repositorio2.unb.br/jspui/bitstream/10482/46750/1/2022_DiegoSantosKieckbusch.pdf4d7478fd8c6cb9e26c79a5011b677f40MD51open accessLICENSElicense.txtlicense.txttext/plain102http://repositorio2.unb.br/jspui/bitstream/10482/46750/2/license.txtaed4704d04bb260d4decd80db311aaa5MD52open access10482/467502023-10-25 18:53:30.232open accessoai:repositorio2.unb.br:10482/46750U3VibWlzc8OjbyBlZmV0aXZhZGEgZGUgYWNvcmRvIGNvbSBsaWNlbsOnYSBjb25jZWRpZGEgcGVsbyBhdXRvciBlL291IGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcy4KBiblioteca Digital de Teses e DissertaçõesPUBhttps://repositorio.unb.br/oai/requestopendoar:2023-10-25T21:53:30Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
dc.title.alternative.pt_BR.fl_str_mv SCAN-NF : um sistema de aprendizado de máquina para classificação de notas fiscais de transações de produtos atráves do processamento de textos curtos
title SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
spellingShingle SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
Kieckbusch, Diego Santos
Aprendizado profundo
Redes convolucionais
Classificação de textos curtos
title_short SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
title_full SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
title_fullStr SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
title_full_unstemmed SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
title_sort SCAN-NF : a machine learning system for invoice product trasaction classification through short-text processing
author Kieckbusch, Diego Santos
author_facet Kieckbusch, Diego Santos
author_role author
dc.contributor.email.pt_BR.fl_str_mv diegokieck@gmail.com
dc.contributor.author.fl_str_mv Kieckbusch, Diego Santos
dc.contributor.advisor1.fl_str_mv Weigang, Li
contributor_str_mv Weigang, Li
dc.subject.keyword.pt_BR.fl_str_mv Aprendizado profundo
Redes convolucionais
Classificação de textos curtos
topic Aprendizado profundo
Redes convolucionais
Classificação de textos curtos
description Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2022.
publishDate 2022
dc.date.submitted.none.fl_str_mv 2022-12-08
dc.date.accessioned.fl_str_mv 2023-10-25T21:53:30Z
dc.date.available.fl_str_mv 2023-10-25T21:53:30Z
dc.date.issued.fl_str_mv 2023-10-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv KIECKBUSCH, Diego Santos. SCAN-NF: a machine learning system for invoice product trasaction classification through short-text processing. 2022. 76 f., il. Dissertação (Mestrado em Engenharia de Sistemas Eletrônicos e Automação) — Universidade de Brasília, Brasília, 2022.
dc.identifier.uri.fl_str_mv http://repositorio2.unb.br/jspui/handle/10482/46750
identifier_str_mv KIECKBUSCH, Diego Santos. SCAN-NF: a machine learning system for invoice product trasaction classification through short-text processing. 2022. 76 f., il. Dissertação (Mestrado em Engenharia de Sistemas Eletrônicos e Automação) — Universidade de Brasília, Brasília, 2022.
url http://repositorio2.unb.br/jspui/handle/10482/46750
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
bitstream.url.fl_str_mv http://repositorio2.unb.br/jspui/bitstream/10482/46750/1/2022_DiegoSantosKieckbusch.pdf
http://repositorio2.unb.br/jspui/bitstream/10482/46750/2/license.txt
bitstream.checksum.fl_str_mv 4d7478fd8c6cb9e26c79a5011b677f40
aed4704d04bb260d4decd80db311aaa5
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv
_version_ 1797405373851762688