Imagem Modelos de aprendizado de máquina para classificação fiscal a partir de descrições textuais

Inovação

10 de dezembro de 2025

Modelos de aprendizado de máquina para classificação fiscal a partir de descrições textuais

Autor: Luis Felipe Dalle Molle — Orientador: Vinicius Rocha Bíscaro

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo desenvolveu e avaliou modelos de aprendizado de máquina para a classificação automática de códigos da Nomenclatura Comum do Mercosul (NCM) a partir de descrições de produtos de informática. A pesquisa comparou a eficácia dos algoritmos Naive Bayes, Random Forest e Support Vector Machine (SVM) em um conjunto de dados real de uma empresa do setor. O objetivo era criar uma solução computacional para mitigar os riscos da classificação fiscal manual, que apresentava uma taxa de erro de aproximadamente 10%, e otimizar a eficiência operacional. A investigação buscou validar a aplicabilidade técnica das ferramentas e quantificar o ganho de performance em relação ao processo humano, fornecendo uma base empírica para a automação de tarefas tributárias.

A classificação fiscal de mercadorias é fundamental para a conformidade tributária e a competitividade empresarial. A correta atribuição do código NCM determina as alíquotas de impostos como o Imposto sobre Produtos Industrializados (IPI), PIS/Pasep e COFINS. Erros nesse processo podem resultar em multas, perda de benefícios fiscais e retrabalho administrativo. Além do impacto financeiro, a imprecisão gera gargalos operacionais, como a retenção de mercadorias no desembaraço aduaneiro, causando atrasos na cadeia de suprimentos. A complexidade tributária e as constantes atualizações normativas tornam o processo manual suscetível a falhas, justificando a busca por soluções automatizadas que ofereçam maior precisão e agilidade.

O sistema de classificação NCM é um código de oito dígitos baseado no Sistema Harmonizado de Designação e Codificação de Mercadorias (HS), um padrão internacional de seis dígitos adotado por mais de 200 países (Worlds Customs Organization, 2025). O Mercosul adicionou dois dígitos para maior detalhamento, resultando em mais de dez mil classificações possíveis (Ministério da Fazenda, 2019). Essa granularidade aumenta a complexidade da tarefa, exigindo profundo conhecimento técnico do produto e da legislação. A descrição textual da mercadoria complementa o código, sendo essencial para a transparência e conformidade do processo.

Para a indústria de informática, a classificação fiscal é estratégica. O governo brasileiro, por meio de órgãos como o Ministério da Ciência, Tecnologia e Inovação (MCTI), concede benefícios fiscais vinculados a uma lista específica de códigos NCM. Um erro na classificação pode desqualificar a empresa para o benefício, impactando diretamente sua estrutura de custos e competitividade. Nesse contexto, a precisão na atribuição da NCM é um fator determinante para a viabilidade econômica de operações no setor de tecnologia.

A literatura acadêmica demonstra o sucesso do aprendizado de máquina em tarefas de classificação de texto. Algoritmos como Support Vector Machine, Naive Bayes e Random Forest, combinados com a representação textual Term Frequency-Inverse Document Frequency (TF-IDF), apresentam desempenho robusto na categorização de produtos (Altaheri & Shaalan, 2020). Pesquisas recentes evoluíram para modelos como grandes modelos de linguagem (LLMs) para classificação fiscal (Marra de Artiñano et al., 2023) e abordagens multimodais que incluem imagens (Amel et al., 2024). No entanto, existe uma lacuna na literatura sobre a aplicação dessas técnicas ao sistema NCM brasileiro, campo que este estudo visa preencher ao analisar a eficácia de modelos supervisionados clássicos.

A metodologia seguiu um fluxo de trabalho de Processamento de Linguagem Natural (NLP). O ponto de partida foi um conjunto de dados de uma empresa de informática de São Paulo, com registros de 2018 a 2023. A base original continha 4.601 observações, das quais foram selecionadas a descrição longa, a descrição curta, a descrição de engenharia (todas em inglês) e o código NCM. O processo foi estruturado em quatro etapas: preparação dos dados, pré-processamento textual, vetorização e modelagem.

A preparação dos dados incluiu a remoção de linhas duplicadas, dados faltantes e registros com NCMs inválidos. Para lidar com o desbalanceamento de classes, foram excluídas todas as classes de NCM com menos de quatro ocorrências, mitigando o risco de viés por classes raras (Zhang & Wallace, 2017). Após a filtragem, os três campos de descrição textual foram concatenados em uma única variável, denominada All_Desc, para consolidar a informação descritiva de cada produto.

O pré-processamento textual foi aplicado à variável All_Desc para normalizar o texto e focar nos termos mais informativos. As etapas incluíram a conversão para letras minúsculas, remoção de caracteres especiais e pontuações, remoção de stopwords (palavras comuns sem valor semântico para a classificação) e aplicação de stemming para reduzir palavras às suas raízes morfológicas. Essas transformações são fundamentais para criar um vocabulário limpo e eficiente, melhorando o desempenho dos algoritmos (Aggarwal & Zhai, 2012).

Para que os algoritmos processassem o texto, as descrições foram convertidas em vetores numéricos. Utilizou-se o modelo Bag-of-Words (BoW), que representa cada texto como um vetor de frequência de termos (McTear et al., 2016). Essa representação foi refinada com o esquema de ponderação TF-IDF, que atribui maior peso a palavras frequentes em um documento específico, mas raras no corpus geral, destacando termos discriminativos (Salton & Buckley, 1988).

Foram testadas duas configurações de vetorização: unigramas (palavras individuais) e bigramas (pares de palavras consecutivas). A modelagem foi realizada com os algoritmos Naive Bayes, Random Forest e SVM. O conjunto de dados foi dividido em 80% para treinamento e 20% para teste, com amostragem estratificada. A otimização de hiperparâmetros foi feita com GridSearchCV (Pedregosa et al., 2011), e a avaliação final baseou-se em métricas como acurácia, precisão, recall e F1-Score (Fávero et al., 2017).

A base de dados final continha 4.279 observações e 50 classes de NCM. A análise exploratória revelou uma distribuição de frequência desigual entre as classes. A NCM 8471.30.19, correspondente a “máquinas automáticas de processamento de dados portáteis”, foi uma das mais representativas, o que é consistente com o portfólio da empresa. A análise de frequência de palavras dentro dessa classe mostrou forte associação com termos como “notebook”, “intel” e “laptop”, indicando a presença de padrões textuais exploráveis pelos modelos.

A avaliação comparativa testou o impacto da representação textual (unigramas vs. bigramas) e do algoritmo (Naive Bayes, Random Forest e SVM). A hipótese era que os bigramas melhorariam a performance ao capturar termos técnicos compostos (Jurafsky & Martin, 2023). Os algoritmos foram escolhidos por suas abordagens distintas: Naive Bayes, um modelo probabilístico eficiente para dados esparsos (McCallum & Nigam, 1998); Random Forest, um método de ensemble que modela relações complexas (Breiman, 2001); e Support Vector Machine, um classificador robusto para tarefas de classificação de texto de alta dimensionalidade (Cortes & Vapnik, 1995).

Os resultados quantitativos confirmaram a superioridade do modelo Support Vector Machine combinado com a representação de texto em bigramas ponderados pelo TF-IDF. Este modelo alcançou uma acurácia global de 96% e um F1-Score ponderado de 95,8%. O modelo SVM com unigramas também teve bom desempenho, com 95,5% de acurácia. Em comparação, o Random Forest atingiu 94,5% de acurácia com bigramas, enquanto o Naive Bayes obteve 92,8% na mesma configuração.

O desempenho superior do SVM com bigramas pode ser explicado por dois fatores. Primeiro, a capacidade dos bigramas de capturar expressões técnicas como “hard drive” ou “power supply” forneceu ao modelo características mais ricas e contextuais. Segundo, a natureza do algoritmo SVM, que busca o hiperplano de separação ótimo com máxima margem, é adequada para dados de alta dimensionalidade e esparsos como as representações TF-IDF, permitindo boa generalização e evitando superajuste (Cortes & Vapnik, 1995).

Uma análise detalhada por classe foi realizada para garantir que o desempenho global não mascarasse falhas em categorias específicas. O modelo SVM manteve métricas de precisão, recall e F1-Score elevadas mesmo para classes com poucas amostras. Classes majoritárias, como a de notebooks, apresentaram F1-Score de 99%, mas muitas classes menos frequentes também superaram 90%. A matriz de confusão corroborou esses achados, mostrando que a maioria das previsões se concentrava na diagonal principal, com poucas confusões entre classes. Essa consistência multiclasse é fundamental para garantir a confiabilidade do modelo em todo o portfólio de produtos.

A principal implicação dos resultados é sua aplicação prática. O desempenho do modelo SVM, com uma taxa de erro de aproximadamente 4% (inferida da acurácia de 96%), representa uma melhoria drástica em relação à taxa de erro de 10% do processo manual. Essa redução de mais de 50% no risco de erros de classificação tem impacto direto na saúde financeira e operacional da empresa. A automação minimiza a probabilidade de autuações fiscais e a perda de benefícios, além de liberar a equipe fiscal de uma tarefa repetitiva. O tempo economizado pode ser realocado para atividades de maior valor agregado, como planejamento tributário estratégico. A consistência do modelo também elimina a variabilidade do julgamento humano, fortalecendo a governança de dados.

A robustez do modelo final demonstra que o aprendizado de máquina é uma ferramenta poderosa para enfrentar a complexidade tributária brasileira. A capacidade de transformar descrições textuais em classificações fiscais precisas e automatizadas oferece um diferencial competitivo, permitindo que a empresa opere com maior segurança jurídica e agilidade. A pesquisa fornece um caso de negócio convincente para a adoção de inovação tecnológica na área fiscal.

Este trabalho demonstrou a concepção e validação de um sistema de classificação fiscal automatizado. Partindo de um problema de negócio concreto — a alta taxa de erros na classificação manual de NCMs —, aplicou-se uma metodologia de ciência de dados para desenvolver uma solução eficaz. Os resultados confirmaram que algoritmos clássicos de aprendizado de máquina superam a performance humana em tarefas de classificação textual complexas. O modelo Support Vector Machine com vetorização TF-IDF em bigramas emergiu como a abordagem mais performática, com 96% de acurácia.

A contribuição deste estudo é prática, ao oferecer uma ferramenta para reduzir riscos fiscais e aumentar a eficiência, e acadêmica, ao preencher uma lacuna na aplicação de NLP ao sistema NCM, fornecendo um benchmark para pesquisas futuras. Como próximos passos, sugere-se a exploração de técnicas de balanceamento de classes, como SMOTE, e a experimentação com modelos baseados em embeddings contextuais, como o BERT. Um estudo futuro poderia quantificar o retorno sobre o investimento (ROI) da implementação da solução.

A pesquisa realizada demonstrou que a aplicação de modelos de aprendizado de máquina, especificamente o Support Vector Machine com vetorização TF-IDF em bigramas, é uma abordagem eficaz para a classificação fiscal automática de produtos de informática, superando significativamente a precisão do processo manual.

Referências
AGGARWAL, Charu C.; ZHAI, Chengxiang. Mining Text Data. Springer, 2012.
ALTÁHERI, H.; SHAALAN, K. Automatic Classification of Customs Commodity Codes Using Machine Learning. International Journal of Advanced Computer Science and Applications (IJACSA), v. 11, n. 7, p. 441-447, 2020.
AMEL, A. et al. HSCodeNet: Multi-Modal Prediction of Harmonized System Codes. arXiv preprint, 2024. Disponível em: <https://arxiv. org/abs/2406.04349>. Acesso em: 22 set. 2025.
BREIMAN, Leo. Random Forests. Machine Learning, v. 45, n. 1, p. 5-32, 2001. Disponível em: <https://www. stat. berkeley. edu/~breiman/randomforest2001. pdf>. Acesso em: 12 set. 2025.
CORTES, C.; VAPNIK, V. Support-vector networks. Machine Learning, v. 20, p. 273–297, 1995. Disponível em: <https://link. springer. com/article/10.1007/BF00994018>. Acesso em: 12 set. 2025.
FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. Y. Manual de Análise de Dados: Estatística e Modelagem Multivariada com Excel®, SPSS® e Stata®. 2. ed. Rio de Janeiro: Elsevier, 2017.
FAZCOMEX Tecnologia para Comércio Exterior LTDA. Consulta NCM. 2025. Disponível em: <https://www. fazcomex. com. br/ncm/>. Acesso em: 12 set. 2025.
JURAFSKY, D.; MARTIN, J. H. Speech and Language Processing. 3. ed. (draft). 2023. Disponível em: <https://web. stanford. edu/~jurafsky/slp3/>. Acesso em: 10 set. 2025.
MARRA DE ARTIÑANO, I. et al. Classifying Goods with Machine Learning and Large Language Models. Proceedings of the 7th International Conference on Natural Language Processing and Information Retrieval (NLPIR), Tokyo, Japan, 2023.
MCCALLUM, A.; NIGAM, K. A comparison of event models for Naive Bayes text classification. AAAI-98 Workshop on Learning for Text Categorization, 1998.
MCTEAR, M.; CALLEJAS, Z.; GRIOL, D. Conversational Interfaces: Talking to Smart Devices. Springer International Publishing, 2016.
MINISTÉRIO DA FAZENDA. NCM. 2019. Disponível em: <https://www. gov. br/receitafederal/pt-br/assuntos/aduana-e-comercio-exterior/classificacao-fiscal-de-mercadorias/ncm>. Acesso em: 20 mar. 2025.

PEDREGOSA, F. et al. Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, v. 12, p. 2825–2830, 2011. Disponível em: <https://jmlr. org/papers/v12/pedregosa11a. html>. Acesso em: 12 set. 2025.
SALTON, Gerard; BUCKLEY, Christopher. Term-weighting approaches in automatic text retrieval. Information Processing & Management, v. 24, n. 5, p. 513–523, 1988.
WORLDS CUSTOMS ORGANIZATION. Worlds Customs Organization – Official Web Page. Disponível em: <https://www. wcoomd. org/>. Acesso em: 20 mar. 2025.
ZHANG, Y.; WALLACE, B. A sensitivity analysis of (and practitioners’ guide to) convolutional neural networks for sentence classification. Cornell University, 2016.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science & Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade