15 de abril de 2026
Classificação de Intenções em Português via DistilBERT na Nuvem
Darwin Danilo Saire Pilco; Daniele Aparecida Cicillini Pimenta
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Atualmente, a sociedade vivencia uma era de transformações profundas que beneficia as comunidades de pesquisa e a indústria de tecnologia. Essa evolução é impulsionada pelo impacto de técnicas computacionais emergentes, como os modelos de Inteligência Artificial, que se desenvolvem paralelamente à crescente disponibilidade de grandes conjuntos de dados e de recursos computacionais acessíveis e eficientes por meio da computação em nuvem. Como resultado direto dessa conjuntura, observa-se um aumento significativo na aplicação de técnicas de aprendizado de máquina, as quais foram aprimoradas pela adoção de abordagens de aprendizado profundo (LeCun, Bengio, Hinton, 2015). Embora os princípios fundamentais dessas técnicas estejam bem estabelecidos na literatura científica, os avanços recentes despertaram um interesse renovado tanto na academia quanto no setor produtivo. Dessa forma, o aprendizado profundo e a computação em nuvem consolidaram-se como tecnologias de ponta em diversos domínios, incluindo a visão computacional e o processamento de linguagem natural (Bodor, Hnida, Najima, 2023).
O processamento de linguagem natural, especificamente, exige uma infraestrutura robusta para lidar com a complexidade das estruturas linguísticas. Os avanços tecnológicos em computação em nuvem foram amplamente adotados devido às suas reconhecidas vantagens de flexibilidade, elasticidade e economia (García et al., 2017). Essa tecnologia consolidou-se como um modelo comum para o desenvolvimento de soluções escaláveis. No entanto, apesar do interesse crescente, a adoção plena da computação em nuvem ainda enfrenta barreiras, pois as ofertas de infraestrutura como serviço são frequentemente percebidas como complexas e heterogêneas (Caballer et al., 2018). As soluções de infraestrutura variam em termos de características, implementações e interfaces, o que pode dificultar a utilização por usuários que buscam agilidade no desenvolvimento de modelos preditivos.
Para explorar o potencial completo da computação em nuvem, tornou-se necessário o desenvolvimento de ferramentas de alto nível, como a plataforma como serviço e o software como serviço. Essas modalidades foram criadas para garantir a flexibilidade necessária no fornecimento de soluções ajustáveis às demandas dos usuários, permitindo a exploração eficiente e transparente dos recursos de infraestrutura (Salomoni et al., 2018). No contexto da classificação de intenções, que consiste em identificar o propósito por trás de uma unidade de texto, a integração entre modelos de aprendizado profundo e plataformas de nuvem permite a criação de sistemas capazes de processar grandes volumes de interações humanas com alta precisão. A classificação de intenções é um pilar fundamental para o desenvolvimento de assistentes virtuais e sistemas de atendimento ao cliente, onde a compreensão correta do que o usuário deseja é crucial para o sucesso da interação.
A fundamentação teórica deste estudo baseia-se na premissa de que a combinação de modelos de linguagem pré-treinados com ambientes de nuvem otimizados pode superar as limitações de hardware local e acelerar o ciclo de vida de desenvolvimento de software. O uso de plataformas como o Azure Machine Learning oferece um ambiente completo para o desenvolvimento, treinamento, avaliação e implantação de modelos, fornecendo ferramentas pré-configuradas e rastreabilidade de experimentos (Joshi, 2020). A justificativa para a utilização de tais tecnologias reside na necessidade de criar soluções que não apenas alcancem alta acurácia, mas que também sejam sustentáveis do ponto de vista operacional. O objetivo central deste estudo concentra-se no desenvolvimento de um modelo preditivo de aprendizado profundo para a classificação de intenções em língua portuguesa, utilizando uma infraestrutura de nuvem para garantir a escalabilidade e a eficiência do processo.
A metodologia adotada para a construção do modelo preditivo foi planejada para garantir a robustez e a eficácia da solução, integrando técnicas avançadas de aprendizado de máquina. O processo operacional foi dividido em etapas sequenciais que abrangeram desde a geração do conjunto de dados até a validação final em ambiente de produção simulado. Para a execução das atividades, utilizou-se a linguagem de programação Python, reconhecida por sua versatilidade e vasta biblioteca de ferramentas voltadas para a ciência de dados. Entre as bibliotecas fundamentais, destacam-se o Pandas, utilizado para a manipulação e análise eficiente de dados estruturados, e o Numpy, que forneceu o suporte necessário para operações com arrays e matrizes multidimensionais. A biblioteca PyTorch foi selecionada como o framework principal para o desenvolvimento das redes neurais profundas, devido à sua flexibilidade e eficiência no processamento de tensores.
O ambiente de desenvolvimento foi configurado na plataforma Azure Machine Learning Studio, utilizando uma instância de computação equipada com quatro núcleos de processamento, 32 GB de memória RAM e 150 GB de armazenamento em disco. Essa configuração foi essencial para suportar o treinamento de modelos baseados em arquiteturas de transformadores, que exigem alto poder computacional. A gestão da infraestrutura foi realizada de forma abstrata pela plataforma, permitindo o foco total na lógica do modelo e na experimentação. Para a visualização dos resultados e métricas, utilizou-se a biblioteca Matplotlib, que permitiu a geração de gráficos de alta qualidade para o monitoramento da função de perda e da acurácia ao longo das épocas de treinamento.
Um dos componentes mais críticos da metodologia foi a criação do conjunto de dados. Diante da escassez de datasets públicos robustos para classificação de intenções em português com categorias específicas, optou-se pela geração de um conjunto de dados sintético. Para isso, utilizou-se a ferramenta Ollama para executar localmente o modelo de linguagem de grande porte DeepSeek-R1, que possui 14 bilhões de parâmetros. A interação com o modelo foi realizada por meio de chamadas a uma API REST, utilizando um script em Python que automatizou a solicitação de frases. O prompt formulado solicitava a criação de frases curtas que expressassem intenções relacionadas a seis categorias distintas: esporte, saúde, tecnologia, música, negócios e outro. A estrutura de retorno foi definida em formato JSON, contendo as chaves para o texto e o respectivo rótulo, garantindo a padronização dos dados desde a origem.
O processo de geração resultou em um total de 4671 entradas. Após a coleta, os dados passaram por uma etapa rigorosa de pós-processamento para garantir a qualidade das amostras. Utilizaram-se expressões regulares para identificar e remover ruídos, caracteres especiais indesejados e possíveis alucinações geradas pelo modelo de linguagem. Essa limpeza foi fundamental para eliminar inconsistências que poderiam prejudicar o aprendizado da rede neural. O conjunto de dados final foi organizado em um arquivo de formato CSV, onde cada linha representava um par de texto e rótulo, facilitando o mapeamento das categorias para valores numéricos durante a fase de treinamento.
Para a arquitetura do modelo, selecionou-se o DistilBERT, que é uma versão compacta, rápida e leve do modelo BERT. O DistilBERT preserva aproximadamente 95% das capacidades de compreensão contextual do modelo original, mas possui 40% menos parâmetros e é 60% mais rápido (Sanh et al., 2019). Essa escolha foi motivada pela necessidade de um modelo que oferecesse um equilíbrio ideal entre desempenho e consumo de recursos, sendo especialmente adequado para implantação em ambientes de nuvem onde o tempo de inferência e o custo computacional são variáveis críticas. O modelo utilizado, especificamente o DistilBertForSequenceClassification, foi ajustado para incluir uma camada de classificação na saída correspondente às seis classes do problema.
A preparação dos dados para o modelo envolveu a tokenização dos textos utilizando o DistilBertTokenizer. Esse processo converte as sentenças em IDs de tokens que a rede neural consegue processar. Além disso, criou-se uma máscara de atenção para cada entrada, atribuindo o valor 1 para tokens significativos e 0 para tokens de preenchimento. Essa técnica assegura que o modelo foque apenas na parte relevante do texto, ignorando os preenchimentos necessários para manter o tamanho fixo dos vetores de entrada. O conjunto de dados foi dividido em subconjuntos de treinamento, validação e teste, utilizando uma proporção que permitiu uma avaliação robusta da capacidade de generalização do modelo.
O treinamento foi configurado com hiperparâmetros específicos para otimizar a convergência. Utilizou-se o otimizador AdamW, com uma taxa de aprendizado de 1e-5 e um parâmetro de epsilon de 1e-8. A estratégia de treinamento incluiu a aplicação de decaimento de peso para evitar o sobreajuste, exceto para os parâmetros de viés e para os pesos das camadas de normalização. O modelo foi treinado durante três épocas, um número considerado suficiente para o ajuste fino de modelos pré-treinados em tarefas de classificação de texto, permitindo que o conhecimento prévio do modelo fosse adaptado às nuances das intenções em português sem destruir as representações linguísticas já aprendidas.
Os resultados obtidos demonstram a alta eficácia da abordagem proposta. Durante o processo de treinamento, observou-se que a função de perda no conjunto de treinamento apresentou uma redução contínua e estável, iniciando em aproximadamente 1.2 e convergindo para valores inferiores a 0.2 ao final da terceira época. De forma análoga, a função de perda no conjunto de validação iniciou em cerca de 0.55 e estabilizou-se em torno de 0.15. Essa proximidade entre as curvas de perda de treinamento e validação é um indicativo claro de que o modelo não sofreu com o problema de sobreajuste, mantendo uma excelente capacidade de generalização para dados não vistos durante o ajuste dos pesos.
A avaliação final no conjunto de teste revelou uma acurácia global de 97,216%, um valor extremamente elevado que valida a escolha da arquitetura DistilBERT e a qualidade do conjunto de dados sintético gerado. Ao analisar o desempenho por categoria, a classe tecnologia apresentou resultados excepcionais, com um F1-score de 0.99. Isso indica que as intenções relacionadas a esse tema possuem padrões linguísticos muito claros que o modelo foi capaz de capturar com precisão quase total. A categoria música também obteve um desempenho notável, com precisão, revocação e F1-score atingindo a marca de 0.99, reforçando a robustez do classificador para temas bem definidos.
Na categoria de negócios, observou-se uma leve diferença entre a revocação de 0.96 e a precisão de 0.99. Essa discrepância sugere que, embora o modelo raramente classifique erroneamente uma frase de outra categoria como sendo de negócios, ele pode ocasionalmente deixar de identificar algumas frases que pertencem a essa classe, gerando falsos negativos. Para a categoria denominada outro, que engloba intenções que não se enquadram nas classes principais, o modelo alcançou um F1-score de 0.97. Esse resultado é particularmente importante, pois demonstra que o classificador consegue distinguir com segurança o que é ruído ou fora de escopo, uma característica essencial para sistemas de atendimento automatizado que precisam filtrar solicitações irrelevantes.
As categorias esporte e saúde apresentaram F1-scores de 0.96 e 0.94, respectivamente. Embora sejam valores altos, representam o desempenho relativamente mais baixo entre todas as classes. A análise das matrizes de confusão permitiu identificar que as principais falhas do modelo ocorrem entre essas duas categorias. Houve casos em que intenções de saúde foram classificadas como esporte e vice-versa. Essa confusão é compreensível do ponto de vista semântico, uma vez que termos relacionados a bem-estar físico, exercícios, atividades corporais e condicionamento são comuns a ambos os domínios. Por exemplo, uma frase sobre a prática de natação para melhorar a postura pode conter elementos que remetem tanto à prática esportiva quanto ao cuidado com a saúde, desafiando a fronteira de decisão do modelo.
A utilização da matriz de confusão normalizada permitiu visualizar que a eficiência do modelo é consistente independentemente do número de amostras em cada classe. A precisão média elevada em todas as categorias confirma que o processo de geração de dados via DeepSeek-R1 foi capaz de produzir exemplos diversificados e representativos. A discussão desses resultados à luz da literatura indica que o uso de modelos destilados é uma estratégia viável para aplicações em português, superando a necessidade de modelos massivos que seriam proibitivos em termos de custo de nuvem. A integração com o Azure Machine Learning facilitou não apenas o treinamento, mas também a rastreabilidade, permitindo que cada iteração do modelo fosse registrada e comparada de forma sistemática.
Apesar do sucesso alcançado, é necessário reconhecer as limitações deste estudo. A dependência exclusiva de um conjunto de dados sintético pode introduzir vieses inerentes ao modelo gerador. Embora o DeepSeek-R1 seja um modelo avançado, ele pode não capturar todas as variações regionais, gírias ou construções gramaticais coloquiais típicas do português falado no Brasil em contextos reais de atendimento. Além disso, a classificação em apenas seis categorias limita a aplicabilidade em cenários onde a granularidade das intenções precisa ser muito maior. Pesquisas futuras devem focar na inclusão de dados reais provenientes de logs de atendimento e na expansão do número de classes para cobrir domínios mais específicos.
Outra oportunidade de evolução reside na otimização do modelo para dispositivos de borda. Embora o DistilBERT seja leve, a exploração de técnicas como a quantização para formatos como TFLite poderia permitir que esse classificador de intenções fosse executado diretamente em smartphones ou dispositivos vestíveis, reduzindo a latência e aumentando a privacidade do usuário ao evitar o envio de dados para a nuvem. A robustez demonstrada pela plataforma PaaS sugere que o fluxo de trabalho aqui estabelecido pode ser replicado para outros idiomas ou tarefas de processamento de linguagem natural, como análise de sentimento ou extração de entidades, mantendo a eficiência operacional e a alta acurácia.
Conclui-se que o objetivo foi atingido, uma vez que se desenvolveu um modelo preditivo baseado em aprendizado profundo capaz de classificar intenções em língua portuguesa com uma acurácia superior a 97% utilizando uma infraestrutura de nuvem escalável. A integração entre o modelo DistilBERT e a plataforma Azure Machine Learning provou ser uma solução eficiente, equilibrando alto desempenho computacional com facilidade de gestão e implantação. A metodologia de geração de dados sintéticos via API mostrou-se uma alternativa robusta para contornar a escassez de datasets rotulados, permitindo o treinamento de um classificador resiliente e preciso. O estudo demonstra que a combinação de inteligência artificial avançada e computação em nuvem democratiza o acesso a ferramentas de processamento de linguagem natural de alta qualidade, oferecendo bases sólidas para o desenvolvimento de assistentes virtuais e sistemas de atendimento automatizados mais inteligentes e eficazes.
Referências Bibliográficas:
BODOR, Anas; HNIDA, Meriem; NAJIMA, Daoudi. MLOps: Overview of Current State and Future Directions. In: BEN AHMED, M.; BOUDHIR, A. A.; SANTOS, D.; DIONISIO, R.; BENAYA, N. (Ed.). Innovations in Smart Cities Applications. Vol. 6. Cham: Springer International Publishing, 2023. p. 156–165.
CABALLER, Miguel et al. Orchestrating Complex Application Architectures in Heterogeneous Clouds. Journal of Grid Computing, v. 16, n. 1, p. 3–18, 2018. doi: 10.1007/s10723-017-9418-y.
GARCÍA, Álvaro López et al. Resource Provisioning in Science Clouds: Requirements and Challenges, 2017. Retrieved from: https://arxiv.org/pdf/1709.08526. Accessed on: 4 Oct. 2024.
JOSHI, Ameet V. Azure Machine Learning. In: JOSHI, A. V. (Ed.). Machine Learning and Artificial Intelligence. Cham: Springer International Publishing, 2020. p. 207–220.
LECUN, Yann; BENGIO, Yoshua; HINTON, Geoffrey. Deep Learning. Nature, v. 521, n. 7553, p. 436-444, 2015. Retrieved from: https://hal.science/hal-04206682/document.
SALOMONI, D. et al. INDIGO-DataCloud: A Platform to Facilitate Seamless Access to E-Infrastructures. Journal of Grid Computing, v. 16, n. 3, p. 381–408, 2018. doi: 10.1007/s10723-018-9453-3.
SANH, Victor; DEBUT, Lysandre; CHAUMOND, Julien; WOLF, Thomas. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv, 2019. Retrieved from: https://arxiv.org/pdf/1910.01108. Accessed on: 4 Oct. 2024.
Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Engenharia de Software do MBA USP/Esalq
Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy




























