Imagem Desenvolvimento de chatbot comercial com modelo de linguagem open source

20 de fevereiro de 2026

Desenvolvimento de chatbot comercial com modelo de linguagem open source

Thiago Dias Joaquim; Ricardo Janes

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Esta pesquisa desenvolveu um chatbot corporativo baseado em modelo de linguagem open source para a automação de atendimentos de Help Desk. O sistema foi projetado para compreender e responder, em português do Brasil, a perguntas recorrentes de suporte técnico, como redefinição de senha, erros de acesso a sistemas, configuração de VPN, e-mail corporativo e problemas de rede. A finalidade não é substituir o atendimento humano, mas implementar um primeiro nível de suporte automatizado para orientar usuários e discernir a necessidade de abertura de chamados formais, otimizando o fluxo de trabalho das equipes de tecnologia.

Organizações enfrentam um volume constante de solicitações repetitivas de Help Desk, como falhas de acesso, erros HTTP (403, 502), configuração de redes privadas virtuais (VPN), dificuldades com e-mail corporativo e problemas com periféricos. Esse tipo de atendimento, embora essencial, consome tempo das equipes técnicas, gera custos operacionais e limita a escalabilidade do suporte humano. Neste contexto, sistemas conversacionais automatizados, ou chatbots, emergem como uma alternativa estratégica para fornecer respostas imediatas e padronizadas, liberando profissionais de TI para se concentrarem em atividades de maior complexidade.

O avanço em Processamento de Linguagem Natural (PLN), impulsionado por Large Language Models (LLMs), permitiu a criação de sistemas conversacionais com interação natural. Contudo, a maioria desses modelos é otimizada para o inglês, criando barreiras para empresas que necessitam de suporte em outros idiomas, como o português (Rigouts Terryn & de Lhoneux, 2024). Plataformas comerciais como ChatGPT e Gemini, embora avançadas, implicam em licenciamentos restritivos, custos recorrentes e dependência de infraestrutura de terceiros. Tais fatores representam obstáculos para organizações que buscam autonomia tecnológica e geram preocupações com privacidade de dados, conformidade regulatória e viabilidade econômica.

Este cenário motivou o desenvolvimento do protótipo, que priorizou tecnologias e modelos open source com licenciamento permissivo, como a licença Apache 2.0, para garantir flexibilidade e viabilidade comercial (Godoy, 2023). A popularização de frameworks como Hugging Face Transformers (Wolf et al., 2020), LangChain (Auffarth & Kuligin, 2024) e LangGraph (Raieli & Iuculano, 2024) ampliou as oportunidades para a criação de aplicações de IA, permitindo a construção de pipelines avançados e arquiteturas modulares. Dentro deste ecossistema, o ajuste fino (fine-tuning) de modelos de código aberto, com abordagens em PyTorch (Paszke et al., 2019) e Transformers, tem se mostrado essencial para adaptar LLMs a domínios específicos.

Apesar do progresso de modelos generalistas, há uma escassez de chatbots avançados em português do Brasil capazes de compreender nuances linguísticas e atender às demandas do mercado nacional. Esta lacuna é relevante considerando o potencial de redução de custos e melhoria da experiência do usuário em Help Desk. Diante disso, o projeto foi estruturado com práticas de DevOps, CI/CD e infraestrutura escalável, visando sua viabilidade de implementação e comercialização (SaaS ou on-premises). O escopo foi exploratório, focado em validar a aplicação de técnicas de adaptação de LLMs em um cenário realista de suporte técnico em português.

O projeto foi desenvolvido em uma infraestrutura de computadores com Ubuntu Server 24.04 LTS, preparada para aprendizado profundo com GPUs Nvidia. A arquitetura separou funcionalmente as tarefas de treinamento, testes e processamento de dados. A infraestrutura contou com dois servidores de treinamento equipados com processadores Intel Xeon E5-2697 v3, 128 GB de memória DDR4 ECC e GPUs Nvidia RTX 3090 (24 GB); um nó de dados com Xeon E5-2690 v3, 64 GB de RAM e uma GPU Nvidia RTX 3060 (12 GB); e um nó de reserva. As GPUs RTX 3090 foram dedicadas ao fine-tuning, enquanto as RTX 3060 foram usadas para testes e prototipagem, isolando o treinamento principal.

A metodologia adotou conteinerização com Docker para isolamento e reprodutibilidade, com orquestração via Docker Compose para integração modular de componentes. O modelo de linguagem base selecionado foi o Mistral 7B v0.3, escolhido por sua licença permissiva Apache 2.0 e desempenho competitivo. A implementação utilizou o ecossistema Hugging Face Transformers para manipulação de modelos e fine-tuning (Godoy, 2023). O monitoramento e versionamento dos experimentos foram conduzidos com a plataforma MLflow para rastrear parâmetros, consolidar métricas e garantir a reprodutibilidade do processo.

Os dados para o fine-tuning foram obtidos por Web Scraping e Data Wrangling de fontes como documentação técnica, bases de conhecimento e FAQs de empresas como Microsoft, Adobe, HP, Cisco e Samsung, respeitando os arquivos robots. txt de cada domínio. As informações foram extraídas com bibliotecas Python como BeautifulSoup, Scrapy e Selenium, e posteriormente limpas para remover ruídos e duplicatas. O conjunto de dados final, em formato JSONL, consistiu em mais de 2,5 milhões de pares de pergunta-resposta, totalizando aproximadamente 218 milhões de tokens, garantindo cobertura do domínio de Help Desk. O pipeline de dados foi orquestrado com Apache Airflow e o armazenamento gerenciado pelo MinIO, uma camada de object storage compatível com a API S3.

O modelo ajustado foi submetido a testes exploratórios em ambiente local com a interface web text-generation-webui, que validaram a viabilidade da arquitetura. O processo de fine-tuning, usando a técnica qLoRA com quantização em 4 bits, permitiu treinar o modelo de 7 bilhões de parâmetros em uma única GPU com 24 GB de VRAM. O dataset de 2,5 milhões de pares de pergunta-resposta, com seus 218 milhões de tokens, provou ser robusto para especializar o modelo no domínio de suporte técnico.

Após o ajuste, o modelo foi disponibilizado em diferentes formatos quantizados. A versão FP16, com aproximadamente 15 GB, oferecia a mais alta precisão com um custo de memória elevado. A versão INT4, com adaptadores LoRA, consumia 7,4 GB, sendo ideal para experimentação. A escolha final recaiu sobre a versão INT8, com cerca de 9,6 GB, um modelo final compacto, estável e facilmente distribuível. Esta decisão é corroborada por pesquisas que demonstram que a quantização em 8 bits mantém um desempenho muito próximo ao de 16 bits, com uma perda de acurácia mínima para a maioria das aplicações (Dettmers et al., 2022; Frantar et al., 2022). A eficiência do formato INT8 permitiu a execução de duas instâncias do chatbot em contêineres distintos na mesma GPU RTX 3090, reforçando a escalabilidade da solução.

Para avaliar o impacto qualitativo do fine-tuning, foram realizados testes comparativos entre o modelo Mistral 7B v0.3 original e a versão ajustada, com perguntas baseadas em cenários corporativos reais. O modelo base, antes do ajuste, tendia a fornecer respostas prolixas, genéricas e com inconsistências terminológicas para o português do Brasil. Questionado sobre um “erro 502”, o modelo original gerou uma resposta de 182 tokens explicando o conceito técnico e sugerindo passos genéricos. A resposta, embora correta, não era direcionada a um ambiente corporativo.

Em contraste, o modelo fine-tuned respondeu à mesma pergunta de forma concisa e prática, com apenas 105 tokens. A resposta mencionou componentes de infraestrutura corporativa como “balanceador/proxy” e “VPN”, e orientou o usuário a abrir um chamado para a equipe correta (“Aplicações/Web”) com as informações necessárias (data, hora, URL, print do erro). Essa mudança de comportamento foi observada em todas as perguntas de teste. Para a recuperação de senha, o modelo ajustado forneceu um passo a passo alinhado a um portal de autoatendimento corporativo, enquanto o modelo base descreveu métodos genéricos.

A análise das respostas demonstrou que o fine-tuning resultou em um alinhamento significativo do modelo aos fluxos de trabalho de um Help Desk. As respostas tornaram-se mais curtas e objetivas, melhorando a experiência do usuário e reduzindo o tempo de inferência. A consistência terminológica em português do Brasil foi aprimorada, e o modelo ajustado demonstrou um comportamento mais seguro, evitando recomendações arriscadas para um usuário leigo e, em vez disso, solicitando a coleta de evidências mínimas para auxiliar no diagnóstico.

As principais limitações identificadas no projeto incluem a ausência de métricas quantitativas formais, como BLEU ou ROUGE, o que restringe a comparação objetiva com outros modelos. O dataset, embora volumoso, ainda é limitado em diversidade de cenários e pode não cobrir todas as particularidades de diferentes ambientes corporativos. A validação ocorreu exclusivamente em um ambiente controlado, sem exposição a cenários reais de produção. A dependência de informações estáticas, devido à falta de um mecanismo de Retrieval-Augmented Generation (RAG), significa que o modelo não consegue lidar com informações que mudam dinamicamente. Por fim, o modelo ainda exibe inconsistências em contextos que demandam múltiplos passos de inferência e não demonstrou capacidade consistente de iniciar uma triagem ativa, fazendo perguntas ao usuário para coletar mais informações.

Apesar dessas restrições, os resultados exploratórios fornecem evidências da viabilidade da solução e apontam caminhos para a evolução futura. A incorporação de métricas quantitativas, a ampliação do dataset, a integração de mecanismos de RAG para acesso dinâmico a bases de conhecimento, a implementação de guardrails de segurança e a validação em cenários reais de Help Desk são os próximos passos para levar o protótipo a um nível de maturidade comercial.

Este trabalho demonstrou com sucesso a viabilidade de desenvolver um chatbot para Help Desk baseado em modelos de linguagem open source, aplicando técnicas de adaptação como o qLoRA e utilizando práticas de MLOps para garantir automação e escalabilidade. O uso do modelo Mistral 7B v0.3 como base equilibrou as restrições computacionais com a necessidade de gerar respostas contextualizadas e de alta qualidade em português. A implementação evidenciou que soluções de IA sofisticadas podem ser estruturadas mesmo com infraestrutura limitada. O impacto do fine-tuning foi claramente perceptível, resultando em respostas mais claras, objetivas e alinhadas aos fluxos corporativos. As limitações identificadas abrem oportunidades para trabalhos futuros, como a integração com bases de conhecimento via RAG e a avaliação humana da qualidade das respostas. Conclui-se que o objetivo foi atingido: demonstrou-se a viabilidade técnica de desenvolver uma solução de IA escalável em português para a automação de suporte técnico corporativo. Este estudo se estabelece como um marco exploratório, oferecendo um modelo inicial para o desenvolvimento de soluções conversacionais mais acessíveis e aplicáveis comercialmente.

Referências:
APACHE AIRFLOW. Apache Airflow — A platform to programmatically author, schedule, and monitor workflows. Documentação oficial, 2024. Disponível em: https://airflow. apache. org/ . Acesso em: 29 set. 2025.
APACHE SOFTWARE FOUNDATION. Apache License, Version 2.0. 2004. Disponível em: https://www. apache. org/licenses/LICENSE-2.0. Acesso em: 29 set. 2025.
AUFFARTH, Ben; KULIGIN, Leonid. Generative AI with LangChain: Build production-ready LLM applications and advanced agents using Python, LangChain, and LangGraph. 2. ed. Birmingham: Packt Publishing, 2024.
CANONICAL LTD. Ubuntu Server 24.04 LTS. 2024. Disponível em: https://ubuntu. com/server. Acesso em: 29 set. 2025.
DETTMERS, Tim et al. LLM. int8(): 8-bit Matrix Multiplication for Transformers at Scale. arXiv preprint, arXiv:2208.07339, 2022. Disponível em: https://arxiv. org/abs/2208.07339. Acesso em: 03 set. 2025.
DETTMERS, Tim; LEWIS, Mike; SHLEIF, E.; ZETTLEMOYER, Luke. QLoRA: Efficient Finetuning of Quantized LLMs. arXiv preprint, arXiv:2305.14314, 2023. Disponível em: https://arxiv. org/abs/2305.14314. Acesso em: 03 set. 2025.
DENG, Mingkai et al. RLPrompt: Optimizing Discrete Text Prompts with Reinforcement Learning. arXiv preprint, arXiv:2205.12548, 2022. Disponível em: https://arxiv. org/abs/2205.12548. Acesso em: 03 set. 2025.
DOCKER. Docker Documentation. Disponível em: https://docs. docker. com/ . Acesso em: 29 set. 2025.
DOCKER COMPOSE. Docker Compose Documentation. Disponível em: https://docs. docker. com/compose/ . Acesso em: 29 set. 2025.
DVC. Data Version Control Documentation. Disponível em: https://dvc. org/doc. Acesso em: 29 set. 2025.
FASTAPI. FastAPI Documentation. Disponível em: https://fastapi. tiangolo. com/ . Acesso em: 29 set. 2025.
FRANTAR, Elias et al. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv preprint, arXiv:2210.17323, 2022. Disponível em: https://arxiv. org/abs/2210.17323. Acesso em: 03 set. 2025.
GITLAB. GitLab CI/CD Documentation. Disponível em: https://docs. gitlab. com/ee/ci/ . Acesso em: 29 set. 2025.
GODOY, Daniel Voigt. A Hands-On Guide to Fine-Tuning Large Language Models with PyTorch and Hugging Face. 1. ed. Independently Published, 2023.
HANLEY, Tom. The PCI Express System Architecture. IEEE Computer Society, 2016. Disponível em: https://ieeexplore. ieee. org/document/7478337. Acesso em: 29 set. 2025.
HUGGING FACE. Accelerate Documentation. Hugging Face, 2025. Disponível em: https://huggingface. co/docs/accelerate. Acesso em: 29 set. 2025.
HUGGING FACE. Transformers Documentation. Disponível em: https://huggingface. co/docs/transformers. Acesso em: 29 set. 2025.
LANGCHAIN. LangChain Documentation. Disponível em: https://python. langchain. com/ . Acesso em: 29 set. 2025.
LANGGRAPH. LangGraph Documentation. Disponível em: https://www. langchain. com/langgraph. Acesso em: 29 set. 2025.
LIU, Pengfei et al. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. arXiv preprint, arXiv:2107.13586, 2021. Disponível em: https://arxiv. org/abs/2107.13586. Acesso em: 03 set. 2025.
MINIO. MinIO Documentation. Disponível em: https://min. io/docs/ . Acesso em: 29 set. 2025.
OOBABOOGA. text-generation-webui. GitHub repository, 2025. Disponível em: https://github. com/oobabooga/text-generation-webui. Acesso em: 29 set. 2025.
PASZKE, Adam et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. Advances in Neural Information Processing Systems 32 (NeurIPS 2019). Curran Associates, 2019. Disponível em: https://arxiv. org/abs/1912.01703. Acesso em: 03 set. 2025.
RAIELI, Salvatore; IUCULANO, Gabriele. Building AI Agents with LLMs, RAG, and Knowledge Graphs: A practical guide to autonomous and modern AI agents. 1. ed. Birmingham: Packt Publishing, 2024.
RICHARDSON, Leonard. Beautiful Soup Documentation. Disponível em: https://www. crummy. com/software/BeautifulSoup/. Acesso em: 29 set. 2025.
RIGOUTS TERRYN, Ayla; DE LHONEUX, Miryam. Exploratory Study on the Impact of English Bias of Generative Large Language Models in Dutch and French. In: Proceedings of the First Workshop on Holistic Evaluation of Language Models (HumEval). ACL Anthology, 2024. Disponível em: https://aclanthology. org/2024. humeval-1.2/. Acesso em: 03 set. 2025.
SCRAPY. Scrapy Documentation. Disponível em: https://docs. scrapy. org/ . Acesso em: 29 set. 2025.
SELENIUMHQ. Selenium Documentation. Disponível em: https://www. selenium. dev/. Acesso em: 29 set. 2025.
SILVEIRA, Daniel et al. LegalBert-pt: A Pretrained Language Model for the Brazilian Portuguese Legal Domain. In: Proceedings of the 12th Brazilian Conference on Intelligent Systems (BRACIS 2023). SBC, 2023. Disponível em: https://sol. sbc. org. br/index. php/bracis/article/view/28420. Acesso em: 03 set. 2025.
WOLF, Thomas et al. Transformers: State-of-the-Art Natural Language Processing. In: Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. ACL, 2020. Disponível em: https://arxiv. org/abs/1910.03771. Acesso em: 03 set. 2025.
XIAO, Guangxuan et al. SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. arXiv preprint, arXiv:2211.10438, 2023. Disponível em: https://arxiv. org/abs/2211.10438. Acesso em: 03 set. 2025.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade