Imagem Aplicação de LLMs para otimizar consultas SQL em ambientes empresariais

16 de janeiro de 2026

Aplicação de LLMs para otimizar consultas SQL em ambientes empresariais

Autor(a): Luiza Batista Laquini — Orientador(a): Dora Yovana Barrios Leal

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho desenvolve e avalia uma aplicação baseada em modelos de linguagem (LLMs) para converter linguagem natural em consultas SQL otimizadas, visando agilizar o acesso a dados em ambientes empresariais, especificamente no e-commerce. A pesquisa busca melhorar a eficiência na formulação de consultas, aumentar a acessibilidade para usuários não técnicos e avançar nas técnicas de processamento de linguagem natural aplicadas à gestão de dados. A digitalização, intensificada pela pandemia, gerou um aumento exponencial no volume de dados (Garg et al., 2021), impondo o desafio de transformar informações brutas em conhecimento para decisões estratégicas. O setor de e-commerce exemplifica essa expansão, com o Brasil registrando um crescimento de 16% nas vendas online em 2024, o maior globalmente (Atlântico, 2024). Cada transação gera dados sobre o processo de compra e o perfil do consumidor, que devem ser gerenciados para cumprir exigências como a LGPD (Brasil, 2018) e otimizar operações como atendimento ao cliente e gestão de estoque (Data Storage, 2023).

A extração de valor dos dados depende de consultas eficientes em bancos de dados relacionais, onde SQL é o padrão. Contudo, a elaboração de consultas SQL otimizadas é um desafio para usuários de negócio sem especialização técnica, criando uma barreira que limita a autonomia na obtenção de insights. É imperativo desenvolver soluções que simplifiquem a interação com os dados. A emergência dos Large Language Models (LLMs) surge como uma oportunidade para superar essa barreira, atuando como ponte entre a linguagem humana e a de máquina. LLMs são modelos de IA treinados com volumes massivos de dados textuais, capazes de compreender e gerar linguagem natural com alta sofisticação (IBM, 2023). Utilizando arquiteturas como os transformadores, esses modelos aprendem padrões linguísticos e contextuais, habilitando-os a executar tarefas complexas de Processamento de Linguagem Natural (PLN).

Estudos recentes demonstram o potencial dos LLMs para gerar SQL a partir de linguagem natural. Hong et al. (2025) evidenciam que esses modelos, à medida que sua escala aumenta, superam abordagens tradicionais baseadas em regras, sendo eficazes em resolver ambiguidades e gerar consultas complexas. Adicionalmente, Tan et al. (2025) indicam que LLMs podem otimizar consultas, minimizando redundâncias. Os autores desenvolveram o LLM-QO, um otimizador de consultas baseado em LLM que gerou planos de execução de alta qualidade, superando otimizadores tradicionais. A capacidade de entender o contexto torna os LLMs ferramentas valiosas para a otimização de consultas em bancos de dados empresariais.

A relevância do trabalho está em tornar o acesso a dados mais intuitivo e eficiente, integrando tecnologia e tomada de decisões. Ao desenvolver um protótipo que traduz perguntas em linguagem natural para SQL, a pesquisa democratiza o acesso aos dados, permitindo que profissionais de diversas áreas extraiam informações sem intermediários técnicos. A validação empírica da solução em um ambiente de e-commerce, com dados reais e comparação de diferentes LLMs, fornece uma base para avaliar a viabilidade da tecnologia. A proposta alinha-se à tendência de interfaces de próxima geração para bancos de dados, que buscam simplificar a interação humano-computador (Bao et al., 2023). O protótipo desenvolvido valida a abordagem e oferece um modelo reprodutível e escalável para diferentes contextos empresariais.

O impacto esperado é multifacetado, incluindo aumento de produtividade e melhoria da inteligência analítica. Ao reduzir a barreira técnica, a solução capacita usuários de negócio a realizarem suas próprias análises, acelerando a descoberta de insights. A automação da geração de SQL minimiza o risco de erros humanos, resultando em análises mais confiáveis. A comparação entre modelos de reasoning e intelligence oferece uma contribuição ao campo, elucidando os trade-offs entre precisão, velocidade e custo, informações cruciais para a implementação de LLMs em produção. Este estudo contribui para o avanço das aplicações de PLN na gestão de dados, demonstrando como a IA generativa pode transformar a interação das empresas com seus ativos de informação.

A metodologia iniciou com a seleção de uma base de dados representativa. O experimento utilizou um dataset de e-commerce da Olist Store, disponível no Kaggle (Kaggle, 2022), contendo 100 mil pedidos anonimizados no Brasil entre 2016 e 2018. O conjunto de dados, com oito tabelas inter-relacionadas, abrange dimensões como status do pedido, preço, pagamento, frete, localização do cliente, atributos do produto e avaliações. A complexidade do esquema representa um cenário desafiador para a geração de consultas, tornando-o ideal para testar a capacidade dos LLMs em compreender relações complexas.

Antes da implementação, foi realizada uma análise exploratória e tratamento dos dados com Python e bibliotecas como ydata_profiling, pandas, numpy e matplotlib. Esta etapa foi crucial para entender a estrutura dos dados e identificar inconsistências. Foram aplicadas correções como a tipagem adequada de colunas (strings para datetime, texto para números), padronização de formatos de data e tratamento de valores nulos. A integridade referencial foi avaliada para garantir a correspondência entre chaves estrangeiras e primárias, eliminando inconsistências que comprometeriam operações de junção e análises temporais. Essas alterações garantiram a qualidade dos resultados.

A seleção dos modelos de linguagem considerou a inviabilidade de hospedar LLMs próprios. A plataforma OpenAI foi escolhida por seus modelos de alta performance e API robusta. Foram testados quatro modelos, divididos em duas categorias: reasoning (raciocínio) e intelligence (inteligência). Os modelos de reasoning, como o4-mini e o3-mini, são treinados com aprendizado por reforço para executar cadeias de pensamento internas, destacando-se em problemas complexos (Platform OpenAI, 2025). Os modelos de intelligence, como GPT-4.1 e GPT-4.1-mini, são otimizados para compreensão contextual e geração rápida de conteúdo, ideais para tarefas como resumo de textos (Platform OpenAI, 2025). A seleção, em maio de 2025, considerou capacidade, disponibilidade e custo-benefício.

Foi desenvolvido um protótipo com interface Front-end em Streamlit e API de Back-end em Flask. A API orquestra a interpretação da mensagem, consulta aos dados e geração da resposta. A lógica foi modularizada: um LLM atua como roteador, identificando se a pergunta é uma solicitação de dados ou conversa informal. Interações casuais seguem uma rota simplificada para economizar recursos. Solicitações de dados seguem uma rota principal de duas etapas: um LLM transforma a pergunta em SQL e, após a execução da query, outro LLM interpreta o resultado e gera uma resposta em linguagem natural. Para a avaliação, foram formuladas 21 perguntas de complexidade variada, coletando a query SQL, o tempo de elaboração e a resposta final. A assertividade foi avaliada em uma escala de 0 (erro grave) a 2 (resposta correta). Foi realizada também uma análise de consistência no modelo de melhor desempenho.

O protótipo resultou em uma aplicação funcional com login e chat. A API demonstrou robustez, e a arquitetura modular provou ser eficiente na otimização de recursos. A avaliação comparativa revelou diferenças significativas de desempenho. O modelo o4-mini (reasoning) alcançou 100% de acertos totais (42 pontos), demonstrando capacidade superior. O o3-mini (reasoning) obteve 90,48% de assertividade (39 pontos), com 19 acertos totais, um com ressalvas e um erro. Em contraste, os modelos de intelligence tiveram desempenho inferior. O GPT-4.1 alcançou 76,19% de assertividade (33 pontos), com 16 acertos e 4 erros, enquanto o GPT-4.1-mini registrou 61,9% (28 pontos), com 13 acertos e 6 erros.

Os resultados indicam a superioridade dos modelos de raciocínio em assertividade para a conversão de texto para SQL, um fator crítico em contextos empresariais. A análise granular identificou as perguntas 10 e 12 como um desafio para todos os modelos, exceto o o4-mini, sugerindo que certas complexidades exigem capacidades de raciocínio avançadas. Uma discrepância foi observada na pergunta 9, onde o GPT-4.1-mini superou o GPT-4.1, indicando que a performance pode ser influenciada por nuances do treinamento de cada modelo.

Em relação ao tempo de resposta, os modelos de intelligence foram, em média, quase três vezes mais rápidos e com menor variabilidade que os de reasoning. As curvas de tempo de resposta mostraram que modelos da mesma categoria seguem padrões semelhantes, sugerindo que as diferenças temporais estão mais ligadas à arquitetura da categoria. Embora a rapidez seja desejável, a diferença de poucos segundos é aceitável em análise de dados, especialmente quando compensada por um ganho em precisão. O tempo total de processamento de qualquer modelo é drasticamente inferior ao de um analista humano, representando um avanço em produtividade.

A avaliação de consistência no o4-mini reforçou sua robustez. Em 90,47% dos casos (19 de 21), o modelo manteve consistência total entre a pergunta original e suas variações. As duas inconsistências (perguntas 7 e 20) foram atribuídas a ambiguidades na formulação do usuário, como a omissão de um filtro. Isso evidencia que a clareza do prompt do usuário ainda é importante. A alta taxa de consistência geral valida a viabilidade do modelo para uso em produção.

A contextualização com trabalhos relacionados reforça a inovação da abordagem. Diferente do CodexDB (Trummer, 2022), que explora a síntese de código, este protótipo se destaca pela modularidade de rotas para otimizar custos. Em comparação com o EcomGPT (Xu et al., 2023), que foca em fine-tuning, este estudo demonstra que modelos de reasoning de propósito geral, como o o4-mini, alcançam alta assertividade sem treinamento específico, sugerindo a engenharia de prompts como alternativa viável. A pesquisa alinha-se às conclusões de Bao et al. (2023), que destacam a necessidade de modelos robustos para a crescente complexidade das consultas em ambientes reais.

A análise comparativa oferece insights práticos. Os modelos de reasoning, apesar de mais lentos, decompõem problemas complexos e interpretam relações entre tabelas com mais precisão. Essa capacidade de “pensar antes de responder” (Platform OpenAI, 2025) explica sua maior taxa de acerto. A velocidade dos modelos de intelligence os torna atraentes para aplicações em tempo real, como chatbots, onde uma pequena margem de erro é tolerável (Zhou, Fang, & Liu, 2023). Para análise de dados que informa decisões de negócio, a precisão é inegociável, tornando os modelos de reasoning a escolha mais prudente.

A modularidade da API, com roteamento e etapas separadas para geração de SQL e interpretação de resultados, é uma arquitetura escalável. Essa separação otimiza o consumo de tokens e custos, permitindo controle granular sobre o processo. A capacidade de lidar com conversas informais de forma eficiente evita o desperdício de recursos computacionais, melhorando a eficiência geral.

A pesquisa também destaca a importância da qualidade dos dados. A etapa de limpeza foi fundamental para garantir que os LLMs operassem sobre uma base confiável. Inconsistências nos dados poderiam levar os modelos a gerar consultas incorretas. A implementação bem-sucedida de uma interface de linguagem natural depende tanto da capacidade do LLM quanto da governança dos dados subjacentes. A combinação de um LLM poderoso com um banco de dados bem estruturado é a chave para a análise de dados conversacional.

Em conclusão, o estudo demonstrou a capacidade do protótipo em transformar perguntas em linguagem natural em consultas SQL precisas sobre um banco de dados complexo. A avaliação revelou que o modelo o4-mini (reasoning) apresentou desempenho superior, com 100% de assertividade, validando sua adequação para cenários de alta precisão. Embora os modelos de intelligence sejam mais rápidos, sua menor assertividade os torna menos adequados para business intelligence. A arquitetura modular do protótipo provou ser eficaz, favorecendo a reprodutibilidade, escalabilidade e otimização de custos. A alta consistência do o4-mini reforça sua viabilidade para uso contínuo.

O trabalho contribui com uma validação empírica da aplicação de LLMs para democratizar o acesso a dados, com potencial para impactar a produtividade e a inteligência analítica das organizações. Embora os resultados sejam promissores, futuras pesquisas podem ampliar a avaliação com mais perguntas e cenários de uso. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de LLMs, especialmente o modelo o4-mini, é uma solução viável e eficaz para transformar perguntas em linguagem natural em consultas SQL precisas e otimizadas em um ambiente de e-commerce.

Referências:
Atlântico. 2024. Latin America Digital Transformation Report 2024. Disponível em: https://www. atlantico. vc/latin-america-digital-transformation-report-2024. Acesso em 18 de março de 2025.
Bao, S., Liu, Y., Li, B., Zhang, Z., Wang, Q., & Sun, M. (2023). Next‑Generation Database Interfaces: A Survey of LLM‑based Text‑to‑SQL. arXiv. Disponível em: https://arxiv. org/abs/2308.08709. Acesso em: 20 de julho de 2025.
BRASIL. 2018. Lei nº 13.709, de 14 de agosto de 2018. Lei Geral de Proteção de Dados Pessoais (LGPD). Diário Oficial da União, Brasília, 15 ago. 2018. Seção 1, p. 1. Acesso em: 18 de março de 2025.
Data Storage. 2023. Armazenamento de Dados para E-commerce: Suportando o Crescimento das Vendas Online. Disponível em: https://blog. datastorage. com. br/post/armazenamento-de-dados-para-e-commerce-suportando-o-crescimento-das-vendas-online. Acesso em: 18 de março de 2025.
Garg, A., Popli, R., & Sarao, B. S. (2021). Growth of Digitization and its Impact on Big Data Analytics. IOP Conference Series: Materials Science and Engineering, Volume 1022, 1st International Conference on Computational Research and Data Analytics (ICCRDA 2020) 24th October 2020, Rajpura, India. Disponível em: https://iopscience. iop. org/article/10.1088/1757-899X/1022/1/012083/pdf. Acesso em: 18 de março de 2025.
Hong, Z., Yuan, Z., Zhang, Q., Chen, H., Dong, J., Huang, F., & Huang, X. (2025). Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL. https://doi. org/10.48550/arXiv.2406.08426
IBM. 2023. What are large language models (LLMs)? Disponível em: https://www. ibm. com/think/topics/large-language-models. Acesso em: 18 de março de 2025.
Kaggle. 2022. Brazilian E-Commerce Public Dataset by Olist. Disponível em: https://www. kaggle. com/datasets/olistbr/brazilian-ecommerce. Acesso em: 14 mar. 2025.
Platform OpenAI. 2025. Core Concepts – Reasoning Models Guide. Disponível em: https://platform. openai. com/docs/guides/reasoning? api-mode=responses
Platform OpenAI. 2025. Get started – Models Guide. Disponível em: https://platform. openai. com/docs/models
Sala, L., Sullutrone, G., & Bergamaschi, S. (2024). Text-to-SQL with Large Language Models: Exploring the Promise and Pitfalls. SEBD 2024: 32nd Symposium on Advanced Database Systems, 2024, Villasimius, Sardenha, Itália. Disponível em: https://ceur-ws. org/Vol-3741/paper65. pdf
Tan, J., Zhao, K., Li, R., Yu, J. X., Piao, C., Cheng, H., Meng, H., Zhao, D., & Rong, Y. (2025). Can Large Language Models Be Query Optimizer for Relational Databases?. https://doi. org/10.48550/arXiv.2502.05562
Trummer, I. (2022). CodexDB: Generating SQL Code and Optimizing Queries with GPT‑3 Codex. arXiv. Disponível em: https://arxiv. org/abs/2209.14900. Acesso em: 20 de julho de 2025.
Xu, C., Zhao, Z., Zhou, Y., Huang, S., Jiang, Y., Liu, X., & Gao, J. (2023). EcomGPT: Instruction Tuning for E-commerce Tasks. arXiv. Disponível em: https://arxiv. org/abs/2305.18278. Acesso em: 20 de julho de 2025.
Zhou, H., Fang, Y., & Liu, Y. (2023). The Dark Side of Chatbot Implementation: Consumer Expectations and Dissatisfaction with Human Service. Computers in Human Behavior, 145, 107773. Disponível em: https://www. sciencedirect. com/science/article/pii/S0747563223000350. Acesso em: 20 de julho de 2025.

Estatísticas: 16256 caracteres • 2355 palavras


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade