
27 de fevereiro de 2026
Otimização de Text-to-SQL com Modelos de Linguagem Compactos
Gabriel Sobral Campos; Larissa Souza Amaral
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo desta pesquisa foi desenvolver e avaliar a biblioteca open-source LexiQL, projetada para aprimorar a conversão de linguagem natural em SQL (Text-to-SQL). A sua arquitetura modular otimiza o consumo de tokens e aumenta a acurácia de execução, com foco na viabilização de modelos de linguagem (LLMs) compactos e de baixo custo computacional. A investigação partiu da premissa de que uma orquestração do processo de geração, combinando seleção semântica de contexto, validação estrutural e autoavaliação, poderia mitigar as limitações das abordagens existentes e tornar soluções de Text-to-SQL mais acessíveis, robustas e eficientes para cenários com recursos limitados.
A cultura corporativa orientada por dados impulsiona a necessidade de ferramentas que democratizem o acesso à informação. Decisões baseadas em dados são mais assertivas do que as baseadas em intuição (Hosen et al., 2024). Bancos de dados relacionais continuam a ser centrais para o armazenamento e análise de informações estruturadas, formando a base de sistemas de inteligência de negócios (Ionescu & Radu, 2024). No entanto, uma barreira técnica impede a exploração plena desses dados: a necessidade de proficiência em SQL. Muitos usuários de negócio não dominam a sintaxe e a lógica do SQL, criando um gargalo e dependência de equipes técnicas para a extração de insights (Katsogiannis-Meimarakis et al., 2023).
Para superar essa barreira, soluções de Text-to-SQL traduzem perguntas em linguagem natural em consultas SQL executáveis. A evolução do campo transitou de abordagens baseadas em regras para métodos de aprendizado profundo, como o uso de LLMs (Kanburoğlu & Tek, 2024). Apesar dos avanços, a aplicação prática enfrenta desafios. Um obstáculo principal é o elevado consumo de tokens ao lidar com bancos de dados de esquemas extensos; fornecer todo o esquema como contexto para um LLM é frequentemente inviável e custoso.
Essa ineficiência leva à dependência de modelos de grande porte (“frontier models”), que implicam alto custo computacional e financeiro, além de questões de privacidade e latência, tornando sua implementação local proibitiva. Adicionalmente, LLMs genéricos frequentemente geram consultas com erros de sintaxe ou incompatíveis com dialetos específicos de SQL (e. g., PostgreSQL, MySQL), exigindo correção manual. A incorporação de conhecimento de domínio, como regras de negócio, geralmente requer um processo caro de re-treinamento ou “fine-tuning”. A biblioteca LexiQL foi concebida para endereçar esses problemas, propondo uma abordagem que equilibra desempenho, custo e acessibilidade.
A hipótese central do desenvolvimento da LexiQL é que, em vez de depender da capacidade bruta de um LLM massivo, uma orquestração modular do fluxo de geração de consultas pode alcançar resultados superiores ou equivalentes com modelos menores. Essa orquestração integra introspecção de esquema, seleção semântica de contexto para minimizar a informação enviada ao modelo, construção de prompts minimalistas por dialeto, validação estrutural e um ciclo de autoavaliação com um “LLM-critic”. Com essa abordagem, a LexiQL se posiciona como uma solução intermediária, mais robusta que o “prompting” genérico e mais acessível que o “fine-tuning”, visando reduzir custos, ampliar a viabilidade de execução local e tornar modelos compactos e open-source competitivos.
O desenvolvimento da LexiQL seguiu uma metodologia de pesquisa aplicada, com implementação incremental e modular. O estudo combinou engenharia de software e pesquisa experimental para construir e validar uma solução prática. O projeto iniciou com uma análise de frameworks existentes para identificar lacunas relacionadas ao consumo de tokens, suporte a múltiplos dialetos de SQL e flexibilidade de integração com diferentes LLMs. Essa análise informou a definição da arquitetura da LexiQL, projetada para ser modular, separando responsabilidades em componentes independentes para facilitar a manutenção e extensão.
A arquitetura foi dividida em seis módulos principais: (i) conexão e introspecção, para extrair metadados de diversos SGBDs; (ii) gerenciamento e descrição de esquemas, que enriquece os metadados com descrições e os prepara para indexação; (iii) construtor de prompts, que monta dinamicamente as instruções para o LLM; (iv) orquestrador central, que gerencia o fluxo de geração; (v) validação e transpilação, que verifica a sintaxe e converte a consulta para o dialeto de destino; e (vi) sistema de coleta de feedback do usuário. A implementação foi realizada em Python, utilizando bibliotecas como SQLGlot para transpilação entre dialetos de SQL e ChromaDB como banco de dados vetorial para recuperação semântica de esquemas e feedback. A escolha por um banco vetorial alinha a LexiQL com arquiteturas de Geração Aumentada por Recuperação (RAG), eficazes em fornecer contexto relevante para LLMs (Lewis et al., 2020).
Um mecanismo central implementado foi a seleção semântica de contexto, baseada na geração de “embeddings” para nomes e descrições de tabelas e colunas. Quando um usuário submete uma pergunta, a biblioteca a converte em um vetor e realiza uma busca por similaridade no ChromaDB para identificar apenas os elementos do esquema mais relevantes. Essa filtragem reduz o volume de informações de contexto enviadas ao LLM, resultando em economia de tokens e permitindo que modelos com janelas de atenção menores operem em esquemas grandes. As decisões de projeto priorizaram a parcimônia de tokens, o reuso de contexto via cache e a compatibilidade com LLMs de diferentes capacidades.
Para a avaliação empírica, foi adotado o benchmark BIRD (Mini-Dev), um conjunto de dados reconhecido por sua complexidade e realismo. O BIRD inclui bancos de dados de grande porte, dados ruidosos e questões que exigem conhecimento externo, representando um desafio significativo (Li et al., 2024). A métrica principal foi a Acurácia de Execução (EX), que mede a porcentagem de consultas geradas cujos resultados correspondem exatamente aos resultados das consultas de referência. A EX é uma métrica robusta por avaliar a correção semântica e funcional da consulta. Os experimentos foram conduzidos de forma incremental, ativando progressivamente os componentes da LexiQL (seleção semântica, divisão de tarefas e autoavaliação) para isolar e quantificar o impacto de cada mecanismo.
Os resultados obtidos no benchmark BIRD (Mini-Dev) demonstram ganhos consistentes na Acurácia de Execução (EX) para todos os modelos testados, com a magnitude do impacto variando conforme a capacidade de cada modelo. A avaliação mediu o valor agregado pelos componentes da LexiQL — C1 (Seleção Semântica), C2 (Divisão de Tarefas) e C3 (Autoavaliação com LLM-critic) — em comparação com uma linha de base de prompt genérico. Modelos de ponta, como Claude-Sonnet-4 e Gemini-2.5-flash-lite, apresentaram ganhos significativos. O Claude-Sonnet-4 melhorou sua performance base de 52,8% para 56,8% com os componentes C1 e C2, um ganho de 4,0 pontos percentuais. O Gemini-2.5-flash-lite partiu de 56,4% e alcançou 63,0% com todos os componentes, um aumento de 6,6 pontos, superando o resultado do GPT-4 reportado no leaderboard oficial do BIRD (Qu et al., 2024).
O impacto da orquestração da LexiQL foi mais pronunciado nos modelos de menor porte, validando a hipótese central do trabalho. O GPT-5-mini, um modelo intermediário, saltou de uma linha de base de 36,8% para 48,0% de EX, um ganho absoluto de 11,2 pontos percentuais (melhoria relativa de quase 30%). Esse resultado eleva o GPT-5-mini a um nível competitivo próximo ao de modelos maiores, como o GPT-4-32k, demonstrando que a engenharia de prompt e a orquestração de fluxo podem compensar limitações de modelos com menos parâmetros. A arquitetura Transformer subjacente a esses modelos (Vaswani et al., 2017) se beneficia de um contexto focado, que a seleção semântica da LexiQL proporciona.
O resultado mais destacado foi o do Qwen3-4B-text-to-SQL, um modelo open-source com 4 bilhões de parâmetros, executado localmente. Partindo de 29,6%, este modelo alcançou 40,8% de acurácia com a LexiQL, um ganho de 11,2 pontos. Esse feito posiciona um modelo pequeno e de baixo custo em uma faixa de desempenho que se aproxima da de modelos proprietários de grande porte, como o Llama3-70b-instruct (40,8% no leaderboard oficial). Isso sugere que a orquestração da LexiQL pode reduzir o hiato de desempenho entre modelos compactos e “frontier LLMs”, viabilizando soluções de Text-to-SQL precisas, econômicas e passíveis de implantação local.
Um fator determinante para o sucesso do Qwen3-4B foi a gestão do contexto de entrada. Os esquemas do BIRD podem ultrapassar 20.000 tokens, excedendo a janela de atenção de 8192 tokens do modelo. Abordagens tradicionais falhariam. A LexiQL contorna essa limitação com sua estratégia de seleção semântica em múltiplas chamadas: primeiro, identifica tabelas relevantes; em seguida, detalha apenas as colunas dessas tabelas; e, por fim, instrui o modelo a gerar a consulta com base nesse contexto conciso. Esse mecanismo permitiu que o Qwen3-4B, executado localmente com quantização Q8, operasse de forma competitiva.
A análise categorial dos erros, realizada sobre as predições do Qwen3-4B, revelou padrões importantes. A categoria de erro predominante foi “Resposta Parcial” (153 casos), seguida por “Tabela/Coluna Incorreta” (71 casos), indicando falhas na vinculação semântica. Em contrapartida, erros estruturais como “Sintaxe SQL” (32 casos) e “Dialeto Incorreto” (22 casos) foram menos frequentes. Este padrão confirma a eficácia dos módulos de validação e transpilação da LexiQL, que utilizam o SQLGlot para corrigir a maioria dos problemas de sintaxe e dialeto.
A persistência de erros semânticos aponta para a principal área de melhoria futura: o aprimoramento da recuperação de contexto. A busca vetorial pode falhar em casos de alta ambiguidade ou quando o conhecimento de domínio não está explícito no esquema. Isso reforça a importância do módulo de coleta de feedback do usuário, que, a longo prazo, pode enriquecer o índice vetorial com exemplos e correções, adaptando o sistema ao domínio específico e reduzindo erros semânticos recorrentes. A discussão dos resultados evidencia que a LexiQL não apenas melhora a precisão, mas também amplia a aplicabilidade dos modelos, tornando a tecnologia de Text-to-SQL mais democrática.
Este trabalho apresentou o desenvolvimento e a avaliação da LexiQL, uma biblioteca open-source para geração de SQL a partir de linguagem natural, com design modular para otimizar eficiência e robustez. A arquitetura, que integra introspecção de esquemas, recuperação semântica, decomposição de tarefas, validação sintática e autoavaliação, demonstrou ser eficaz em melhorar o desempenho de LLMs no benchmark BIRD (Mini-Dev). Os experimentos revelaram ganhos consistentes na acurácia de execução (EX), com um impacto transformador em modelos compactos. O modelo open-source Qwen3-4B (4 bilhões de parâmetros) alcançou 40,8% de EX, aproximando-se do desempenho de modelos proprietários maiores, o que valida a abordagem de orquestração como alternativa ao uso exclusivo de “frontier models”.
A principal contribuição desta pesquisa é a demonstração de que modelos de linguagem menores podem se tornar competitivos em tarefas complexas como Text-to-SQL quando apoiados por uma estrutura de software bem projetada. Isso tem implicações para a adoção da tecnologia, pois reduz custos de inferência, aumenta a velocidade de resposta e viabiliza a implantação local, crucial para cenários com restrições de privacidade. A LexiQL contribui para o avanço da pesquisa e para a democratização de soluções de análise de dados acessíveis. Conclui-se que o objetivo foi atingido: demonstrou-se que a orquestração modular da biblioteca LexiQL melhora a acurácia de execução e viabiliza o uso competitivo de modelos de linguagem compactos na tarefa de Text-to-SQL.
Referências:
BIRD Benchmark. 2025. BIRD Benchmark – Leaderboard (Mini-Dev). Disponível em: <https://bird-bench. github. io>. Acesso em: 25 set. 2025.
Hosen, M. S.; Islam, R.; Naeem, Z.; Folorunso, E. O.; Chu, T. S.; Mamun, M. A. A.; Orunbon, N. O. 2024. Data-driven decision making: advanced database systems for business intelligence. Nanotechnology Perceptions 20 (3): 687-704.
Ionescu, S.-A.; Radu, A.-O. 2024. Assessment and integration of relational databases, big data, and cloud computing in financial institutions: performance comparison. In: International Conference on Innovations in Intelligent Systems and Applications [INISTA], 2024, Craiova, Dolj County, Romênia. Anais… p. 1-7.
Kanburoğlu, A. B.; Tek, F. B. 2024. Text-to-SQL: A methodical review of challenges and models. Turkish Journal of Electrical Engineering and Computer Sciences 32 (3): 403-419.
Katsogiannis-Meimarakis, G.; Xydas, M.; Koutrika, G. 2023. Data democratisation with deep learning: the anatomy of a natural language data interface. In: ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING [WSDM], 2023, Nova York, NY, Estados Unidos da América. Anais… p. 1260-1263.
Lewis, P.; Perez, E.; Piktus, A.; Petroni, F.; Karpukhin, V.; Goyal, N.; Küttler, H.; Lewis, M.; Yih, W.; Khandelwal, U.; Stenetorp, P.; Riedel, S.; Kiela, D. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In: Conference on Neural Information Processing Systems [NeurIPS], 2020, Vancouver, Canadá. Anais… p. 9459-9474.
Li, J.; Li, B.; Qin, B.; Ma, C.; Huo, N.; Cheng, R.; Sun, X. 2024. Can LLM already serve as a database interface? A big bench for large-scale database grounded Text-to-SQLs. In: Annual Meeting of the Association for Computational Linguistics [ACL], 2024, Bangkok, Tailândia. Anais… p. 1-16.
Qu, T.; Zhang, R.; Chen, Z.; Zhang, Y.; Li, Y.; Zhang, T.; Chen, H. 2024. Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation. In: International Conference on Very Large Data Bases [VLDB], 2024, Guangzhou, China. Anais… p. 1-15.
Spider 2.0 Benchmark. 2025. Spider 2.0-lite – Leaderboard. Disponível em: <https://spider2-sql. github. io>. Acesso em: 25 set. 2025.
Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, L.; Polosukhin, I. 2017. Attention is All you Need. In: Conference on Neural Information Processing Systems [NIPS], 2017, Long Beach, CA, Estados Unidos da América. Anais… p. 5998-6008.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:






































