11 de maio de 2026
IA na Padronização de Gherkin para Qualidade e Eficiência em BDD
Milena Alves Fodra; Adriana Lopes Damian
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O desenvolvimento de software passou, nas últimas décadas, por profundas transformações que impactaram diretamente a forma como sistemas são concebidos, implementados e validados. O avanço das metodologias ágeis representou uma dessas mudanças significativas, ao substituir práticas rígidas e documentações extensas por ciclos curtos de entrega, colaboração intensa entre equipes multidisciplinares e adaptação contínua às necessidades dos clientes. Nesse contexto, a busca por qualidade, rastreabilidade e alinhamento com os requisitos de negócio torna-se central, uma vez que a rapidez das entregas não pode comprometer a confiabilidade dos sistemas. Entre as práticas que emergem nesse cenário, destaca-se o Behavior-Driven Development, proposto por North (2006), que incorpora uma camada semântica mais próxima da linguagem de negócio, possibilitando que não apenas desenvolvedores, mas também analistas e partes interessadas participem ativamente da definição dos requisitos. Essa abordagem transforma os testes em uma forma de documentação viva, escrita de maneira acessível e estruturada.
O Behavior-Driven Development é frequentemente implementado com o uso da linguagem Gherkin, que organiza os cenários de teste em estruturas simples, baseadas em palavras-chave como Dado, Quando e Então. Essa sintaxe, inspirada na linguagem natural, favorece a comunicação entre perfis técnicos e não técnicos, além de permitir que os cenários escritos sejam diretamente utilizados como base para automação de testes de aceitação (Smart, 2014). Dessa forma, cada cenário cumpre um papel duplo de documentação e de especificação executável, reduzindo ambiguidades e fortalecendo a rastreabilidade entre requisitos de negócio e implementação. No entanto, com o crescimento do sistema e da base de testes nos projetos, surgem problemas de duplicidade de cenários, divergências na escrita e inconsistências, que afetam não apenas a clareza da documentação, mas também a eficiência da automação, já que métodos redundantes são gerados e mantidos ao longo do tempo (Costa, Oliveira & Pereira, 2016). A ausência de uma padronização formal agrava o problema, pois, embora existam boas práticas difundidas pela comunidade, como as recomendações oficiais do Cucumber Docs (2025), não há um consenso universal que assegure uniformidade entre diferentes equipes ou projetos. Esse cenário resulta em maior custo de manutenção, menor legibilidade e dificuldades no reuso de passos, comprometendo a coesão dos testes.
Diante desse desafio, diferentes abordagens exploram alternativas com o intuito de reduzir redundâncias e melhorar a clareza dos cenários. Entre elas, ganha destaque a adoção de inteligência artificial, especialmente técnicas de Processamento de Linguagem Natural, aplicadas à análise de cenários e à sugestão de padronizações. Trabalhos recentes em engenharia de software têm evidenciado que a inteligência artificial passou a desempenhar papel central na automação de tarefas repetitivas, na detecção precoce de defeitos e na geração automática de documentação (Zhao et al., 2020). Aplicada ao contexto do Behavior-Driven Development, essas tecnologias têm potencial para garantir maior consistência, reduzir duplicidade e facilitar a automação. Embora haja avanços expressivos no uso de inteligência artificial para apoio ao desenvolvimento ágil, nota-se que a aplicação direta dessa tecnologia na escrita de cenários Gherkin ainda é incipiente. A maior parte das pesquisas concentra-se em testes automatizados em geral ou em processos de geração de código, mas carece de investigações focadas na padronização da linguagem comportamental. Assim, torna-se necessário avaliar o impacto da padronização da escrita de cenários Gherkin, apoiada por técnicas de inteligência artificial, em ambientes ágeis, visando reduzir problemas recorrentes como duplicidade, inconsistências e ambiguidades.
A metodologia adotada enquadra-se como uma pesquisa aplicada, exploratória e descritiva, com abordagens qualitativa e quantitativa (Gil, 2002). O processo foi estruturado em quatro etapas principais, iniciando-se por uma revisão bibliográfica detalhada em artigos, documentações oficiais e guias de boas práticas. Entre as fontes consultadas, destacam-se a documentação oficial do Cucumber Docs (2025) e guias reconhecidos pela comunidade técnica (Knight, 2017; De Sousa, 2022). Essa etapa serviu de base para a sistematização de um conjunto de diretrizes voltadas à padronização da escrita de cenários, com foco na clareza, consistência e reutilização. As recomendações compiladas incluíram o uso da voz impessoal, priorizando a escrita em terceira pessoa para evitar subjetividades. Além disso, estabeleceu-se a adoção de uma abordagem declarativa em vez de imperativa, garantindo que os cenários descrevam comportamentos esperados do sistema sem detalhar excessivamente instruções de execução, como cliques em botões específicos. Outra diretriz crítica foi a limitação da extensão dos cenários a, no máximo, 10 passos, favorecendo a legibilidade e a manutenção. A identificação e o reuso de passos comuns também foram priorizados, orientando que ações recorrentes sejam padronizadas e reutilizadas em diferentes contextos.
A segunda etapa consistiu na proposta e desenvolvimento de uma solução tecnológica para apoiar a padronização. Para isso, adotou-se o modelo de linguagem Mistral 7B, escolhido por ser uma opção de código aberto disponível para uso comercial e por apresentar baixa demanda de hardware. Essa característica viabiliza a execução local em ambientes corporativos, garantindo a privacidade dos dados sem a necessidade de exposição a serviços em nuvem. O modelo passou por um processo de ajuste fino com base nas melhores práticas documentadas, assegurando maior aderência ao domínio específico de testes. A inteligência artificial foi empregada como recurso de apoio metodológico para auxiliar na avaliação e otimização da escrita dos cenários, permitindo transformar descrições genéricas em estruturas padronizadas. Por exemplo, uma descrição manual que detalhasse cada clique e preenchimento de campo seria convertida pela ferramenta em um cenário focado no comportamento de negócio, utilizando termos padronizados e reutilizáveis.
A terceira etapa envolveu a avaliação experimental da proposta por meio de um questionário estruturado direcionado a profissionais de tecnologia. A amostra foi composta por 21 participantes com diferentes níveis de experiência em testes e automação, sendo que 66,7% possuíam mais de cinco anos de atuação na área. O instrumento de coleta de dados buscou mensurar a percepção dos profissionais quanto à clareza dos cenários, aderência às boas práticas e facilidade de automação. Os participantes realizaram atividades práticas, como redigir manualmente cenários a partir de descrições fornecidas e avaliar cenários já padronizados pela solução proposta. O ambiente controlado utilizou a plataforma SauceDemo para a simulação dos casos de teste, garantindo que todos os respondentes trabalhassem sobre a mesma base funcional.
A quarta etapa da metodologia focou em experimentos práticos com casos reais, aplicando a inteligência artificial a um conjunto de 92 cenários de teste oriundos de uma organização multinacional do setor de pagamentos digitais. O objetivo foi otimizar a padronização desses casos e mensurar os resultados por meio de duas métricas principais: a redução de cenários redundantes e a taxa de automação bem-sucedida. A redução de redundância foi calculada pela proporção de casos eliminados após a padronização, enquanto a taxa de automação foi definida pela proporção de cenários que apresentavam dois ou mais passos já existentes no repositório de automação. Complementarmente, foram conduzidas entrevistas semiestruturadas para captar percepções qualitativas sobre a curva de aprendizado e a aplicabilidade do novo padrão no cotidiano das equipes de Garantia de Qualidade.
Os resultados quantitativos demonstraram impactos significativos da padronização. Inicialmente, os 92 cenários avaliados continham 21 casos que apresentavam duplicidade em relação a outros já existentes, seja por variações na forma de escrita ou pela escolha de sinônimos para descrever o mesmo comportamento. Após a aplicação das diretrizes de padronização e o suporte da ferramenta, esse número foi reduzido para 71 cenários únicos, o que representa uma eliminação de 22,8% de redundâncias. Esse dado confirma as observações de Costa, Oliveira & Pereira (2016) sobre a duplicidade ser um dos principais fatores de ineficiência em repositórios de testes. A redução de quase um quarto do volume de cenários impacta diretamente o esforço de manutenção, pois diminui a quantidade de scripts que precisam ser atualizados quando uma funcionalidade do sistema sofre alterações.
Outro ganho relevante foi identificado na taxa de reaproveitamento para automação. Dos 71 cenários finais, 77,1% possuíam ao menos dois passos já implementados no código de automação. Esse fator acelera consideravelmente o processo de desenvolvimento de testes, pois reduz o esforço necessário para criar scripts do zero e mitiga inconsistências geradas por variações de escrita entre diferentes autores. Essa evidência converge com as recomendações de Automation Panda (2017), que enfatiza a importância da reutilização de passos como forma de aumentar a produtividade e reduzir o retrabalho. A análise detalhada da distribuição dos cenários mostrou que a maioria dos registros padronizados concentrava-se na faixa de dois a três passos já automatizados, demonstrando uma maturidade elevada do repositório após a intervenção.
A análise qualitativa, obtida por meio das entrevistas e do questionário, revelou que 80% dos respondentes perceberam um aumento na clareza dos cenários padronizados. Os profissionais destacaram que a uniformidade facilitou a interpretação das especificações, especialmente quando os textos eram lidos por membros da equipe que não participaram da escrita original. A facilidade de inserção de novos integrantes na equipe de automação também foi citada como um benefício direto, uma vez que o reuso de passos conhecidos diminui a curva de adaptação ao projeto. A confiança na execução dos testes aumentou, pois a consistência dos termos utilizados minimiza falhas decorrentes de descrições divergentes que poderiam levar a interpretações errôneas do comportamento do sistema.
Apesar dos benefícios, os participantes apontaram desafios iniciais, como a curva de aprendizado necessária para se adaptar ao novo padrão de escrita e o risco de um possível engessamento em casos onde exceções de negócio exigissem maior flexibilidade narrativa. No entanto, a percepção geral reforçou o papel do Gherkin como documentação viva, conforme defendido por North (2006), ao possibilitar que os cenários sirvam simultaneamente como especificação de negócio e artefato de teste. A integração dos resultados quantitativos e qualitativos evidenciou uma coerência clara: a redução da duplicidade refletiu diretamente na maior clareza relatada, e a alta taxa de automação bem-sucedida esteve associada ao aumento da confiança da equipe no processo de Garantia de Qualidade.
A discussão dos dados sugere que a padronização permitiu maior previsibilidade no processo de testes, embora exija atenção constante para equilibrar o rigor normativo com a flexibilidade necessária ao dinamismo ágil. O dilema entre padronização e flexibilidade é um tema recorrente na literatura de engenharia de software (Smart, 2014). Os resultados deste estudo sugerem que a adoção de diretrizes claras, como o uso de Backgrounds para centralizar pré-condições repetitivas e a limitação da extensão dos cenários, contribui para reduzir custos de manutenção e aumentar a legibilidade. A inclusão de exemplos concretos nos cenários também foi valorizada por reforçar a rastreabilidade entre os requisitos de negócio e os testes, aproximando a documentação técnica da realidade dos usuários finais.
Algumas limitações devem ser consideradas na interpretação desses achados. Por se tratar de um estudo com cenários reais de uma organização, os dados foram anonimizados, o que pode limitar auditorias externas detalhadas sobre a natureza específica das funcionalidades testadas. Além disso, a amostra de 21 profissionais, embora qualificada, representa um recorte específico que pode não refletir a totalidade das variações encontradas em diferentes setores da indústria de software. O tempo de observação de seis meses permitiu identificar ganhos imediatos e de médio prazo, mas a sustentabilidade desses benefícios no longo prazo requer estudos longitudinais adicionais.
Como perspectivas futuras, recomenda-se expandir a aplicação da padronização para múltiplos projetos simultâneos, permitindo avaliar a escalabilidade das diretrizes em organizações de grande porte. A comparação entre equipes que utilizam o suporte de inteligência artificial para padronização e equipes que realizam o processo de forma puramente manual poderia fornecer dados ainda mais robustos sobre o ganho de produtividade. Além disso, o monitoramento de métricas de negócio, como o tempo médio de entrega e o número de defeitos que chegam ao ambiente de produção, consolidaria a visão do Behavior-Driven Development padronizado como uma ferramenta de valor estratégico para a gestão da qualidade. A integração de técnicas de Processamento de Linguagem Natural para a geração automática de sugestões de passos reutilizáveis durante a escrita é outro caminho promissor para reduzir a carga cognitiva dos testadores (Mohan & Grechanik, 2021).
Conclui-se que o objetivo foi atingido, uma vez que a padronização de cenários em Behavior-Driven Development demonstrou ser uma estratégia eficaz para aprimorar a governança do processo de Garantia de Qualidade, resultando em uma redução de 22,8% na duplicidade de testes e um aumento significativo na clareza percebida pelas equipes. A aplicação de diretrizes rigorosas, aliada ao suporte tecnológico de modelos de linguagem, favoreceu a produtividade e a confiabilidade dos artefatos de teste, consolidando a linguagem Gherkin como uma documentação viva e eficiente. O estudo evidenciou que a uniformidade na escrita não apenas facilita a automação, mas também fortalece a comunicação entre os envolvidos no ciclo de desenvolvimento, reduzindo ambiguidades e custos de manutenção. Recomenda-se que equipes ágeis adotem um conjunto mínimo de diretrizes, como o uso de voz impessoal e foco declarativo, expandindo gradualmente para práticas mais avançadas de reuso e suporte por inteligência artificial para maximizar os ganhos de qualidade e eficiência operacional.
Referências Bibliográficas:
Automation Panda. 2017. BDD 101: Introduction to Behavior-Driven Development. Disponível em: https://automationpanda.com/bdd/.
Costa, R. A.; Oliveira, J. C.; Pereira, M. F. 2016. Estratégias para redução de redundância em repositórios de testes automatizados. Revista de Sistemas e Computação, 6(2):45–59.
Cucumber Docs. 2025. Cucumber Documentation. Disponível em: https://cucumber.io/docs.
De Sousa, D. 2022. Padrões de Testes Automatizados e Boas Práticas. Disponível em: https://github.com/desousa/automation-testing-best-practices.
Gil, A. C. 2002. Como elaborar projetos de pesquisa. 4. ed. São Paulo: Atlas.
Knight, M. 2017. Automation Panda: BDD 101: Introduction to Behavior-Driven Development. Disponível em: https://automationpanda.com/bdd/.
Mohan, N.; Grechanik, M. 2021. On using deep learning for generating test cases from natural language requirements. Proceedings of ICSE.
North, D. 2006. Introducing BDD. Better Software Magazine, Março:29–34.
Smart, J. F. 2014. BDD in Action: Behavior-Driven Development for the Whole Software Lifecycle. Manning Publications.
Zhao, Y., et al. 2020. Leveraging NLP for automated software testing: A systematic mapping study. Journal of Systems and Software, 169, 110697.
Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Engenharia de Software do MBA USP/Esalq
Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy




























