05 de maio de 2026
IA Generativa na Engenharia de Requisitos de Software
Lucas Gabriel Ciomino Held; Eduardo Fernando Mendes
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A busca pela excelência na qualidade de sistemas de software tem impulsionado a indústria tecnológica a aprimorar continuamente seus processos operacionais, conferindo à Engenharia de Requisitos um papel de centralidade absoluta. Os requisitos funcionais e não funcionais ocupam uma posição estratégica no ciclo de vida de desenvolvimento, estando presentes desde a concepção inicial até a entrega final do produto (Mota, 2013). No entanto, a definição precisa dessas necessidades permanece como um dos maiores desafios da área, uma vez que falhas ou ambiguidades nesta etapa inicial representam as principais causas de retrabalho, atrasos cronológicos e insucesso em projetos de larga escala. A criticidade desta fase é amplamente reconhecida na literatura técnica, pois defeitos originados na especificação de requisitos são significativamente mais difíceis e onerosos de corrigir em fases posteriores do desenvolvimento (Boehm, 1981). A Engenharia de Requisitos atua, portanto, como uma ponte fundamental entre as necessidades dos stakeholders e a construção efetiva da solução técnica pelos desenvolvedores (Pressman; Maxim, 2016). O processo tradicional envolve atividades complexas de elicitação, análise, especificação e validação, exigindo uma comunicação impecável entre as partes interessadas (Sommerville, 2011). O maior obstáculo reside frequentemente na dificuldade de traduzir necessidades de negócio subjetivas em especificações técnicas claras, testáveis e desprovidas de ambiguidades. Diante desse cenário de alta complexidade e dependência de trabalho manual intensivo, a Inteligência Artificial (IA) surge como uma fronteira tecnológica promissora. O advento da Inteligência Artificial Generativa e, especificamente, dos Grandes Modelos de Linguagem (LLMs), oferece novas abordagens para otimizar processos intelectuais que antes eram exclusivamente humanos. Avanços em Aprendizado de Máquina e Processamento de Linguagem Natural permitiram a criação de ferramentas capazes de identificar padrões complexos, sugerir refatorações e até prever a probabilidade de defeitos em códigos-fonte. A tendência contemporânea aponta para o uso da IA como uma ferramenta de assistência que potencializa a capacidade analítica do engenheiro, auxiliando na compreensão de lógicas de negócio e na estruturação de dados (Nam et al., 2024). Os LLMs, baseados majoritariamente na arquitetura Transformer, demonstram uma capacidade notável de interpretar e gerar textos com fluidez similar à humana, mas sua eficácia está intrinsecamente ligada à qualidade das instruções fornecidas, prática denominada Engenharia de Prompts. Para tarefas especializadas, como a elaboração de requisitos, comandos genéricos mostram-se insuficientes, exigindo uma estruturação que mitigue problemas clássicos da engenharia, como a omissão de detalhes intrínsecos ao negócio. Estudos recentes exploram o uso dessas tecnologias na geração de cenários de teste e na criação de diagramas estruturados, indicando um potencial latente para traduzir linguagem natural em artefatos de software robustos (Sousa, 2025). O objetivo central desta análise reside no desenvolvimento e na avaliação de uma aplicação prática que utilize múltiplos modelos de IA para auxiliar analistas e desenvolvedores na formulação de requisitos funcionais de alta qualidade, garantindo consistência, agilidade e profundidade técnica.
A fundamentação metodológica deste estudo baseia-se em uma abordagem de estudo de caso, que permite uma investigação profunda e exaustiva sobre o objeto de análise (Gil, 2008). O processo operacional foi estruturado em três fases distintas e complementares: o desenvolvimento de um protótipo funcional, a execução de testes controlados em cenários de complexidade variável e a condução de uma pesquisa de validação com profissionais atuantes no mercado de tecnologia. Na primeira fase, concebeu-se uma aplicação web utilizando tecnologias modernas de front-end, com uma arquitetura projetada para integração direta via interface de programação de aplicações (API) com três modelos de linguagem distintos. Os modelos selecionados foram o Llama 3.1, operado através da infraestrutura Groq para garantir alta velocidade de processamento; o Gemini 1.5, desenvolvido pela Google; e o Mistral Small, da Mistral AI. A interface do sistema foi desenhada para permitir que o usuário insira uma descrição simplificada de uma funcionalidade em linguagem natural e receba, de forma comparativa e simultânea, os requisitos gerados por cada uma das inteligências artificiais. A segunda fase metodológica consistiu na aplicação de testes controlados em três cenários específicos que simulam demandas reais do cotidiano de desenvolvimento de software. O primeiro cenário, de baixa complexidade, focou em uma tela de login padrão. O segundo, de complexidade moderada, abordou as funcionalidades de um carrinho de compras para e-commerce. O terceiro cenário, de alta complexidade, exigiu a geração de requisitos para um relatório de vendas mensal em formato PDF com restrições de acesso e regras de negócio específicas. Para cada um desses cenários, coletaram-se dados quantitativos referentes ao tempo de resposta de cada modelo, medido em segundos, e dados qualitativos baseados na completude, clareza e utilidade dos requisitos gerados. A terceira fase envolveu a aplicação de uma pesquisa quali-quantitativa por meio de um questionário estruturado, respondido por 10 profissionais da área de tecnologia. A amostra foi composta por seis desenvolvedores de software, dois analistas de qualidade (QA), um gerente de entrega e um designer de interface e experiência do usuário (UI/UX), com tempos de experiência variando entre zero e mais de 10 anos. O instrumento de coleta utilizou uma escala Likert de cinco pontos para mensurar a percepção de usabilidade, eficácia e valor agregado da ferramenta. A análise seguiu princípios de experimentação rigorosa em engenharia de software para garantir a validade dos achados (Wohlin et al., 2012). O detalhamento operacional incluiu a análise de requisitos funcionais explícitos, requisitos não funcionais e, crucialmente, requisitos implícitos, que são aqueles que o sistema deve possuir mas que frequentemente não são mencionados pelos stakeholders durante a elicitação inicial.
Os resultados obtidos no primeiro cenário de teste, referente à tela de login, revelaram disparidades significativas na performance e na abordagem de cada modelo. O modelo operado via Groq apresentou o menor tempo de resposta, concluindo a geração em apenas 2.7 segundos. Em contrapartida, o modelo da Google demandou 7.32 segundos, enquanto o modelo da Mistral levou 17.43 segundos para finalizar a tarefa. Apesar da rapidez, observou-se que o modelo mais veloz tendeu a tomar decisões de implementação prematuras, sugerindo tecnologias específicas antes mesmo da consolidação dos requisitos. O modelo da Google destacou-se pela organização didática, inferindo corretamente a necessidade de um sistema de gerenciamento de sessão, um requisito implícito vital para a segurança. O modelo da Mistral, embora mais lento, foi o mais exaustivo na identificação de requisitos implícitos, como a necessidade de logs de acesso para auditoria. No detalhamento dos requisitos funcionais para este cenário, as ferramentas geraram especificações para o acesso à tela, autenticação com e-mail e senha, links para recuperação de credenciais e a opção de persistência de login. No âmbito dos requisitos não funcionais, foram estabelecidos critérios de usabilidade, determinando que a interface deve ser intuitiva, e de desempenho, estipulando que o tempo de resposta da autenticação não deve ultrapassar dois segundos. A segurança foi um ponto convergente, com a exigência de armazenamento criptografado de senhas e proteção contra ataques de força bruta. Os requisitos implícitos gerados incluíram o tratamento robusto de erros, a validação de formato de e-mail e a limitação de tentativas de login, demonstrando que a IA pode preencher lacunas críticas que muitas vezes escapam ao analista humano (Sommerville, 2011).
No segundo cenário, que envolveu a funcionalidade de um carrinho de compras, a complexidade foi elevada para testar a capacidade de raciocínio lógico sobre processos de negócio interconectados. Os tempos de resposta mantiveram uma hierarquia similar, com o primeiro modelo registrando 2.39 segundos, o segundo 17.42 segundos e o terceiro 11.26 segundos. Neste contexto, as diferenças na profundidade das inferências tornaram-se ainda mais evidentes. O modelo da Google e o da Mistral demonstraram uma compreensão superior do domínio de e-commerce, detalhando a necessidade de validação para cupons de desconto e a integração com sistemas de cálculo de frete baseados no código de endereçamento postal (CEP). O modelo da Google foi o único a sugerir funcionalidades adjacentes essenciais, como a visualização detalhada de itens com imagens e a atualização automática de subtotais. Já o modelo da Mistral trouxe como diferencial a sugestão de compatibilidade com dispositivos móveis, um requisito de alto impacto na experiência do usuário contemporânea. Os requisitos funcionais gerados abrangeram desde a adição e remoção de produtos até o cálculo total da compra. Nos requisitos não funcionais, enfatizou-se a confiabilidade do sistema, exigindo uma disponibilidade de 99,9% do tempo para evitar perdas financeiras durante o processo de venda. Os requisitos implícitos abordaram a persistência dos dados do carrinho mesmo após o fechamento do navegador e a necessidade de integração com sistemas de gestão de estoque para verificar a disponibilidade de produtos em tempo real. Esta capacidade de inferência reforça a premissa de que os LLMs podem atuar como assistentes inteligentes na identificação de lacunas de negócio (Pressman; Maxim, 2016).
O terceiro cenário, focado na geração de um relatório de vendas mensal em PDF, testou a habilidade dos modelos em lidar com regras de acesso e formatos de saída específicos. O modelo mais rápido processou a solicitação em 1.94 segundos, enquanto os demais levaram 6.94 e 11.58 segundos, respectivamente. O modelo da Groq, apesar da agilidade, entregou requisitos implícitos genéricos, como suporte a multilíngue, que possuíam baixa relevância para a tarefa específica solicitada. Em oposição, o modelo da Google demonstrou um raciocínio pragmático ao inferir a necessidade de um banco de dados estruturado e de um módulo de autenticação robusto para garantir que apenas administradores acessassem os dados sensíveis. O modelo da Mistral adotou uma perspectiva orientada ao produto, sugerindo o armazenamento de relatórios para consultas futuras e a personalização do layout com a identidade visual da empresa. Os requisitos funcionais detalharam a geração do documento com o total de vendas, número de pedidos e a lista dos 10 produtos mais vendidos. Nos requisitos não funcionais, estabeleceu-se que o relatório deve ser gerado em um tempo razoável, inferior a 10 segundos, mesmo com grandes volumes de dados. Os requisitos implícitos incluíram a validação de permissões de usuário e a notificação de conclusão do processamento, elementos fundamentais para a operabilidade do sistema em um ambiente corporativo.
A análise dos dados coletados na pesquisa com profissionais de mercado corroborou a eficácia da solução proposta. A recepção foi amplamente positiva, com 100% dos participantes concordando que a interface da ferramenta é intuitiva e fácil de operar. No que tange à eficácia na tarefa principal, 80% dos respondentes concordaram totalmente que a geração de requisitos foi simplificada pelo uso da aplicação. A qualidade do texto gerado recebeu uma nota média de 4.4 em uma escala de cinco pontos, evidenciando que a estrutura fornecida pela IA é tecnicamente sólida. Um dos pontos de maior destaque foi a capacidade da ferramenta de gerar requisitos implícitos, percepção validada positivamente por todos os participantes. O impacto no processo de trabalho foi o indicador com resultados mais expressivos: 100% dos profissionais afirmaram que a ferramenta pode acelerar significativamente o levantamento de requisitos e que se sentiriam confortáveis em utilizá-la em suas rotinas diárias. Na comparação com os métodos de trabalho atuais, 60% classificaram a aplicação como “Melhor” e 40% como “Muito Melhor”. Na análise qualitativa das respostas abertas, a agilidade e a funcionalidade de comparação simultânea entre diferentes modelos de IA foram citadas como os principais diferenciais competitivos. Os participantes destacaram que a ferramenta ajuda a aprofundar a análise técnica e fornece uma estrutura padronizada que reduz a subjetividade humana. Entretanto, foram identificadas oportunidades de melhoria, principalmente no que diz respeito à experiência do usuário em dispositivos móveis e à necessidade de funcionalidades de edição iterativa, que permitiriam ajustar requisitos pontuais sem a necessidade de uma nova geração completa. O risco de a IA “inventar” requisitos fora do escopo, fenômeno conhecido como alucinação, foi apontado como o principal ponto de atenção, reforçando a necessidade de uma curadoria humana atenta e especializada.
A discussão dos resultados indica que a utilização de LLMs na Engenharia de Requisitos não deve ser vista como uma substituição do analista, mas como uma simbiose tecnológica que potencializa a produtividade. A diversidade de respostas entre os modelos Groq, Gemini e Mistral sugere que a escolha da ferramenta ideal depende do equilíbrio desejado entre velocidade de processamento e profundidade analítica. Em cenários de baixa complexidade, a velocidade pode ser o fator determinante, enquanto em sistemas complexos, a capacidade de inferir requisitos implícitos e regras de negócio ocultas torna-se o maior valor agregado. A validação contundente por parte dos profissionais de mercado demonstra que a indústria está ávida por soluções que mitiguem o trabalho manual e repetitivo na fase de especificação. A percepção de que a ferramenta acelera o processo de trabalho está alinhada com as tendências observadas na literatura, que apontam para uma redução drástica no tempo de ciclo de desenvolvimento quando a IA é integrada de forma assistida (Nam et al., 2024). A necessidade de curadoria humana, ressaltada pelos participantes, é um lembrete crítico de que a responsabilidade final pela validação dos requisitos permanece com o engenheiro de software, garantindo que as alucinações da IA não comprometam a integridade do sistema. A inclusão de critérios de aceite e a geração automática de casos de teste a partir dos requisitos foram sugeridas como evoluções naturais para a ferramenta, o que permitiria uma integração ainda mais profunda com o ciclo de vida de desenvolvimento (Sousa, 2025). Este estudo demonstra que o diferencial competitivo no desenvolvimento de software está se deslocando da simples geração de conteúdo para a capacidade de orquestrar, comparar e validar múltiplas perspectivas geradas por inteligências artificiais distintas.
Conclui-se que o objetivo foi atingido, uma vez que o protótipo desenvolvido demonstrou ser capaz de gerar requisitos funcionais, não funcionais e implícitos de alta qualidade, superando a percepção de valor dos métodos tradicionais de trabalho manual. A análise comparativa entre os modelos Groq, Gemini e Mistral revelou que, embora existam variações significativas em termos de velocidade e profundidade de inferência, a integração de múltiplas IAs em uma interface única proporciona uma visão mais holística e segura para o analista de sistemas. A pesquisa com profissionais validou a hipótese de que a ferramenta acelera o processo de elicitação e melhora a estrutura dos artefatos gerados, embora a supervisão humana permaneça indispensável para mitigar riscos de inconsistências técnicas. O estudo contribui para a área de Engenharia de Software ao mapear o potencial e as limitações das tecnologias de linguagem generativa, oferecendo um caminho prático para a modernização de uma das fases mais críticas e sensíveis do desenvolvimento de sistemas. Sugere-se que pesquisas futuras explorem a integração direta dessas ferramentas com plataformas de gerenciamento de projetos e a implementação de sistemas de edição iterativa para refinar ainda mais a precisão dos requisitos gerados.
Referências Bibliográficas:
BOEHM, B. W. Software engineering economics. Englewood Cliffs: Prentice-Hall, 1981.
GIL, A. C. Como elaborar projetos de pesquisa. 4. ed. São Paulo: Atlas, 2008.
MOTA, L. S. Uma Abordagem para Especificação de Requisitos Funcionais de Ubiquidade em Projetos de Software. 2013. Dissertação (Mestrado em Engenharia de Sistemas e Computação) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro, 2013.
NAM, D. et al. Using an LLM to help with code understanding. In: INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING (ICSE), 46., 2024, Lisboa, Portugal. Anais… New York: ACM, 2024. p. 1-13.
PRESSMAN, R. S.; MAXIM, B. R. Engenharia de Software: Uma Abordagem Profissional. 8. ed. Porto Alegre: AMGH, 2016.
SOMMERVILLE, I. Engenharia de Software. 9. ed. São Paulo: Pearson Prentice Hall, 2011.
SOUSA, H.N.F. Um experimento comparativo da eficácia de diferentes LLM na geração de cenários Gherkin. 2025. Dissertação (Mestrado em Computação) – Universidade Federal de Campina Grande, Campina Grande, 2025.
WOHLIN, C. et al. Experimentation in Software Engineering. Berlin: Springer, 2012.
Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Engenharia de Software do MBA USP/Esalq
Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy




























