Resumo Executivo

14 de abril de 2026

Machine learning na predição de atrasos em sprints ágeis

Daniela de Carvalho Aprodu; Everton Gomade

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A estimativa de tempo para tarefas de desenvolvimento de software constitui um dos desafios mais persistentes e complexos na gestão de projetos modernos, especialmente dentro de frameworks ágeis como Scrum e Kanban. A natureza dinâmica do setor de tecnologia da informação exige uma previsibilidade que, frequentemente, esbarra na incerteza intrínseca à criação de sistemas complexos. Frequentemente, as previsões estabelecidas durante as sessões de planejamento de sprints divergem de maneira acentuada do tempo real necessário para a conclusão das atividades, o que gera uma cascata de consequências negativas para as organizações. Essa discrepância sistemática resulta em cobranças excessivas sobre as equipes de desenvolvimento, degradação da qualidade técnica do código devido à pressa e um comprometimento severo da eficiência operacional do time (McConnell, 2006). A dificuldade em prever prazos não é apenas uma falha técnica, mas um fenômeno psicológico e organizacional documentado. Segundo a Lei de Hofstadter, as tarefas sempre levam mais tempo do que o esperado, mesmo quando se leva em conta a própria lei (Hofstadter, 1979). Esse conceito sugere que a complexidade oculta e os imprevistos técnicos são inerentes ao processo criativo do software, tornando as margens de segurança tradicionais muitas vezes insuficientes diante de mudanças de escopo ou obstáculos imprevistos.

A gestão de projetos é ainda mais dificultada pela Lei de Parkinson, que postula que o trabalho se expande de modo a preencher o tempo disponível para sua conclusão (Parkinson, 1955). Em ambientes de desenvolvimento, isso pode se manifestar como uma falsa sensação de controle que leva a ineficiências operacionais. Complementarmente, o fenômeno conhecido como Bike Shedding descreve a tendência de equipes dedicarem uma atenção desproporcional a problemas triviais e de fácil compreensão, enquanto questões críticas e altamente complexas são subestimadas ou negligenciadas durante o planejamento (Parkinson, 1957). Essas distorções cognitivas são amplificadas pela falácia do planejamento, onde existe uma tendência sistemática ao otimismo exagerado, ignorando-se o histórico de desempenhos anteriores em favor de cenários ideais (Kahneman, 2011). Diante dessa realidade, a aplicação de técnicas de inteligência artificial e aprendizado de máquina surge como uma alternativa robusta para mitigar vieses humanos e fornecer uma base analítica para a tomada de decisão. Modelos preditivos possuem a capacidade de identificar padrões sutis em grandes volumes de dados históricos de sprints, correlacionando variáveis como a senioridade dos profissionais, a complexidade técnica das tarefas e as dependências externas para gerar previsões mais realistas (Vasilescu et al., 2015). A automação desse processo de análise não apenas aumenta a precisão, mas também reduz a carga cognitiva dos gestores, permitindo ajustes dinâmicos no planejamento das entregas.

O desenvolvimento de um modelo de classificação e regressão baseado em aprendizado de máquina visa prever a probabilidade de atrasos e sugerir prazos mais precisos para tarefas de software. Para a construção dessa solução, utilizou-se uma abordagem metodológica rigorosa, fundamentada em dados reais extraídos de uma coordenadoria de tecnologia da informação. O conjunto de dados compreende registros de tarefas desenvolvidas em um período de cinco meses, entre janeiro de 2025 e maio de 2025. A coleta de dados foi realizada a partir de planilhas operacionais que detalham o ciclo de vida de cada tarefa concluída por diversos desenvolvedores da unidade. As variáveis selecionadas para o estudo incluem o status da tarefa, a identificação do responsável, o nível de senioridade do profissional, a pontuação de complexidade baseada em critérios técnicos, os story points atribuídos pelo desenvolvedor e a duração estimada original. Esta última foi registrada em um formato categórico variando de PP, P, M, G até GG, representando escalas crescentes de esforço previsto. Além disso, foram coletados dados sobre a duração de impedimentos, os motivos que levaram ao bloqueio das tarefas e as datas exatas de abertura e finalização de cada item de trabalho.

O processo de preparação dos dados foi uma etapa crítica para garantir a integridade das análises subsequentes. Inicialmente, realizou-se a limpeza e padronização dos registros para permitir a aplicação dos algoritmos. As colunas referentes às datas de abertura e conclusão foram convertidas para o formato de data e hora, o que permitiu o cálculo exato da duração real de cada tarefa em dias corridos. A variável categórica de duração estimada foi transformada em uma escala numérica para facilitar o processamento matemático, onde o valor 01 foi atribuído ao tamanho PP, 02 ao P, 03 ao M, 04 ao G e 05 ao tamanho GG. Para lidar com variáveis qualitativas, como o nome do responsável, o motivo do impedimento e a equipe de desenvolvimento, aplicou-se a técnica de codificação de etiquetas, transformando categorias textuais em representações numéricas únicas. As variáveis numéricas passaram por um processo de normalização utilizando o escalonamento padrão, garantindo que características com diferentes ordens de grandeza não distorcessem o aprendizado do modelo. Essa etapa assegura que a média de cada atributo seja zero e o desvio padrão seja um, promovendo uma convergência mais estável durante o treinamento dos algoritmos.

A estratégia de modelagem envolveu duas frentes principais de atuação. A primeira consistiu em uma abordagem de classificação binária, cujo objetivo era prever se uma determinada tarefa seria entregue com atraso ou dentro do prazo estipulado. O alvo dessa classificação foi definido pela comparação direta entre a duração real observada e a duração estimada inicialmente; sempre que o tempo real excedia a estimativa, o registro era marcado como um evento de atraso. Para essa tarefa, empregou-se o algoritmo de floresta aleatória para classificação, escolhido por sua robustez e capacidade de lidar com relações não lineares entre as variáveis. A segunda frente focou na regressão, buscando prever a quantidade exata de dias que uma tarefa levaria para ser concluída. O modelo de floresta aleatória para regressão foi utilizado para sugerir estimativas de prazo que estivessem mais próximas da realidade histórica da equipe, servindo como uma ferramenta de apoio ao planejamento. A avaliação do desempenho dos modelos foi conduzida através de métricas consagradas na literatura científica. Para a classificação, analisou-se a acurácia global e a matriz de confusão. Para a regressão, os indicadores utilizados foram o erro médio absoluto, o erro quadrático médio e o coeficiente de determinação, que mede a proporção da variância dos dados explicada pelo modelo.

Todo o ambiente de desenvolvimento foi estruturado na linguagem de programação Python, versão 3.11, utilizando o ecossistema de bibliotecas científicas composto por pandas para manipulação de dados, numpy para operações matemáticas, scikit-learn para a implementação dos algoritmos de aprendizado de máquina, e as ferramentas matplotlib e seaborn para a geração de visualizações analíticas. O processamento ocorreu no ambiente de nuvem Google Colab, que oferece os recursos computacionais necessários para o treinamento dos modelos. Além da construção dos algoritmos, foram geradas análises visuais para compreender a importância relativa de cada variável na predição, a distribuição dos erros entre o que foi estimado e o que foi efetivamente entregue, e a variação média entre o prazo previsto e o real para cada nível de pontuação de complexidade. Do ponto de vista ético, todos os dados foram tratados com rigoroso sigilo, garantindo o anonimato dos profissionais envolvidos e a confidencialidade das informações corporativas, em total conformidade com as normas de ética em pesquisa que regem o tratamento de dados humanos e organizacionais.

Os resultados obtidos a partir da implementação do modelo revelaram um cenário desafiador no que tange à previsibilidade das tarefas de software. O modelo de regressão apresentou um erro médio absoluto de 9,32 dias, o que indica uma variação considerável entre a previsão da máquina e a realidade das entregas. O coeficiente de determinação atingiu o valor de 0,09, evidenciando que as variáveis disponíveis conseguiram explicar apenas 9% da variação observada nos prazos reais. Esse baixo poder preditivo inicial sugere que o fenômeno do atraso em desenvolvimento de software é influenciado por uma multiplicidade de fatores que não estão totalmente capturados nas métricas tradicionais de produtividade. A análise detalhada por pontuação de complexidade trouxe à tona inconsistências profundas no processo de estimativa humana. Constatou-se que, em média, as tarefas foram subestimadas em 57,4%. Em diversas faixas de complexidade, o erro relativo ultrapassou a marca de 100%, atingindo picos extremos de 1338% em casos isolados. Tais números demonstram que a métrica de complexidade utilizada pela equipe não atua como um preditor confiável de prazo, ou que sua aplicação durante o planejamento ocorre de forma altamente subjetiva e assistemática.

Ao observar os dados específicos por nível de complexidade, nota-se uma dispersão alarmante. Para tarefas classificadas com complexidade zero, das quais existiam 38 registros, a duração real média foi de 12,3 dias, enquanto a predição do modelo sugeria 12,1 dias, resultando em um erro médio absoluto de 7,4 dias e um erro relativo de 60,2%. Em contrapartida, tarefas com pontuação de complexidade 26 apresentaram uma duração real média de 10,6 dias, mas o modelo previu 20,0 dias, gerando um erro relativo de 88,2%. O caso mais crítico foi observado em tarefas com complexidade 23, onde a duração real foi de apenas 01 dia, mas a predição indicou 14,4 dias, culminando no erro relativo de 1338%. Esses dados evidenciam que não existe uma correlação linear clara entre a complexidade técnica percebida e o tempo de execução. Essa falta de aderência sugere que fatores externos, como a qualidade da definição dos requisitos ou a ocorrência de impedimentos não mapeados, exercem uma influência superior à dificuldade técnica intrínseca da tarefa.

A investigação sobre os impedimentos documentados revelou outra faceta importante do problema. A grande maioria das tarefas analisadas, totalizando 306 ocorrências, foi registrada sem qualquer motivo de impedimento atribuído. No entanto, para as poucas tarefas onde houve documentação, os prazos foram severamente impactados. Problemas relacionados à infraestrutura e ao ambiente de desenvolvimento geraram uma duração média de 36,4 dias por tarefa. A falta de informações ou erros de definição nos requisitos resultaram em atrasos médios de 32,0 dias, enquanto dependências externas causaram bloqueios que duraram, em média, 25,8 dias. O fato de apenas 25 histórias possuírem impedimentos devidamente registrados aponta para uma lacuna na cultura de documentação da equipe. Sem dados precisos sobre o que interrompe o fluxo de trabalho, torna-se quase impossível para qualquer modelo estatístico ou de aprendizado de máquina prever com precisão as datas de entrega, uma vez que o “ruído” causado por problemas não documentados mascara os padrões de produtividade real.

A alta dispersão dos dados e a baixa capacidade preditiva do modelo inicial reforçam a necessidade de uma revisão profunda nos critérios de pontuação e estimativa adotados pelas equipes de desenvolvimento. A subjetividade no momento da estimativa é um fator de risco que compromete a confiabilidade de todo o planejamento da sprint. O uso de um único conjunto de dados interno limita a capacidade de generalização dos resultados, conforme apontado em estudos que comparam práticas ágeis em diferentes contextos organizacionais (Fitzgerald et al., 2017; Dingsøyr et al., 2019). A literatura sugere que fatores humanos e culturais, como a dinâmica de comunicação interna e o nível de entrosamento do time, desempenham um papel crucial no sucesso das entregas, mas esses elementos são de difícil quantificação e muitas vezes ficam de fora dos modelos matemáticos (Singh et al., 2022). A limitação do algoritmo empregado também deve ser considerada, sugerindo que futuras investigações explorem abordagens mais complexas para capturar as nuances do desenvolvimento de software (Costa et al., 2019; Kaur et al., 2023).

A implementação de um sistema baseado em dados históricos, mesmo com as limitações encontradas, demonstra um potencial significativo para identificar padrões problemáticos e alertar gestores sobre distorções recorrentes. A redução de vieses cognitivos no processo de planejamento é um benefício direto da adoção de ferramentas analíticas. Ao confrontar as estimativas otimistas com a realidade estatística dos dados, as organizações podem promover um ambiente de trabalho mais equilibrado, reduzindo a pressão excessiva sobre os desenvolvedores e melhorando a previsibilidade das entregas para os clientes finais. Para que a eficácia desses modelos aumente, é fundamental expandir o volume de dados coletados, incluindo informações de diferentes empresas, tecnologias e perfis de profissionais (Pettersen et al., 2019). A exploração de algoritmos de aprendizado profundo, como redes neurais ou modelos de reforço de gradiente como o XGBoost, pode oferecer uma capacidade superior de processamento de variáveis contextuais. Além disso, a incorporação de métricas de colaboração, volumes de comunicação em ferramentas de chat e variáveis sobre o ambiente de trabalho remoto pode responder a lacunas identificadas na literatura recente sobre times ágeis (Singh et al., 2022; Fitzgerald et al., 2017; Dingsøyr et al., 2019).

A análise dos erros por faixa de senioridade e por equipe também sugere que a maturidade dos processos internos varia significativamente dentro da mesma organização. A inconsistência das métricas utilizadas aponta para a necessidade de treinamentos específicos em técnicas de estimativa e para a padronização dos critérios de complexidade. O modelo desenvolvido atua como um espelho da realidade operacional, revelando que, sem uma base de dados fidedigna e uma cultura de registro de impedimentos, a gestão de projetos permanece vulnerável a imprevistos. A transição de uma gestão baseada em intuição para uma gestão baseada em evidências é um caminho necessário para a evolução da engenharia de software. O uso de inteligência artificial não substitui o julgamento humano, mas o complementa, fornecendo alertas sobre estimativas que fogem aos padrões históricos de execução da equipe.

Conclui-se que o objetivo foi atingido por meio do desenvolvimento e avaliação de um modelo preditivo que, apesar da baixa capacidade explicativa inicial de 9% da variação dos prazos, revelou padrões críticos de subestimativa sistemática na ordem de 57,4% nas tarefas de desenvolvimento. A pesquisa demonstrou que a métrica de complexidade técnica não possui correlação direta com o tempo de execução no cenário analisado, sendo fortemente influenciada por impedimentos de infraestrutura e falhas de definição que raramente são documentados de forma adequada. A identificação dessas lacunas fornece uma base sólida para a melhoria dos processos de planejamento ágil, evidenciando que a precisão das previsões depende tanto da sofisticação dos algoritmos quanto da qualidade e integridade dos dados operacionais gerados pelas equipes.

Referências Bibliográficas:

Costa, D.; Soares, F.; Castro, J.; Santos, R.; Silva, T. 2019. Predicting software project delays using machine learning algorithms. In: 2019 IEEE International Conference on Software Quality, Reliability and Security Companion, Sofia, Bulgaria. Anais… p. 367-373.

Dingsøyr, T.; Moe, N.B.; Fægri, T.E.; Seim, E.A. 2019. Exploring software development at the very large scale: A revelatory case study and research agenda for agile methods. Information and Software Technology 114: 9-25.

Fitzgerald, B.; Stol, K.J.; O’Sullivan, R.; O’Sullivan, L. 2017. Scaling agile methods to large organizations: Theory and practice. IEEE Software 34(6): 38-45.

Hofstadter, D.R. 1979. Gödel, Escher, Bach: An Eternal Golden Braid. Basic Books, New York, NY, EUA.

Kahneman, D. 2011. Thinking, Fast and Slow. Farrar, Straus and Giroux, New York, NY, EUA.

Kaur, S.; Bhardwaj, S.; Sharma, R.; Kumar, R. 2023. Application of deep learning approaches for release time prediction in agile software development. Computer Standards & Interfaces 85: 103648.

McConnell, S. 2006. Software Estimation: Demystifying The Black Art. Microsoft Press, Redmond, WA, EUA.

Parkinson, C.N. 1955. Parkinson’s law. The Economist, London, UK.

Parkinson, C.N. 1957. Parkinson’s Law: Or The Pursuit Of Progress. John Murray, London, UK.

Pettersen, M.; Kolassa, C.; Meyer, T.; Nolte, A. 2019. Learning from the past to predict future project delays in agile software development. In: International Conference on Agile Software Development, Tallinn, Estonia. Anais… p. 210-225.

Singh, M.; Shah, N.; Gandhi, R.; Sengupta, B. 2022. Challenges of distributed agile: A case study. Journal of Systems and Software 191: 111411.

Vasilescu, B.; Posnett, D.; Ray, B.; van den Brand, M.G.J.; Serebrenik, A.; Devanbu, P.; Filkov, V. 2015. Quality and productivity outcomes relating to continuous integration in GitHub. In: Joint Meeting of the European Software Engineering Conference and the ACM SIGSOFT Symposium on the Foundations of Software Engineering, 2015, Bergamo, Italy. Anais… p. 805-816.


Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Engenharia de Software do MBA USP/Esalq

Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade