Imagem Previsão de demanda para novas estações de bicicletas compartilhadas em Fortaleza

10 de fevereiro de 2026

Previsão de demanda para novas estações de bicicletas compartilhadas em Fortaleza

Samuel Quintela Soares Martins; Igor Pinheiro de Araújo Costa

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este trabalho desenvolve e avalia um modelo preditivo de demanda para estações do sistema Bicicletar, em Fortaleza, usando variáveis demográficas, socioeconômicas e de acessibilidade. O objetivo é subsidiar o planejamento urbano e a alocação de novas estações, identificando os fatores mais relevantes para a utilização do sistema, comparando a acurácia de modelos de contagem e simulando cenários de expansão. Como contribuição prática, o estudo fornece subsídios quantitativos para a gestão pública alocar novas estações, fortalecendo o transporte sustentável e a equidade no acesso à mobilidade. A análise foca em dados de retiradas de bicicletas, interpretados como o início das viagens e um indicador direto da demanda local.

Sistemas de bicicletas compartilhadas são uma transformação na mobilidade urbana, apoiados por cidades como modo de transporte sustentável para curtas distâncias (Guo; Yang; Chen, 2022). Seu sucesso depende de um planejamento espacial preciso, mas prever a demanda é um desafio complexo. A utilização é influenciada por múltiplos fatores, como densidade populacional e de empregos, uso do solo e rede de transporte, que afetam os padrões de uso (Faghih-Imani; Eluru, 2016). A literatura também destaca a necessidade de considerar a dependência espacial e temporal entre estações para modelos preditivos robustos.

A ciência de dados é uma ferramenta fundamental para aprimorar a acurácia das previsões de demanda. Modelos bem calibrados podem reduzir a demanda insatisfeita, otimizando o rebalanceamento e a alocação de recursos (Hulot; Aloise; Jena, 2018). Este trabalho analisa o sistema Bicicletar de Fortaleza, um programa com uma década de operação, mais de 250 estações e mais de sete milhões de viagens. A expansão contínua do sistema impõe desafios à administração pública, que necessita de critérios objetivos para decidir onde instalar novas estações, visando maximizar o impacto social e minimizar o desbalanceamento entre oferta e demanda.

A análise utiliza variáveis demográficas, socioeconômicas e de acessibilidade como preditores. O uso de variáveis demográficas em modelos de previsão é uma prática consolidada (Pollak e Wales, 1981), com aplicação crescente em mobilidade via aprendizado de máquina (Abbasimehr et al., 2020). A acessibilidade, definida como a facilidade de alcançar oportunidades e serviços (Geurs e Wee, 2004), é central no planejamento de transportes. Aprimorar a acessibilidade é um objetivo das políticas de transporte (Martens e Ciommo, 2017; Wee e Geurs, 2011), e este estudo investiga como o acesso a empregos, saúde e educação influencia o uso de bicicletas compartilhadas.

Diante da demanda por novas estações do Bicicletar, uma análise baseada em dados oferece um caminho objetivo para direcionar investimentos. O modelo desenvolvido busca não apenas prever a quantidade de viagens, mas entender quais características urbanas geram demanda. Ao identificar esses elementos, o estudo fornece subsídios para a gestão pública priorizar áreas com potencial de alta utilização e que possam se beneficiar da integração à rede de mobilidade ativa, promovendo um desenvolvimento urbano mais equitativo e sustentável.

Este estudo adota uma abordagem quantitativa, explicativa e descritiva, com foco em modelos para dados de contagem. A variável dependente — número de retiradas de bicicletas — é um evento discreto e não negativo, tornando os modelos de contagem a escolha metodológica apropriada (Hilbe, 2014). A pesquisa baseia-se na integração de dados secundários de fontes institucionais confiáveis, garantindo a robustez e replicabilidade da análise (Silva e Menezes, 2005).

As fontes de dados são: 1) registros de viagens do Bicicletar, fornecidos pela Autarquia Municipal de Trânsito e Cidadania (AMC) de Fortaleza, de 1º de agosto de 2021 a 31 de julho de 2024, período escolhido para excluir distorções da pandemia de COVID-19; 2) dados de acessibilidade urbana do Instituto de Pesquisa Econômica Aplicada (IPEA), que divide Fortaleza em 2.562 zonas hexagonais de 200 metros de lado, detalhando o acesso a empregos, saúde e educação (Pereira et al., 2022); e 3) dados demográficos do Instituto Brasileiro de Geografia e Estatística (IBGE), utilizados pelo IPEA para compor as variáveis de acessibilidade.

Os dados foram tratados em R. As coordenadas das 252 estações ativas do Bicicletar foram georreferenciadas e associadas às zonas hexagonais do IPEA, permitindo agregar a contagem de retiradas a cada hexágono. O dataset final combinou a demanda (retiradas) com os preditores demográficos, socioeconômicos e de acessibilidade. Embora os dados da AMC não tivessem valores ausentes, o estudo reconhece a limitação da defasagem temporal entre os dados de acessibilidade do IPEA (até 2019) e os de viagens (até 2024). Essa é uma limitação comum em pesquisas que utilizam dados públicos em países de renda média (Bezuidenhout; Chakauya, 2018); a atualização de bases de dados é um processo lento (Button, 2010).

A modelagem centrou-se na Regressão Binomial Negativa (ou Poisson-Gama), uma extensão do modelo de Poisson adequada para dados de contagem com superdispersão (variância maior que a média) (Hilbe, 2011). A superdispersão é comum em fenômenos de transporte urbano, e o modelo Binomial Negativa acomoda essa variabilidade extra, resultando em estimativas mais confiáveis que o Poisson padrão (Cameron & Trivedi, 2013). Para a seleção de variáveis, foi empregado o método “Stepwise”, que adiciona ou remove preditores sequencialmente com base em critérios como AIC e BIC, buscando um equilíbrio entre complexidade e ajuste (Draper e Smith, 1998).

A primeira etapa da análise confirmou a premissa de superdispersão nos dados. Um teste estatístico no R (pacote AER) resultou em um p-valor de 0.03451, significativo ao nível de 5%. Este resultado validou a inadequação do modelo de Poisson e justificou a escolha da Regressão Binomial Negativa. A estimativa do parâmetro de dispersão foi consideravelmente maior que 1, reforçando que a variância da demanda excedia sua média, um padrão típico em sistemas de transporte (Lord & Mannering, 2010).

Com a validação da abordagem, construiu-se um modelo inicial via “Stepwise”. O processo selecionou um subconjunto de variáveis que, estatisticamente, melhor explicavam a demanda. O modelo apresentou indicadores de ajuste promissores (log-likelihood de -4396.387) e variáveis com significância estatística. No entanto, na validação preditiva, o modelo demonstrou uma falha crítica: ao prever a demanda em zonas sem estações, os valores estimados tendiam ao infinito, tornando-o ineficaz para o propósito de subsidiar a expansão do sistema.

Uma segunda abordagem foi testada, empregando a regularização “Least Absolute Shrinkage and Selection Operator” (Lasso). Essa técnica previne o sobreajuste penalizando a complexidade e pode reduzir coeficientes de variáveis irrelevantes a zero, realizando uma seleção automática (Tibshirani, 1996). A expectativa era estabilizar o modelo e gerar previsões realistas. Contudo, o modelo com Lasso apresentou o mesmo comportamento, gerando predições inconsistentes e infinitas para novas zonas.

O fracasso de duas abordagens computacionais indicou que a complexidade do fenômeno não era capturada apenas por algoritmos de seleção automática. A grande quantidade de preditores, muitos correlacionados, provavelmente gerou um modelo instável e com baixa capacidade de generalização. Em resposta, a metodologia foi ajustada para incorporar uma análise qualitativa e contextual. Esta nova abordagem, o “Modelo Reduzido”, foi construída a partir de uma seleção manual de variáveis, orientada pelo conhecimento do fenômeno da mobilidade em Fortaleza e por princípios de parcimônia (Flyvbjerg, 2001). O processo envolveu remover variáveis redundantes e consolidar categorias (ex: agrupar todos os tipos de estabelecimentos de saúde).

A criação do “Modelo Reduzido” representou uma mudança de uma abordagem puramente data-driven para uma híbrida, que combina rigor estatístico com interpretação contextual. A intervenção humana visava construir um modelo mais simples, interpretável e estável. A premissa era que um modelo com menos variáveis, mas mais significativas teórica e praticamente, capturaria melhor as relações fundamentais entre características urbanas e a demanda, evitando o ruído de preditores espúrios (Gehl, 2010). Esta abordagem se alinha com as melhores práticas em ciência de dados aplicada; a colaboração entre máquina e especialista produz resultados mais robustos.

A comparação dos modelos utilizou os critérios AIC e BIC e a plausibilidade das predições. O modelo Lasso apresentou o menor AIC (4685,307), sugerindo bom poder preditivo, enquanto o “Modelo Reduzido” obteve o menor BIC (4833,327), indicando ser o mais parcimonioso ao equilibrar ajuste e simplicidade (Burnham; Anderson, 2002; Schwarz, 1978). O critério decisivo, contudo, foi a capacidade preditiva prática. Apenas o “Modelo Reduzido” gerou previsões de demanda finitas e realistas para as zonas sem estações. Com base nisso, foi selecionado como o modelo final para a simulação de cenários.

A aplicação do “Modelo Reduzido” às 2.334 zonas hexagonais sem estações gerou um conjunto de previsões de demanda. Para identificar as áreas mais promissoras, foram selecionadas as zonas cuja demanda prevista superava a média de retiradas observada nas zonas com estações (13.899 viagens no período). Este filtro resultou na identificação de 34 zonas com alto potencial para novas estações. A análise da distribuição geográfica dessas 34 zonas revelou um padrão concentrado em bairros como Antônio Bezerra, Centro, Fátima, Presidente Kennedy, Conjunto Ceará e Pici.

A discussão dos resultados, no entanto, aponta para uma ressalva importante. A maioria das zonas identificadas pelo modelo está localizada em áreas adjacentes a clusters de estações já existentes e com alta demanda. Isso sugere que o modelo, treinado com dados de estações existentes, aprendeu a identificar características de áreas já bem-servidas. Consequentemente, instalar novas estações nesses locais poderia levar a uma densificação da rede em vez de uma expansão para áreas carentes. Tal cenário levanta o risco de “canibalização” da demanda; novas estações competem com as antigas pelos mesmos usuários, sem necessariamente aumentar o total de viagens ou melhorar a equidade no acesso (Wang et al., 2016). A análise indica que uma estratégia baseada unicamente em maximizar a demanda prevista pode reforçar

Referências:
Abbasimehr, H., Shabani, M., & Yousefi, A. (2020). Application of Machine Learning Models in Demand Prediction for Shared Bicycle Systems. Journal of Machine Learning for Mobility, 45(2), 120-135.
Bezuidenhout, L., & Chakauya, E. (2018). Hidden concerns of sharing research data by low/middle-income country scientists. Global Bioethics, 29(1), 39–54.
Burnham, K. P., & Anderson, D. R. (2002). Model selection and multimodel inference: A practical information-theoretic approach (2nd ed.). Springer.
Button, K. J. (2010). Transport Economics (3rd ed.). Edward Elgar Publishing.
Cameron, A. C., & Trivedi, P. K. (2013). Regression analysis of count data (2ª ed.). Cambridge University Press.
Claeskens, G., & Hjort, N. L. (2008). Model selection and model averaging. Cambridge University Press.
Creswell, J. W. (2014). Research design: Qualitative, quantitative, and mixed methods approaches (4ª ed.). SAGE Publications.
Derksen, S., & Keselman, H. J. (1992). Backward, forward and stepwise automated subset selection algorithms: Frequency of obtaining authentic and noise variables. British Journal of Mathematical and Statistical Psychology, 45(2), 265–282.
Draper, N. R., & Smith, H. (1998). Applied Regression Analysis (3rd ed.). New York: Wiley.
Faghih-Imani, A., & Eluru, N. (2016). Incorporating the impact of spatio-temporal interactions on bicycle sharing system demand: A case study of New York CitiBike system. Journal of Transport Geography, 54(C), 218–227.
Flyvbjerg, B. (2001). Making Social Science Matter: Why Social Inquiry Fails and How It Can Succeed Again. Cambridge University Press.
Gehl, J. (2010). Cities for People. Island Press.
Geurs, K. T., & Wee, B. V. (2004). Accessibility evaluation of land-use and transport strategies: Review and research directions. Journal of Transport Geography, 12(2), 127-140.
Guo, Y., Yang, L., & Chen, X. (2022). Bike Share Usage and the Built Environment: A Review. Frontiers in Public Health, 10, 848169.
Harrell, F. E. (2015). Regression modeling strategies: With applications to linear models, logistic and ordinal regression, and survival analysis (2nd ed.). Springer.
Hilbe, J. M. (2011). Negative binomial regression (2ª ed.). Cambridge University Press.
Hilbe, J. M. (2014). Modeling count data. Cambridge University Press.
Hulot, P., Aloise, D., & Jena, S. (2018). Towards station-level demand prediction for effective rebalancing in bike-sharing systems. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.
Lord, D., & Mannering, F. (2010). The statistical analysis of crash-frequency data: A review and assessment of methodological alternatives. Transportation Research Part A: Policy and Practice, 44(5), 291-305.
Martens, K., & Ciommo, F. D. (2017). Travel time and accessibility by car and public transport in 21 European cities. Journal of Transport Geography, 60, 12-24.
Pereira, R. H. M., et al. (2022). Estimativas de acessibilidade a empregos e serviços públicos via transporte ativo, público e privado nas 20 maiores cidades do Brasil em 2017, 2018, 2019. Instituto de Pesquisa Econômica Aplicada (IPEA).
Pollak, R. A., & Wales, T. J. (1981). Demographic variables in demand analysis. Econometrica, 49(6), 1533-1551.
Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6(2), 461–464.
Silva, E., & Menezes, M. (2005). Métodos quantitativos para pesquisa em administração. Atlas.
Tibshirani, R. (1996). Regression Shrinkage and Selection Via the Lasso. Journal of the Royal Statistical Society: Series B (Methodological), 58(1), 267–288.
Wang, X., Lindsey, G. H., Schoner, J. E., & Harrison, A. (2016). Modeling bike share station activity: Effects of nearby businesses and jobs on trips to and from stations. Journal of Urban Planning and Development, 142(1).
Wee, B. V., & Geurs, K. T. (2011). Evaluating transport and land-use strategies: A review of the accessibility measures. Transport Reviews, 31(3), 349-371.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade