
26 de fevereiro de 2026
Comparação de Modelos de Regressão para Precificação Imobiliária no Mercado Carioca
João Lucas Gemmal Pinto; Rosimere Miranda Fortini
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
A aquisição de um imóvel é um dos investimentos mais significativos para os consumidores, um processo de decisão complexo moldado por fatores intrínsecos e extrínsecos (Pinto e Fernandes, 2019). A pesquisa sobre o comportamento dos preços é fundamental para mitigar riscos e otimizar estratégias, proporcionando uma compreensão da dinâmica do mercado (Rosa, Oliveira e Pinto, 2019; Medeiros e Carvalho, 2017). O mercado imobiliário do Rio de Janeiro é complexo e dinâmico, abrigando alguns dos metros quadrados mais caros do Brasil, como no Leblon (FipeZAP, 2024).
A análise histórica do índice FipeZAP (2024) revela três momentos distintos no século XXI: crescimento vertiginoso entre 2003 e 2015, impulsionado por crédito e renda (Brando e Barbedo, 2016), e catalisado por megaeventos como a Copa do Mundo de 2014 e os Jogos Olímpicos de 2016; desaceleração e queda real entre 2015 e 2020, acentuada pela crise fiscal do estado, a forte dependência do setor de petróleo e gás, que sofreu com a queda dos preços internacionais, e instabilidades políticas; e uma lenta retomada a partir de 2021, influenciada por taxas de juros mais baixas e mudanças de preferência habitacional pós-pandemia. A regressão linear múltipla (RLM) é o método mais comum em avaliação imobiliária (ABNT, 2011; Fávero, 2011); o preço do imóvel é a variável dependente e seus atributos são as variáveis explicativas.
Consequentemente, um analista poderia concluir que um determinado atributo de bairro tem um efeito significativo sobre o preço quando, na realidade, o efeito é espúrio ou superestimado, levando a decisões de investimento equivocadas (Barros e Simões, 2018). A HLM modela a variância tanto dentro quanto entre os bairros, particionando a variabilidade total do preço em componentes de nível 1 (dentro dos grupos) e nível 2 (entre os grupos). Ao fazer isso, o modelo produz estimativas de erro-padrão mais corretas e permite investigar como as características do bairro influenciam não apenas o preço médio, mas também a relação entre as características do imóvel e o seu preço. A contribuição do trabalho reside na validação empírica do uso de uma técnica estatística avançada para gerar insights mais confiáveis e detalhados sobre a complexa dinâmica de formação de preços no mercado imobiliário do Rio de Janeiro.
Este estudo adota uma abordagem quantitativa, com delineamento de corte transversal, de natureza descritiva e explicativa (Creswell, 2007; Vergara, 1998). O delineamento é não experimental, pois observa e mensura variáveis existentes sem manipulação. A técnica de obtenção de dados é documental, utilizando informações de classificados digitais não tratadas previamente para os fins desta pesquisa. A escolha por uma abordagem quantitativa justifica-se pela natureza do problema, que busca mensurar relações entre variáveis e comparar a performance de modelos estatísticos. O corte transversal, analisando os dados em um único ponto no tempo, é adequado para fornecer um retrato da estrutura de preços do mercado em um momento específico, sendo uma metodologia eficiente para os objetivos propostos. A coleta de dados foi realizada em dezembro de 2024 por um algoritmo em Python com a biblioteca Selenium, extraindo anúncios de venda de imóveis residenciais do portal Zap Imóveis no Rio de Janeiro.
Foram coletados identificadores únicos para remover duplicatas e selecionados apenas classificados com informações completas.
A fase de pré-processamento dos dados foi crucial para garantir a qualidade da análise. Primeiramente, foi realizada a limpeza dos dados, que incluiu a padronização de formatos e a conversão de variáveis textuais para numéricas. Em seguida, procedeu-se à remoção de outliers de preço, utilizando o critério do intervalo interquartil (IQR); observações abaixo de Q1 – 1.5 IQR e acima de Q3 + 1.5 IQR foram excluídas para evitar que valores extremos distorcessem as estimativas dos modelos. Por fim, foram excluídos bairros com menos de cinco anúncios, uma medida necessária para garantir a robustez das estimativas de variância no nível do bairro no modelo HLM. Após este rigoroso tratamento, a amostra final foi consolidada em 2.061 imóveis, distribuídos por 47 bairros. As variáveis foram selecionadas com base na literatura sobre precificação hedônica (Lacerda e Funcia, 2005; Rosa, Oliveira e Pinto, 2019) e divididas em dois níveis.
No nível 1 (imóvel), coletaram-se as características intrínsecas dos anúncios: área total, número de quartos, banheiros e vagas de garagem. Essas variáveis são consideradas padrão na literatura por representarem os principais atributos físicos que geram utilidade para o morador. No nível 2 (bairro), usaram-se variáveis extrínsecas do Índice de Progresso Social (IPS) de 2022, publicado pela Prefeitura do Rio de Janeiro, para capturar o efeito da vizinhança: índice de água e saneamento, taxa de roubos de rua, taxa de homicídios, índice de acesso a transporte público e índice de saúde e bem-estar. A escolha desses indicadores do IPS se justifica por representarem dimensões fundamentais da qualidade de vida urbana, como infraestrutura básica, segurança pública, mobilidade e acesso a serviços, que são capitalizadas nos preços dos imóveis.
Embora haja defasagem temporal, os indicadores do IPS são os mais atuais e representam características urbanas de variação lenta, sendo proxies adequadas para as condições dos bairros no período da análise.
A análise foi conduzida em Python com as bibliotecas pandas, numpy, scikit-learn e statsmodels. A estratégia de modelagem seguiu uma abordagem sequencial. Primeiro, foram verificados os pressupostos da regressão. A multicolinearidade, avaliada pela matriz de correlação de Pearson e Fator de Inflação da Variância (FIV), não indicou problemas que exigissem remoção de variáveis (Biaggi et al., 2017). A homocedasticidade, verificada pela análise gráfica dos resíduos e teste de Durbin-Watson, foi inicialmente violada no RLM, levando à aplicação de uma transformação logarítmica na variável preço, prática comum que corrigiu o problema (Gazola, 2002). O pressuposto de normalidade dos resíduos, avaliado pelo teste de Shapiro-Wilk e gráficos Q-Q, foi violado em ambos os modelos.
Para o RLM, a solução foi usar erros-padrão robustos de White, que ajustam as estimativas para a heterocedasticidade.
Para o HLM, a análise prosseguiu ciente da violação, pois o modelo é robusto a desvios da normalidade com amostras grandes (Raudenbush e Bryk, 2002). Após a verificação dos pressupostos, o modelo RLM foi estimado, seguido pela estimação do modelo HLM, começando por um modelo nulo para decompor a variância e, em seguida, o modelo completo com todas as variáveis.
A análise descritiva da amostra de 2.061 imóveis revela a heterogeneidade do mercado carioca. O preço médio foi de R$ 1.052.404, com um desvio padrão de R$ 713.941. A magnitude do desvio padrão, correspondendo a cerca de 68% da média, já sinaliza uma dispersão de preços extremamente alta. A mediana de R$ 849.000, sendo consideravelmente inferior à média, sugere uma distribuição assimétrica à direita, indicando a presença de uma cauda de imóveis de altíssimo valor que puxam a média para cima. A faixa de preços variou de R$ 120.000 a R$ 3.300.000. A área total varia de 22 m² a 600 m², com média de 104 m². Em média, os imóveis possuem 2,6 quartos, 2,3 banheiros e 1 vaga de garagem. Essa diversidade nas características físicas e nos preços reforça a necessidade de modelos de regressão complexos, capazes de capturar as múltiplas fontes de variação.
No modelo RLM, todas as variáveis foram estatisticamente significativas (p-valor < 0,05) para explicar o logaritmo do preço. Entre as características do imóvel, vagas de garagem tiveram o maior impacto positivo, com um incremento de 16,7% no preço por vaga adicional. Este resultado destaca a alta valorização de garagens em uma cidade densa e com escassez de estacionamento. O número de quartos associou-se a um aumento de 12,8% no valor. Banheiros e área tiveram impacto marginal menor, com aumentos de 2,85% e 0,34% por unidade, respectivamente. Entre as variáveis extrínsecas, o acesso à mobilidade urbana foi o mais influente: um bairro com acesso pleno a transporte de massa (índice igual a 1) tem imóveis com preços 21,8% maiores que um bairro sem acesso (índice igual a 0).
Os índices de saúde e bem-estar e de água e saneamento também foram positivos e significativos, associados a um aumento de aproximadamente 4,1% no preço por ponto adicional, corroborando achados sobre a capitalização de amenidades urbanas (Ribeiro e Luporini, 2019). Os indicadores de segurança pública no RLM mostraram resultados complexos. A taxa de homicídios teve o efeito esperado, com um coeficiente negativo indicando desvalorização de 0,95% por cada homicídio adicional por 100.000 habitantes. Este achado é consistente com a teoria de que a violência letal é um forte desincentivo à demanda imobiliária. Em contrapartida, a taxa de roubos de rua apresentou um coeficiente positivo, o que pode ser explicado por uma correlação espúria, já que bairros mais valorizados, com maior concentração de renda, comércio e fluxo de pessoas, também são alvos mais frequentes para esse tipo de crime.
O modelo RLM, por não conseguir separar adequadamente os efeitos de nível, acaba atribuindo erroneamente o efeito positivo da riqueza e do dinamismo do bairro à taxa de roubos.
A análise HLM iniciou com um modelo nulo (ANOVA) para decompor a variância do preço. Os resultados mostraram que 56% da variância total foi atribuída a diferenças entre bairros (nível 2) e 44% a diferenças entre imóveis dentro dos mesmos bairros (nível 1). Este valor, conhecido como Coeficiente de Correlação Intraclasse (ICC), indica uma forte dependência entre as observações de um mesmo grupo. Um ICC de 0,56 justifica empiricamente a abordagem multinível, pois demonstra que ignorar a estrutura de agrupamento, como faz o RLM, levaria a conclusões estatisticamente falhas (Barros e Simões, 2018). No modelo HLM completo, os resultados para as características do imóvel (nível 1) foram similares aos do RLM, com área, quartos, banheiros e vagas permanecendo significativos e com coeficientes de magnitude semelhante. A principal diferença entre os modelos surgiu na análise das variáveis de bairro (nível 2).
No HLM, o índice de mobilidade urbana e a taxa de roubos de rua perderam a significância estatística. A perda de significância da mobilidade urbana sugere que seu efeito, capturado pelo RLM, estava confundido com outras características não observadas dos bairros mais valorizados, que já possuem boa infraestrutura de transporte. O HLM, ao modelar a variância entre bairros através de um intercepto aleatório, absorve esse efeito médio do bairro, revelando que a mobilidade, por si só, não tem um efeito adicional significativo após controlar pela localização geral. Da mesma forma, a perda de significância da taxa de roubos confirma a hipótese de correlação espúria, mostrando que o modelo multinível foi capaz de corrigir o viés presente no RLM.
As variáveis de nível 2 que permaneceram significativas no modelo HLM foram o índice de água e saneamento e o de saúde e bem-estar, ambos com coeficientes positivos, e a taxa de homicídios, que se manteve na margem da significância com o esperado coeficiente negativo. A decomposição da variância no modelo HLM completo revelou que, após controlar pelas variáveis explicativas, a variância entre bairros passou a representar 80% da variância residual, contra 20% da variância dentro dos bairros. A comparação do desempenho dos modelos revelou um trade-off entre acurácia preditiva e poder explicativo. O RLM demonstrou capacidade de previsão superior, com um Root Mean Square Error (RMSE) menor, de 0,24, em comparação com o RMSE de 0,42 do modelo HLM. O RMSE mede o erro médio das previsões, e um valor menor indica que as predições do modelo estão, em média, mais próximas dos valores reais.
Os gráficos de valores previstos versus observados confirmaram a maior aderência das predições do RLM. Por outro lado, o HLM obteve um R² ajustado superior, de 0,91, contra 0,87 do RLM, indicando maior capacidade de explicar a variância total no preço dos imóveis. O HLM, por sua vez, ao impor uma estrutura mais realista, fornece estimativas de coeficientes menos enviesadas e uma compreensão mais profunda dos fenômenos, mesmo que isso resulte em um erro de previsão pontual ligeiramente maior.
Conclui-se que o objetivo foi atingido.
Referências:
Associação Brasileira De Normas Técnicas [ABNT]. 2011 NBR 14653-2: Avaliação de bens – Parte 2: Imóveis urbanos.
Barros, R.; Simões, E. 2018 Decomposição Espacial nos Preços de Imóveis Residenciais no Município de São Paulo. Estudos Econômicos (São Paulo) 48 (1): 5-38.
Biaggi, M.; Medvid, M.; Carraro, C. 2017. Fato de Inflação da Variância e Regressões Auxiliares para Diagnóstico do Problema de Multicolinearidade nos Modelos de Regressão. In: XIX COBREAP – Congresso Brasileiro de Engenharia de Avaliações e Perícias, 2017, Foz do Iguaçu, Paraná, Brasil.
Brando, L.; Barbedo, C. 2016 Há Fatores Não Econômicos na Formação do Preço de Imóveis?. Revista De Administração Contemporânea, 20(1): 106–130.
Brown, K; Uyar, B. 2004 A Hierarchical Linear Model Approach for Assessing the Effects of House and Neighborhood Characteristics on Housing Prices. Journal of Real Estate Practice and Education 7 (1):15-24.
Creswell, J. W. 2007. Procedimentos qualitativos. Projeto de pesquisa: métodos qualitativo, quantitativo e misto. 2ed. Artmed, Porto Alegre, RS, Brasil.
Fávero, L. P. L. 2011. Preços hedônicos no mercado imobiliário comercial de São Paulo: a abordagem da modelagem multinível com classificação cruzada. Estudos Econômicos 41 (4):777–810.
FipeZAP. 2024 Índice Fipezap de Preços De Imóveis Anunciados.
Gazola, S. 2002. Construção de um modelo de regressão de avaliação de imóveis. Dissertação (Mestrado em Engenharia de Produção) – Programa de Pós-Graduação em Engenharia de Produção, Universidade Federal de Santa Catarina, Florianópolis.
Hoffmann, Rodolfo; Vieira, Sônia. 1983. Análise de Regressão: Uma Introdução à Econometria. Quarta Edição. Hucitec, Piracicaba, São Paulo, Brasil.
Lacerda, F. C.; Funcia, C. 2005. O Impacto Da Violência Criminal Urbana No Preço Dos Imóveis Residenciais Na Região Da Tijuca, Cidade do Rio de Janeiro: um estudo exploratório. Cadernos EBAPE. BR 3 (3): 1-15.
Medeiros, R.; Carvalho, S. T. 2017 Modelagem econométrica do preço de aluguéis de apartamentos na cidade de Petrópolis-RJ utilizando regressão linear múltipla. Revista de Economia da UEG 13 (1):158-174.
Pinto, V. H. L.; Fernandes, R. A. S. 2019. Análise de preços hedônicos no mercado imobiliário residencial de Conselheiro Lafaiete, MG. Interações 20 (2): 627-643.
Raudenbush, S. W.; Bryk, A. S. 2002. Hierarchical linear models: applications and data analysis methods. Second edition, Sage Publications, Thousand Oaks, Califórnia, Estados Unidos da América.
Ribeiro, A.; Luporini, V. 2019. A valorização imobiliária em Belo Horizonte, 1995-2012: uma análise hedônica-quantílica. Nova Economia 29 (3): 851-880.
Rosa, V. S.; Oliveira, P. B. de; Pinto, R. L. M. 2019. Modelos de precificação para locação e venda de imóveis residenciais na cidade de João Monlevade-MG via regressão linear multivariada. Gestão da Produção, Operações e Sistemas 14 (3):151-167.
Vergara, S. 1998. Projetos e Relatórios de Pesquisa em Administração 2ed. Editora Atlas, São Paulo, SP, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































