
Mercado
10 de dezembro de 2025
Otimização da distribuição de estoque de joias com modelos preditivos
Autor: Fabio Albuquerque — Orientador: Wagner Dos Anjos Carvalho
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
Este trabalho desenvolve e compara três modelos preditivos de machine learning – regressão logística multinomial, árvores de decisão e florestas aleatórias – para determinar a abordagem de maior acurácia na alocação de um inventário de joias. O objetivo é propor um framework metodológico para otimizar a gestão de estoques, reduzir o tempo de giro dos produtos e maximizar a receita. A pesquisa busca responder qual abordagem, entre modelos explicativos e puramente preditivos, oferece maior valor estratégico para o desafio de alocação de itens únicos no varejo de luxo de segunda mão, onde a correta alocação de cada produto é um fator crítico de sucesso. O estudo visa a criação de um framework replicável para automatizar e aprimorar essa decisão, gerando impacto direto na eficiência operacional e na rentabilidade.
O mercado de luxo no Brasil, terceiro maior entre nações emergentes (MCKINSEY, 2014), motiva esta pesquisa. O setor cresceu 30% em 2023 (VALOR ECONÔMICO, 2025). Simultaneamente, o comércio de produtos usados aumentou 48,5% entre 2020 e 2021 (SEBRAE, 2021), impulsionado pela busca por preços acessíveis e pela sustentabilidade, que deve influenciar entre 20% e 30% das compras de joias nos próximos anos (MCKINSEY, 2021).
Neste contexto, a gestão de estoque é o principal desafio operacional para marcas de segunda mão (THREDUP, 2024). Diferente do varejo tradicional, o inventário é composto por peças únicas e não replicáveis, adquiridas de pessoas físicas, tornando a alocação uma decisão complexa e de alto impacto. O consumidor de luxo brasileiro valoriza a disponibilidade imediata do produto na loja física (MCKINSEY, 2014), e uma alocação inadequada resulta em vendas perdidas, aumento do tempo de giro e capital imobilizado. A excelência na alocação é, portanto, fundamental para acelerar o ciclo de vendas.
A aplicação de machine learning é uma solução estratégica para essa complexidade. Modelos preditivos transformam grandes volumes de dados históricos em decisões otimizadas (Provost e Fawcett, 2016). Analisando características da joia (tipo, marca, pedra, preço) e o histórico de vendas de cada loja, os algoritmos preveem o destino ideal para cada novo item, substituindo a intuição por um processo sistemático, escalável e com maior potencial de acerto, alinhando o estoque aos perfis de consumo de cada ponto de venda.
A principal contribuição deste estudo é um framework metodológico replicável para otimização de estoque, materializado em um script de automação. O framework valoriza a interpretabilidade, pois, como defendem Provost e Fawcett (2016), a análise da estrutura interna de um modelo pode gerar mais valor estratégico do que suas previsões isoladas, ao revelar o “porquê” das recomendações. Ao comparar modelos de diferentes complexidades, o trabalho oferece uma solução adaptável que pode ser aplicada a outros setores do varejo que enfrentam desafios similares com inventários de itens únicos, fornecendo um guia prático para a implementação de inteligência de dados focada em resultados.
A metodologia é quantitativa, projetada para avaliar a eficácia dos modelos preditivos. O processo inicia-se com a construção de uma base de dados simulados que espelha a realidade do mercado brasileiro de joias de segunda mão. Após uma etapa de pré-processamento e limpeza (“data wrangling”), a Análise de Correspondência Múltipla (ACM) é usada para explorar os perfis de consumo. O núcleo da análise é o desenvolvimento e a comparação de três algoritmos: Regressão Logística Multinomial (RLM), Árvores de Decisão e Florestas Aleatórias. O desempenho de cada modelo é avaliado para determinar a solução ótima, equilibrando acurácia e interpretabilidade.
A base de dados foi simulada via script em Python no Google Colab, permitindo um cenário controlado e realista. A construção dos dados se baseou em três pilares: as características das joias e preços foram definidas a partir de uma pesquisa nos e-commerces das principais joalherias do Brasil; a sazonalidade de vendas foi modelada com base em relatórios trimestrais públicos da maior joalheria do país, compilando dados de 2023 e 2024 (Vivara S. A., 2023a, 2023b, 2023c, 2024, 2025) para uma série histórica de 24 meses; e perfis de consumo distintos foram criados para quatro lojas hipotéticas, induzindo afinidades estatísticas por categorias de produto e faixas de preço. A análise e modelagem foram conduzidas em Python com as bibliotecas Pandas, Statsmodels e Scikit-learn.
Antes da modelagem, os dados passaram por “data wrangling”. A variável contínua de preço foi convertida na variável categórica “fx_preco” com cinco faixas baseadas em percentis (10%, 25%, 50%, 75%), permitindo que os modelos de classificação identificassem perfis de consumo de forma mais granular. A coluna de data foi removida, pois o foco era o perfil do produto. Para processar as variáveis categóricas, aplicou-se a técnica de “one-hot encoding”. Para evitar multicolinearidade perfeita, a primeira coluna “dummy” de cada variável original foi removida, prática recomendada para garantir a estabilidade de modelos lineares (Géron, 2021). Essa estrutura de dados foi utilizada em todos os três modelos para garantir a comparabilidade dos resultados.
A seleção dos modelos buscou equilibrar poder preditivo e capacidade explicativa, um dilema central na ciência de dados aplicada (Shmueli, 2010). A Regressão Logística Multinomial (RLM) foi escolhida como modelo base por sua alta interpretabilidade, permitindo testar a significância estatística de cada característica (Favero e Belfiore, 2024). A Árvore de Decisão foi empregada para capturar relações não lineares por meio de uma estrutura de regras de fácil visualização, utilizando o Índice Gini (Kotsiantis, 2007; Géron, 2021). Por fim, o modelo de Florestas Aleatórias, um método de “ensemble”, foi selecionado para maximizar a acurácia preditiva (Breiman, 2001). A performance foi avaliada com métricas da matriz de confusão, como Acurácia, Sensitividade, Especificidade e F1-Score, que é útil em cenários com classes desbalanceadas (Favero e Belfiore, 2024; Géron, 2021).
A fase de resultados iniciou-se com a Análise de Correspondência Múltipla (ACM). Um teste qui-quadrado prévio confirmou (p-valor < 0,05) a existência de associações estatisticamente significativas entre as variáveis, validando o uso da ACM. A técnica decompôs a inércia total dos dados (Favero e Belfiore, 2024), projetando as associações em um mapa perceptual. As duas primeiras dimensões explicaram 35,87% da variância total, permitindo a identificação de perfis claros. O mapa revelou que a Loja D tinha forte associação com produtos de entrada (joias sem pedra, faixa de preço 0-1630), enquanto a Loja A era o destino para produtos de alto valor (colares com diamantes, faixa 13441-25200). As Lojas B e C apresentaram perfis próximos, sugerindo sobreposição de nichos.
As coordenadas de cada joia nas duas dimensões da ACM foram incorporadas ao dataset como novas “features” sintéticas. O primeiro modelo, a Regressão Logística Multinomial (RLM), foi implementado com as variáveis originais para estabelecer um “baseline”. A significância global do modelo foi confirmada pelo teste da razão de verossimilhança (p-valor baixo). A análise dos coeficientes revelou perfis consistentes com a ACM: a Loja D mostrou forte afinidade por joias sem pedra (coeficiente de 4,26) e de marca nacional (coeficiente de 2,96) em comparação com a loja de referência (Loja A). Inferiu-se que a Loja A era o foco para produtos de marca importada com diamantes, colares e pulseiras.
A análise da RLM foi aprofundada com a visualização do impacto do preço na probabilidade de alocação. Um gráfico de probabilidades preditas mostrou que joias abaixo de R$5.000 tinham maior probabilidade de serem alocadas à Loja D, enquanto a probabilidade para a Loja A crescia exponencialmente com o preço. As Lojas C e B ocupavam nichos de preço intermediários, com picos entre R$4.000-R$6.000 e R$9.000-R$12.000, respectivamente. O modelo alcançou uma acurácia de 62,9% no treino e 61,6% no teste. A proximidade entre os valores indicou boa generalização, sem superajuste (“overfitting”), estabelecendo um sólido “baseline” de performance.
Em seguida, desenvolveu-se um modelo de Árvore de Decisão. Inicialmente, treinado com as coordenadas da ACM e com poda de custo de complexidade para evitar superajuste, o modelo apresentou acurácia de 61,60% e F1-score de 61,00% no teste. No entanto, um segundo modelo de árvore, ajustado apenas com as variáveis originais, apresentou desempenho ligeiramente superior, com acurácia de 62,3% no teste. Este resultado contraintuitivo sugeriu que a sumarização da ACM poderia ter ocultado nuances que o modelo capturava diretamente das características do produto. A maior interpretabilidade do segundo modelo, com regras de negócio claras como “se anel e marca nacional e sem pedra, então Loja D”, o tornou mais valioso na prática, reforçando que a complexidade nem sempre se traduz em melhor performance (Shmueli, 2010).
A etapa final da modelagem buscou o limite da acurácia com um modelo de Florestas Aleatórias. Com hiperparâmetros padrão, alcançou 62,6% de acurácia no teste. Após otimização com “GridSearchCV”, a combinação ótima encontrada foi “maxdepth” = 10, “nestimators” = 500 e “max_features” = 3. O modelo final otimizado registrou uma acurácia de 62,4% e um F1-score ponderado de 62,3% no teste. Este resultado, embora robusto, não representou um ganho significativo em relação aos modelos mais simples.
A análise comparativa final de todos os modelos revelou o achado mais importante do estudo. O modelo de Regressão Logística Multinomial emergiu como a solução de maior poder preditivo, alcançando um F1-score ponderado de 62,9% e uma precisão de 63,1%. Os modelos mais complexos, como as Florestas Aleatórias (F1-score de 62,3%), e as abordagens com engenharia de atributos, como a Árvore de Decisão com coordenadas da ACM (F1-score de 61,0%), não superaram a RLM. A incorporação das coordenadas da ACM demonstrou-se prejudicial, sugerindo que, para este dataset, a informação contida nas variáveis originais era mais rica e diretamente utilizável.
A principal conclusão é que, com desempenho similar entre os modelos, a interpretabilidade e a simplicidade devem ser os critérios de desempate. Nesse sentido, tanto a RLM, que oferece insights estatísticos claros, quanto a Árvore de Decisão (sem as coordenadas da ACM), que gera regras de negócio intuitivas, apresentam-se como as soluções de maior valor prático. Elas superam modelos “caixa-preta” como as Florestas Aleatórias, que, neste caso, não trouxeram ganhos de performance que justificassem a perda de transparência. O estudo demonstra que a busca por complexidade e acurácia marginal pode ser menos valiosa do que a adoção de modelos mais simples que fornecem insights estratégicos acionáveis.
O principal achado deste estudo é que, para o problema de alocação de estoque de joias, a simplicidade metodológica superou a complexidade. O modelo de Regressão Logística Multinomial, o mais simples e interpretável, apresentou a melhor performance preditiva, com um F1-score de 62,9%. Abordagens mais complexas, como Florestas Aleatórias e engenharia de atributos com ACM, não trouxeram ganhos de acurácia. Este resultado valida um framework de decisão que, na ausência de ganhos preditivos expressivos, deve priorizar modelos que oferecem maior interpretabilidade e valor estratégico. A pesquisa reforça que as características intrínsecas dos produtos são os preditores mais robustos e que a clareza de um modelo pode ser um ativo mais valioso do que ganhos marginais de performance.
Como limitação, o estudo baseou-se em dados simulados que, embora construídos com fidelidade, podem não capturar todas as nuances de um mercado real. Pesquisas futuras poderiam aplicar este framework em dados de vendas reais para validar os achados. Sugere-se também a exploração de outras variáveis não contempladas, como a marca específica do produto e o peso da joia, para potencialmente enriquecer o poder preditivo dos modelos. Conclui-se que o objetivo foi atingido: demonstrou-se que, para o problema de alocação de estoque de joias usadas, um modelo de regressão logística multinomial, mais simples e interpretável, superou em performance preditiva abordagens de machine learning mais complexas.
Referências:
Breiman, L. 2001. Random forests. Machine Learning 45(1): 5-32.
Favero, L. P.; Belfiore P. Manual de Análise de Dados – Estatística e Machine Learning com Excel®, SPSS®, STATA®, R® e Python®. 2 ed. Gen Grupo Editorial Nacional, 2024.
Géron, A. Mãos à Obra: Aprendizado de Máquina com Scikit-Learn, Keras & TensorFlow: Conceitos, Ferramentas e Técnicas Para a Construção de Sistemas Inteligentes. 2. ed. Alta Books, 2021.
Kotsiantis, S. B. 2007. Supervised machine learning: a review of classification techniques. Informatica 31(3): 249-268
MCKINSEY. 2014. Capturing the hearts of Brazil’s luxury consumers. Disponível em: <https://www. mckinsey. com/capabilities/growth-marketing-and-sales/our-insights/capturing-the-hearts-of-brazils-luxury-consumers>. Acesso em: 12 mar 2025.
MCKINSEY. 2021. In fine jewelry and watches, sustainability shines through. Disponível em: <https://www. mckinsey. com/industries/retail/our-insights/in-fine-jewelry-and-watches-sustainability-shines-through>. Acesso em: 12 mar 2025.
Provost, F.; Fawcett, T. Data Science para Negócios: O que você precisa saber sobre mineração de dados e pensamento analítico de dados. 1. ed. Alta Books, 2016.
Serviço Brasileiro de Apoio às Micro e Pequenas Empresas [SEBRAE]. 2021. Mercado de segunda mão: um nicho bilionário da moda. Disponível em <https://sebrae. com. br/sites/PortalSebrae/artigos/mercado-de-segunda-mao-um-nicho-bilionario-da-moda,06c74a08ce761810VgnVCM100000d701210aRCRD>. Acesso em: 12 mar 2025.
Shmueli, G. 2010. To explain or to predict?. Statistical Science 25(3): 289-310.
VALOR ECONÔMICO. 2025. Mercado de luxo cresce no Brasil, enquanto consumo global desacelera. Disponível em: <https://valor. globo. com/empresas/noticia/2025/02/20/mercado-de-luxo-cresce-no-brasil-enquanto-consumo-global-desacelera. ghtml>. Acesso em: 12 mar 2025.
Vivara S. A. [VIVA3]. 2023a. Release de Resultados 1T23. Disponível em: <https://ri. vivara. com. br/central-de-resultados/>. Acesso em: 23 fev. 2025.
Vivara S. A. [VIVA3]. 2023b. Release de Resultados 2T23. Disponível em: <https://ri. vivara. com. br/central-de-resultados/>. Acesso em: 23 fev. 2025.
Vivara S. A. [VIVA3]. 2023c. Release de Resultados 3T23. Disponível em: <https://ri. vivara. com. br/central-de-resultados/>. Acesso em: 23 fev. 2025.
Vivara S. A. [VIVA3]. 2024. Release de Resultados 4T23. Disponível em: <https://ri. vivara. com. br/central-de-resultados/>. Acesso em: 23 fev. 2025.
Vivara S. A. [VIVA3]. 2025. Dados Históricos – Ano de 2024. Disponível em: <https://ri. vivara. com. br/central-de-resultados/>. Acesso em: 23 fev. 2025.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:














