23 de abril de 2026
Identificação de ICP no varejo via regressão linear
Felipe Costa Teixeira; Christian Duarte Caldeira
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O desenvolvimento e a evolução constante do mercado de varejo impõem uma competitividade cada vez mais acirrada, exigindo que as organizações busquem níveis de eficiência superiores para atender a uma demanda de consumidores progressivamente mais exigentes. Nesse cenário, a informação consolida-se como o recurso fundamental para a sobrevivência e a expansão institucional. A busca pela excelência nos produtos e serviços, aliada ao crescimento da participação de mercado e ao aumento do lucro, direciona as empresas privadas para a adoção de novos modelos de gerenciamento e métricas de planejamento estratégico. O marketing, enquanto ferramenta de gestão, oferece recursos vitais para a aquisição de novos clientes e a fidelização daqueles já conquistados, embora tais atividades demandem investimentos significativos em campanhas promocionais, tecnologias de comunicação e treinamento de colaboradores. Estudos realizados no mercado norte-americano indicam que a retenção de clientes é financeiramente mais vantajosa do que a prospecção constante; se uma empresa perde metade de sua base em cinco anos, o custo para adquirir novos consumidores chega a ser cinco vezes superior ao valor necessário para manter os antigos (Specialski e Schweitzer, 2000). Além disso, o impacto da satisfação do cliente na reputação da marca é desproporcional, visto que um cliente satisfeito compartilha sua experiência com cinco pessoas, enquanto um insatisfeito propaga sua queixa para nove indivíduos (Specialski e Schweitzer, 2000).
A retenção de clientes lucrativos depende da obtenção de informações gerenciais e contábeis detalhadas, transcendendo a análise de dados brutos transacionais. Surge, então, a necessidade de identificar quais perfis de clientes oferecem o maior retorno ao longo do tempo com o menor custo de aquisição. O conceito de Lifetime Value (LTV), ou Valor do Tempo de Vida do Cliente, surge como uma métrica essencial para representar o valor total gerado por um cliente durante todo o período de relacionamento com a organização. O cálculo do LTV considera o valor médio de cada transação multiplicado pelo número esperado de operações e pelo tempo de permanência do cliente na base (Fader, 2012). No setor de distribuição e varejo de eletrônicos, a definição do Ideal Customer Profile (ICP) torna-se estratégica para maximizar a diferença entre o custo de aquisição de clientes (CAC) e o LTV. Para empresas que buscam expandir sua atuação para mercados externos, onde não possuem dados privados de potenciais clientes, a utilização de informações públicas torna-se a única via viável para a modelagem preditiva. A aplicação de técnicas de inteligência de mercado permite que gestores foquem seus esforços em segmentos que apresentam maior probabilidade de faturamento elevado, otimizando o orçamento de marketing e vendas.
A fundamentação teórica para a análise de tais dados reside na estatística multivariada, especificamente na análise de regressão múltipla. Segundo Favero (2016), essa técnica permite estimar o impacto do incremento de cada variável independente sobre a variação da variável dependente, traduzindo-se no peso que cada característica possui na explicação do fenômeno estudado. O conjunto dessas variáveis independentes forma uma combinação linear que busca explicar o comportamento da variável de resposta da melhor maneira possível (Sarmento, 2010). A modelagem requer o atendimento de suposições críticas, como a ausência de correlação entre os erros, a distribuição normal dos resíduos com média zero e a homocedasticidade, que garante uma variância constante para os termos de erro. A verificação dessas premissas é fundamental para assegurar que o modelo possa ser aplicado na previsão de novas observações com confiabilidade. Estratégias analíticas como a regressão múltipla padrão, a hierárquica ou a estatística diferem quanto ao tratamento da variabilidade sobreposta de preditores correlacionados e à ordem de entrada das variáveis na equação (Tabachnick e Fidell, 2007). A correta identificação do perfil ideal de cliente permite não apenas a sobrevivência em um mercado saturado, mas a construção de uma vantagem competitiva sustentável baseada em dados concretos e modelos matemáticos rigorosos.
O processo metodológico adotado para a identificação do perfil ideal de cliente fundamentou-se em uma abordagem quantitativa e descritiva, utilizando um banco de dados composto pelo histórico de vendas de uma empresa do ramo de eletrônicos referente ao ano de 2024. A base de dados original continha 6652 observações, onde cada registro representava um CNPJ distinto, garantindo a individualidade das análises por cliente. Para assegurar a integridade e a confidencialidade das informações, os dados foram anonimizados antes do processamento. O arquivo de dados, estruturado em formato de planilha eletrônica, apresentava sete colunas principais que integravam informações de cadastro público da Receita Federal e dados internos de faturamento anual. A variável dependente definida para o estudo foi o faturamento anual registrado no exercício de 2024, enquanto as variáveis independentes abrangeram características cadastrais diversas: capital social, tipo de unidade (matriz ou filial), natureza jurídica, regime de tributação, opção pelo Microempreendedor Individual (MEI) e a quantidade de filiais que o CNPJ possuía.
A variável capital social foi tratada como numérica contínua, representando o investimento total realizado pelos sócios para a operação do negócio. O tipo de unidade foi configurado como uma variável categórica nominal binária, distinguindo se o estabelecimento era a sede principal ou uma ramificação. A natureza jurídica, também categórica nominal, classificou as empresas conforme o reconhecimento legal, incluindo categorias como Sociedade Anônima Fechada (SAF), Empresa Individual de Responsabilidade Limitada (EIRELI), Sociedade Empresária Limitada (SEL), Empresário Individual (EI), Sociedade Empresarial em Nome Coletivo (SENC) e Sociedade Simples Limitada (SSL). O regime de tributação foi segmentado em Lucro Real (LR), Lucro Presumido (LP), Lucro Arbitrado (LA) e Não Definido (ND), refletindo o sistema de cobrança de impostos baseado na arrecadação. A variável MEI indicou a opção ou não pelo regime simplificado para microempreendedores, enquanto a quantidade de filiais foi tratada como uma variável numérica discreta.
Para a implementação dos modelos de aprendizado de máquina, utilizou-se a linguagem de programação Python, com destaque para a biblioteca Statsmodels, que oferece recursos robustos para a estimação de modelos estatísticos e realização de testes de hipóteses (Seabold, Skipper, and Perktold, 2010). O primeiro passo operacional consistiu no pré-processamento dos dados, aplicando a técnica de one-hot encoding para converter as variáveis categóricas em variáveis dummies, permitindo que o algoritmo de regressão linear múltipla processasse as informações qualitativas. As estatísticas descritivas revelaram uma média de faturamento anual de R$ 869.517,30, com um desvio padrão elevado de R$ 2.091.890,00, indicando uma grande dispersão nos dados. O capital social médio situou-se em R$ 156.196,90, variando de zero a R$ 700.000.000,00. A análise da moda mostrou que a maioria das empresas na base eram matrizes (6364 observações), de natureza jurídica Empresário Individual (4413 observações), com regime de tributação não definido (6386 observações) e não optantes pelo MEI (3725 observações).
A modelagem estatística seguiu o método dos Mínimos Quadrados Ordinários (OLS), buscando minimizar a soma dos quadrados das diferenças entre os valores observados e os previstos. Para garantir a validade das inferências, foram aplicados testes rigorosos de normalidade e homocedasticidade. O teste de Shapiro-Francia (1972) foi utilizado para verificar se a amostra provinha de uma população com distribuição normal, enquanto o teste de Breusch-Pagan foi empregado para identificar a presença de heterocedasticidade, baseando-se no multiplicador de Lagrange para verificar se a variância dos erros era constante (Favero, 2016). Diante da identificação de valores atípicos que poderiam comprometer a precisão das estimativas, implementou-se um procedimento de remoção de outliers baseado no intervalo interquartílico (IQR). O limite inferior foi definido como o primeiro quartil subtraído de 1,5 vez a distância interquartílica, e o limite superior como o terceiro quartil somado a 1,5 vez essa mesma distância. Esse tratamento resultou na exclusão de 488 observações, reduzindo a base para 6164 registros, visando a obtenção de um modelo mais estável e representativo da realidade central dos dados.
Os resultados iniciais obtidos através do Modelo 1, que englobou a base de dados total com 6652 observações, apresentaram um coeficiente de determinação R² de 0,307. Embora esse valor indique que aproximadamente 30% da variabilidade do faturamento anual seja explicada pelas variáveis independentes selecionadas, o modelo falhou em atender às premissas estatísticas básicas. O teste de Shapiro-Francia rejeitou a hipótese nula de normalidade dos resíduos, apresentando uma estatística W de 0,267 e um p-valor de zero. Adicionalmente, o teste de Breusch-Pagan retornou um valor de qui-quadrado de 91486,24 com p-valor nulo, confirmando a presença de heterocedasticidade severa. A análise visual dos resíduos revelou uma concentração excessiva de pontos próximos ao valor zero e uma dispersão crescente, sugerindo que o modelo original não era adequado para previsões confiáveis devido à influência desproporcional de valores extremos.
Após a remoção estratégica de 488 outliers, o Modelo 2 foi gerado, resultando em um R² significativamente menor, de 0,071. Essa redução na capacidade explicativa é um fenômeno esperado ao se eliminar dados de alto faturamento que, embora reais, funcionam como pontos de alavancagem na regressão linear. Contudo, o Modelo 2 demonstrou uma melhoria crítica na qualidade estatística: o teste de Breusch-Pagan resultou em um p-valor de 0,206, o que permitiu não rejeitar a hipótese nula de homocedasticidade. Isso indica que, para a base tratada, a variância dos erros tornou-se constante, atendendo a um dos requisitos fundamentais da regressão OLS. Apesar de o teste de Shapiro-Francia ainda indicar desvio da normalidade (W de 0,984), a inspeção visual do histograma de resíduos demonstrou uma aproximação satisfatória da curva normal, permitindo o prosseguimento da análise para fins de inteligência de mercado.
A análise detalhada dos coeficientes no Modelo 2 e no Modelo 3 (este último ajustado para alternar as variáveis de referência e permitir a visualização de ganhos específicos) revelou padrões determinantes para a definição do ICP. A variável quantidade de filiais apresentou um coeficiente positivo de R$ 11.720,00, sugerindo que cada unidade adicional vinculada ao CNPJ principal contribui para um incremento direto no faturamento estimado. Esse resultado é coerente com a lógica de expansão comercial, onde empresas com maior capilaridade tendem a possuir maior volume de compras. Curiosamente, a variável tipo de unidade mostrou que, ao modificar a categoria de filial para matriz, ocorre um decréscimo médio de R$ 49.650,00 no faturamento estimado. Embora contraintuitivo, esse dado reflete a realidade operacional onde a matriz muitas vezes concentra custos administrativos e gerenciais, enquanto o faturamento efetivo é deslocado para filiais, centros de distribuição ou plantas produtivas específicas.
No que tange à natureza jurídica, a categoria EIRELI (Empresa Individual de Responsabilidade Limitada) destacou-se como a que proporciona o maior ganho para o valor estimado de faturamento quando comparada às demais. No Modelo 2, todas as outras naturezas jurídicas apresentaram coeficientes negativos em relação à categoria de referência, indicando que a transição para modelos como Empresário Individual ou Sociedade Simples Limitada resultaria em uma diminuição do faturamento previsto. Quanto ao regime de tributação, o Lucro Real e o Lucro Presumido mostraram-se indicadores de clientes com maior potencial financeiro. O regime de Lucro Arbitrado, embora presente, mostrou-se irrelevante para a definição do ICP devido à sua baixa frequência na base de dados (apenas um cliente), sendo frequentemente utilizado apenas em situações de descumprimento de obrigações acessórias (Receita Federal, 2010). A opção pelo MEI também se revelou um divisor de águas: empresas não enquadradas como microempreendedores individuais apresentam um acréscimo médio de R$ 26.640,00 no faturamento em relação às optantes, o que se justifica pelo limite de faturamento anual imposto por lei a essa categoria.
A integração desses achados permitiu a construção de uma equação preditiva final para o faturamento. Ao realizar a predição para um perfil de cliente que maximize todos os coeficientes positivos encontrados — sendo uma filial, de natureza jurídica EIRELI, não optante pelo MEI e tributada pelo Lucro Real ou Presumido — e fixando a quantidade de filiais em zero para uma postura conservadora, estimou-se um faturamento anual de R$ 851.600,00 por cliente. Cruzando esses dados com informações do Governo Federal, identificou-se que o Brasil possui atualmente 27111 empresas ativas no CNAE de referência que atendem a esses critérios. Dado que apenas 2230 dessas empresas já integram a base de clientes da organização estudada, existe um potencial de captação de 24881 novos clientes com perfil ideal. A conversão desse potencial, baseada na estimativa do modelo, representaria um incremento teórico de faturamento na ordem de R$ 21,1 bilhões para o setor.
A discussão dos resultados aponta que, embora o R² de 7,1% pareça baixo para padrões de ciências exatas, ele é relevante no contexto de inteligência de mercado para varejo, onde o comportamento de compra é influenciado por inúmeras variáveis exógenas não capturadas em cadastros públicos. A identificação de que variáveis cadastrais simples, como a natureza jurídica e o regime tributário, possuem significância estatística para prever o volume de faturamento oferece uma vantagem competitiva imediata. Gestores podem utilizar esses critérios para segmentar campanhas de marketing direto, priorizando investimentos em empresas que, estatisticamente, possuem maior probabilidade de gerar LTV elevado. As limitações do estudo residem na qualidade de preenchimento de alguns campos cadastrais, como o regime de tributação, que apresentava um volume alto de informações não definidas, possivelmente devido a omissões no momento do registro ou atualizações pendentes na base da Receita Federal. Pesquisas futuras poderiam integrar dados macroeconômicos regionais ou indicadores de crédito para aumentar o poder explicativo do modelo.
Conclui-se que o objetivo foi atingido, uma vez que o estudo permitiu identificar com rigor estatístico as características que compõem o perfil de cliente ideal para a empresa distribuidora de eletrônicos, utilizando ferramentas de machine learning e regressão linear múltipla. A análise demonstrou que clientes não enquadrados no MEI, com natureza jurídica EIRELI e operando sob regimes de Lucro Real ou Presumido, apresentam o maior potencial de faturamento anual. A remoção de outliers e a validação da homocedasticidade garantiram a confiabilidade das inferências, permitindo estimar um faturamento médio de R$ 851.600,00 por cliente dentro do perfil identificado. A aplicação prática desses resultados revela um mercado potencial de mais de 24000 empresas no território nacional, oferecendo um direcionamento estratégico claro para a otimização de recursos de captação e maximização do retorno sobre o investimento em vendas.
Referências Bibliográficas:
FADER, P. S. Customer centricity: Focus on the right customers for strategic advantage. Wharton Digital Press. 2012.
FÁVERO, L. P.; FÁVERO, P. Análise de dados: modelos de regressão com Excel, R, Stata® e SPSS®. [S.l.]: Elsevier Brasil, 2016. v. 1.
RECEITA FEDERAL DO BRASIL. Capítulo XIV – Lucro Arbitrado (IRPJ). [s.d.]. Disponível em: <https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/declaracoes-e-demonstrativos/dipj/respostas-2009/capituloxiv-lucroarbitrado2010.pdf>. Acesso em: 05/09/2025.
SARMENTO, C. T. Regressão múltipla: Ferramente de apoio a desição nas pesquisas de marketing institucional. [S.l.]: INPEAU, 2010.
SEABOLD, SKIPPER, and JOSEF PERKTOLD. “statsmodels: Econometric and statistical modeling with python.” Proceedings of the 9th Python in Science Conference. 2010.
SHAPIRO, S. S.; FRANCIA, R. S. An approximate analysis of variance test for normality. Journal of the American Statistical Association, v. 67, p. 215-216, 1972.
SPECIALSKI, ELIZABETH SCHWEITZER, ALESSANDRA. CRM – Estratégias para a garantia da qualidade no relacionamento com o cliente. Santa Catarina: Ilha Instituto Integrado de Tecnologia – 3IT, 2000. Palestra ministrada para a Sucesu.
TABACHNICK, B. G.; FIDELL, L. S. Using multivariate statistics. [S.l.]: Allyn & Bacon/Pearson Education, 2007.
Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Data Science e Analytics do MBA USP/Esalq
Para saber mais sobre o curso, clique aqui e acesse a plataforma MBX Academy




























