Resumo Executivo

08 de abril de 2026

Framework de Validação em Lakehouse via CRISP-DM no Databricks

Catherine Cintra Botelle; Elaine Barbosa de Figueiredo

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

A adoção crescente de arquiteturas baseadas em data lakes e lakehouses transformou a maneira como as organizações gerenciam grandes volumes de informações heterogêneas. Essas abordagens oferecem flexibilidade e escalabilidade para análises avançadas, permitindo que dados estruturados e não estruturados coexistam em um mesmo ecossistema (Databricks, 2020). No entanto, a utilidade prática desses ambientes depende intrinsecamente da qualidade dos dados processados. Informações incompletas, duplicadas ou inconsistentes comprometem a confiabilidade das análises e podem induzir a decisões corporativas equivocadas (Karras et al., 2019). Nesse contexto, a qualidade de dados consolidou-se como um dos pilares fundamentais da Engenharia de Dados moderna. Trabalhos clássicos na área já indicavam que a qualidade deve ser avaliada por meio de dimensões específicas, como precisão, completude, consistência e atualidade (Wang; Strong, 1996). Mais recentemente, a literatura técnica destacou a necessidade premente de mecanismos automatizados para validar e monitorar dados em tempo real, especialmente em arquiteturas distribuídas e ambientes em nuvem (Batini; Scannapico, 2016; Abedjan et al., 2018).

Embora existam frameworks robustos e consolidados no mercado, como o Great Expectations ou as funcionalidades nativas de Delta Live Tables, muitos deles apresentam uma curva de aprendizado elevada ou exigem integrações complexas que podem onerar projetos menores (Databricks, 2022). Diante desse cenário, soluções mais simples e modulares podem oferecer benefícios imediatos a equipes de engenharia, viabilizando a aplicação de verificações básicas de qualidade sem a necessidade de ferramentas adicionais onerosas. A contribuição de modelos metodológicos amplamente aceitos, como o Cross-Industry Standard Process for Data Mining, fornece uma estrutura padronizada e replicável para guiar esses esforços. Esse modelo estabelece fases que estruturam projetos de dados de maneira organizada, desde a compreensão do problema até a disponibilização de resultados em tabelas confiáveis. O foco reside na criação de um fluxo que garanta que o dado bruto, ao transitar pelas camadas de processamento, ganhe integridade e valor analítico.

A fundamentação teórica que sustenta a Engenharia de Software aplicada a dados enfatiza que a qualidade não é um atributo estático, mas um processo contínuo de refinamento. A arquitetura lakehouse surge como uma resposta técnica para unir a governança e o desempenho dos data warehouses com o baixo custo e a flexibilidade dos data lakes. O uso de formatos de armazenamento abertos, como o Delta Lake, permite a implementação de transações com propriedades de atomicidade, consistência, isolamento e durabilidade em sistemas de arquivos distribuídos. Essa base tecnológica é essencial para suportar frameworks de validação, pois garante que apenas dados que atendam aos requisitos mínimos de qualidade avancem para as camadas de consumo final. A justificativa para o desenvolvimento de mecanismos de validação leves reside na agilidade operacional, permitindo que anomalias estruturais sejam detectadas precocemente no ciclo de vida do dado. O objetivo central deste estudo concentra-se na proposição e avaliação de um framework simplificado de validação e deduplicação de dados em ambiente lakehouse, utilizando o referencial metodológico do processo padrão de mineração de dados para assegurar o rigor técnico.

A metodologia aplicada para a estruturação do framework seguiu as diretrizes do modelo de processo padrão para mineração de dados, adaptando-o para um contexto de engenharia de dados focado em qualidade. Na fase inicial de compreensão do negócio, definiram-se os requisitos técnicos para a detecção de nulidade, unicidade, frescor e consistência de esquema. A fonte de dados selecionada para o estudo de caso consistiu em uma base pública da Agência Nacional de Transportes Aquaviários, que disponibiliza registros sobre a situação operacional de portos brasileiros. Esses dados, obtidos em formato textual no portal governamental, apresentavam desafios típicos de bases reais, como a ausência de tipagem rigorosa e a presença de caracteres não estruturados. A fase de compreensão dos dados envolveu uma análise exploratória detalhada para identificar problemas de qualidade preexistentes, como registros duplicados e campos categóricos poluídos por símbolos e emojis.

O ambiente computacional utilizado foi o Databricks Free Edition, operando sob uma arquitetura serverless que aloca recursos de forma elástica. Essa escolha permitiu focar no desenvolvimento da lógica de validação sem a necessidade de gerenciamento manual de infraestrutura ou configuração de clusters. A execução dos processos de extração, transformação e carga foi realizada por meio de scripts em linguagem Python com a biblioteca PySpark, garantindo escalabilidade para o processamento de grandes volumes. A ingestão dos dados foi a primeira etapa operacional, onde o arquivo bruto foi carregado em uma tabela de camada Bronze. Essa prática preservou a integridade dos dados originais, atendendo ao princípio da rastreabilidade, que defende a capacidade de reconstituir a origem de cada registro (Sommerville, 2019). O recurso de ingestão automática da plataforma facilitou o upload e a criação do esquema inicial no catálogo de dados, reduzindo a complexidade operacional.

A preparação dos dados, correspondente à fase subsequente do modelo metodológico, concentrou-se na normalização e tipagem. Aplicou-se um processo de padronização que incluiu a remoção de símbolos e a conversão de campos textuais para formatos adequados, como inteiros e carimbos de data e hora. Para a remoção de emojis e caracteres especiais, utilizou-se uma função baseada em expressões regulares que limpou os campos categóricos, transformando, por exemplo, termos como “REGULAR” em um formato padronizado sem ruídos visuais. A conversão de tipos foi crítica para permitir cálculos temporais e análises quantitativas. Campos que representavam datas foram transformados de texto para o tipo timestamp, enquanto valores percentuais foram limpos de símbolos e convertidos para inteiros. Essa etapa de limpeza é fundamental na cadeia de dados, pois a origem dos problemas de qualidade muitas vezes reside no estágio de captura e disponibilização (Batini; Scannapico, 2016).

O núcleo do framework consistiu na aplicação sistemática de regras de qualidade divididas em quatro dimensões. A verificação de nulidade focou em campos críticos, identificando registros onde informações essenciais, como a data de término de uma operação portuária, estavam ausentes. A inexistência desses atributos prejudica análises de duração e quebra a integridade mínima necessária para o processamento. A dimensão de unicidade buscou identificar identificadores repetidos, um problema que aumenta custos de armazenamento e gera ambiguidade analítica. O frescor dos dados foi avaliado comparando a data do registro com o momento atual, estabelecendo uma janela de tolerância de 72 horas para considerar a informação como atualizada. Por fim, a consistência de esquema foi validada verificando se a conversão de tipos ocorreu sem erros, garantindo que os dados estivessem em conformidade com o contrato definido.

A etapa de deduplicação e geração da camada Silver utilizou funções de janela para manter apenas a versão mais recente de cada identificador único, baseando-se no carimbo de data e hora mais atual. Os registros que falharam em qualquer uma das regras de qualidade foram isolados em uma tabela de quarentena, evitando a contaminação das análises posteriores. A camada Silver resultante, armazenada no formato Delta Lake, consolidou apenas registros válidos, limpos e únicos. Esse fluxo de trabalho reflete a arquitetura de medalhão, que organiza os dados em níveis crescentes de refinamento e confiabilidade (Databricks, 2020). A reprodutibilidade do estudo foi garantida pelo uso de notebooks que podem ser executados por outros pesquisadores no mesmo ambiente tecnológico, permitindo a replicação do framework em diferentes conjuntos de dados sem a necessidade de adaptações estruturais complexas.

Os resultados obtidos a partir da aplicação do framework revelaram anomalias significativas na base de dados da agência reguladora. A análise inicial evidenciou uma estrutura inteiramente textual, o que é comum em bases governamentais publicadas para consulta humana, mas pouco adequadas para integração direta em sistemas analíticos. A presença de emojis em campos categóricos, embora intuitiva para visualização em portais públicos, compromete a consistência em análises computacionais. A remoção desses caracteres e a normalização dos valores resultaram em uma base mais homogênea, facilitando agrupamentos e filtros. A aplicação da regra de nulidade identificou que, embora pouco frequente, a ausência de dados em campos de data de término inviabilizava o cálculo da duração das situações operacionais nos portos. Na Engenharia de Software, essa falha equivale à ausência de um parâmetro obrigatório em uma função, o que deve impedir o processamento do registro para evitar resultados inconsistentes.

A verificação de unicidade detectou registros com identificadores duplicados, o que reforça a necessidade de processos de limpeza já nas etapas iniciais da ingestão. Do ponto de vista prático, a duplicidade de chaves em bancos de dados ou redundâncias de código impactam diretamente a manutenção e a confiabilidade dos sistemas. O framework tratou essa questão mantendo apenas o registro com o carimbo de data mais recente, garantindo a consistência temporal. Quanto ao frescor dos dados, observou-se que certos registros estavam desatualizados em relação à janela de 72 horas definida. Falhas desse tipo impactam a utilidade da informação em processos decisórios em tempo real. Em termos de Engenharia de Software, a falta de frescor pode ser comparada a sistemas que operam sobre caches vencidos ou versões obsoletas de bibliotecas, levando a conclusões baseadas em estados defasados da realidade.

A consistência de esquema apresentou desafios na conversão de formatos de data e hora. Variações na representação textual das datas impediram que alguns registros fossem interpretados corretamente pelo sistema. Para a Engenharia de Dados, isso representa uma quebra de contrato de esquema, enquanto para a Engenharia de Software equivale a erros de tipagem em linguagens fortemente tipadas. A ocorrência simultânea desses problemas de nulidade, duplicidade e consistência demonstrou que a qualidade de dados é um conceito multidimensional que afeta o sistema de maneira distinta em cada frente. A ausência de atributos compromete a completude, enquanto registros duplicados afetam a unicidade e dados desatualizados reduzem a atualidade. Essa diversidade de falhas confirmou a importância de um monitoramento contínuo e integrado ao longo de todo o ciclo de vida dos dados.

A implementação da camada Silver por meio da deduplicação preservou a integridade analítica ao garantir que cada porto possuísse apenas um estado operacional válido por período. Esse resultado conecta-se aos princípios clássicos de desenvolvimento de software, como a eliminação de redundâncias e a busca pela versão única da verdade. O uso das tabelas Delta foi determinante para o sucesso do framework, pois as propriedades de atomicidade e consistência permitiram transações seguras durante as operações de atualização e inserção. Além disso, a funcionalidade de versionamento de dados possibilitou a rastreabilidade das validações realizadas, permitindo auditar o histórico de alterações sempre que necessário. A separação em camadas contribuiu para o isolamento de erros, garantindo que apenas dados de alta qualidade chegassem à camada Gold para a geração de métricas.

A discussão sobre o ambiente computacional destacou que, apesar das limitações técnicas da versão gratuita da plataforma, como restrições de tempo de execução, foi possível concluir todo o fluxo proposto. Isso evidencia que soluções eficazes não dependem necessariamente de infraestruturas complexas ou caras; frameworks leves são frequentemente preferíveis por favorecerem a manutenção e o reuso (Pressman; Maxim, 2021). O modelo serverless utilizado demonstrou ser uma vantagem estratégica, pois eliminou a sobrecarga de gerenciamento de servidores e permitiu que o foco permanecesse na lógica de negócio e nas regras de qualidade. Essa abstração de plataforma favorece a produtividade e reduz a probabilidade de falhas de configuração que poderiam comprometer a integridade do pipeline de dados.

A relação entre os resultados e as fases do modelo metodológico confirmou a solidez da abordagem. A fase de compreensão dos dados foi essencial para identificar as fragilidades iniciais, enquanto a preparação dos dados consumiu a maior parte do esforço de desenvolvimento, refletindo a realidade de projetos de ciência de dados. A avaliação sistemática permitiu verificar dimensões distintas da integridade, resultando em evidências concretas de problemas estruturais. A disponibilização dos resultados em tabelas Delta assegurou que o framework pudesse ser reutilizado em diferentes contextos organizacionais, promovendo a reprodutibilidade. A simplicidade do método configurou-se como um diferencial, pois soluções mais robustas poderiam exigir custos de implementação e manutenção proibitivos para cenários de menor escala.

Apesar dos avanços, identificaram-se limitações no framework proposto. A metodologia concentrou-se em aspectos estruturais e temporais, deixando de fora verificações de acurácia semântica ou integridade referencial complexa. Essas dimensões exigiriam a integração com fontes externas de verdade ou a definição de regras de negócio muito específicas, o que aumentaria a complexidade da solução. No entanto, para o objetivo de fornecer uma validação básica e eficiente, o framework mostrou-se plenamente capaz. A compreensão profunda do domínio e dos relacionamentos entre variáveis é um passo necessário para evoluções futuras, permitindo que verificações mais sofisticadas sejam incorporadas ao pipeline de preparação de dados. O estudo reforçou a ideia de que ferramentas acessíveis podem sustentar práticas fundamentais de engenharia, elevando o patamar de confiabilidade das informações corporativas.

A análise final dos dados validados na camada Silver mostrou uma redução drástica no volume de ruído e inconsistências. A base resultante permitiu consultas mais rápidas e precisas, demonstrando que o investimento em qualidade nas etapas iniciais reduz o retrabalho em fases posteriores de análise e modelagem. A Engenharia de Dados, ao atuar como o elo entre os dados brutos e os sistemas de apoio à decisão, desempenha um papel central na sustentação da Engenharia de Software moderna. A construção de soluções robustas e confiáveis depende da capacidade de garantir que o insumo básico — o dado — seja tratado com o mesmo rigor técnico aplicado ao desenvolvimento de código. O alinhamento com metodologias consolidadas e o uso de tecnologias de ponta, mesmo em versões limitadas, provaram ser um caminho viável para a democratização de boas práticas de governança de dados.

Conclui-se que o objetivo foi atingido, uma vez que a implementação do framework de validação e deduplicação em ambiente lakehouse demonstrou ser viável, eficaz e metodologicamente sólida. As verificações de nulidade, unicidade, frescor e consistência de esquema permitiram transformar uma base de dados textual e ruidosa em um conjunto de informações confiáveis e prontas para análise. A utilização do Databricks Free Edition e da arquitetura de medalhão comprovou que é possível estabelecer fluxos de trabalho rigorosos e escaláveis sem a necessidade de investimentos massivos em infraestrutura. O alinhamento com as fases do modelo de processo padrão para mineração de dados garantiu a organização e a reprodutibilidade do estudo, reforçando a importância de seguir referenciais teóricos consolidados na Engenharia de Dados. O framework proposto representa uma solução prática para organizações que buscam elevar a qualidade de seus ativos de dados de maneira ágil, destacando a Engenharia de Dados como um componente essencial para o sucesso de sistemas de software orientados a dados.

Referências Bibliográficas:

ABEDJAN, Ziawasch; GOLAB, Lukasz; NAUMANN, Felix. Data Profiling: A Tutorial. Proceedings of the VLDB Endowment, v. 11, n. 12, p. 1937–1940, 2018.

BATINI, Carlo; SCANNAPIECO, Monica. Data and Information Quality: Dimensions, Principles and Techniques. Cham: Springer, 2016.

DATABRICKS. Delta Lake: The Definitive Guide. San Francisco: Databricks, 2020. Disponível em: https://delta.io/. Acesso em: 24 set. 2025.

DATABRICKS. Delta Live Tables: Reliable Data Pipelines at Scale. San Francisco: Databricks, 2022. Disponível em: https://www.databricks.com/product/delta-live-tables. Acesso em: 24 set. 2025.

KARRAS, Panagiotis et al. An Experimental Comparison of Methods for Duplicate Detection. Proceedings of the VLDB Endowment, v. 12, n. 10, p. 1679–1692, 2019.

PRESSMAN, Roger S.; MAXIM, Bruce R. Software Engineering: A Practitioner’s Approach. 9. ed. New York: McGraw-Hill, 2021.

SOMMERVILLE, Ian. Software Engineering. 10. ed. Harlow: Pearson, 2019.

WANG, Richard Y.; STRONG, Diane M. Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems, v. 12, n. 4, p. 5–33, 1996.

Resumo executivo oriundo de Trabalho de Conclusão de Curso da Especialização em Engenharia de Software do MBA USP/Esalq

Saiba mais sobre o curso, clique aqui

Quem editou este artigo

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade