
10 de fevereiro de 2026
Associação de poços de petróleo por similaridade de atributos geofísicos
Pascoal Antonio da Silva Mello; Fábio Lima
Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.
O objetivo deste estudo foi propor e validar um modelo de ciência de dados para processar registros de perfuração de poços de petróleo de diferentes empresas, padronizar seus mnemônicos e aplicar análise multivariada para detectar agrupamentos significativos entre os atributos dos poços. A pesquisa buscou criar uma metodologia robusta para superar a heterogeneidade dos dados no setor de óleo e gás, permitindo a associação de poços com base em suas características geofísicas e geológicas. A premissa é que, ao unificar a taxonomia dos dados e reduzir sua dimensionalidade, é possível revelar padrões latentes não aparentes em análises isoladas, fornecendo uma base quantitativa para a comparação e classificação de ativos de exploração.
A exploração de petróleo e gás é uma atividade complexa e arriscada, pois a identificação direta de reservatórios é inviável (Thomas, 2001). O sucesso da perfuração depende da interpretação das condições da subsuperfície, que variam drasticamente. Para mitigar incertezas, a indústria utiliza a perfilagem, coletando dados em tempo real durante a perfuração. Sensores registram parâmetros físicos e químicos das formações rochosas, e esses perfis são a principal fonte de informação para caracterizar formações, identificar zonas portadoras de hidrocarbonetos e avaliar a viabilidade econômica (Silva et al., 2021).
Entre os dados coletados estão os raios gama (GR), que diferenciam folhelhos de arenitos; a resistividade (RT), que distingue água salgada de hidrocarbonetos; a porosidade (NPHI), que quantifica o potencial de armazenamento de fluidos; e a densidade (RHOB), que auxilia na estimativa da porosidade e na identificação da litologia. Outras medições incluem a velocidade sônica (DT), pressão, temperatura e o diâmetro do poço (CAL), cada uma contribuindo para o entendimento geológico (Rocha & Azevedo, 2017). Cada registro é identificado por um mnemônico.
Um dos maiores desafios analíticos na indústria é a falta de padronização desses mnemônicos. Cada empresa de serviços utiliza sistemas e nomenclaturas proprietárias, criando um obstáculo para a integração de dados de diferentes poços e operadores, tornando análises comparativas um processo manual e sujeito a erros. No Brasil; os dados de perfuração são submetidos à Agência Nacional do Petróleo, Gás Natural e Biocombustíveis (ANP), uma metodologia de unificação é premente para permitir a análise integrada do vasto acervo de dados de exploração do país (Carneiro & Moreira, 2012).
A revisão bibliográfica indicou uma escassez de estudos focados na padronização de mnemônicos para registros de perfuração. No entanto, trabalhos em áreas correlatas forneceram o embasamento conceitual. A aplicação de Análise de Componentes Principais (PCA) para detecção de padrões em dados geológicos foi explorada com sucesso em outros contextos, demonstrando sua capacidade de reduzir a complexidade de datasets geocientíficos (Gomes, 2014). O uso de métodos como o Elbow para otimizar o número de agrupamentos em algoritmos como o K-means é uma prática consolidada na ciência de dados (Polselli, 2023). A natureza multivariada e inter-relacionada dos dados geofísicos sugere que a busca por agrupamentos é uma abordagem promissora (Grus, 2021).
A metodologia empregada foi quantitativa, focada na análise de dados numéricos. A base de dados foi constituída por registros públicos de 18 poços da ANP (Agência Nacional do Petróleo, 2020). O conjunto de dados bruto totalizava mais de 340 mil linhas, 688 colunas e 1.78 gigabytes. As variáveis eram predominantemente quantitativas, incluindo medições como GR, RHOB, NPHI, DT, RT, entre outras. O fluxo de trabalho foi implementado em Python, com as bibliotecas Pandas, Numpy e Scikit-learn (Netto e Neto, 2021; Pedregosa et al., 2011).
O pré-processamento dos dados foi uma etapa crítica. A primeira tarefa foi a limpeza dos arquivos brutos, removendo cabeçalhos e informações textuais. Em seguida, realizou-se a padronização dos mnemônicos, desenvolvendo um dicionário para mapear as diversas variações de nomes de atributos para um padrão único. Por exemplo, colunas como “GAMMA”, “GRAPI” ou “RAIOGAMA” foram unificadas como “GR”. Este processo reduziu o número de colunas de 688 para um conjunto gerenciável de atributos únicos, eliminando redundância e permitindo a comparação direta entre poços. Adicionalmente, foram tratados valores nulos, removidos caracteres especiais e os dados foram organizados em uma estrutura tabular padrão.
Para otimizar o processamento em um ambiente computacional com limitações, os tipos de dados numéricos foram convertidos de float64 para float32, reduzindo o uso de memória pela metade sem perda significativa de precisão. Após a padronização, os dados foram normalizados (escalonados) para que todas as variáveis tivessem a mesma escala, um pré-requisito para algoritmos sensíveis à distância como PCA e K-means. A redução de dimensionalidade foi conduzida com Análise de Componentes Principais (PCA), uma técnica que transforma variáveis correlacionadas em um novo conjunto de variáveis não correlacionadas (componentes principais), ordenadas pela variância que explicam (Hair et al., 2009). O critério foi reter componentes suficientes para explicar 95% da variância total dos dados.
Para a identificação dos agrupamentos, foi utilizado o algoritmo de clusterização não supervisionado K-means. A determinação do número ótimo de clusters (k) foi feita com uma abordagem combinada. Primeiro, aplicou-se o método do cotovelo (Elbow Method), que analisa a inércia para diferentes valores de k. Em complemento, utilizou-se a análise de silhueta (Silhouette analysis), que mede a coesão e separação dos grupos. A combinação desses métodos, junto à inspeção visual dos clusters em um espaço 2D e 3D formado pelos componentes principais, permitiu uma escolha robusta para o número de agrupamentos. Matrizes de correlação também foram geradas para explorar as relações lineares entre os atributos originais.
A aplicação da metodologia produziu resultados sequenciais. A análise inicial para determinar o número ideal de clusters com o método do cotovelo indicou um valor ótimo de k=2, ponto de maior inflexão na curva de inércia. Contudo, a inspeção visual dos dados projetados nos dois primeiros componentes principais com apenas dois clusters revelou uma separação pouco nítida, sugerindo que uma segmentação mais granular poderia representar melhor a estrutura dos dados.
Para refinar a escolha de k, a análise de silhueta foi empregada. Devido à complexidade computacional, o método foi executado em uma amostra de 100.000 registros. Os resultados indicaram que a pontuação média aumentava com o número de componentes principais, sugerindo que uma representação mais rica dos dados levava a clusters mais bem definidos. A técnica sugeriu um número maior de clusters, com picos de pontuação em torno de k=4 e k=6. Com base nessa evidência e priorizando a interpretabilidade, o valor de k=4 foi selecionado para análises aprofundadas, pois representava um bom equilíbrio entre detalhe e simplicidade.
A visualização dos dados em um espaço tridimensional, utilizando os três primeiros componentes principais, confirmou a adequação da escolha de k=4. O gráfico 3D revelou quatro agrupamentos distintos e bem separados, cada um ocupando uma região específica do espaço de componentes. Essa separação visual clara forneceu forte evidência de que os quatro clusters representavam agrupamentos naturais nos dados, correspondendo provavelmente a diferentes tipos de litologias ou ambientes deposicionais. A segmentação com k=4 foi visivelmente superior à de k=2. A análise comparativa entre PCA e TruncatedSVD mostrou que ambas convergiam para resultados quase idênticos, reforçando a robustez da transformação.
A análise da matriz de correlação entre os atributos geofísicos corroborou a estrutura encontrada. Foram identificadas correlações fortes e positivas, como entre raios gama (GR) e tempo de trânsito sônico (DT), e correlações negativas, como entre densidade e porosidade, o que é geologicamente esperado. Essas relações justificaram o uso da PCA, pois demonstravam a existência de redundância informacional. Uma matriz filtrada, exibindo apenas correlações acima de 0.5, destacou as associações mais fortes, como a correlação positiva entre o calibrador (CALI) e os raios gama (GR).
Os resultados da PCA foram detalhados para permitir a interpretação. A tabela de cargas fatoriais mostrou a contribuição de cada variável original para a formação dos componentes. Por exemplo, o primeiro componente principal poderia ser interpretado como um “eixo litológico” (altas cargas de GR e PEF), enquanto o segundo poderia estar associado a “propriedades de fluido” (altas cargas de resistividade e porosidade). A análise das comunalidades confirmou que a maior parte da variabilidade das variáveis originais foi capturada pelos componentes retidos.
A tabela de autovalores demonstrou a eficácia da redução de dimensionalidade. Os 11 primeiros componentes explicaram cumulativamente 95,6% da variância total do conjunto de dados, validando a decisão de trabalhar no espaço dimensional reduzido para uma análise computacionalmente mais eficiente sem perda significativa de informação (Hair et al., 2009).
A discussão dos resultados evidencia que a abordagem metodológica foi bem-sucedida. A padronização dos mnemônicos foi a etapa habilitadora para a análise integrada. A combinação de métodos quantitativos (Elbow, Silhueta) com a inspeção qualitativa (visualização 3D) levou à escolha robusta de k=4 clusters. A PCA reduziu a complexidade e criou um novo espaço de características que maximizou a separação entre os grupos. Os agrupamentos identificados representam segmentos de poços com perfis geofísicos similares, informação valiosa para correlação estratigráfica e caracterização de reservatórios.
As limitações do estudo, como a necessidade de amostragem para a análise de silhueta devido ao poder computacional, destacam os desafios de aplicar essas técnicas em datasets de grande escala. No entanto, os resultados são promissores e demonstram o potencial da ciência de dados para extrair insights do acervo de dados da indústria de petróleo e gás. A metodologia desenvolvida serve como um protótipo funcional que pode ser escalado para aplicações em ambientes operacionais.
Este trabalho demonstrou a viabilidade de aplicar um fluxo de trabalho de ciência de dados, combinando pré-processamento, análise multivariada e agrupamento, para associar poços de petróleo com base na similaridade de seus atributos. A padronização dos mnemônicos foi essencial para superar a heterogeneidade dos dados, criando um dataset coeso. O uso da Análise de Componentes Principais (PCA) foi eficaz na redução da dimensionalidade, enquanto o algoritmo K-means, com k=4 definido por uma combinação de métodos, permitiu a identificação de padrões relevantes entre os poços.
Os resultados indicam que, mesmo com dados complexos e não padronizados, é possível estruturar um modelo que segmenta os poços por similaridade, oferecendo uma ferramenta para análise exploratória e suporte à decisão no setor. Como sugestão para trabalhos futuros, recomenda-se a expansão da base de dados para incluir mais poços de diferentes bacias, a incorporação de variáveis categóricas e o teste de outros algoritmos de agrupamento, como DBSCAN ou métodos hierárquicos. Conclui-se que o objetivo foi atingido: demonstrou-se que é possível criar um modelo robusto que padroniza registros de perfuração de múltiplas fontes e associa poços de petróleo por semelhança de suas características geofísicas, utilizando técnicas de análise de componentes principais e clusterização.
Referências:
Agência Nacional do Petróleo, Gás Natural e Biocombustíveis [ANP]. 2020. Consulta de poços. Disponível em: <https://www. gov. br/anp/pt-br/assuntos/exploracao-e-producao-de-oleo-e-gas/dados-tecnicos/acervo-de-dados>. Acesso em: 10 abr. 2025.
Carneiro, M. C.; Moreira, J. R. (Orgs.). 2012. Petróleo em Águas Profundas: Uma História Tecnológica da Petrobras na Exploração e Produção Offshore. Petrobras/Campus, Rio de Janeiro, RJ, Brasil.
Gomes, R. K. 2014. Detecção automática de planos em afloramentos com PCA. Trabalho de Conclusão de Curso (Graduação em Computação Aplicada) – Universidade do Vale do Rio dos Sinos (UNISINOS), São Leopoldo, RS.
Grus, J. 2021. Agrupamento. p. 285. In: Grus, J. Data Science do Zero: Noções Fundamentais com Python. Alta Books, Rio de Janeiro, RJ, Brasil.
Hair, J. F., Black, W. C., Babin, B. J., & Anderson, R. E. 2009. Análise Multivariada de Dados. Bookman, Porto Alegre, RS, Brasil.
Netto, A.; Neto, F. 2021. Python para Data Science e Machine Learning Descomplicado. 1ed. Alta Books, Rio de Janeiro, RJ, Brasil.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., … & Duchesnay, E. 2011. Scikit-learn: Machine learning in Python. Journal of machine learning research, 12(Oct), 2825-2830.
Polselli, A. 2023. Clusterização com K-means em Python utilizando Elbow Method. Disponível em: <https://datauniverse. com. br/clusterizacao-com-k-means-em-python-utilizando-elbow-method/>. Acesso em: 15 mai. 2025.
Rocha, L. A.; Azevedo, R. 2017. Projetos de Poços de Petróleo – Geopressões e Assentamento de Colunas de Revestimento. 1ed. Interciência, Rio de Janeiro, RJ, Brasil.
Silva, F.; Pereira, M.; Almeida, R. 2021. Petróleo: Noções sobre Exploração, Perfuração, Produção e Microbiologia. Oficina de Textos, São Paulo, SP, Brasil.
Thomas, J. E. (Org.). 2001. Fundamentos de Engenharia de Petróleo. 2ed. Interciência, Rio de Janeiro, RJ, Brasil.
Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq
Saiba mais sobre o curso; clique aqui:





































