Resumo Executivo

15 de janeiro de 2026

Machine Learning na seleção de brocas para perfuração offshore

Autor(a): Daniel Breno Menezes Guerra — Orientador(a): Jéssica Eloá Poletto

Resumo elaborado pela ferramenta ResumeAI, solução de inteligência artificial desenvolvida pelo Instituto Pecege voltada à síntese e redação.

Este estudo construiu modelos de “machine learning” para estimar a taxa de penetração (ROP) e auxiliar na seleção de brocas para a perfuração de poços de petróleo “offshore”, utilizando o histórico de operações. A pesquisa desenvolveu uma ferramenta quantitativa para otimizar a seleção de brocas, visando reduzir custos e tempo. A escolha da broca impacta diretamente a ROP, um indicador chave de eficiência. Uma seleção inadequada resulta em perfuração lenta e manobras para troca de broca, operações que podem durar até 24 horas, com custos significativos, já que o afretamento de um navio-sonda pode atingir US$ 400.000,00 por dia (Petronotícias, 2024). O trabalho buscou superar as limitações dos métodos tradicionais, que dependem da experiência subjetiva do engenheiro de perfuração.

A perfuração de poços de petróleo é uma operação complexa onde rochas são perfuradas pela aplicação de peso e rotação a uma broca (Rocha et al., 2006). Durante o processo, um fluido de perfuração circula para remover detritos, resfriar a broca e manter a estabilidade do poço (Triggia et al., 2001). A construção de um poço é dividida em fases; ao final de cada uma, uma coluna de revestimento de aço é cimentada para isolar as formações, permitindo o avanço da perfuração com uma broca de diâmetro menor até alcançar a rocha reservatório.

A perfuração “offshore” é de grande relevância para o Brasil. Dados da ANP indicam que, em 2024, 94,66% da produção nacional de petróleo e gás foi proveniente de poços marítimos (ANP, 2025). A complexidade e o alto custo dessas operações, realizadas a partir de plataformas flutuantes, tornam a otimização de cada etapa essencial. Maximizar a ROP não apenas acelera a conclusão do poço, mas também minimiza a exposição a riscos operacionais, reforçando a necessidade de ferramentas de decisão baseadas em dados.

O processo convencional de seleção de brocas baseia-se na análise do histórico de poços de correlação, buscando replicar o sucesso de brocas com bom desempenho (Triggia et al., 2001). Contudo, essa abordagem é limitada pela experiência do engenheiro e pela dificuldade de ponderar sistematicamente as múltiplas variáveis que influenciam o desempenho, como parâmetros operacionais, propriedades do fluido e características da coluna de perfuração. A subjetividade do processo pode levar a escolhas subótimas.

Neste cenário, técnicas de “machine learning” como “Random Forest”, XGBoost e Redes Neurais são adequadas para modelar a relação entre dezenas de variáveis e a ROP, analisando grandes volumes de dados para identificar padrões complexos (Barbosa et al., 2019). Ao transformar dados operacionais em inteligência preditiva, esses modelos oferecem uma base quantitativa para a tomada de decisão, complementando a expertise dos engenheiros e representando um avanço na digitalização da indústria de petróleo e gás.

A pesquisa utilizou dados secundários em uma abordagem quanti-qualitativa para avaliar algoritmos preditivos (Rodrigues, 2007). O fluxo de trabalho foi executado em Python (versão 3.11.0), com bibliotecas como Pandas e NumPy para manipulação de dados, Scikit-learn para pré-processamento e implementação dos modelos “Random Forest” e VotingRegressor, TensorFlow com Keras para Redes Neurais, e XGBoost. A visualização foi realizada com Matplotlib e Seaborn.

A base de dados original, de uma operadora no Brasil, continha 53.573 observações e 50 variáveis. O tratamento de dados incluiu a eliminação de operações terrestres e duplicatas, criação de novas variáveis, remoção de colunas irrelevantes e de observações com valores irreais ou ROP nula. Outliers foram tratados pelo método do Intervalo Interquartil (IQR) e dados faltantes foram ajustados. Variáveis categóricas foram padronizadas e o nome dos campos anonimizado. O conjunto de dados final para modelagem consistiu em 8.616 observações e 19 variáveis (18 preditoras e a ROP como alvo).

Para a construção dos modelos, os dados foram divididos em 70% para treinamento, 10% para validação e 20% para teste, com divisão estratificada. A reprodutibilidade foi garantida pela fixação de uma semente pseudoaleatória (“random seed”) com o valor 42 (Pineau et al., 2021). As variáveis categóricas foram transformadas pela técnica “One-Hot Encoding” e as numéricas normalizadas pelo “StandardScaler”, passo importante para o desempenho de algoritmos como Redes Neurais (Zhang et al., 2023).

Foram implementados três modelos: Redes Neurais Artificiais (ANN), que aprendem relações complexas através de camadas de neurônios (Goodfellow et al., 2016); “Random Forest” (RF), um método de “ensemble” de árvores de decisão (Breiman, 2001); e XGBoost, uma implementação de “gradient boosting” que constrói árvores sequencialmente (Chen e Guestrin, 2016). Os hiperparâmetros foram otimizados com RandomizedSearchCV e Keras Tuner. O modelo final foi um “ensemble” VotingRegressor, que combina as predições dos três modelos base. Os pesos de cada modelo no “ensemble” foram otimizados via GridSearchCV, resultando em pesos iguais, indicando que a média das predições foi a estratégia mais eficaz. A performance foi avaliada por Erro Médio Absoluto (MAE), Raiz do Erro Quadrático Médio (RMSE) e Coeficiente de Determinação (r²), que oferecem uma visão completa da acurácia (Abbas et al., 2019; Branco e Gomide, 2021).

A análise exploratória revelou que a ROP apresentou média de 11,51 m/h e desvio padrão de 8,88 m/h, indicando alta variabilidade. Sua distribuição era assimétrica à direita, um desafio para os modelos. As variáveis preditoras numéricas exibiram escalas distintas, reforçando a necessidade de normalização. A matriz de correlação confirmou relações esperadas, como a correlação positiva entre ROP e vazão, e negativa com profundidade e inclinação.

Uma correlação negativa entre ROP e parâmetros como peso sobre a broca (wob) e rotação (rpm) foi explicada pela prática operacional de aplicar maiores valores desses parâmetros em formações mais duras, que naturalmente têm ROP mais baixa. A análise das variáveis categóricas revelou um desbalanceamento, com poucas categorias de diâmetro de broca, tipo de equipamento e campo concentrando a maioria dos registros, o que pode afetar a generalização do modelo para categorias menos representadas.

Quanto ao desempenho preditivo no conjunto de teste, todos os algoritmos capturaram padrões relevantes. O modelo de Redes Neurais teve um r² de 0,697. Os modelos baseados em árvores, XGBoost e “Random Forest”, tiveram performances superiores, com r² de 0,735 e 0,738, respectivamente. O modelo “ensemble” destacou-se com o melhor desempenho, alcançando um MAE de 2,98 m/h, um RMSE de 4,50 m/h e um r² de 0,745. Este resultado mostra que o modelo final explicou aproximadamente 75% da variabilidade da ROP, confirmando a eficácia de combinar diferentes abordagens.

A análise gráfica da relação entre valores reais e previstos corroborou as métricas. Os gráficos de dispersão mostraram que as previsões do modelo “ensemble” estavam mais concentradas em torno da linha de predição perfeita. No entanto, observou-se uma maior dispersão dos erros para valores mais altos de ROP, sugerindo que os modelos têm dificuldade em prever eventos de alta taxa de penetração, que são menos frequentes no conjunto de dados.

A análise dos resíduos do modelo “ensemble” foi realizada para validar sua adequação (James et al., 2013). O gráfico de dispersão dos resíduos padronizados mostrou uma distribuição aleatória em torno de zero, sugerindo baixo viés. Contudo, o gráfico Quantil-Quantil (Q-Q Plot) revelou desvios significativos nas caudas da distribuição dos resíduos, indicando que o modelo tem maior imprecisão ao prever valores extremos de ROP, o que é consistente com a distribuição assimétrica da variável alvo.

A interpretabilidade foi explorada através da análise da importância das variáveis (Molnar, 2025). Os modelos de Redes Neurais e “Random Forest” atribuíram maior importância a variáveis operacionais como profundidade inicial (‘profi’), metragem perfurada (‘metragem’), ano (‘entrada’) e vazão (‘vazão’). Em contraste, o XGBoost destacou a importância de variáveis de equipamentos, como diâmetro da broca (‘broca’), código IADC (‘iadc’), tipo de fluido (‘fluido’) e equipamento direcional (‘equipdir’). Essa divergência, com alguns modelos focando em “como” e “quando” se perfura e outro em “com o que”, reforça a vantagem do modelo “ensemble”, que integra essas diferentes perspectivas.

Comparando com a literatura, o r² de 0,745 é competitivo, embora alguns estudos reportem valores superiores (Li et al., 2023; Wang et al., 2024). Uma diferença metodológica importante é que muitos trabalhos utilizam dados de alta frequência e perfis geológicos detalhados. A abordagem deste estudo, por outro lado, utilizou dados operacionais agregados por evento, refletindo os dados disponíveis na fase de planejamento de um poço. Isso torna o modelo particularmente útil para a seleção inicial de brocas, seu objetivo principal.

O estudo possui limitações, como a menor precisão na previsão de altas ROP e a dependência do modelo ao universo de dados do treinamento. A generalização para campos ou tecnologias não presentes nos dados deve ser cautelosa. No entanto, o modelo desenvolvido, com um r² de 0,75, é uma ferramenta valiosa para o planejamento. Ele pode ser usado para simular combinações de brocas e parâmetros para identificar as que maximizam a ROP prevista e para realizar análises de sensibilidade sobre o impacto de parâmetros controláveis.

Este trabalho desenvolveu e avaliou modelos de “machine learning” para a predição da ROP na perfuração “offshore”. A abordagem “ensemble”, combinando Redes Neurais, “Random Forest” e XGBoost, foi a mais eficaz, explicando aproximadamente 75% da variabilidade da ROP. A análise da importância das variáveis revelou que tanto as condições operacionais quanto as características dos equipamentos são relevantes, reforçando a robustez da abordagem combinada. O modelo representa uma ferramenta quantitativa que pode otimizar decisões estratégicas no planejamento de poços, contribuindo para operações mais eficientes. Conclui-se que o objetivo foi atingido: demonstrou-se que a aplicação de um modelo “ensemble” de “machine learning” é uma abordagem viável e eficaz para estimar a taxa de penetração e auxiliar na seleção de brocas de perfuração.

Para trabalhos futuros, recomenda-se a incorporação de dados geológicos detalhados, como perfis de resistividade, para enriquecer as variáveis preditoras e aumentar a acurácia. Adicionalmente, o desenvolvimento de uma interface de software baseada no modelo facilitaria sua integração ao fluxo de trabalho dos engenheiros, permitindo simulações interativas e promovendo decisões mais consistentes e otimizadas.

Referências:
Abbas, A. K.; Assi, A. H.; Abbas, H.; Almubarak, H; Saba, M. A. 2019. Drill Bit Selection Optimization Based on Rate of Penetration: Application of Artificial Neural Networks and Genetic Algorithms. In: Abu Dhabi International Petroleum Exhibition & Conference, 2019, Abu Dhabi, UEA. Anais… p. 7002-7012.
Adams, D. 2007. O guia do mochileiro das galáxias. 1ed. Arqueiro, Guarulhos, SP, Brasil.
Agência Nacional do Petróleo, Gás Natural e Biocombustíveis [ANP]. 2025. Boletim Mensal da Produção de Petróleo e Gás Natural. Disponível em <https://www. gov. br/anp/pt-br/centrais-de-conteudo/publicacoes/boletins-anp/boletins/arquivos-bmppgn/2024/dezembro. pdf>. Acesso em: 28 fev. 2025.
Barbosa, L. F. F. M; Nascimento, A.; Mathias, M. H.; Carvalho Jr., J. A. 2019. Machine learning methods applied to drilling rate of penetration prediction and optimization – A review. Journal of Petroleum Science and Engineering 183.
Branco, A.; Gomide, J. 2021. Previsão de Taxa de Perfuração em Poços de Petróleo Offshore Utilizando Aprendizado de Máquina. In: XVIII Encontro Nacional de Inteligência Artificial e Computacional, 2021, Porto Alegre, SC, Brasil. Anais… p. 504-515
Breiman, L. 2001. Random Forests. Machine Learning Journal 45(1): 5-32.
Chen, T.; Guestrin, C. 2016. XGBoost: A Scalable Tree Boosting System. In: The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016, San Francisco, CA, USA. Anais… p. 785-794.
Goodfellow, I.; Bengio, Y.; Courville, A. 2016. Deep Learning. MIT Press. Disponível em: <http://www. deeplearningbook. org>. Acesso em: 06 jun. 2025.
Haykin, S. 2008. Neural Network and Learning Machines. 3ed. Pearson, Upper Saddle River, NJ, USA.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. 2013. An Introduction to Statistical Learning. 2ed. Springer, New York, NY, USA.
Li, C.; Cheng, P.; Cheng, C. 2023. A Comparison of Machine Learning Algorithms for Rate of Penetration Prediction for Directional Wells. In: Middle East Oil, Gas and Geosciences Show, 2023, Manama, Bahrain. Anais… p. 522-532.
Liu, Z. H.; Song, X. Z.; Ye, S. L.; Yin, Z. Y.; Ji, Y.; Zhang, C. K.; Ma, B. D; Zhu, Z. P.; Ham, L. 2023. A new drill bit selection method based on machine learning and intelligent optimization process. In: 57th US Rock Mechanics/Geomechanics Symposium, 2023, Atlanta, GA, EUA. Anais… p. 1266-1276.
Molnar, C. 2025. Interpretable Machine Learning – A Guide for Making Black Box Models Explainable. 3ed. Publicação própria. Disponível em: <https://christophm. github. io/interpretable-ml-book/>. Acesso em: 27 ago. 2025.
Petronotícias. 2024. Taxas diárias dispararam e petroleiras passam a adquirir participação em sondas de perfuração para reduzir despesas. Disponível em: <https://petronoticias. com. br/taxas-diarias-dispararam-e-petroleiras-passam-a-adquirir-participacao-em-sondas-de-perfuracao-para-reduzir-despesas/>. Acesso em: 07 mar. 2025.
Pineau, J.; Vincent-Lamarre, P.; Sinha, K.; Larivière, V.; Beygelzimer, A.; d’Alché-Buc, F.; Fox, E.; Larochelle, H. 2021. Improving reproducibility in machine learning research (A NeurIPS 2019 Reproducibility Program). Journal of Machine Learning Research 22(164): 1-20.
Rocha, L. A. S; Azuaga, D.; Andrade, R; Vieira, J. L. B; Santos, O. L. A. 2006. Perfuração Direcional. 1ed. Interciência, Rio de Janeiro, RJ, Brasil.
Rodrigues, W. C. 2007. Metodologia Científica (PPT). 1ed. FAETEC/IST, Paracambi, RJ, Brasil.
Triggia, A. A; Carreia, C. A; Filho, C. V; Xavier, J. A. D; Machado, J. C. V; Thomas, J. E; Filho, J. E. S; Paula, J. L; Rossi, N. C. M; Pitombo, N. E. S; Gouvea, P. C. V. M; Carvalho, R. S; Barragan; R. V. 2001. Fundamentos de Engenharia de Petróleo. 1ed. Interciência, Rio de Janeiro, RJ, Brasil.
Wang, J.; Li, C.; Cheng, P; Yu, J.; Cheng, C.; Ozbayoglu, E.; Baldino, S. Data Integration Enabling Advanced Machine Learning ROP Predictions and its Applications. In: Offshore Technology Conference, 2024, Houston, TX, USA. Anais… p. 4642-4655.
Zhang, A.; Lipton, Z. C.; Li, M.; Smola, A. J. 2023. Dive into Deep Learning. 1ed. Cambridge University Press, Cambridge, Reino Unido.


Resumo executivo oriundo de Trabalho de Conclusão de Curso de Especialização em Data Science e Analytics do MBA USP/Esalq

Saiba mais sobre o curso; clique aqui:

Quem editou este artigo

Mais recentes

Você também pode gostar

Quer ficar por dentro das nossas últimas publicações? Inscreva-se em nossa newsletter!

Receba conteúdos e fique sempre atualizado sobre as novidades em gestão, liderança e carreira com a Revista E&S.

Ao preencher o formulário você está ciente de que podemos enviar comunicações e conteúdos da Revista E&S. Confira nossa Política de Privacidade