Assessment of Rock Geochemical Properties of the Bazhenov Formation According to Well Logging Data Using Machine Learning Methods

A. O. Shadrin; Шадрин А. О.; A. B. Gulin; Гулин А. Б.; S. G. Ashikhmin; Ашихмин С. Г.; A. A. Melekhin; Мелехин А. А.

doi:10.15593/2712-8008/2023.3.5

Assessment of Rock Geochemical Properties of the Bazhenov Formation According to Well Logging Data Using Machine Learning Methods

Authors: Shadrin A.O.¹, Gulin A.B.¹, Ashikhmin S.G.², Melekhin A.A.²
Affiliations:
1. LUKOIL-Engineering LLC
2. Perm National Research Polytechnic University
Issue: Vol 23, No 3 (2023)
Pages: 141-150
Section: ARTICLES
URL: https://ered.pstu.ru/index.php/geo/article/view/4193
DOI: https://doi.org/10.15593/2712-8008/2023.3.5
Cite item

Abstract
Full Text
About the authors
References
Statistics

Abstract

The Bazhenov formation in the West Siberian oil and gas province is of interest to researchers not only as a potential industrial development object, but also in connection with forecasting oil content and assessing the risks of exploratory drilling. The results of a study aimed at developing machine learning models to assess the relationships between the geochemical parameters of the Bazhenov formation and data obtained from well logging are presented. Modern machine learning methods provide powerful tools for data analysis and forecasting. Geological data is often characterized by a large number of parameters and complex relationships that can be difficult for humans to understand. In this context, the application of machine learning methods provides researchers with new tools. This work focuses on the Boosted Trees model, which demonstrated better results compared to other regression methods, having the lowest error (MAE and MSE) and the highest coefficient of determination ( R 2). Boosted Trees models provided accurate and stable prediction results, which were confirmed by visual analysis. As a result of the work, using machine learning methods, geochemical parameters were calculated, including S1, S2 and Tmax , which was previously difficult. This increased the accuracy of the geochemical parameters assessment in wells, which contributed to the improvement of models for the rock properties distribution along the well section, and in the future will lead to an increase in the detail of the parameters distribution over the area. It also emphasizes the importance of careful data preprocessing and selecting the best models and training methods. Despite its technical challenges, machine learning provides researchers with a powerful tool to more accurately analyze and interpret geodata and make operational decisions based on this data.

Keywords

Rock-Eval, Boosted trees, geochemical parameters, bazhenov formation, database, geochemical studies, regression models, machine learning, pyrolysis, Rock-Eval, Boosted trees.

Full Text

Введение Данная работа выполнена в рамках комплексного исследования юрских отложений на территории северной части Сургутского свода и представляет собой часть исследования, направленную на изучение и оценку геохимических и нефтематеринских свойств пород Баженовской свиты в контексте ее влияния на нефтеносность пластов Васюганской свиты [1-5]. В настоящем исследовании поставлена задача разработки моделей оценки зависимостей между геохимическими параметрами пород Баженовской свиты и данными геофизических исследований, полученными в результате каротажа. Для этого в данной работе применялись различные методы МО [6-15]. В настоящее время современные методы машинного обучения предоставляют мощные инструменты для анализа данных и прогнозирования, и их применение также актуально в контексте решения геологических задач. В этой области стандартной практикой является работа с большими объемами данных, сложными взаимосвязями между геологическими параметрами пород и неоднородностью геологических формаций. В этом контексте использование методов машинного обучения является новым инструментом, который значительно улучшает процессы анализа и создания моделей, основанных на геоданных. Основное преимущество применения машинного обучения в геологических исследованиях заключается в его способности автоматизировать и оптимизировать анализ данных. Геологические данные часто характеризуются множеством параметров, и их взаимосвязи могут быть сложными и труднопонимаемыми для человека. Модели машинного обучения, благодаря более сложному алгоритму поиска корреляционных связей и дискриминантных признаков, способны повысить надежность прогнозов и моделей оценки данных. Эти модели могут использоваться для прогнозирования различных параметров, таких как качество и состав пород, распределение полезных ископаемых, гидрогеологические характеристики и многое другое. В данном исследовании в качестве основных параметров для установления зависимостей являлись геохимические свойства пород. Эти данные были получены с использованием метода пиролиза Rock-Eval, который позволяет определить содержание и состав органических веществ в породах. Высокая стоимость отбора керна не позволяет проводить отбор образцов в большом количестве скважин, что повышает ценность отобранного кернового материала. Напротив, относительно низкая стоимость проведения геофизических исследований и их высокая информативность способствовали тому, что большая доля фонда скважин охарактеризована относительно единым комплексом исследований, что позволяет сравнивать геофизические свойства пород разных скважин друг с другом. Установление зависимостей между геохимическими и геофизическими свойствами позволит выполнить качественную и количественную оценку свойств изучаемых пород, а также расширить количество скважин, в которых возможно оценить геохимические свойства пород. Объект исследования. Методы исследования Баженовская свита по праву считается главной нефтегенерирующей формацией Западно- Сибирской нефтегазоносной провинции. Отложения сформированы преимущественно в глубоководно-морских условиях осадконакопления и распространены практически повсеместно на территории Западной Сибири. В рамках данной работы исследовались основные характеристики пород, полученные методом пиролиза Rock-Eval. Метод пиролиза основан на термическом разложении образцов керна с записью хроматограммы, анализ которой позволяет получить такие данные, как содержание свободных углеводородов (S1), остаточный генерационный потенциал (S2), общий органический углерод (ТОС) и температура максимального выхода углеводородов в процессе крекинга (Тmax). Полученные характеристики позволяют сделать выводы о нефтегенерационной продуктивности породы, зрелости и количестве рассеянного органического вещества, а также оценить степень реализации нефтематеринского потенциала породы [16-19]. Проблемы интерпретации данных ГИС в нетрадиционных коллекторах и в том числе проблемы оценки геохимических свойств по данным геофизических исследований освещены в большом количестве работ, в частности в работах [19-35]. Поиск зависимостей осуществлялся с параметрами, полученными при проведении геофизических исследований скважин. В качестве переменных предикторов использовался стандартный комплекс ГИС, выполненный в большинстве скважин, - GK (гамма-каротаж), NKT (каротаж по тепловым нейтронам), BK (каротаж сопротивлений), IK (индукционный каротаж), а также производные от этих параметров (lnBK, lnIK, GK/NKT, ln[GK/NKT]). Получение зависимостей «керн - ГИС» позволит более точно осреднить геохимические данные в скважинах с наличием геохимических исследований, оценить свойства пород в скважинах, не освещенных керновыми данными, а также построить модели распределения свойств по площади, основываясь на скважинных данных. Для анализа использовалась база данных, состоящая из 1217 исследованных образцов, взятых в скважинах на территории Сургутского и Вартовского сводов, имеющих привязку к интервалам пород баженовской свиты или стратиграфически близких отложений. В качестве методов поиска зависимостей в работе использовался метод множественной линейной регрессии, а также три метода машинного обучения: метод опорных векторов (SVM), нейронные сети (Neural Networks) и метод усиленных деревьев (Boosted trees). Подробная характеристика и отличительные особенности разных методов представлены в большом числе публикаций, в частности, в работах [36-44]. Таблица 1 Статистические характеристики параметров Переменная Среднее арифметическое Минимум Максимум Станд. отклон Асимметрия Эксцесс S1r, мгУВ/г.обр 3,2968 0,0000 12,45 2,6387 0,50229 -0,5573 S2, мгУВ/г.обр 28,5440 0,0100 148,57 26,1681 0,68483 -0,1650 Tmax, °С 436,8596 403,0000 458,00 6,8586 -1,96788 5,1094 ТОС, % 5,9896 0,0900 24,23 4,9310 0,67065 -0,2007 BK, Омм 265,6223 0,7220 10600,70 630,8205 8,44372 104,7258 IK, мСм 76,1296 0,1000 2018,85 126,3915 7,08556 77,8917 GK, мкрРГ/ч 23,0309 2,2610 111,80 16,6028 1,04645 0,5909 NKT, эВ 4,2373 1,1670 16,39 2,2635 1,49880 2,2558 lnBK, 4,1817 -0,3257 9,27 1,7960 0,08127 -1,0821 lnIK 3,5168 -2,3026 7,61 1,3844 -0,38762 0,5261 GK/NKT, мкрРГ/ч∙эВ 8,0811 0,1836 53,44 8,2495 1,79523 3,8280 lnGK/NKT 1,5474 -1,6947 3,98 1,1257 -0,27131 -0,6440 Особенностью поиска зависимостей «керн - ГИС» является разная вертикальная разрешающая способность методов. Пиролитические исследования керна выполняются на образцах, имеющих диаметр около 1 см, что повышает разрешающую способность метода, однако способствует появлению аномально низких или высоких значений, не являющимися характерными для всего интервала отложений. Каротаж ГИС имеет больший шаг дискретизации, где на 10 см разреза приходится всего одно измерение. Для нивелирования этой разницы данные геохимических исследований были сглажены методом скользящего окна в интервале ± 1 м, что позволило выделить относительно высокочастотный тренд изменения геохимических свойств и снизить количество аномальных значений. Далее выполнялась нормировка геофизических данных, для чего применялся метод нормализации, описанный в работе Д.Э. Шира [45]. Согласно этому методу, процесс нормализации может быть выполнен с использованием следующего уравнения: В вышеприведенном уравнении нормализованное значение кривой (Vnorm) вычисляется из ненормализованного значения кривой (Vlog), минимальных и максимальных значений из эталонной кривой (Rmin и Rmax), а также минимальных и максимальных значений из кривой, которую нужно нормализовать (Wmin и Wmax). Обычно вместо минимальных и максимальных значений используются 5-й и 95-й процентили. Это уменьшает влияние выбросов данных (аномалий), которые могли бы привести к неверным результатам, однако неосторожное применение подобных методов может исключить часть важных данных из анализа, которые отражают действительные свойства пород. После проведения процедур осреднения и нормализации данных была получена обучающая выборка, состоящая из 2109 значений, статистические характеристики параметров приведены в табл. 1. Выбор оптимального соотношения между обучающей и тестовой выборками в задачах машинного обучения представляет собой важный аспект методологии построения модели, требующий логического обоснования. Этот выбор находится в центре баланса между двумя ключевыми аспектами: максимизацией обобщающей способности моделей, обучаемых на данных, и обеспечением надежной оценки их производительности на независимых данных. В данной исследовательской работе было решено применить соотношение 70 % обучающих данных и 30 % тестовых данных в контексте обучения моделей машинного обучения. В первую очередь, наличие 70 % обучающих данных обеспечивает моделям значительное количество информации для изучения основных закономерностей в данных. Одновременно с этим 30 % данных отводятся для целей тестирования и последующей оценки производительности моделей. Данный подход способствует балансировке между процессом обучения и оценкой моделей, что помогает избежать явления переобучения, при котором модели адаптируются слишком тесно к обучающим данным, недостаточно обобщая полученные знания на новые данные. С учетом принятого соотношения между обучающей и тестовой выборками было проведено экспериментальное обучение различных моделей машинного обучения и последующая оценка их производительности на тестовых данных. Полученные результаты свидетельствуют, что выбранное соотношение 70/30 оказалось оптимальным для данной задачи и обеспечило наилучшие практические результаты. Оптимальное соотношение между обучающей и тестовой выборками может различаться в зависимости от особенностей данных и конкретной задачи. Тем не менее в данной работе выбор данного соотношения обоснован в контексте достижения высокой производительности моделей машинного обучения при оптимальной оценке их работы. Сравнение и анализ разрабатываемых моделей проводились стандартными методами, выполнялся визуальный анализ кросс-плотов и графиков сопоставлений фактических и расчетных данных, оценка коэффициентов корреляции, а также количественная оценка метрик, используемых для анализа надежности регрессионных моделей машинного обучения, в частности: MAE, MAPE, MSE и R2. Таблица 2 Наилучшие предикторы для непрерывной зависимости Параметр S1 S2 TOC Tmax F-value p-value F-value p-value F-value p-value F-value p-value IK 128,565 < 10-6 93,6135 < 10-6 70,0153 < 10-6 87,0745 < 10-6 BK 94,7325 < 10-6 81,4088 < 10-6 64,8119 < 10-6 79,9992 < 10-6 GK 88,6548 < 10-6 150,454 < 10-6 115,153 < 10-6 68,8253 < 10-6 GK/NKT 90,0042 < 10-6 184,877 < 10-6 141,035 < 10-6 58,5804 < 10-6 lnGK/NKT 61,9647 < 10-6 124,936 < 10-6 102,278 < 10-6 45,8759 < 10-6 NKT 49,1096 < 10-6 96,9236 < 10-6 88,2218 < 10-6 39,3733 < 10-6 lnIK 1,51223 0,15865 1,73305 0,09718 0,75432 0,62586 0,63281 0,72908 lnBK 1,76144 0,10343 1,63941 0,13251 1,54953 0,15834 0,18478 0,98111 Метрика MAE (средняя абсолютная ошибка) - это способ измерения того, насколько сильно модель или прогноз отклоняются от реальных данных. Она измеряет среднее абсолютное значение разницы между прогнозами и фактическими значениями. Иными словами, MAE показывает в среднем, насколько ошибается модель, просто складывая все абсолютные разницы и делая усреднение, его формула имеет вид: MAPE (Mean Absolute Percentage Error) - это метрика, которая используется для оценки точности прогнозов или моделей. Она измеряет процентную ошибку прогнозирования по сравнению с фактическими значениями данных, ее формула имеет вид: MSE, или среднеквадратичная ошибка (Mean Squared Error) - это метрика, которая используется для измерения того, насколько близки предсказанные значения к истинным значениям в задачах регрессии. Иными словами, она измеряет среднее значение квадратов разницы между предсказанными и фактическими значениями, ее формула имеет вид: Метрика R2 (или коэффициент детерминации) - это статистическая мера, которая помогает оценить, насколько хорошо модель (например, линейная регрессия) соответствует данным. Она измеряет долю дисперсии (разброса) зависимой переменной, которую модель объясняет. Иначе говоря, R2 показывает, насколько близки прогнозы модели к реальным данным, его формула имеет вид: Результаты исследования Для выполнения поставленной задачи, заключающейся в предсказании значений зависимых переменных (S1, S2, ТОС, Тmax) на основе независимых переменных (BK, IK, GK, NKT, lnBK, lnIK, GK/NKT, ln(GK/NKT)), был выбран программный продукт от компании StatSoft. В ходе первой итерации после загрузки обучающей выборки был проведен отбор признаков с применением метода Feature selection. В рамках этой итерации для каждой независимой переменной и каждой зависимой переменной были рассчитаны критерии, такие как F-значение и p-значение, в контексте различных методов обучения. Эти критерии послужили основой для выявления наиболее значимых переменных, в то время как переменные с низкой статистической значимостью были исключены из дальнейшего анализа. Результаты анализа приведены в табл. 2, в которой указаны F-значения и p-значения для каждой переменной. В процессе анализа таблицы были сделаны следующие выводы: · значимые переменные: из анализа p-значений выделяются переменные IK, BK, GK/NKT, GK, GK/NKT и NKT, у которых p-значения значительно ниже 0,05. Это свидетельствует о статистически значимой связи этих переменных с зависимыми переменными; · незначимые переменные: переменные lnBK и lnIK имеют более высокие p-значения, указывая на отсутствие статистически значимой связи с зависимой переменной и их включение в модели не обосновано; · значения F-критерия: значения F-критерия для IK и BK выше, по сравнению с другими переменными, указывая на более сильную связь между ними и зависимой переменной. Для достижения оптимальной производительности и результатов в задаче, связанной с анализом данных, были выбраны следующие первичные настройки моделей: Boosted Trees: - минимальное количество элементов в узле для остановки разделения: 79; - минимальный размер дочернего узла для остановки разделения: 1; - максимальная глубина дерева: 32 уровня; - максимальное количество узлов в дереве: 15. Таблица 3 Коэффициенты корреляции моделей МО Метод S1 S2 S1+S2 Tmax TOC Boosted trees 0,819315 0,815852 0,823565 0,802799 0,825891 Neural Network 0,735394 0,774090 0,785101 0,542445 0,752758 SVM 0,681148 0,699781 0,719783 0,528209 0,666530 Множественная регрессия 0,730231 0,769166 0,781709 0,490886 0,742394 Таблица 4 Сравнение корреляции прогнозных моделей методами линейной регрессии и Boosted Trees Линейная регрессия / Машинное обучение ML_S1 ML_S2 ML_S1+S2 ML_Tmax ML_TOC RegrssS1 0,926029 0,919872 0,928922 0,562976 0,863218 RegrssS2 0,902885 0,955211 0,957815 0,524011 0,905242 RegrssS1+S2 0,905664 0,955484 0,958337 0,528347 0,905805 RegrssТmax 0,826240 0,776076 0,788178 0,634128 0,733300 RegrssТОС 0,881811 0,950323 0,950109 0,516769 0,914215 Эти параметры позволяют контролировать структуру дерева и предотвращать переобучение. Neural Network (MLP): - минимальное количество нейронов на скрытом слое: 3; - максимальное количество нейронов на скрытом слое: 64; - количество обучаемых нейронных сетей: 500. Эти настройки позволяют экспериментировать с различными архитектурами сетей и сохранить наилучший результат. SVM: тип ядра (kernel): RBF (радиально-базисная функция). Использование RBF-ядра позволяет работать с нелинейными данными и повышает способность SVM разделять сложные данные. Эти начальные параметры подобраны с учетом специфики задачи и позволят нашим моделям эффективно анализировать данные. Далее выбранными методами машинного обучения, а также методом множественной линейной регрессии были построены модели зависимостей для параметров S1, S2, Тmax и ТОС. В табл. 3 приведены значения коэффициента корреляции для пар фактических и расчетных значений. Анализ всех трех моделей для прогнозирования переменных позволяет сделать следующие общие выводы: 1. Модель Boosted Trees: • для прогнозирования целевых переменных данная модель продемонстрировала отличные результаты с низкой среднеквадратичной ошибкой и высокой корреляцией на обучающей выборке; • важность независимых переменных различается для S2 и Tmax, но в обоих случаях модель показала их статистическую значимость; • модель Boosted Trees является наилучшей из рассмотренных для обеих целевых переменных. 2. Нейронная сеть (MLP): • нейронная сеть продемонстрировала неплохую корреляцию с целевыми переменными, хотя среднеквадратичная ошибка и корреляция были ниже, по сравнению с моделью Boosted Trees; • после дополнительной настройки гиперпараметров достигнуто увеличение результативности модели. 3. Модель SVM (Support Vector Machine): • модель SVM показала низкую корреляцию с целевыми переменными, среднеквадратичная ошибка также оказалась выше, чем у модели Boosted Trees и нейронной сети; • эта модель имеет наименьший коэффициент корреляции и наибольшую среднеквадратичную ошибку среди всех рассмотренных моделей. Для всех целевых переменных модель Boosted Trees является наилучшей, так как она обладает лучшей комбинацией низкой ошибки и высокой корреляции. Нейронная сеть может быть использована в случае, если требуется альтернативная модель, но она потребует дополнительной настройки. Модель SVM может быть менее предпочтительной из-за более высокой среднеквадратичной ошибки и низкой корреляции. Для окончательного выбора модели необходимо также провести оценку их производительности на тестовой выборке. Анализ результатов показал, что среди регрессионных моделей, полученных методами машинного обучения по величине коэффициента корреляции, выделяется модель Boosted Trees как имеющая наиболее высокие значения. Наименьший коэффициент корреляции достигнут методом опорных векторов (SVM), что является закономерным результатом, так как этот метод наилучшим образом работает в задачах классификации, а не регрессии. Методы множественной линейной регрессии и нейронных сетей показали примерно одинаково средний результат, что также является закономерным результатом, учитывая общую схожесть методики разработки моделей зависимостей. Относительно метода множественной линейной регрессии результаты модели Boosted Trees отличаются повышенным коэффициентом корреляции, в связи с этим дальнейший сравнительный анализ проводился между результатами именно этих моделей. Корреляционный анализ моделей, разработанных методами Boosted Trees и множественной линейной регрессии, показал достаточно высокую линейную связь параметров друг с другом, корреляционная матрица приведена в табл. 4, кросс-плоты зависимостей для расчетных величин параметров S1, S2, Tmax и ТОС приведены на рис. 1. а б в г Рис. 1. Графики сопоставления оцененных значений методами линейной регрессии и Boosted Trees для параметров: а - S1; б - S2; в - Tmax; г - TOC а б Рис. 2. Сопоставление экспериментальных данных геохимических исследований с синтетической кривой параметров: а - S1 и S2; б - ТОС Таблица 5 Количественные метрики оценки надежности моделей Параметр Метрика/Метод MAE (меньше - лучше) MAPE (меньше - лучше) MSE (меньше - лучше) R2 (больше - лучше) S1 SVM 1,601 56,44 % 2,564 0,464 Neural network 1,342 51,98 % 1,801 0,541 Boosted trees 1,125 50,20 % 1,265 0,671 Лин.регрессия 1,362 58,07 % 1,854 0,533 S2 SVM 21,561 54,93 % 464,860 0,490 Neural network 11,423 102,13 % 130,480 0,599 Boosted trees 10,179 38,68 % 103,612 0,666 Лин.регрессия 11,383 61,30 % 129,571 0,591 Tmax SVM 6,342 1,46 % 40,220 0,279 Neural network 3,967 0,91 % 15,735 0,294 Boosted trees 2,872 0,66 % 8,249 0,644 Лин.регрессия 4,587 0,61 % 21,045 0,239 TOC SVM 3,690 50,76 % 13,620 0,444 Neural network 2,318 44,42 % 5,375 0,567 Boosted trees 1,967 54,24 % 3,870 0,682 Лин.регрессия 2,206 50,76 % 4,868 0,551 Примечание: * - зеленым цветом отмечены ячейки, характеризующие модель как более точную, красным - менее точную. а б в г Рис. 3. Сравнение кросс-плотов оцененных пар и экспериментальных значений для моделей линейной регрессии и Boosted Trees параметров: а - S1; б - S2; в - Tmax; г - TOC Анализ корреляционной матрицы и графиков зависимости результатов прогноза методами линейной регрессии и методом Boosted Trees показал, что связь между параметрами является линейной с высоким коэффициентом корреляции. Наибольшее различие между результатами получено при прогнозировании параметра Тmax, где метод Boosted Trees показал большую точность прогноза, относительно линейной регрессии, а на графике зависимости между параметрами, рассчитанными разными методами, не наблюдается четкой линейной связи. Далее было проведено визуальное сопоставление результатов прогноза геохимических параметров разными методами с экспериментальными данными (рис. 2). В качестве методов, между которыми производилось сравнение, выбраны метод Boosted Trees как имеющий наибольшую корреляцию и метод линейной регрессии как наиболее распространенный для решения аналогичных задач. Визуальный анализ сопоставления синтетических кривых параметров с результатами лабораторных исследований показал, что обе модели достаточно хорошо характеризуют тренд изменения геохимических свойств, однако визуальных отличий между моделями прогноза недостаточно для формирования выводов о приоритете одной из них. В связи с отсутствием визуальной разницы между моделями был произведен расчет стандартных метрик и проведено сопоставление. Результаты сопоставления метрик приведены в табл. 5. С учетом представленных метрик (MAE, MAPE, MSE и R2) для всех четырех параметров (S1, S2, Tmax и TOC) можно сделать общий вывод, что Boosted Trees являются наилучшей моделью машинного обучения среди всех рассмотренных методов. Модель Boosted Trees выделяется в следующих аспектах: 1. Точность прогнозирования: Boosted Trees имеют наименьшие значения MAE и MSE, это означает, что они предсказывают значения ближе к фактическим данным и имеют меньшие ошибки в абсолютных и квадратичных значениях. 2. Процентные ошибки: метод Boosted Trees также показывает наименьшие значения MAPE, что свидетельствует о наименьших процентных ошибках в предсказаниях. Это означает, что прогнозы Boosted Trees наименее искажены в процентном соотношении. 3. Способность объяснения изменчивости: Boosted Trees демонстрирует наивысшие значения R2 для всех параметров, что указывает на их способность наилучшим образом объяснять изменчивость в данных. Следовательно, Boosted Trees является наилучшим выбором в данной задаче и обеспечивают наиболее точные и надежные прогнозы с наименьшими ошибками как в абсолютных значениях, так и в процентном соотношении, а также обладает наивысшей способностью объяснения изменчивости в данных. Сравнительный визуальный анализ корреляционных полей, представленный на рис. 3, также показал увеличение точности прогноза модели, разработанной методом BoostedTrees, что также подтверждает выводы, полученные по результатам сравнения численных метрик оценки моделей прогноза. Заключение В работе проведен анализ различных методов регрессии, среди которых лидирует модель Boosted Trees. Эта модель демонстрирует лучшие результаты среди всех рассмотренных методов, имея наименьшую ошибку (MAE и MSE) и наивысший коэффициент детерминации (R2). Boosted Trees обеспечивают точные и стабильные результаты прогнозирования, подтвержденные визуальным анализом. Исследование показывает, что модель Boosted Trees относительно метода линейной регрессии более эффективна и точна для решения задачи установления зависимости керн-ГИС для геохимических данных. Благодаря применению альтернативных методов регрессии на основе алгоритмов машинного обучения был проведен расчет геохимических параметров, в том числе S1, S2 и Tmax, которые не удавалось рассчитать ранее. Применение методов МО повысило точность оценки геохимических параметров в разрезе скважин, что приведет к увеличению точности моделей распределения свойств пород по площади. Методы машинного обучения в геологии имеет большой потенциал применения в задачах регрессии, дискриминации и создания различных прогнозов на основании выявленных закономерностей. Однако это требует тщательной предобработки данных, выбора наилучших моделей и методов обучения, а также внимательной проверки результатов. Несмотря на эти технические сложности, использование машинного обучения в геологии открывает новые перспективы для ученых и исследователей, позволяя им более точно анализировать и интерпретировать данные, а также принимать производственные решения на основе этих данных. Оценка геохимических свойств пород этой формации вносит большой вклад в прогнозирование нефтеносности, а также в оценку перспектив малоизученных областей и глубокозалегающих горизонтов. Результаты исследований будут использованы для дальнейшего определения коллекторов и разделения их на два типа в соответствии с методическими рекомендациями по подсчету запасов нефти в отложениях баженовского горизонта Западно-Сибирской нефтегазоносной провинции.

About the authors

A. O. Shadrin

LUKOIL-Engineering LLC

A. B. Gulin

LUKOIL-Engineering LLC

S. G. Ashikhmin

Perm National Research Polytechnic University

A. A. Melekhin

Perm National Research Polytechnic University

References

Shadrin A.O., Krivoshchekov S.N. Studying the Structural and Thickness Characteristics of the Sedimentary Mantle of the Northern Part of the Surgut Arch // IOP Conference Series: Earth and Environmental Science. - IOP Publishing, 2021. - Vol. 666, №. 5. - P. 052056. doi: 10.1088/1755-1315/666/5/052056
Шадрин А.О., Кривощеков С.Н. Разработка вероятностно-статистических моделей прогноза нефтеносности по структурным параметрам пласта ЮС1 в северной части Сургутского свода // Геология нефти и газа. - 2022. - № 2. - С. 53-65. doi: 10.31087/0016-7894-2022-2-53-65. - EDN TUHENY.
Шадрин А.О., Ахметова Л.В. Анализ влияния структурных параметров осадочного чехла на нефтегазоносность пласта ЮС1 северной части Сургутского свода // Нефть и газ - 2021: сборник трудов 75-й Международной молодежной научной конференции, Москва, 26-30 апреля 2021 года. - М.: Российский государственный университет нефти и газа (национальный исследовательский университет) имени И.М. Губкина, 2021. - С. 349-359. - EDN WDVQPP.
Шадрин А.О. Прогноз нефтегазоносности пласта ЮС1 северной части Сургутского свода на основе проведения тренд-анализа // Проблемы разработки месторождений углеводородных и рудных полезных ископаемых. - 2020. - Т. 1. - С. 154-160.
Шадрин А.О. Разработка зональной модели прогноза нефтегазоносности пласта ЮС1 по геохимическим параметрам // Недропользование. - 2023. - Т. 23, № 1. - С. 2-10. doi: 10.15593/2712-8008/2023.1.1. - EDN LLSEXO.
О возрасте отложений аномальных разрезов пограничных слоев юры и мела по скважинам Северо-Конитлорского месторождения (предварительное сообщение) / Ю.В. Брадучан, Н.К. Глушко, В.К. Комиссаренко [и др.]. // Вестник недропользователя ХМАО. - 2005. - № 16. - С. 20-24.
Опыт петрографического анализа механизма формирования аномального разреза баженовской свиты на Имилорской площади Западной Сибири / В.Ф. Гришкевич, Н.Н. Гатина, А.О. Сидоренко, Е.В. Карпова // Литосфера. - 2019. - № 2 (19). - С. 209-227. doi: 10.24930/1681-9004-2019-19-2-209-227
Шайхутдинова Г.Х. Петрографическое изучение миграции нефти на примере Имилорского месторождения (Когалымский нефтегазоносный район, Западная Сибирь) // Литосфера. - 2020. - № 4 (20). - С. 592-600. doi: 10.24930/1681-9004-2020-20-4-592-600
Скачек К.Г., Осыка А.В., Гарифуллин И.И. Перспективы нефтеносности баженовской свиты Когалымского региона // Пути реализации нефтегазового потенциала ХМАО: седьмая научно-практическая конференция / под ред. Карасева В.И., Ахпателова Э.А., Волкова В.А. - Ханты-Мансийск, 2004. - Т. 1. - С. 162-170.
Немова В.Д. Литология и коллекторские свойства отложений баженовского горизонта на западе Широтного Приобья: дис. канд.геол.-мин. наук: 25.00.06; 25.00.12. - М., 2012.
Немова В.Д., Бедретдинов Р.Ю., Кирсанов А. Интерпретация данных ГИС В интервале баженовской свите в условиях ограниченного комплекса ГИС на территории Средне-Назымского месторождения // Петрофизика сложных коллекторов: проблемы и перспективы 2015. - М.: ООО "ЕАГЕ Геомодель", 2015. - С.174-159.
Немова В.Д., Гаврилов С.С. Исследования керна отложений баженовского горизонта, как основа для интерпретации данных сейсморазведки // Петрофизика сложных коллекторов: проблемы и перспективы 2014. - М.: ООО "ЕАГЕ Геомодель", 2014. - С. 212-230.
Гришкевич В.Ф. Аномальные разрезы баженовской свиты: модель образования и проблемы геометризации // Tyumen 2015 - Deep Subsoil and Science Horizons, Mar, 2015. - Vol. 2015. - P. 1-5. doi: 10.3997/2214-4609.201412065
Гришкевич В.Ф. Баженовский горизонт Западной Сибири: поиски новой гармонии: монография - Тюмень: ТИУ, 2022. - 279 с.
Нестеров И.И. Новый тип коллекторов нефти и газа // Геология нефти и газа. - 1979. - № 10. - С. 26-29.
О возможности прогнозирования нефтегазоносности фаменских отложений с помощью построения вероятностно-статистических моделей / В.И. Галкин, И.А. Козлова, С.Н. Кривощеков [и др.] // Геология, геофизика и разработка нефтяных и газовых месторождений. - 2007. - № 10. - С. 22-27. - EDN IBLHOX.
Решение региональных задач прогнозирования нефтеносности по данным геолого-геохимического анализа рассеянного органического вещества пород доманикового типа / В.И. Галкин, И.А. Козлова, М.А. Носов, С.Н. Кривощеков // Нефтяное хозяйство. - 2015. - № 1. - С. 21-23. - EDN TIJTZT.
О масштабах миграции углеводородов в пределах Соликамской депрессии Предуральского прогиба и возможностях ее использования для прогноза нефтегазоносности / В.Л. Воеводкин, В.И. Галкин, И.А. Козлова [и др.] // Геология, геофизика и разработка нефтяных и газовых месторождений. - 2010. - № 12. - С. 6-11. - EDN NCQIEL.
Кривощеков С.Н. Разработка регионально-зональных критериев прогноза нефтегазоносности территории Пермского Прикамья вероятностно-статистическими методами // Нефтяное хозяйство. - 2011. - № 10. - С. 10-14. - EDN OHKPOJ.
The Petrophysics of Shale Gas Reservoirs: Technical Challenges and Pragmatic Solutions / V.K. Bust, A.A. Majid, J.U. Oletu, P.F. Worthington // International Petroleum Technology Conference, Bangkok, Thailand, November. - 2011. doi: 10.2523/IPTC-14631-MS
Thaimar R., Ramirez J.D., Klein R.J.Comparative Study of Formation Evaluation Methods for Unconventional Shale-Gas Reservoirs: Application to the Haynesville Shale (Texas) // North American Unconventional Gas Conference and Exhibition, The Woodlands, Texas, USA, June 2011. - 2011. doi: 10.2118/144062-MS
Оценка запасов "сланцевой нефти" с использованием геохимических параметров / М.В. Дахнова, С.В. Можегова, Е.С. Назарова, И.Л. Пайзанская // Геология нефти и газа. - 2015. - № 4. - С. 55-61. - EDN UEKTBP.
Jarvie D.M., Shale resource systems for oil and gas: Part 2: Shale-oil resource systems / ed.: J.A.Breger // Shale reservoirs - Giant resources for the 21st centurу: AAPG Memoir 97. doi: 10.1306/13321447M973489
Кирсанов А.М., Скворцов М.Б. Определение подсчетных параметров по данным ГИС для оценки ресурсов баженовской свиты // Нефтяная столица: материалы 4-й Международного молодежного научно-практического форума, Ханты-Мансийск, 24-25 марта 2021 года. - Ханты-Мансийск: Центр научно-технических решений, 2021. - С. 100-103. - EDN CBBBCW.
Automatic Determination Of Lithology From Well Logs / Pierre Delfiner [et al.] // SPE Formation Evaluation, Sep. - 1987. - Vol. 2, iss. 03. - P. 303-310. doi: 10.2118/13290-PA
Toumani A., Schmitz D., Schepers R. Automatic determination of lithology from well logs using fuzzy classification // 56th EAEG Meeting. - EAGE Publications BV, 1994. - P. 47-00144. doi: 10.3997/2214-4609.201409899
Application of machine learning in the identification of fluvial-lacustrine lithofacies from well logs: A case study from Sichuan Basin, China / D. Zheng [et al.] // Journal of Petroleum Science and Engineering. - 2022. - Vol. 215. - P. 110610. doi: 10.1016/j.petrol.2022.110610
Probabilistic logging lithology characterization with random forest probability estimation / Y. Ao [et al.] // Computers & Geosciences. - 2020. - Vol. 144. - P. 104556. doi: 10.1016/j.cageo.2020.104556
Alfred D., Vernik L. A new petrophysical model for organic shales // Petrophysics. - 2013. - Vol. 54, № 03. - P. 240-247.
A new approach to calculate gas saturation in shale reservoirs / S. Chen [et al.] // Energy & Fuels. - 2022. - Vol. 36, № 4. - P. 1904-1915. doi: 10.1021/acs.energyfuels.1c04067
The key parameter of shale oil resource evaluation: Oil content / M. Wang [et al.] // Petroleum Science. - 2022. - Vol. 19, № 4. - P. 1443-1459. doi: 10.1016/j.petsci.2022.03.006
Schmoker J.W. Use of formation-density logs to determine organic carbon content in devonian shales of the western Appalacian basin // Bull, of US Geol. Surv. - 1993. - 1909. - P. 71-74.
Белоконь Т.В., Наборщикова И.И., Ерсулова И.С. Определение РОВ в породах по естественной гамма-активности // Сб. Эволюция нефтегазообразования в истории Земли: тезисы докладов IV Всесоюзного семинара. - М.: МГУ, 1984. - С. 236.
Meyer B.L., Nederlof M.H. Identification of sours-rocks on wireline logs by density / resistivity and sonic transit time / resistivity crossplots // Bulletin of the American Association of Petroleum Geologists. - 1984. - Vol. 68, no. 2. - P. 121-129. doi: 10.1306/AD4609E0-16F7-11D7-8645000102C1865D
US Patent No 14/977.336 (22 Jun. 2022) / L. Mosse, E. Rylander, P. Craddock.
Рашка С., Мирджалили В. Python и машинное обучение: машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow-2. - СПб.: Диалектика, 2020. - Т. 848.
Breiman L. Random forests // Machine learning. - 2001. - Vol. 45. - P. 5-32. doi: 10.1023/A:1010933404324
Friedman J.H. Greedy function approximation: a gradient boosting machine // Annals of statistics. - 2001. - P. 1189-1232. doi: 10.1214/aos/1013203451
Doveton J.H.Compositional analysis of mineralogy // Principles of Mathematical Petrophysics. - Oxford University Press, 2014. - P. 94-117. doi: 10.1093/oso/9780199978045.003.0009
Merembayev T., Yunussov R., Yedilkhan A. Machine learning algorithms for classification geology data from well logging // 2018 14th International Conference on Electronics Computer and Computation (ICECCO). - IEEE, 2018. - P. 206-212. doi: 10.1109/ICECCO.2018.8634775
Formation lithology classification: Insights into machine learning methods / I.M. Mohamed [et al.] // SPE Annual Technical Conference and Exhibition. - OnePetro, 2019. doi: 10.2118/196096-MS
Deriving permeability and reservoir rock typing supported with self-organized maps som and artificial neural networks ann-optimal workflow for enabling core-log integration / L. Saputelli [et al.] // SPE Reservoir Characterisation and Simulation Conference and Exhibition? - SPE, 2019. - P. D021S015R001. doi: 10.2118/196704-MS
Oyewande A., Stacey L., Jon R. Synthetic well log generation using machine learning techniques // Unconventional Resources Technology Conference (URTeC). - 2018. doi: 10.15530/URTEC-2018-2877021
Machine learning for the geosciences: Challenges and opportunities / A. Karpatne [et al.] // IEEE Transactions on Knowledge and Data Engineering. - 2018. - Vol. 31, № 8. - P. 1544-1554. doi: 10.1109/TKDE.2018.2861006
Shier D.E. Well log normalization: Methods and guidelines // Petrophysics-The SPWLA Journal of Formation Evaluation and Reservoir Description. - 2004. - Vol. 45, № 03. - P. 268-280.

Statistics

Views

Abstract - 156

PDF (Russian) - 93

PDF (English) - 33

Refbacks

There are currently no refbacks.

Username
Password
Remember me

Forgot password?	Register

Username
Password
Remember me

Forgot password?	Register

Perm Journal of Petroleum and Mining Engineering

Assessment of Rock Geochemical Properties of the Bazhenov Formation According to Well Logging Data Using Machine Learning Methods

Abstract

Keywords

Full Text

About the authors

A. O. Shadrin

A. B. Gulin

S. G. Ashikhmin

A. A. Melekhin

References

Statistics

Views

Refbacks

This website uses cookies