img

QQ群聊

img

官方微信

  • CN 62-1112/TF 
  • ISSN 1005-2518 
  • 创刊于1988年
高级检索

黄金科学技术, 2023, 31(5): 721-735 doi: 10.11872/j.issn.1005-2518.2023.05.063

矿产勘查与资源评价

基于非均衡数据的ADASYN-CatBoost测井岩性智能识别——以胶西北招贤金矿床为例

许方颖,1,2, 邹艳红,1,2, 易卓炜1,2, 杨福强1,2, 毛先成1,2

1.中南大学有色金属成矿预测与地质环境监测教育部重点实验室,湖南 长沙 410083

2.中南大学地球科学与信息物理学院,湖南 长沙 410083

ADASYN-CatBoost Method for Intelligent Identification of Logging Lithology Considering Unbalanced Data:A Case Study of Zhaoxian Gold Deposit in Northwestern Jiaodong Peninsula

XU Fangying,1,2, ZOU Yanhong,1,2, YI Zhuowei1,2, YANG Fuqiang1,2, MAO Xiancheng1,2

1.Key Laboratory of Metallogenic Prediction of Nonferrous Metals and Geological Environment Monitoring, Ministry of Education, Central South University, Changsha 410083, Hunan, China

2.School of Geosciences and Info-Physics, Central South University, Changsha 410083, Hunan, China

通讯作者: 邹艳红(1971-),女,湖南桃江人,教授,博士,从事三维地质建模与矿产资源定量预测研究工作。zouyanhong@csu.edu.cn

收稿日期: 2023-04-24   修回日期: 2023-06-30  

基金资助: 国家自然科学基金项目“断裂控制热液蚀变及其成矿过程动力学计算模拟——以胶东焦家式金矿为例”.  41872249
“矿床时空结构定量表征与智能理解”.  42030809
湖南省科技创新计划项目“关键金属资源勘查创新团队”.  2021RC4055

Received: 2023-04-24   Revised: 2023-06-30  

作者简介 About authors

许方颖(1999-),女,湖南岳阳人,硕士研究生,从事三维地质建模研究工作205012135@csu.edu.cn , E-mail:205012135@csu.edu.cn

摘要

快速准确地识别覆盖区下伏地层与岩体,对于金属矿山地质找矿工作具有重要意义。针对矿床地层与岩体中复杂岩性分布的多样性和非均衡性,考虑测井响应特征与岩性之间的强非线性关系,提出了一种基于ADASYN非均衡数据处理和CatBoost机器学习的测井岩性智能识别方法。首先,利用ADASYN算法处理非均衡测井样本数据,根据小类样本加权分布生成合成样本;然后,采用CatBoost算法结合网格搜索以及十折交叉验证建立最优岩性识别模型;最后,通过模型输出的特征重要性及部分依赖图对岩性分类结果进行解译。以胶西北招贤金矿床实例测井数据为基础,针对10类岩性进行识别和解译分析,模型评价结果表明:测试集上的精确率、召回率和F1分数分别达到98.21%、98.20%和98.20%。将CatBoost岩性分类与GBDT、LightGBM算法进行对比,结果表明CatBoost分类效果最优,且均优于样本数据未均衡化处理的岩性识别效果。通过与实例录井剖面岩芯岩性进行对比,验证了模型分类结果的有效性。

关键词: 岩性识别 ; ADASYN-CatBoost ; 测井 ; 非均衡数据 ; 机器学习 ; 招贤金矿床

Abstract

Logging lithology identification is helpful to quickly and accurately identify the underlying strata and rock mass in the overburden area,which is of great significance to the geological prospecting exploration of metal mines. Based on the actual logging data of the Zhaoxian gold deposit in the northwest of Jiaodong Peninsula,this paper combined machine learning methods to research on intelligent identification of lithology. In view of the diversity and non-equilibrium of lithology distribution of complex rock formations in the deposit,considering the strong non-linear relationship between logging response and lithology,this paper proposed an intelligent identification method for logging lithology based on ADASYN imbalanced data processing and CatBoost machine learning.Firstly,the ADASYN algorithm was used to process the unbalanced logging sample data and generate synthetic samples according to the weighted distribution of small class samples. Then,the CatBoost algorithm was used to construct a machine learning model between logging characteristic and lithology. The validation curve was used to determine the hyperparametric grid search range of the model. Parameters were optimized by combining grid search with grid search and 10-fold cross validation to establish the optimal lithology classification model.Finally,the performance of the model was evaluated by indices such as accuracy,recall and F1 score on the test set,while the results of the lithology classification were interpreted by the model output of the feature importance and the partial dependence map.An example was given on the logging data from the Zhaoxian gold deposit in northwest Jiaodong peninsula,the lithology identification and interpretation analysis were conducted on 10 types of lithologies based on sample data equalisation. The model evaluation results show that the accuracy,recall and F1 score on the test set reached 98.21%,98.20% and 98.20%,respectively.CatBoost lithology classification was compared with GBDT and LightGBM algorithms,and the results show that CatBoost classifier has the best performance and is superior to the lithology recognition effect of sample data without equalization processing.The comparison with the lithology of example logging section cores verifies the validity of the model classification results.The results of the feature importance of the model output indicate that the logging features contribute to lithology classification are resistivity,natural potential and natural gamma.The strong correlation between these logging features and the identification of the lithology is a good indication of further mineralization.

Keywords: lithology identification ; ADASYN-CatBoost ; logging ; unbalanced data ; machine learning ; Zhaoxian gold deposit

PDF (7306KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

许方颖, 邹艳红, 易卓炜, 杨福强, 毛先成. 基于非均衡数据的ADASYN-CatBoost测井岩性智能识别——以胶西北招贤金矿床为例[J]. 黄金科学技术, 2023, 31(5): 721-735 doi:10.11872/j.issn.1005-2518.2023.05.063

XU Fangying, ZOU Yanhong, YI Zhuowei, YANG Fuqiang, MAO Xiancheng. ADASYN-CatBoost Method for Intelligent Identification of Logging Lithology Considering Unbalanced Data:A Case Study of Zhaoxian Gold Deposit in Northwestern Jiaodong Peninsula[J]. Gold Science and Technology, 2023, 31(5): 721-735 doi:10.11872/j.issn.1005-2518.2023.05.063

招贤金矿床位于胶西北地区焦家断裂中段西部,矿区内岩浆岩分布广泛,岩性复杂多样。根据成矿环境及控矿因素分析,矿体受焦家断裂的破碎蚀变岩带控制,主要赋存在黄铁绢英岩化碎裂岩和花岗质碎裂岩带内(王英鹏等,2022)。不同岩性及其排列控制着岩石孔隙度和渗透率的分布模式,赋矿岩性的识别对于地质找矿工作具有一定的指示作用,了解岩性空间分布并提高岩性识别的准确率对于矿床成矿规律研究及找矿勘查具有重要指导意义。

传统的岩性识别技术是通过岩屑录井或分析岩芯样品实现的(姚金铸等,2014王恒等,2021)。随着地质勘探技术的不断进步,基于钻孔图像,数字钻孔摄像等技术手段可用于辅助获取岩体结构信息(王川婴等,2009付光明等,2017葛云峰等,2019),但是由于金属矿山勘探开发成本高、岩性复杂且分布规律变化大,导致传统的岩性识别方法很难完整地描述岩层信息。由于各种测井方法测量了岩层的电阻率、自然伽马和自然电位等岩石物理参数,这些参数是岩层岩性、物性的单一响应或综合响应(赵显令等,2015吕庆田等,2019),因此,挖掘测井响应特征与岩性之间的非线性关系,利用计算机自动识别岩性成为工作重点。

针对测井响应特征与目标岩性之间的关系,学者们开展了大量研究,并运用多种方法进行了分析,如交会图法(赵建等,2003徐德龙等,2012)、概率统计法(刘子云等,1989孙健等,2009)和聚类分析法(寻知锋等,2008Tian et al.,2016)等。上述方法在岩性识别领域取得了良好效果,但仍存在一些不足,如:交会图法难以充分利用测井曲线的信息且对复杂岩性识别率低,概率统计法可能会出现先验概率难以获得和人为因素影响较大的情况,而聚类分析法只有当训练样本无穷大时,才能保证其可行性。机器学习方法的发展为测井岩性识别提供了新的思路。近年来,机器学习技术已成为许多领域的研究热点,在测井解释中也得到了广泛应用,即将岩性识别视为一个分类问题,在复杂的岩性识别任务中引入了多种机器学习技术。常见的机器学习模型有支持向量机(SVM)(牟丹等,2015)、随机森林(RF)(康乾坤等,2020)和梯度提升树(GBDT)(Zou et al.,2021)等。快速发展的深度学习模型也被广泛应用于岩性识别,如人工神经网络(Ren et al.,2019)、深层信念网络和概率神经网络(Gu et al.,2019)、卷积神经网络(Zhu et al.,2018)、长短期记忆神经网络(LSTM)(He et al.,2023)和迁移学习(Dawson et al.,2023)等。此外,深度学习模型可与粒子群优化、数据增强、自适应等算法相结合,进一步增强模型预测性能和泛化性能(Liu et al.,2022Jiang et al.,2022张涛等,2023)。与其他机器学习算法相比,GBDT框架下的CatBoost算法采用CART(Classification and Regression Tree)技术,建立了一种有效的分割点选择机制,即特征选择。在实际应用中,有效的特征选择可以提高岩性识别精度(韩启迪等,2019)。

然而,上述算法很少考虑到岩性多样性的非均衡数据处理,尤其是小样本测井数据的复杂岩性识别。由于金属矿床地质条件复杂,钻孔获取的测井样本数据往往较少且分布不均匀,而岩性类别多样且分布差异较大,导致采集到的测井样本数据具有分布不平衡的特点(桂州等,2017),这种现象会影响机器学习方法的岩性分类识别结果。针对非均衡样本数据的处理,部分学者提出通过合成采样方法生成新的合成数据点以增加少数样本的数量,如:Chawla et al.(2002)提出了合成少数类样本过采样技术SMOTE。在SMOTE的启发下,研究人员开发了许多不同的合成采样方法,包括borderline-SMOTE(Hui et al.,2005)、SMOTE Tomek(Batista et al.,2004)和ADASYN(He et al.,2008)。其中,ADASYN算法能够根据少数类样本的空间分布构造新样本,适合非均衡小样本数据的处理。

因此,针对金属矿床复杂岩层分布的多样性和非均衡性,本研究基于ADASYN非均衡数据处理和CatBoost机器学习方法建立岩性分类模型,开展岩性智能识别方法与应用研究。以胶西北招贤金矿床实例测井数据为基础,选用ADASYN-CatBoost算法,针对10类岩性的样本数据,利用ADASYN算法对非均衡样本数据进行处理,采用CatBoost机器学习方法将其与10类岩性进行关联,建立优化的岩性分类模型,并与框架下的其他算法(GBDT,LightGBM)进行对比,进行实例岩性智能识别,为矿床复杂岩性的识别提供有效的技术手段。

1 ADASYN-CatBoost岩性分类识别方法

由于受地质条件和勘查技术的限制,金属矿测井获得的数据往往是小样本数据。针对分类样本数据不平衡的问题,本研究基于ADASYN过采样方法,在不破坏多数类样本结构的基础上,增加少数类样本的数量,使整个测井数据样本数量达到平衡,并将其作为机器学习分类算法的输入数据集。将平衡后的数据集随机选择80%作为训练集,20%作为测试集,并根据训练集数据和网格搜索对每个模型寻找最优参数组合建立分类模型。

ADASYN方法的基本思想是根据少数类样本的密度分布进行加权过采样,通过自适应生成合成样本(Xu et al.,2020Liu et al.,2021),有效地针对难分类的少数类岩性数据生成更多的合成样本。CatBoost是一种改进的GBDT算法,该算法采用组合类别特征,有利于发掘测井特征之间的联系,提高岩性分类的精度(Vikrant et al.,2019)。基于ADASYN-CatBoost的测井岩性识别是在测井特征数据分析处理的基础上,通过ADASYN进行非均衡数据处理,利用CatBoost算法建立测井响应特征与岩性类别之间的非线性关系。测井岩性智能识别流程如图1所示。

图1

图1   面向非平衡测井数据的岩性智能识别流程图

Fig.1   Flow chart of intelligent lithology identification for unbalanced logging data


考虑到本研究针对的是小样本数据,因此将预处理后的数据随机划分为训练集(80%)和测试集(20%)。首先,基于训练集利用网格搜索结合十折交叉验证算法(Zhang et al.,2015Zhao et al.,2019)进行参数寻优,网格搜索生成具有连续候选参数值的多维网格,再利用不同组合的可调参数对模型进行训练,通过十折交叉验证选择性能最优的超参数建立CatBoost岩性分类模型;然后,通过测试集上的准确率、精确率、召回率和F1分数等指标对模型性能进行评估;最后,借助特征重要性和部分依赖图进行模型解译,结合岩芯岩性资料对比验证,探索模型内在决策机制。

1.1 基于ADASYN的非平衡数据处理

ADASYN算法对于每个少数类样本,基于其k个最近邻样本中多数类样本的数量,采用SMOTE算法按比例创造新样本,为不同的少数类样本构造新样本(He et al.,2008),如图2所示。

图2

图2   ADASYN算法示意图(Elnahas et al.,2021

Fig.2   Schematic diagram of ADASYN algorithm (Elnahas et al.,2021


ADASYN算法步骤如下:对于给定训练集T=x1,y1,x2,y2,,xm,ym,定义msml分别为少数类样本和多数类样本。

Step 1:计算不平衡度d=ms/mld∈(0,1]。

d<dthdth是不平衡度的阈值),则对ms进行样本合成,反之则不需要。

Step 2:计算需要合成的少数类样本数量

G=(ml-ms)×β

式中:β∈(0,1],当β=1时,合成样本后,多数类样本数量与少数类样本数量正好相等。

Step 3:对于每个小类样本xi,利用欧式距离计算找出其K个近邻样本,记i为近邻样本中多数类样本的数量,记比例ri=i/K

Step 4:对于每个少数类样本所对应的ri,计算r^i=ri/i=1mrir^i即为该少数类样本的权重;对于每个少数类样本xi,计算其所需的合成样本的数量gi=r^i×G

Step 5:对于每个需要合成样本的少数类样本xiK个近邻样本,选择一个方向根据SMOTE算法(陈钢花等,2019)生成样本,直至合成的样本数量满足gi

为解决模型对于非均衡数据集中少数类样本学习能力不足的问题,ADASYN引入权重机制,根据少数类样本在原始数据集中的密度分布进行加权生成合成样本,少数类样本周围的多数类样本越多则合成少数类样本时的权重越大。通过ADASYN进行非均衡数据处理后少数类样本的数量增加,能够取得更好的模型分类效果。通过增强模型在少数类别样本上的学习效果,进一步改善模型对各种岩性的分类性能,从而提高岩性智能分类模型的学习能力。

1.2 CatBoost机器学习算法

CatBoost是在GBDT框架下提出的一种改良的Boosting算法。相比传统的GBDT算法,CatBoost考虑了特征之间的相互作用,并有效避免了模型的过拟合问题(张旭春,2021),主要从以下3个方面进行了改进。

(1)类别型特征的处理

类别型特征指类别特征不是数值型的,而是离散型的。对于给定训练集:S=x1,y1x2,y2,xN,yNxi包含数值型特征和类别型特征,CatBoost可将类别型特征转换为数值。具体处理方法如下:

Step 1:对输入的样本集合随机排序,并生成多组随机排列;

Step 2:给定一个序列,针对每个例子,对于相同类别的例子计算其平均样本值;

Step 3:将所有的分类特征值转化为数值结果,方法如下:

σ=(σ1,σ2,,σn)为一个排列,对例子σp所代表的样本xσp,k,Yσp,则xσp,k可表示为

xσp,k=j=1p-1xσj,k=xσp,kYσj+a·Pj-1p-1xσj,k=xp,k+a

式中:k为样本所属的类别;P为先验;a为先验的权重(a>0),添加先验有助于减小从低频类别获得的噪声。

通过对类别特征进行处理,CatBoost将包含类别型特征和数值型特征的训练集统一为数值型特征,增强模型对特征与目标变量之间非线性关系的学习能力。

(2)特征组合

CatBoost算法中,在树的第一次分割时,不考虑任何组合,但是在树的第二次分割时,会将树中所有的特征结合。通过对特征进行组合,CatBoost算法能够进一步学习特征之间的非线性关系,特征组合后可视为模型新的特征,利用特征之间的联系丰富了模型的特征维度,进一步表达数据的特性,提高岩性识别的准确性。在组合过程中,CatBoost支持对新组合的类别型特征进行转变,使其成为数值型特征。

(3)克服梯度偏差

由于传统的梯度提升算法在模拟模型的梯度时每一步都是基于相同的数据集来估计梯度,并基于此梯度进行训练得到基学习器,这种方法会使逐点梯度产生估计偏差,最终导致模型过拟合。

在克服梯度偏差处理中,CatBoost算法提出使用Ordered boosting方法改变传统算法中的梯度估计方式,CatBoost算法是通过对每个样本xi,训练一个单独的模型Mi,训练模型Mi的数据是不包含xi的训练集,然后使用模型Mi对样本的梯度进行估计,最后使用此梯度训练基学习器得到最终模型。利用该算法,能够得到梯度的无偏估计,降低估计偏差的影响,从而提高模型在岩性识别中的泛化能力。

CatBoost算法不仅提高了处理类别型特征的效率,而且获得的模型能够更好地避免过拟合现象的发生,使得最终得到的岩性识别模型更具有泛化性。因此,利用CatBoost分类器进行岩性识别,从而解决复杂地质条件下岩性与测井曲线之间的强非线性关系。

1.3 岩性分类识别评价方法

针对岩性分类问题,岩性识别结果最终被划分为4类:真正类(TP)、真负类(TN)、假正类(FP)和假负类(TN)(Tripathy et al.,2016)。在混淆矩阵的基础上,可以计算出准确率、精确率、召回率和F1分数。

本研究用准确率(Accuracy)表示所有预测正确的样本占总样本的比例,用精确率(Precision)表示正确预测为正类的样本占全部预测为正类的样本的比例,用召回率(Recall)表示正确预测为正类的样本占全部实际为正类的样本的比例。一个稳定的岩性智能识别模型应同时最大化地提高精确率和召回率,F1分数综合了精确率和召回率,因此F1分数也被选为重要的评估指标。最终通过岩芯岩性的比较,对分类结果进行验证,同时借助特征重要性分析和部分依赖图进行模型解译,探讨测井响应特征对岩性分类的影响。

在基于CART的集成模型中,特征重要性是通过平均每个决策树中每个特征的重要性来计算的。在本研究中,基尼系数被用作判断特征重要性的指数。可定义为

Ginip=k=1Kpk(1-pk)=1-k=1Kpk2 

式中:K为输出类别数;pk为样本属于k类的概率。

所有测井响应特征的总重要性等于100%,其值以相对方式来衡量。在CatBoost模型的训练过程中,每个特征都会根据其在建模中的重要性给出一个数值分数(Zheng et al.,2020Wang et al.,2021),用来评估每个输入特征对目标变量的贡献。相对重要性越高,特征对预测函数的贡献就越大。每个测井响应特征的量化有助于增强模型的可解释性,以及更好地理解测井响应特征是如何影响岩性分类结果的。CatBoost模型可对每个测井特征的重要性进行评估和排序。

部分依赖图是一种用于黑盒机器学习模型输出的可视化技术,可以解释为预期目标响应作为“目标”特征的函数(Zhu et al.,2020),显示预测值如何随着输入变量的变化而变化。部分依赖图对可视化变量之间复杂类型的交互作用具有指示意义。本研究中采用部分依赖图显示岩性分类结果与测井响应特征之间的关系,将部分依赖函数(Friedman,2001)与CatBoost分类算法相结合,估计岩性识别对测井特征的部分依赖程度,用来解释黑盒模型(Elith et al.,2008)。

2 岩性识别实例分析

2.1 实例测井数据处理

本研究实例数据来源于胶西北招贤金矿床。胶西北招贤金矿床位于焦家断裂带中段西部,研究区岩性较为复杂(图3)。根据研究区钻孔柱状图,可将区内岩性细分为10种类别,主要岩性为胶东群片麻岩、二长花岗岩、钾化花岗质碎裂岩、绢英岩化花岗岩和黄铁绢英岩化花岗岩,其中黄铁绢英岩化花岗质碎裂岩和黄铁绢英岩化碎裂岩为赋矿岩性。

图3

图3   胶西北招贤金矿床地质简图(修改自Yang et al.,2016

1.第四系;2.郭家岭序列;3.玲珑序列;4.马连庄序列;5.破碎蚀变带;6.断裂;7.金矿床;8.研究区

Fig.3   Geological map of Zhaoxian gold deposit in Northwest Jiaodong (modified after Yang et al.,2016


由于金属矿床地质构造复杂,不同岩性物理性质差异较大,考虑到不同岩石特征导致岩性的电阻率、自然伽马和自然电位特征差异显著,本研究选取电阻率、自然伽马和自然电位作为测井响应特征数据进行岩性识别,图4显示几种岩性对应的测井特征曲线。由于作者团队曾对该实例数据的归一化处理和相关性影响进行了分析(Zou et al.,2021),因此本文将不再复述,重点针对样本数据的不均衡性进行处理。

图4

图4   测井曲线和观察的岩性

1.黄铁绢英岩化花岗质碎裂岩;2.绢英岩化花岗质碎裂岩;3.钾化绢英岩化花岗质碎裂岩

Fig.4   Logging curves and observed lithology


表1总结了实例数据中10种岩性的测井响应特征,将上述10种目标岩性依次按顺序编码,共获得2 609条数据(表1),然后将得到的数据转换成一个2 609行4列的矩阵。前3列代表测井特征,最后1列代表岩性编码。由表1可知,不同岩性对应的测井特征差异明显,各岩性类别对应的样本数详见表2

表1   部分测井数据训练集

Table 1  Part of logging data training set

电阻率/(Ω·m)自然伽马/API自然电位/mV岩性编码
84.630.823.04钾化绢英岩化花岗质碎裂岩10
79.254.623.10黄铁绢英岩化碎裂岩9
9053.26.09绢英岩化花岗质碎裂岩4
76.540.613.94绢英岩化花岗岩6
9923.827.70中粒含黑云二长花岗岩3
94.543.419.03含黑云二长花岗岩7
83.732.216.97钾化绢英岩化花岗质碎裂岩10
1 584.939.24.74钾化花岗质碎裂岩2
75.639.212.01绢英岩化花岗岩6
93.654.621.97中粒含黑云二长花岗岩3

新窗口打开| 下载CSV


表2   实例测井数据中各岩性类别对应的样本统计

Table 2  Sample statistics for each lithological category in example logging data

岩性类别样本数/个
处理前ADASYN处理后
总计2 60910 540
含角闪黑云英云闪长岩质片麻岩1831 047
钾化花岗质碎裂岩21731 038
中粒含黑云二长花岗岩31 0451 045
绢英岩化花岗质碎裂岩45701 094
钾化含黑云二长花岗岩5271 047
绢英岩化花岗岩62171 038
含黑云二长花岗岩71401 072
黄铁绢英岩化花岗质碎裂岩81491 073
黄铁绢英岩化碎裂岩9801 050
钾化绢英岩化花岗质碎裂岩101251 036

新窗口打开| 下载CSV


表2可知,不同岩性对应的样本数目很不均衡,如钾化含黑云二长花岗岩(第5类)的样本量过小,易导致测井响应特征及岩性不能完全拟合,会影响机器学习的岩性分类识别结果,因此需针对数据的非均衡性进行有效处理。考虑本研究的实例数据为小样本数据,在数据归一化和特征相关性分析的基础上,采用ADASYN方法进行处理。经过处理后的数据中各岩性类别的样本数目达到均衡,共有10 540条数据。

2.2 岩性识别模型构建与评价

采用CatBoost算法建立测井响应特征和岩性类别之间的非线性关系,算法通过Python编程实现。在建立机器学习模型的过程中,利用验证曲线确定参数区间,然后采用网格搜索算法结合十折交叉验证算法进行参数调优,得到各模型的最优超参数。

图5所示为CatBoost算法验证曲线,可见学习率(learning_rate)、树的深度(depth)、最大迭代次数(iterations)和L2正则化参数(l2_leaf_reg)的网格搜索范围。在模型分数最高的点附近设置搜索区间,采用网格搜索对模型最优参数组合进行寻找,确定该参数组合为最优参数组合,得到最佳参数组合为0.1、10、300和1,交叉验证准确率为92.31%。表3同时显示GBDT、XGBoost和LightGBM模型的最佳参数。其中,GBDT模型中对学习率(learning_rate)、弱学习器个数(n_estimators)、叶子节点最小样本数(min_samples_leaf)和树的最大深度(max_depth)进行参数调优,LightGBM模型中对学习率(learning_rate)、弱学习器的个数(n_estimators)、树最大深度(max_depth)、树的叶子节点个数(num_leaves)和叶子节点最小数据量(min_data_in_leaf)进行调优。

图5

图5   CatBoost验证曲线图

Fig.5   CatBoost validation curves


表3   模型的超参数数值范围及其最优解

Table 3  Numerical range of hyperparameter of the model and its optimal solution

分类器超参数搜索范围最优参数
GBDT学习率0.000001~0.50.1
弱学习器个数50~130119
叶子节点最小样本数5~5010
树的最大深度2~3025
LightGBM学习率0.001~0.8000.2
弱学习器个数50~130102
树的最大深度1~5024
树的叶子节点个数15~6046
叶子节点最小数据量5~5530
CatBoost学习率0.001~0.8000.1
树的深度3~1710
最大迭代次数50~500300
L2正则化参数1~201

新窗口打开| 下载CSV


为了验证采用ADASYN进行非均衡样本数据处理的效果,比较样本数据均衡化处理对分类模型的影响,将基于ADASYN方法数据处理后建立的ADASYN-GBDT、ADASYN-LightGBM和ADASYN-CatBoost岩性分类模型与针对每种算法未考虑非均衡数据处理建立的模型进行比较。图6所示为上述几种分类模型在训练集和测试集上的准确率。由图6可知,岩性分类模型的测试性能与训练性能接近,验证了测试集分类结果的有效性。表4为几种模型在测试集上的准确率、召回率和F1分数。结果表明,ADASYN-CatBoost模型的岩性分类性能优于其他分类模型,准确率、召回率和F1分数分别达到0.9821、0.9820和0.9820,模型评价排序依次为ADASYN-CatBoost>ADASYN-LightGBM>ADASYN-GBDT>CatBoost>LightGBM>GBDT。分析结果表明,经过样本数据均衡化处理后,6种模型的准确率均得到提升,在本实例中,ADASYN-CatBoost模型是岩性识别最有效的方法,更加有利于测井解释。

图6

图6   几种模型训练集和测试集的准确率对比

Fig.6   Comparison of accuracy of the training and test sets of several models


表4   测试集上岩性识别精确率、召回率和F1分数(加权平均)

Table 4  Precision,recall rate and F1 score (weighted average) of lithology identification on the test set

分类器精确率召回率F1分数
GBDT0.93550.93490.9327
LightGBM0.95610.95540.9552
CatBoost0.95030.96000.9600
ADASYN-GBDT0.94720.94690.9466
ADASYN-LightGBM0.96950.96950.9695
ADASYN-CatBoost0.98210.98200.9820

新窗口打开| 下载CSV


经过ADASYN处理之后建立的6种岩性分类器的混淆矩阵如图7所示,其中对角线为每个岩性类别中被正确分类的比例。结果显示,ADASYN-CatBoost分类器的岩性识别性能明显高于其他分类器。在5个分类器中,ADASYN-CatBoost分类器的性能最佳,该方法成功地从测井资料中识别了至少98.5%的岩性,取得理想的分类效果。

图7

图7   测试集的岩性识别混淆矩阵图

Fig.7   Confusion matrix diagram of lithology identification of test set


2.3 结果验证与解译分析

将4种分类器得到的岩性识别结果与岩心岩性进行对比(图8),进一步验证了几种分类器岩性分类识别结果的有效性。由图8可知,所有模型均可根据测井响应的差异区分10种岩性,但根据岩芯的厚度,区分稍有差异。对于所有岩性,ADASYN-CatBoost的岩性识别结果与岩芯资料的一致性最佳,ADASYN-CatBoost分类器在识别黄铁绢英岩化花岗质碎裂岩(第8类)和黄铁绢英岩化碎裂岩(第9类)时,其效果优于其他分类器。分析原因可能如下:(1)CatBoost模型通过迭代学习方法根据预测的岩性调整权重,提高了预测精度;(2)与其他分类器相比,CatBoost模型自动对一些离散特征进行组合,生成内部特征作为模型的训练,提高了岩性分类的效率。

图8

图8   岩性识别结果验证图

1.含角闪黑云英云闪长岩质片麻岩;2.钾化花岗质碎裂岩;3.中粒含黑云二长花岗岩;4.绢英岩化花岗质碎裂岩;5.钾化含黑云二长花岗岩;6.绢英岩化花岗岩;7.含黑云二长花岗岩;8.黄铁绢英岩化花岗质碎裂岩;9.黄铁绢英岩化碎裂岩;10.钾化绢英岩化花岗质碎裂岩

Fig.8   Verification diagram of lithological identification

results


分析CatBoost模型的特征重要性排序(表5),结果表明3个测井响应特征对岩性分类贡献的重要性排序依次为电阻率测井(RL)、自然电位测井(SP)和自然伽马测井(GR)。特征重要性排序体现了电阻率、自然伽马和自然电位参数对岩石岩性的综合响应与区分,实例研究结果表明特征重要性排序与研究区的主要岩性及其分布特点密切相关。从研究区岩性分布来看,10种岩性电阻率特征存在显著差异,而断裂带和接触带中的部分岩层与其他致密岩层自然电位特征的区别较为显著,只有少部分岩性的放射性元素含量及自然伽马特征变化较大。具体分析如下:

表5   CatBoost模型的特征重要性排序结果

Table 5  Ranking results of feature importance for CatBoost model

排序特征CatBoost
1电阻率测井52.4%
2自然电位测井28.9%
3自然伽马测井18.7%

新窗口打开| 下载CSV


(1)电阻率作为最重要的测井响应特征,能够有效捕获电阻率异常,最大程度地区分研究区内具有不同电阻特征的岩石岩性、结构和构造差异。这与研究区内分布有高阻特征的二长花岗岩和花岗闪长岩,高中阻特征的蚀变花岗岩,低阻带中局部高阻特征的蚀变带,以及具有最低阻特征的变辉长岩和黑云母片岩有关。

(2)自然电位通常是由于离子扩散和吸附作用产生的,氧化还原反应和压差也会导致自然电位。一般而言,研究区断裂带和接触带等岩层富水位置会堆积正离子,致密的岩石等贫水位置会堆积负离子,可通过自然电位测井进行识别。

(3)不同岩石中放射性元素的含量存在一定的差异,进而导致其自然伽马不同。由于自然伽马的抗干扰性能强,因此可以利用这一特征划分岩性。根据放射性强度能够区分出研究区整体强度低的片麻岩,强度较高且曲线平稳的二长花岗岩,而黄铁绢英岩化花岗岩自然伽马曲线受蚀变影响,整体偏低,但起伏较大且变化剧烈,也容易区分。

部分依赖图显示单一特征或特征组合如何影响模型的分类性能。以赋存矿体的黄铁绢英岩化花岗质碎裂岩(类别8)为例,图9显示该类的部分依赖图,大于0表示“属于该类”,小于0表示“不属于该类”,数值大小表示对划分为该类的贡献程度。由图9可知:(1)电阻率测井值越大,对划分为黄铁绢英岩化花岗质碎裂岩(类别8)的贡献越大。当电阻率测井增加至79 Ω·m时,继续增加电阻率测井值对岩性分类贡献不大。(2)自然电位测井值越大,对划分为类别8的贡献越大。当自然电位测井值增加至15 mV时,继续增加自然电位测井值对岩性分类贡献不大。当自然电位测井值从18 mV增加至20 mV时,对岩性分类的贡献先减小后增大。当自然电位测井值达到20 mV时,继续增加自然电位测井值对岩性分类的贡献不再有效。(3)自然伽马测井值越大,对划分为类别8的贡献越大。当自然伽马测井值增加至22 API时,继续增加自然伽马测井值对岩性分类贡献不大。

图9

图9   单个测井特征与岩性的部分依赖图

Fig.9   Partial dependence diagram of single logging characteristics and lithology


图10为2个特征的任意组合对分类结果的影响。当电阻率测井值小于76 Ω·m,自然伽马测井值低于20 API时,模型的分类性能最佳。同样,当自然伽马测井值低于20 API,自然电位测井值高于20 mV时,该模型具有良好的识别效果。此外,当电阻率测井值小于74 Ω·m,自然电位测井值低于12 mV时,该模型预测岩性最有效。由图10可以直观地了解测井特征如何影响岩性识别的性能。基于本文所建模型,能够有效提高分类性能,为地质工作者进行岩性识别提供了有效方法。图9图10为识别黄铁绢英岩化花岗质碎裂岩(第8类)提供了有利的测井组合,提供了岩性识别集成模型的可解释性,这将使地质学家能够对岩性识别结果进行深入评估,并对招贤金矿研究区获得新的见解。

图10

图10   测井特征组合与岩性的部分依赖图

Fig.10   Partial dependence diagram of logging feature combination and lithology


3 结论

考虑到测井响应特征与岩性之间的强非线性关系,在非平衡样本数据处理基础上研究基于机器学习算法的测井岩性智能识别方法与流程,并以胶西北招贤金矿床实例测井数据为例,针对非平衡的样本数据,进行ADASYN过采样后构建了CatBoost岩性识别模型。得出如下结论:

(1)针对实例研究区复杂岩性分布和非均衡测井样本数据,提出了一套基于ADASYN非均衡数据处理和CatBoost机器学习的测井岩性智能识别方法与流程。该方法首先利用ADASYN算法处理非均衡测井样本数据,针对难分类的少数类样本数据生成合成样本,然后采用CatBoost算法结合网格搜索十折交叉验证构建最优岩性分类识别模型,通过增强模型在少数类样本上的学习效果进一步改善模型的岩性分类性能,结果显示通过ASASYN算法进行数据处理后,模型岩性识别的精度明显提高了。

(2)基于ADASYN-CatBoost方法针对实例矿床10种岩性进行智能识别,建立岩性分类模型,取得了良好的岩性识别效果。在ADASYN算法数据处理的基础上,结合CatBoost机器学习方法实现了实例研究区10种岩性的分类识别。模型评价结果显示,ADASYN-CatBoost方法对实例矿床岩性识别具有良好的分类性能,平均精确率为98.21%,召回率为98.20%,F1分数为98.20%,尤其针对黄铁绢英岩化花岗质碎裂岩和黄铁绢英岩化碎裂岩2种赋矿岩性,取得了较好的分类识别效果。

(3)结合测井响应特征的重要性贡献排序解译CatBoost模型内在决策机制,增强了模型分类岩性识别的可解释性,分析特征的贡献排序与研究区主要岩性及其分布特点密切相关。实例CatBoost模型解译结果表明,特征贡献排序分别为电阻率、自然电位和自然伽马,采用部分依赖图进一步显示岩性分类结果与测井响应特征之间的关系,估计岩性识别对测井特征的部分依赖程度,提高了岩性识别模型的可解释性。结果显示,CatBoost模型具有强稳健性、强泛化能力、强解释性和强分类性能,对进一步开展实例矿床深部矿产资源勘探具有重要的指示意义。

下一步工作的重点是将本文所提方法应用于其他地质情况类似的矿区,进一步验证该方法预测的准确度。由于本研究中不同岩性对应的样本数目较少且很不均衡,所以对全部样本进行了均衡化处理,并未考虑均衡化对测试集结果造成的影响。在后续工作中,将考虑先划分数据集,使用均衡化处理后的训练集训练模型,尽量保持测试集样本的真实性,对已训练的模型进行评估,获得模型在真实样本分布下的性能指标。

http://www.goldsci.ac.cn/article/2023/1005-2518/1005-2518-2023-31-5-721.shtml

参考文献

Batista GPrati R CMonard M C2004.

A study of the behavior of several methods for balancing machine learning training data

[J].Acm Sigkdd Explorations Newsletter,61):20-29.

[本文引用: 1]

Chawla N VBowyer K WHal 1

L O,

et al,2002.SMOTE:Synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,16321-357.

Chen GanghuaLiang ShashaWang Junet al2019.

Application of convolutional neural network in lithology identification

[J].Well Logging Technology,432):129-134.

Dawson H LOlivier DCédric M J2023.

Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification

[J].Computers and Geosciences,171105284.

[本文引用: 1]

Elith JLeathwick J RHastie T2008.

A working guide to boosted regression trees

[J].Journal of Animal Ecology,774):802-813.

[本文引用: 1]

Elnahas M MHussein MKeshk A2021.

Imbalanced data over-sampling technique based on convex combination method

[J].International Journal of Computers and Information,91):15-28.

[本文引用: 2]

Friedman J H2001.

Greedy function approximation: A gradient boosting machine

[J]. Annals of Statistics,295):1189-1232.

[本文引用: 1]

Fu GuangmingYan JiayongZhang Kunet al2017.

Current status and progress of lithology identification technology

[J].Progress in Geophysics,321):26-40.

Ge YunfengZhong PengTang Huiminget al2019.

Intelligent measurement on geometric information of rock discontinuities based on borehole image

[J].Rock and Soil Me-chanics,4011):4467-4476.

Gu Y FBao Z DSong Xet al2019.

Complex lithology prediction using probabilistic neural network improved by continuous restricted Boltzmann machine and particle swarm optimization

[J].Journal of Petroleum Science and Engineering,179966-978.

[本文引用: 1]

Gui ZhouChen JianguoWang Chengbin2017.

Classification of imbalance geological data based on PCA-SMOTE algorithm and random forest:A case study of geochemical data from the eastern Tianshan of China

[J].Journal of Guilin University of Technology,374):587-593.

Han QidiZhang XiaotongShen Wei2019.

Application of support vector machine based on decision tree feature extraction in lithology classification

[J].Journal of Jilin University(Earth Science Edition),492):611-620.

He H BYang BGarcia E Aet al2008.

ADASYN:Adaptive synthetic sampling approach for imbalanced learning

[C]//2008 IEEE International Joint Conference on Neural Networks.Hong KongIEEE.

[本文引用: 2]

He Y WLi W RDong Z Zet al2023.

Lithologic identification of complex reservoir based on PSO-LSTM-FCN algorithm

[J]. Energies,165):2135.

[本文引用: 1]

Hui HWang W YMao B H2005.

Borderline-SMOTE:A new over-sampling method in imbalanced data sets learning

[C]//International Conference on Intelligent Computing.Berlin,HeidelbergSpringer Berlin Heidelberg.

[本文引用: 1]

Jiang JFang LZhang H Bet al2022.

Adaptive multiexpert learning for lithology recognition

[J]. SPE Journal,276):3802-3813.

[本文引用: 1]

Kang QiankunLU Laijun2020.

Application of random forest algorithm in classification of logging lithology

[J].Global Geology,392):398-405.

Liu J MGao Y BHu F J2021.

A fast network intrusion detection system using adaptive synthetic oversampling and LightGBM

[J].Computers and Security,106102289.

[本文引用: 1]

Liu ZiyunWang Xianggong1989.

Determination of lithology through probability statistics

[J].Journal of Oil and Gas Technology,(2):35-40.

Liu J JLiu J C2022.

Integrating deep learning and logging data analytics for lithofacies classification and 3D modeling of tight sandstone reservoirs

[J].Geoscience Frontiers,131):101311.

[本文引用: 1]

Qingtian Zhang XiaopeiTang Jingtianet al2019.

Review on advancement in technology and equipment of geophysical exploration for metallic deposits in China

[J].Chinese Journal Geophysics,6210):3629-3664.

Mou DanWang ZhuwenHuang Yulonget al2015.

Lithological identification of volcanic rocks from SVM well logging data:Case study in the eastern depression of Liaohe Basin

[J].Chinese Journal of Geophysics,585):1785-1793.

Ren X XHou J GSong S Het al2019.

Lithology identification using well logs:A method by integrating artificial neural networks and sedimentary patterns

[J].Journal of Petroleum Science and Engineering,1821-15.

[本文引用: 1]

Sun JianZhou KuiRan Xiaofenget al2009.

Bayes discriminant analysis method in lithology recognition

[J].Journal of Oil and Gas Technology,(2):74-77.

Tian YXu HZhang X Yet al2016.

Multi-resolution graph-based clustering analysis for lithofacies identification from well log data:Case study of intraplatform bank gas fields,Amu Darya Basin

[J].Applied Geophysics,134):598-607.

[本文引用: 1]

Tripathy AAgrawal ARath S K2016.

Classification of sentiment reviews using n-gram machine learning approach

[J].Expert Systems with Applications,57117-126.

[本文引用: 1]

Vikrant A DMario R E2019.

Formation lithology classification using scalable gradient boosted decision trees

[J].Com-puters and Chemical Engineering,128392-404.

[本文引用: 1]

Wang ChuanyingZhong ShengSun Weichun2009.

Study of connectivity of discontinuities of borehole based on digital borehole images

[J].Chinese Journal of Rock Mechanics and Engineering,2812):2405-2410.

Wang HengJiang YananZhang Xinet al2021.

Lithology identification method based on gradient boosting algorithm

[J].Journal of Jilin University(Earth Science Edition),513):940-950.

[本文引用: 1]

Wang X WBrownlee AWoodward J Ret al2021.

Aircraft taxi time prediction:Feature importance and their implications

[J].Transportation Research Part C:Emerging Techno-logies,1241):102892.

Wang YingpengZhu PeigangZhang Wenet al2022.

Geological significances and geochemical compositions of gold and gold-bearing minerals from Zhaoxian deeply-seated gold deposit,Jiaodong area

[J].Mineral Deposits,412):255-272.

Xu DelongLi TaoHuang Baohuaet al2012.

Research on the identification of the lithology and fluid type of foreign oilfield by using the crossplot method

[J].Progress in Geophysics,273):1123-1132.

Xu T TCoco GNeale M2020.

A predictive model of recreational water quality based on adaptive synthetic sampling algorithms and machine learning

[J].Water Research,17715):115788.

[本文引用: 1]

Xun ZhifengYu Jifeng2008.

The application of cluster and discriminant analyses in logging lithology recognition

[J].Jo-urnal of Shandong University of Science and Technology(Natural Science Edition),275):10-13.

Yang L QDeng JGuo L Net al2016.

Origin and evolution of ore fluid,and gold-deposition processes at the giant Taishang gold deposit,Jiaodong Peninsula,Eastern China

[J].Ore Geology Reviews,72585-602.

[本文引用: 2]

Yao JinzhuFu YaoqingWang Zhengyonget al2014.

Identification of cuttings based on color and texture feature

[J].Journal of Sichuan University(Natural Science Edition),512):313-318.

Zhang HYang SGuo Let al2015.

Comparisons of isomiR patterns and classification performance using the rank-based MANOVA and 10-fold cross-validation

[J].Gene,5691):21-26.

[本文引用: 1]

Zhang TaoLi YanpingLiu Xiaoyuet al2023.

Lithology interpretation of deep metamorphic rocks with well logging based on APSO-LSSVM algorithm

[J].Progress in Geophysics,381):382-392.

Zhang Xuchun2021.

Based on the CatBoost Model to Realize Monitoring and Early Warning for Discharge Situation of the Sewage Treatment Plant

[D].LanzhouLanzhou University.

Zhao JianGao Fuhong2003.

Application of crossplots based on well log data in identifying volcanic lithology

[J].Global Geology,(2):136-140.

Zhao S WZhou J HYang G R2019.

Averaging estimators for discrete choice by M-fold cross-validation

[J].Economics Letters,17465-69.

[本文引用: 1]

Zhao XianlingWang GuiwenZhou Zhenglonget al2015.

A review of lithology interpretation methods using geophysical well logs

[J].Progress in Geophysics,303):1278-1287.

Zheng JWang YXu Wet al2020.

GSSA:Pay attention to graph feature importance for GCN via statistical self-attention

[J].Neurocomputing,417458-470.

[本文引用: 1]

Zhu L PLi H QYang Z Get al2018.

Intelligent logging lithological interpretation with convolution neural networks

[J].Petrophysics,596):799-810.

[本文引用: 1]

Zhu X ZWan Z HTsang D Cet al2020.

Machine learning for the selection of carbon-based materials for tetracycline and sulfamethoxazole adsorption

[J].Chemical Engineering Jou-rnal,406126782.

[本文引用: 1]

Zou Y HChen Y TDeng H2021.

Gradient boosting decision tree for lithology identification with well logs:A case study of Zhaoxian gold deposit,Shandong Peninsula,China

[J].Natural Resources Research,305):3197-3217.

[本文引用: 2]

陈钢花梁莎莎王军2019.

卷积神经网络在岩性识别中的应用

[J].测井技术,432):129-134.

[本文引用: 1]

付光明严加永张昆2017.

岩性识别技术现状与进展

[J].地球物理学进展,321):26-40.

[本文引用: 1]

葛云峰钟鹏唐辉明2019.

基于钻孔图像的岩体结构面几何信息智能测量

[J].岩土力学,4011):4467-4476.

[本文引用: 1]

桂州陈建国王成彬2017.

基于PCA-SMOTE-随机森林的地质不平衡数据分类方法——以东天山地球化学数据为例

[J]. 桂林理工大学学报,374):587-593.

[本文引用: 1]

韩启迪张小桐申维2019.

基于决策树特征提取的支持向量机在岩性分类中的应用

[J].吉林大学学报(地球科学版),492):611-620.

[本文引用: 1]

康乾坤路来君2020.

随机森林算法在测井岩性分类中的应用

[J].世界地质,392):398-405.

[本文引用: 1]

刘子云王向公1989.

利用概率统计方法判断岩性

[J].石油天然气学报,(2):35-40.

[本文引用: 1]

吕庆田张晓培汤井田2019.

金属矿地球物理勘探技术与设备:回顾与进展

[J].地球物理学报,6210):3629-3664.

[本文引用: 1]

牟丹王祝文黄玉龙2015.

基于SVM测井数据的火山岩岩性识别——以辽河盆地东部坳陷为例

[J]. 地球物理学报,585):1785-1793.

[本文引用: 1]

孙健周魁冉小丰2009.

Bayes判别分析方法在岩性识别中的应用

[J].石油天然气学报,(2):74-77.

[本文引用: 1]

王川婴钟声孙卫春2009.

基于数字钻孔图像的结构面连通性研究

[J].岩石力学与工程学报,2812):2405-2410.

[本文引用: 1]

王恒姜亚楠张欣2021.

基于梯度提升算法的岩性识别方法

[J].吉林大学学报(地球科学版),513):940-950.

[本文引用: 1]

王英鹏祝培刚张文2022.

胶东地区招贤深部金矿床金和载金矿物化学成分及其地质意义

[J].矿床地质,412):255-272.

[本文引用: 1]

徐德龙李涛黄宝华2012.

利用交会图法识别国外M油田岩性与流体类型的研究

[J].地球物理学进展,273):1123-1132.

[本文引用: 1]

寻知锋余继峰2008.

聚类和判别分析在测井岩性识别中的应用

[J].山东科技大学学报(自然科学版),275):10-13.

[本文引用: 1]

姚金铸符耀庆王正勇2014.

基于颜色特征和纹理特征的岩屑岩性识别

[J].四川大学学报(自然科学版),512):313-318.

[本文引用: 1]

张涛李艳萍刘晓宇2023.

基于自适应粒子群优化最小二乘支持向量机的深层变质岩测井岩性识别

[J].地球物理学进展,381):382-392.

[本文引用: 1]

张旭春2021.

基于CatBoost模型实现对污水处理厂排污情况的监测预警

[D].兰州兰州大学.

[本文引用: 1]

赵建高福红2003.

测井资料交会图法在火山岩岩性识别中的应用

[J].世界地质,(2):136-140.

[本文引用: 1]

赵显令王贵文周正龙2015.

地球物理测井岩性解释方法综述

[J].地球物理学进展,303):1278-1287.

[本文引用: 1]

/