基于SMA算法优化随机森林的PPV预测模型
PPV Prediction Model Based on Random Forest Optimized by SMA Algorithm
收稿日期: 2023-02-20 修回日期: 2023-04-19
基金资助: |
|
Received: 2023-02-20 Revised: 2023-04-19
作者简介 About authors
邓红卫(1969-),男,湖南岳阳人,博士,教授,从事矿山水害防治与水资源利用、地下水环境评价与水污染修复、金属矿山安全高效开采等研究工作
关键词:
Keywords:
本文引用格式
邓红卫, 罗亮.
DENG Hongwei, LUO Liang.
爆破是露天开采过程中的重要技术手段,除了要确保开挖岩土充分破碎外,还要保证爆破振动水平控制在一定范围内,以减少爆破对周围建筑和人员的危害(李萧翰等,2019)。爆破振动质点速度峰值(Peak Particle Velocity,PPV)是衡量爆破振动对结构影响的重要指标。然而爆破振动质点速度受到爆破参数(如孔深、孔径、段药量、段间隔、爆破点和爆破持续时间等)、岩体性质参数(如岩体的纵波波速等)和地形地貌等众多因素的影响(Hu et al.,2018;范勇等,2022),而且这些因素之间存在复杂的非线性关系。
经验公式是目前预测爆破振动速度的主要方法,如苏联学者提出的萨道夫斯基公式、美国矿务局公式和印度标准公式等,上述经验公式将最大段药量和爆心距作为主要参数,而将其他因素的影响采用公式中的经验系数来调节。然而,经验公式会因观察者的知识经验不同而对测试点地质产生不同认识,进而造成不可避免的误差(杨佑发等,2009)。经验公式的分析误差会随着地形高差的变化而变化,因此有学者基于量纲分析理论对萨道夫斯基公式进行了改进,但该方法需要用户具有较强的工程实践经验,以便选出更准确的参数(骆晓峰等,2020),并通过对比改进公式与萨道夫斯基公式的预测误差,进一步论证改进公式的可靠性。与经验公式相似,基函数回归法的爆破振动预测对于前面的测点预测准确度较高,但对后面的测点预测值与实测值相差较大,可靠性不足。
近年来,越来越多的学者运用机器学习方法来探究爆破振动速度与其影响因素之间的非线性关系。BP神经网络适用于PPV预测,但基于BP神经网络建立起来的模型存在一定的缺陷,其自身存在过拟合以及初始权值和阈值的取值问题会使得预测结果出现不稳定等缺点(范勇等,2022);RVM的缺点是训练过程涉及到优化一个非凸的函数,且精度较SVM偏低(张研等,2022)。而随机森林对多元共线性不敏感,预测结果对缺失数据和非平衡数据比较稳健(陈绎冰等,2022),且随机森林对训练样本要求不高。SMA算法具备良好的全局寻优能力(Lin et al.,2022),通过SMA算法准确优化随机森林的超参数可进一步提高预测的准确性。鉴于此,提出构建基于SMA算法优化随机森林的PPV预测模型。
1 方法原理
1.1 随机森林算法
随机森林是一种结合Bagging装袋法生成多个相互独立的分类和回归树(Classification and Regres-sion Tree,CART)进行分类和预测的集成算法(Brei-man,2001)。主要原理是依靠结合多个决策树,并平均其结果使得决策树泛化误差收敛从而产生更好的预测结果(Lee et al.,2010)。随机森林模型的原理是在CART决策树中使用Bagging算法在样本集进行有放回的抽样,抽取多个大小与原样本集相同的训练样本集,完成对集成模型的构建(图1)。随机森林算法的思想是对遭受高方差的多棵决策树进行平均,从而构建一个具有更好泛化性能且更不容易出现过拟合且更稳健的模型。随机森林构建的基本步骤(Lee et al.,2010;刘强等,2018)如下:
图1
(1)对大小为K的数据集随机不放回抽样N次,每次选取一个样本。最后,利用选取的N个训练样本集将抽样数据组成训练样本集。
(2)拆分决策树的每个节点时,从样本的M个属性中随机选出m个属性,且m满足m<<M的条件。然后,利用
(3)在形成决策树的过程中,按照步骤(2)对每个节点进行分割,直到无法分割为止。需要注意的是,在形成决策树的过程中没有剪枝。
(4)根据步骤(1)到步骤(3)建立大量的决策树,从而构成一个随机森林,将所有决策树的结果取平均值确定最终结果。
其中,对于划分特征A,对应的任意划分点s的两边分别划分为数据集V1和V2,使V1和V2各自集合的均值方差最小,V1和V2均值方差之和为特征和特征值划分点的最小值,其中v1为V1的均值,v2为V2的均值。
式中:T为随机森林的最终结果;T1,T2,…,TN 为N棵决策树的结果。
随机森林算法中常被优化的超参数是树的个数和最小叶子点数。表1所示为超参数的缩写和范围。
表1 随机森林算法中被优化的超参数
Table 1
超参数 | 含义 | 范围 |
---|---|---|
ntree | 树的个数 | 0~300 |
mtry | 最小叶子点数 | 0~20 |
1.2 SMA优化算法
SMA算法是2020年提出的一种随机优化的方法,其根据黏菌多头绒泡菌在觅食过程中的行为和形态变化建立数学模型,模拟黏菌获取食物的3种过程:接近食物、包围食物和捕获食物(Li et al.,2020)。
(1)接近食物
附近区域的权重与周围食物浓度呈正相关,当食物浓度不满足条件时,该区域的权重会减小,从而转向其他区域搜索。搜索阶段的数学描述和位置更新可表示为
式中:
式中:
式中:
W权重更新策略公式如下:
式中:矢量Fb为当前迭代过程中获得的最优适应值;
(2)包围食物
包围食物阶段是模拟黏菌静脉组织正负反馈实现的,静脉接触的食物浓度越高,振荡越强,细胞质流动越快,静脉越厚。黏菌在更新位置上的数值计算公式为
式中:R和r为[0,1]之间的随机值;Bl和Bu为搜索空间的下界和上界;z为切换概率,决定SMA是探索其他食物源还是围绕最佳个体搜索。
(3)捕获食物
使用W、vb和vc表征黏菌的行为。通过模拟黏菌的振荡频率,黏菌接近食物的速度随着食物浓度的降低而变慢,而当找到最优食物时,黏菌加快接近食物。随着迭代次数的增加,vb在区间[-a,a]振荡并逐渐接近0。vc在[-1,1]之间波动,最终到达0。
1.3 SMA-RF模型
RF模型的预测精度和速度受树的个数和最小叶子点数等超参数的影响较大。当树的个数过少时模型容易欠拟合,而树的个数过多时既不能显著提升模型,又会增加模型的计算时间;同样随着最小叶子点数的增加,拟合效果会不断优化,同时模型的计算复杂度也会随之增加(杨练兵等,2021)。因此,设置合适的树的个数和最小叶子点数显得尤为重要。SMA具有良好的全局优化能力和收敛性(Li et al.,2020),可以优化RF模型的超参数,从而提高其准确性。因此,本文提出了一种SMA-RF算法,该算法利用SMA优化RF的上述2个重要超参数,并将其应用于PPV预测。
图2所示为PPV预测模型的构建流程,包括数据预处理、模型训练和测试3个阶段。第一阶段确定并收集PPV的主要影响因素,建立输入、输出参数数据库,从中随机抽取80%的数据用于训练模型,剩余部分用于测试模型。输入参数的选择对模型性能至关重要。
图2
在最后一个阶段,利用测试集对具有最优超参数的4个预测模型进行评估。选择误差最小的模型作为最优PPV预测模型。同时,还可以确定每组中的最优模型,使研究人员根据已有的试验数据选择最合适的预测模型。
1.4 模型评估
为了评价本研究中混合模型的可靠性和准确性,通过模型评价指标决定系数(R2)、平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Square Error,RMSE)和中位数绝对误差(Median Absolute Error,MEDEA)的性能得分对模型性能进行对比评价(Zhang et al.,2020)。这些评价指标用于描述PPV预测值与实测值之间的关系。R2表示实测值与预测值的线性相关性,MAE表示结果的偏差,RMSE表示结果的离散度,MEDEA表示结果的准确度。评价指标的计算公式如下:
式中:
2 工程应用
2.1 数据收集与模型指标选取
在露天采场台阶爆破中,影响爆破振动速度的因素有很多,考虑到影响因素的代表性和易获取性,根据萨道夫斯基经验公式,选取最大段药量和水平距离这2个重要因素作为输入变量(郭钦鹏等,2020)。有学者针对爆破振动高程效应进行分析,发现随着测点高程的变化,爆破振动速度也随之变化,因此在测算爆破振动速度时,需考虑高程差(谭文辉等,2010;蒋楠等,2014)。当抵抗线过大时,由于爆炸并未破坏附着在岩石表面的岩石,沿最小抵抗线传播的应力波会叠加原有应力波,从而使岩体表面反射应力波增大,导致岩石表面反演应力波增强。当抵抗线非常短时,岩石就会在抵抗线较短的一侧形成一条破碎带,沿着最短抵抗线传播的应力波就会转变成破碎能量,很难被反射回来,爆破振动强度就会增加(赵华兵等,2012;周游等,2016),因此将最小抵抗线作为输入变量之一,能够更好地预测爆破振动速度。综上,本研究将最大段药量、水平距离、高程差和最小抵抗线作为PPV预测模型的输入变量。基于攀枝花某露天矿现场试验测定得知,影响爆破振动速度的主要因素有最大段药量、水平距离、高程差和最小抵抗线。本次爆破振动监测使用TC-4850爆破测振仪共测得23组数据,表2为爆破振动实测数据。
表2 爆破振动实测数据
Table 2
序号 | Qmax/kg | r/m | H/m | W/m | 实测值/(cm·s-1) |
---|---|---|---|---|---|
1 | 580.8 | 200 | 0 | 5.0 | 0.763581 |
2 | 600.8 | 310 | 75 | 6.0 | 0.489885 |
3 | 300.8 | 282 | 150 | 5.0 | 0.007130 |
4 | 260.8 | 60 | 15 | 5.0 | 1.893658 |
5 | 280.8 | 468 | 239 | 4.5 | 0.692248 |
︙ | ︙ | ︙ | ︙ | ︙ | ︙ |
23 | 260.8 | 110 | 15 | 5.0 | 1.191707 |
图3
图3
SMA-RF模型的训练集和测试集分布
Fig.3
Distributions of training set and testing set for SMA-RF model
2.2 SMA-RF模型预测
图4
图4
SMA-RF预测模型中适应度值的迭代情况
Fig.4
Iteration situation of fitness value in SMA-RF prediction model
图5
图5
SMA-RF预测模型对训练集和测试集的PPV预测
Fig.5
Predicted PPV for training and testing sets by SMA-RF prediction models
表3 不同输入参数的SMA-RF预测模型结果评估
Table 3
参数组合 | 训练集 | 总分 | |||||||
---|---|---|---|---|---|---|---|---|---|
MAE | 得分 | R2 | 得分 | RMSE | 得分 | MEDEA | 得分 | ||
Q-r | 1.3893 | 1 | 0.9290 | 1 | 1.9299 | 1 | 0.9472 | 1 | 4 |
Q-H-r | 0.8767 | 4 | 0.9694 | 4 | 1.2503 | 4 | 0.5444 | 4 | 16 |
Q-W-r | 1.2464 | 2 | 0.9564 | 2 | 1.4970 | 2 | 1.1055 | 2 | 8 |
Q-W-H-r | 1.0456 | 3 | 0.9637 | 3 | 1.3582 | 3 | 0.7775 | 3 | 12 |
参数组合 | 测试集 | 总分 | |||||||
MAE | 得分 | R2 | 得分 | RMSE | 得分 | MEDEA | 得分 | ||
Q-r | 1.6183 | 3 | 0.9962 | 4 | 2.0230 | 4 | 1.2771 | 2 | 13 |
Q-H-r | 1.6942 | 1 | 0.9176 | 1 | 2.1552 | 2 | 1.7324 | 1 | 5 |
Q-W-r | 1.6506 | 2 | 0.9801 | 3 | 2.2210 | 1 | 1.1245 | 3 | 9 |
Q-W-H-r | 1.3958 | 4 | 0.9636 | 2 | 2.0702 | 3 | 0.7131 | 4 | 13 |
表4 不同输入参数的SMA-RF预测模型得分比较
Table 4
参数组合 | 训练集得分 | 测试集得分 | 总分 | 排名 |
---|---|---|---|---|
Q-r | 4 | 13 | 17 | 3 |
Q-H-r | 16 | 5 | 21 | 2 |
Q-W-r | 8 | 9 | 17 | 3 |
Q-W-H-r | 12 | 13 | 25 | 1 |
2.3 RF模型预测
同样选取MAE、R2、RMSE和MEDEA作为RF模型的性能评价指标,模型随机连续运行多次,取各性能指标的平均值。RF模型训练结果评估如表5所示。
表5 RF预测模型结果评估
Table 5
评价指标 | 训练集 | 测试集 |
---|---|---|
MAE | 1.4605 | 1.6951 |
R2 | 0.9675 | 0.9045 |
RMSE | 2.0201 | 2.1923 |
MEDEA | 1.0656 | 1.6955 |
2.4 经验公式预测
在以往研究中,国内外学者相继提出不同的爆破振动速度峰值预测公式,如:Amb-Hend、CMRI predictor(Roy,1993)、General predictor(Davies et al.,1964)、Indian Standard predictor(Guo et al., 2021)、Lang-Kihl和USBM (Siskind et al.,1980),其一般形式为
式中:r为爆心距;Qmax为最大段药量;A和B为经验拟合参数。最常见的值分别是A=1和B=1/2或1/3,用于平方根和立方根缩放。最后利用测试集检验经验公式的拟合效果。表6列出了这些常用的经验公式。
表6 6组国内外常用经验公式
Table 6
经验方法 | 公式 |
---|---|
Amb-Hend | |
CMRI | |
General | |
Indian Standard | |
Lang-Kihl | |
USBM |
表7 6组经验公式的常量项及拟合评价指标
Table 7
经验公式 | 参数 | 评价指标 | ||||||
---|---|---|---|---|---|---|---|---|
K | B | A | n | MAE | R2 | RMSE | MEDEA | |
USBM | 13.1027 | 0.7479 | - | - | 3.0944 | 0.0195 | 5.6826 | 1.6959 |
Lang-Kihl | 0.2867 | 1.9959 | - | - | 2.8063 | 0.1031 | 4.3341 | 1.4054 |
General | 9.3569e-5 | 0.5392 | 2.1427 | - | 2.2920 | 0.2649 | 3.7887 | 0.1357 |
Amb-Hend | 24.9367 | 0.6897 | - | - | 3.1793 | 0.0079 | 4.5676 | 1.8497 |
Indian Standard | 6.1020 | 0.7806 | - | - | 3.0219 | 0.0341 | 4.5570 | 1.7112 |
CMRIP | 12.9205 | - | - | 1.1330 | 3.1571 | 0.0094 | 4.5826 | 1.6516 |
图6
2.5 敏感性分析
为了研究模型各输入参数对输出结果的影响程度,利用随机森林模型内置的重要性测度方法,对袋外(Out of Bag,OOB)数据进行预测,并将所有决策树随机扰动前后的2次预测值均方误差(MSE)作为该特征参数的重要度。计算公式如下:
式中:N为决策树个数;
如图7所示,Qmax和r对PPV预测的重要性明显高于H和W,说明经验公式中常常考虑Qmax和r是合理的。但值得注意的是,H和W仍然对PPV预测有一定的影响。因此,在条件允许的情况下应考虑通过H和W这2个因素来提高预测模型的精度。
图7
3 结论
提出了一种新的基于黏菌算法(SMA)和随机森林(RF)算法的混合智能模型,以更精准地预测PPV。首先建立包含4个输入参数(最大段药量Qmax、爆心距r、最小抵抗线W、高程H)和1个输出参数(PPV)的数据库。80%的数据用于训练模型,20%的数据用于测试模型。
(1)为了寻找预测PPV的最优输入参数组合,采用4种输入参数组合(Qmax-H-W-r、Qmax-H-r、Qmax-W-r和Qmax-r)分别训练预测模型,由此建立了4种具有不同输入参数组合的SMA-RF模型。将黏菌算法与RF算法集成以确定RF算法中的最优超参数,增强RF模型的稳健性。训练集和测试集的预测结果表明, Qmax-H-W-r组合能够训练出最优的SMA-RF模型。
(3)敏感性分析研究表明,所提出的RF模型中PPV与4个输入参数之间的关系符合物理解释,证实了所提出模型的稳健性和合理性。采用RF算法中的预测值均方误差来评价输入参数的敏感性,结果表明模型性能对Qmax和r的敏感性远高于对H和W的敏感性,且同时考虑H和W也可提高模型的准确度。
http://www.goldsci.ac.cn/article/2023/1005-2518/1005-2518-2023-31-4-624.shtml
参考文献
Random forests
[J].
Research on the relationship between typhoon precipitation cloud spectrum and precipitation based on random forest and remote sensing
[J].
Ground vibration from shallow sub-surface blasts
[J].
Prediction of blasting vibration velocity peak based on an improved PSO-BP neural network
[J].
Predition of blasting vibration velocity using GA-BP neural network
[J].
Deep neural network and whale optimization algorithm to assess flyrock induced by blasting
[J].
A new approach for predicting bench blasting-induced ground vibrations:A case study
[J].
Altitude effect of blasting vibration velocity in rock slopes
[J].
Random forest based lung nodule classification aided by clustering
[J].
Slime mould algorithm:A new method for stochastic optimization
[J].
Analysis of blasting vibration effects under different ground stress
[J].
Adaptive slime mould algorithm for optimal design of photovoltaic models
[J].
PCA-RF model for the classification of rock mass quality and its application
[J].
Correction of blasting vibration propagation attenuation formula under complex terrain based on dimensional theory
[C]//
Putting ground vibration predictions into practice
[J].
Structure response and damage produced by ground vibration from surface mine blasting
[R].
Altitude effect of blasting vibration in slopes
[J].
Retrieval of soil salinity content based on random forests regression optimized by Bayesian optimization algorithm and gentic algorithm
[J].
Prediction of peak blasting velocity
[J].
A novel hybrid surrogate intelligent model for creep index prediction based on particle swarm optimization and random forest
[J].
Blasting vibration velocity prediction model based on RVM
[J].
Predictive methods and influence factors of blasting vibration velocity
[J].
Effects of minimum burden on deep-hole rock blasting block size
[J].
基于随机森林和遥感的台风降水云光谱与降水关系研究
[J].
基于改进PSO-BP神经网络的爆破振动速度峰值预测
[J].
运用GA-BP神经网络对爆破振动速度预测
[J].
岩质边坡爆破振动速度高程效应
[J].
不同地应力下爆破振动效应分析
[J].
岩体质量分类的PCA-RF模型及应用
[J].
基于量纲理论的复杂地形下爆破振动传播衰减公式修正
[C]//
边坡爆破振动高程效应分析
[J].
基于优化随机森林回归模型的土壤盐渍化反演
[J].
爆破振动速度峰值的预测
[J].
基于RVM的爆破振动速度预测模型
[J].
爆破振动速度预测方法及其影响因素
[J].
最小抵抗线对深孔岩石爆破块度的影响
[J].
/
〈 |
|
〉 |
