img

QQ群聊

img

官方微信

  • CN 62-1112/TF 
  • ISSN 1005-2518 
  • 创刊于1988年
高级检索

黄金科学技术, 2021, 29(6): 826-833 doi: 10.11872/j.issn.1005-2518.2021.06.089

采选技术与矿山管理

基于改进迁移学习算法的岩体质量评价模型

胡建华,, 郭萌萌,, 周坦, 张涛

中南大学资源与安全工程学院,湖南 长沙 410083

Rock Mass Quality Evaluation Model Based on Improved Transfer Learning Algorithm

HU Jianhua,, GUO Mengmeng,, ZHOU Tan, ZHANG Tao

School of Resources and Safety Engineering,Central South University,Changsha 410083,Hunan,China

通讯作者: 郭萌萌(1997-),女,河南郑州人,硕士研究生,从事矿山安全及岩土工程研究工作。gmm0118@163.com

收稿日期: 2021-07-07   修回日期: 2021-09-21  

基金资助: 国家自然科学基金项目“深部采动下地质结构体跨尺度时变力学行为试验及机理”.  41672298

Received: 2021-07-07   Revised: 2021-09-21  

作者简介 About authors

胡建华(1975-),男,湖南衡南人,教授,从事高效安全采矿技术与工程稳定性研究工作hujh21@126.com , E-mail:hujh21@126.com

摘要

岩体质量分级是进行工程设计和施工的基础。通过搜集不同地区55组实测样本和17组插值样本建立案例库,考虑岩体的复杂不确定性和异地岩体的差异性,在案例库基础上提出了一种改进两阶段回归迁移学习(Two-stage TrAdaBoost.R2)—孤立森林(Isolated Forest)多因素岩体质量等级预测模型。将广州抽水蓄能电站第1期地下工程的12个样本用于模型测试,结果表明:(1)迁移学习可以通过权重调整选出与目标区域岩体相似的样本,解决了传统机器学习方法中同区域训练样本数量不足的问题。(2)孤立森林算法与迁移学习相结合可以排除异常数据的影响,增加模型的稳定性。(3)利用训练好的模型对12个测试样本进行多次判定,结果与实际情况基本相符,验证了模型的有效性。

关键词: 岩石力学 ; 岩体质量评价 ; 机器学习 ; 迁移学习 ; 孤立森林 ; TrAdaBoost算法

Abstract

Rock mass quality classification is an important foundation for engineering design and construction, and it is also an important research topic at present. Taking into account the complexity and uncertainty of rock masses and the differences of rock masses in different regions, machine learning methods are widely used in rock mass quality evaluation. A case database was established by collecting 55 sets of measured samples and 17 sets of interpolated samples from different regions. RQD, uniaxial saturated compressive strength (Rw), rock mass integrity coefficient (Kv), structural plane strength coefficient (Kf), groundwater seepage volume (ω) are determined as the input conditions of the model, and the rock mass quality grade is the output condition. Based on the case library, an improved two-stage regression migration learning (Two-stage TrAdaBoost.R2)-Isolated Forest multi-factor rock mass quality grade prediction model is proposed. The advantages of this model are of follows: (1) The idea of migration learning is introduced into the rock mass quality classification. Taking into account the differences of rock masses in different regions, using the idea of weight adjustment, a sample similar to the target rock mass is selected from the known samples to assist in the training of the model. Solved the problem of insufficient training samples, and achieve high-precision prediction of the model when there are fewer learning samples in the target field. (2) When using the migration algorithm to classify the quality of the rock mass, the classification problem is transformed into a regression problem. The regression algorithm is used to predict the quality of the rock mass. Only one model can be used to judge the multiple levels of the sample, which overcomes the limitation of the classification algorithm in solving the multi-classification problem. (3) The sample weight is adjusted in two stages, which solves the problem of the source domain weight falling too fast in the TrAdaBoost algorithm. (4) Combined the Two-stage TrAdaBoost.R2 algorithm with the Isolated Forest anomaly detection algorithm,the influence of abnormal data on the model is eliminated, and the stability of the model is increased. The trained model was used to make multiple judgments on 12 samples of the first phase underground project of Guangzhou Pumped Storage Power Station, and the prediction accuracy of the model was evaluated by the mean square error. The average mean square error of the test sample is 0.067, and the prediction accuracy is high. It proves that the model has good performance in the application of rock mass quality grade prediction.

Keywords: rock mechanics ; rock mass quality evaluation ; machine learning ; transfer learning ; Isolated Forest ; TrAdaBoost algorithm

PDF (1124KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

胡建华, 郭萌萌, 周坦, 张涛. 基于改进迁移学习算法的岩体质量评价模型[J]. 黄金科学技术, 2021, 29(6): 826-833 doi:10.11872/j.issn.1005-2518.2021.06.089

HU Jianhua, GUO Mengmeng, ZHOU Tan, ZHANG Tao. Rock Mass Quality Evaluation Model Based on Improved Transfer Learning Algorithm[J]. Gold Science and Technology, 2021, 29(6): 826-833 doi:10.11872/j.issn.1005-2518.2021.06.089

地下工程岩体是一个复杂、动态的系统,具有不确定性。工程岩体质量分级可以客观地反映岩体物理力学性质,为岩体工程开发与结构参数选取、施工设计提供可靠的依据。工程岩体质量分级也是工程稳定性分析评价的基础,在实际工程中具有重要意义(姚银佩等,2010胡建华等,2012周述达等,2016)。因此,工程岩体质量等级的确定仍是岩体工程界的一项重要研究课题。

岩体质量分级方法主要有单指标分级、多指标综合分级和系统工程分级3种。其中,单指标分级方法主要有Terzaghi岩体载荷指标分级、普氏系数法、弹性波速法和RQD法等。此类方法简单,主要考虑岩体单一属性的认识,但忽略了地下工程的复杂性,导致评价结果与实际情况之间存在较大差异。多指标综合分级方法包括Q系统分级法(Barton et al.,1981Barton,2002)、RMR分级法(Bieniawski,1978)和BQ分级法(中华人民共和国水利部,2014)等。此类方法考虑了岩体强度、地质环境和自身软弱结构面等因素的影响,能够较好地反映工程地质特征,在实际工程中得到了广泛应用。但是,多指标综合分级方法的不足是评价指标易受主观因素的影响。随着系统工程方法的发展,在多指标分级基础上引入系统工程理论,通过距离判别分析法、可拓评判方法、动态权重法、多维云模型和粗糙集理论等方法(宫凤强等,2007文畅平,2008原国红等,2005Tu et al.,2019),建立岩体质量评价模型,充分考虑了岩体质量分级的模糊性,打破了指标选取的局限性,避免了评价过程中的主观性,评价结果达到较高的预测精度,更加贴近工程实际。同时,在对系统工程评价方法进行优化改进的基础上,建立了模糊RES-多维云分级模型(周坦等,2019)、RS-TOPSIS模型(胡建华等,2012)、改进分类区分度及权重的灰评估模型(周述达等,2016)以及有限区间云模型和距离判别赋权结合的模型,改进了岩体质量分级传统模型的缺陷,丰富了岩体质量分级评价方法的理论研究和工程应用。

随着计算机计算能力的提高,人工智能算法在岩体质量分级领域得到了广泛应用,在获得足够多的已标注样本,以及学习样本和测试样本同源且独立同分布的条件下,神经网络(杨朝晖等,1999陈星,2018)和支持向量机(何云松等,2017Zheng et al.,2020)等大量先验数据的智能分级取得了良好效果。但在实际中同一区域满足条件的学习样本数量一般较少,此时训练出的模型会出现预测精度低或过拟合等问题。迁移学习可以利用任务之间的相关性,将已有的知识进行迁移,用于求解相关领域的问题,很好地解决了传统机器学习方法中训练样本少、训练模型困难的问题,目前应用较为广泛的迁移学习方法是由Dai et al.(2007)提出的TrAdaBoost算法。徐桂芝等(2019)刘万军等(2018)Qin et al.(2019)将TrAdaBoost算法用于分类学习,证明了在样本数量较少的情况下,TrAdaBoost算法的正确率高于传统的机器学习算法。TrAdaBoost算法扩大了训练样本容量,在一定程度上提高了模型预测精度和泛化能力,但该方法在应用中仍存在源领域权重下降过快、产生负迁移现象的可能性和多分类问题求解复杂等问题。针对以上问题,采用孤立森林(Isolation Forest)对两阶段迁移学习算法(Two-stage TrAdaBoost.R2)进行改进,建立基于改进迁移学习的岩体质量分级模型,组建多源数据库对模型进行训练,案例验证了模型的有效性。

1 迁移学习基本原理

1.1 迁移学习模型

TrAdaBoost算法(Dai et al.,2007)通过调整样本权重来实现迁移过程,要求源领域样本与目标领域样本的特征分布相似。在训练基本学习器时,TrAdaBoost算法对源领域样本权重和目标领域样本权重采用2种不同的调整机制(图1)。在源领域中,采用加权多数算法(Weighted Majority Algorithm,WMA)进行样本权重调整,提高其中与目标领域相似度高的样本权重,降低相似度较低的样本权重,使源领域中有利于目标领域学习的样本发挥更大作用,同时降低坏样本对模型训练的影响。在目标领域中,采用AdaBoost调整机制,认为被错误分类的样本是难分类的,被正确分类的样本是容易分类的,通过提高目标领域中被错误分类的样本权重,降低被正确分类的样本权重,使分类器在下一次迭代过程中更加关注难分类的样本。

图1

图1   TrAdaBoost算法权重更新机制

Fig.1   Weight update mechanism of TrAdaBoost algorithm


TrAdaboost算法是以Boosting思想为基础的集成算法,其原理是通过训练多个基本学习器,将其以一定的方法组合,从而形成一个强学习器。在计算过程中,只要基本学习器的性能高于随机猜想,则该学习器就是可用的。将准确率高的基本学习器赋予较高的权重,准确率低的基本学习器赋予较低的权重,由此得到的集成学习器相比单一学习器能够达到更好的效果。

1.2 迁移学习模型改进

(1)多分类问题

根据输出变量类型的不同,将监督学习划分为分类问题和回归问题。其中,分类算法输出的结果是离散的,对输入数据进行定性判断;回归算法输出的结果是连续的,对输入数据进行定量预测。

TrAdaBoost算法的基本学习器为分类树,是一种分类结果为(0,1)的二分类算法。将该算法用于求解多分类问题时,通常将多分类问题分解为多个二分类问题,使用多个分类器来完成。当需要输出的类别较多时,这种分类方法非常消耗计算机资源。如将岩体质量划分为5个等级,在训练模型时,可按照如图2所示的方法,将多分类问题划分为4个二分类问题,进行逐级分类,最终实现岩体质量5个等级的划分。

图2

图2   多分类方法

Fig.2   Multiple classification method


在利用迁移学习算法进行岩体质量等级划分时,可将原本的多分类问题转化为回归问题,在改进的迁移学习算法中,采用回归算法对岩体质量等级进行预测,仅需一个模型即可实现样本多个等级的判断,克服了分类算法在解决多分类问题时的局限性。

(2)孤立森林算法

迁移学习要求源领域数据与目标领域数据的分布特征相似,若源领域中存在孤立的异常点,而将其迁移到目标领域中时,将会导致模型的精度降低,出现负迁移现象。因此,在模型训练之前对源领域样本进行过滤,可以有效防止负迁移现象的发生。

在数据的特征空间内,异常点所占比例较小,其特征值往往与正常点的特征值相差较大,如果某些点分布稀疏且远离群体,可认为这些点是发生概率较低的异常点。

孤立森林算法(Liu et al.,2012)是一种无监督的异常检测方法,可以检测出大量数据中与其他数据规律不一致的异常点。其原理是通过递归地随机分割数据集,直到特征空间内所有的点均被孤立。在样本集中,那些异常的离群点分割路径往往较短,通过较少的次数就可以被孤立,而正常点往往需要多次划分才能被孤立,如图3所示,通过对比样本的路径长度,可以将异常点筛选出来。通过筛选和过滤异常数据,降低其对模型的影响,能够在一定程度上提高模型的预测精度。

图3

图3   孤立森林算法原理

Fig.3   Principle of Isolation Forest algorithm


(3)两阶段迁移学习

为了解决TrAdaBoost算法源领域权重下降过快的问题,Pardoe et al.(2010)提出了一种两阶段迁移学习方法(Two-stage TrAdaBoost.R2)。该算法在每次循环内,均通过两阶段调整样本权重。第一阶段,源领域样本权重相对不变,仅改变目标领域样本权重;第二阶段,目标领域样本权重相对不变,仅改变源领域样本权重。在每阶段样本权重调整后,需对其进行标准化处理,保证源领域样本和目标领域样本的总权重为1。算法流程如图4所示。

图4

图4   两阶段迁移学习算法流程

Fig.4   Flow of two-stage TrAdaBoost.R2 algorithm


在第一阶段,源领域样本权重不变,目标领域根据TrAdaBoost.R2的权重调整机制更新,即提高被错误分类的样本权重,降低被正确分类的样本权重。第一阶段的样本权重按照下式进行更新:

wit+1=wit/Zt,1inwitβt1-eit/Zt,n+1im+n

目标领域的权重辅助更新参数βt可表示为

βt=ϵt1-ϵt

式中:前n个样本来自于源领域,后m个样本来自于目标领域; ϵt为分类器错误率,ϵt=Σi=1neitwitwit为循环开始时的样本权重;eit为样本误差;Zt为标准化常数。

第二阶段样本权重在第一阶段的基础上进行调整,目标领域样本权重不变,源领域样本权重均匀减小。第二阶段的样本权重按照下式进行更新:

wit+1=witβteit/Zt,  1inwit/Zt,n+1im+n

源领域的权重辅助更新参数βt采用二分法查找,其目的是找到一个βt使源领域样本总权重以1/S的标准值均匀减小,目标领域总权重以1/S的标准值均匀增加,以控制源领域权重下降速度。

该算法在每次循环结束后,仅保存第二阶段的权重更新结果作为下一循环的初始权重,解决了TrAdaBoost算法中源领域权重下降过快的问题。

(4)预测精度评价

模型的预测精度采用均方误差(MSE)进行评价,均方误差是指预测值与真实值之差平方的期望值,计算公式如下:

MSEy,ŷ=1nsi=0ns-1yi-ŷi2

式中:MSEy,ŷ为模型的均方误差;ns为样本数量;yi为样本的实际输出等级;ŷi为样本的期望输出等级。

均方误差可表示实际输出值与期望输出值之间的偏差,MSE值越小,说明预测模型具有更好的精度,模型的评价效果越好。

2 岩体质量分级模型构建

2.1 岩体质量分级指标

综合考虑影响岩体质量等级的因素,结合国内工程经验,将岩体质量等级划分为5类,选取RQD、单轴饱和抗压强度(Rw)、岩体完整性系数(Kv)、结构面强度系数(Kf)和地下水渗水量(ω)5个因素作为评价指标,该指标基本反映了岩体的岩性、地质构造和岩体结构等性质,分类标准见表1杨朝晖,1999胡建华,2012)。

表1   岩体质量分级标准

Table 1  Classification standard of rock mass quality

类别RQD/%Rw/MPaKvKfω/[L·(min·10m)-1
90~100200~1201.00~0.751.0~0.80~5
75~90120~600.75~0.450.8~0.65~10
50~7560~300.45~0.300.6~0.410~25
25~5030~150.30~0.200.4~0.225~125
0~2515~00.20~0.000.2~0.0125~300

新窗口打开| 下载CSV


2.2 学习样本建立

根据工程实践,收集到2个地区的55组样本数据和17组插值样本数据(张彪等,2017蔡广奎,2001),将这些数据用于模型的训练与评价。源领域为漫湾水电站2号导流洞岩体数据以及通过插值法建立的数据,共29组;目标领域为广州抽水蓄能电站第1期和第2期的地下工程岩体数据,其中第2期的31组样本与源领域样本合并为训练集,用于训练模型,第1期的12组样本为测试集,用于验证模型预测效果。

Two-stage TrAdaBoost.R2改进算法没有考虑多个源领域的问题,当存在多个源领域时,可将所有的源领域数据合并成为一个数据集,将多个可用的领域综合起来利用,以达到更好的迁移效果。

将上述60个样本合并为训练集,采用孤立森林模型进行评价,模型将第1、2、3、14、15、16、17组判别为异常点(表2)。异常点集中分布在I类和V类岩体中,其原因是本文所收集到的样本中,I级和V级样本数量较少,因此孤立森林模型认为其是发生概率较低、分布稀疏且远离群体的点,即异常点,并将其剔除。利用异常点剔除后的样本集训练模型,可在一定程度上提高模型精度。

表2   训练样本

Table 2  Training samples

序号RQD/%Rw/MPaKvKfω/[L·(min·10m)-1类别
1*100.0200.01.001.000.0
2*97.5180.00.940.951.3
3*95.0160.00.880.902.5
492.5140.00.810.853.8
586.3105.00.680.756.3
682.590.00.600.707.5
778.875.00.530.658.8
868.852.50.410.5513.8
962.545.00.380.5017.5
1056.337.50.340.4521.3
1143.826.30.280.3550.0
1237.522.50.250.3075.0
1331.318.80.230.25100.0
14*18.811.30.150.15168.8
15*12.57.50.100.10212.5
16*6.33.80.050.05256.3
17*0.00.00.000.00300.0
1882.095.00.700.3520.0
1968.090.00.570.3520.0
2040.025.00.220.3520.0
2187.095.00.700.5010.0
2276.090.00.570.5010.0
2376.095.00.700.5010.0
2472.090.00.570.5010.0
2551.040.00.380.5010.0
2652.025.00.220.5010.0
2768.090.00.380.3020.0
2828.040.00.320.3020.0
2951.025.00.150.3020.0
3075.095.00.700.500.0
3177.590.00.570.4510.0
3275.590.00.450.528.0
3385.594.00.650.550.0
3485.093.00.600.500.0
3578.592.00.550.506.0
3680.095.00.500.450.0
3785.092.00.700.5010.0
3878.080.00.750.500.0
3976.590.00.550.5010.0
4085.095.00.650.500.0
4175.090.00.550.507.0
4275.090.00.550.5010.0
4387.095.00.500.450.0
4482.096.00.750.350.0
4550.070.00.500.355.0
4650.626.00.260.3520.0
4750.040.20.500.5010.0
4852.025.00.200.505.0
4971.090.00.350.305.0
5050.934.00.320.3521.0
5150.090.00.500.255.0
5230.270.00.400.2010.0
5350.045.00.120.305.0
5451.035.00.320.3515.0
5550.934.00.320.3520.0
5650.045.00.150.355.0
5726.036.00.220.355.0
5831.520.00.230.2546.0
5935.070.50.350.3010.0
6031.520.00.230.2550.0

新窗口打开| 下载CSV


2.3 模型验证

(1)测试样本建立

利用广州抽水蓄能电站第1期地下工程的12个样本进行模型验证,测试样本如表3所示。

表3   测试样本

Table 3  Test sample

序号RQD/%Rw/MPaKvKfω/[L·(min·10m)-1实测等级
171.890.10.570.450
276.095.00.700.5512.0
387.095.00.700.509.8
482.095.00.700.350
576.090.00.570.5011.0
668.090.00.570.3518.5
751.040.20.380.5510.5
850.035.00.320.3520.0
968.090.00.380.3821.0
1051.045.00.150.305.0
1152.025.00.220.5212.0
1228400.320.3018.5

新窗口打开| 下载CSV


(2)预测结果分析

由于模型训练结果具有一定的随机性,相同的参数训练出来的模型,可能会对测试样本有不同的预测结果,因此进行10次模型训练和等级预测。测试结果如表4所示。

表4   测试结果

Table 4  Test Results

序号期望输出实际输出
12345678910
均方误差0.0830.1670.167000.083000.0830.083
123*3*2222222
22222222222
32222222222
42222222222
52222222222
63*3*3*223*223*3*
73333333333
83333333333
93333333333
103333333333
113333333333
124444444444

新窗口打开| 下载CSV


第1组样本的期望输出等级为Ⅱ级,实际输出等级2次误判为3级;第6组样本的期望输出等级为Ⅱ级,实际输出等级6次误判为3级。

根据测试结果,模型判别结果的平均均方误差为0.067,整体准确率较高。对于Ⅲ级和Ⅳ级岩体,模型的判别准确率为100%;对于Ⅱ级岩体,有2组样本存在被误判为Ⅲ级的情况,判别结果在合理的误差范围内,具有一定的工程指导意义。

3 结论

(1)将迁移学习的思想引入岩体质量分级中,解决了训练样本不足的问题,实现了在目标领域学习样本较少的情况下模型的高精度预测。

(2)提出利用回归思想解决岩体质量等级的多分类问题,将两阶段回归迁移学习算法(Two-stage TrAdaBoost.R2)与孤立森林异常检测算法相结合,解决了TrAdaBoost算法中源领域权重下降过快的问题,消除了异常数据对模型的影响。

(3)基于改进的Two-stage TrAdaBoost.R2算法建立了岩体质量等级预测模型,利用广州抽水蓄能电站第1期地下工程的12个样本对模型进行测试,通过均方误差对模型的预测精度进行评价,测试样本的平均均方误差为0.067,预测精度较高,证明了该模型在岩体质量等级预测的应用中具有良好的性能。

http://www.goldsci.ac.cn/article/2021/1005-2518/1005-2518-2021-29-6-826.shtml

参考文献

/