多模型融合风化基岩富水性预测
罗晓霞 王万
摘要:为解决陕北浅埋煤层开采过程中侏罗系风化基岩含水层富水性预测问题,采用方差过滤和交叉递归特征消除算法研究风化基岩含水层富水性特征。使用主要特征训练极限梯度提升树(extreme gradient boosting,xgboost)模型构造高级特征,基于stacking方式叠加随机森林和softmax,构建多模型融合的风化基岩富水性预测模型。以红柳林矿区实测水文地质数据进行分析,经过5折交叉验证,结果表明模型预测准确率提升了27.8%和13.2%,micro-auc和macro-auc分别达到了0.94和0.93。可知基于机器学习算法的特征选择代替手工筛选特征可减少人为主观性对预测模型的影响,采用xgboost构造的高级特征可更充分挖掘原始水文地质数据中存在的富水性规律,融合模型可发挥不同基模型的优势,缓解基模型存在过拟合现象,增加模型整体的预测准确率,为矿井防治水提供依据。
关键词:矿井水害;富水性预测;多模型融合;特征构造;随机森林
中图分类号:tp 399文献标志码:a
文章编号:1672-9315(2022)03-0521-08
doi:10.13800/j.cnki.xakjdxxb.2022.0315开放科学(资源服务)标识码(osid):
water-rich prediction method of weathered
bedrock d on multi-model fusion
luo xiaoxia,wang wan
(college of computer science and engineering,xian university of science and technology,xian 710054,china)
abstract:in order to solve the problem of water-rich prediction of jurassic weathered bedrock aquifers during the mining process of shallow buried coal seams in northern shaanxi,china,variance filtering and cross recursive feature elimination algorithms were used to obtain the main characteristics of water-richness of weathered bedrock aquifers,and the gradient boosting tree(extreme gradient boosting,xgboost)model with the main features are used to construct advanced features,with a multi-model fusion weathered bedrock water-rich prediction model achieved by superimposing random forest and softmax d of the stacking method.the experimental analysis was made d on the measured hydrogeological data in hongliulin mining area.a five-fold cross-validation showed that the prediction accuracy of the proposed model was improved by 27.8% and 13.2%,and the micro-auc and macro-auc reached 0.94 and 0.94 respectively.0.93.it can be seen that the feature selection d on machine learning algorithm can reduce the influence of human subjectivity on the prediction model,instead of manual feature selection.the advanced features constructed by xgboost can more fully exploit the water-rich laws existing in the original hydrogeological data,and the fusion model has advantages over the model:it can alleviate the over-fitting of the model,increase the overall prediction accuracy of the model,and provide enough data for mine water control work.
key words:mine water damage;water-rich prediction;multi-model fusion;feature structure;random forest
0引言
風化基岩是在风化作用条件下,物理性质和化学成分发生变化的岩石[1]。风化基岩具结构疏松、孔隙度大、层渗透性强和裂隙发育的特点[2]。和正常的岩石相比,风化岩石在颜色、结构、含水率等方面与普通岩石相比都具有较大的差异。在陕北侏罗纪煤田风化基岩大量发育,造成大量水害事故发生,侏罗系风化基岩水害具持续时间久、涌水量大和较难防治的特点,给煤矿安全生产带来了巨大的困难,因此风化基岩含水层富水性研究对煤矿安全开采具有重大意义[3-4]。传统的含水层富水性预测方法主要使用层次分析法等数学分析方法,通过构建富水性影响因素权重矩阵,结合arcgis等建模软件绘制富水性分区,但影响因素权重矩阵的构建主观性强,导致模型预测准确率较低。50f41e50-e541-49da-9c77-bb6e1b4440dc
随着人工智能的不断发展,越来越多的机器学习算法和神经网络模型应用到煤矿富水性预测中,侯恩科等选择不同富水性影响特征,构建bayes判别模型[5]、fisher模型[6]及svm模型[7]预测风化基岩富水性;纪卓晨等利用pca降维得到4个主要富水性影响因素训练logistci regression模型[8],建立判别模型预测富水性;安孝会基于logistics回归模型对顶板突水规则进行分析[9];董丽丽等提出基于长短时记忆网络lstm的突水预测模型[10];周峰雷等建立bp神经网络对煤炭不同区域涌水量进行预测[11];尹会永等利用bp神经网络进行煤矿涌水早期预警[12]。
使用机器学习预测煤矿顶板风化基岩富水性是目前常用的方法,这些方法大多采用单一模型,泛化性能差,忽视了特征选择和参数组合对模型的影响。因此提出多模型融合的风化基岩富水性预测模型。
1风化基岩影响因素
1.1风化系数
风化之后的岩石内部较为疏松、渗水性增强。厚度越大的风化基岩内部储水空间也越大,富水性随之增加;风化程度越大,岩层储水体积越大,对应富水性也越强,因此综合考量风化基岩厚度和风化程度,构造风化系数s。
s=∑sihi/∑hi (1)
式中si代表岩石风化程度的强弱,根据风化程度的不同,可分为1,2,3,分别对应着弱、中、强3个风化程度等级;hi为对应风化基岩的岩层厚度,m。
1.2含水层厚度
由矿区钻孔实测数据可知含水层基岩主要构成为细、中和粗粒砂岩,厚度为3类砂岩的厚度之和。含水层厚度一定程度上反映岩层蓄水空间的大小,随着含水层厚度的增加,岩层富水性增强,发生涌(突)水的可能性也就越大。
1.3岩芯采取率
岩芯采取率是钻孔取出岩芯长度与钻孔钻入长度的比值,大小代表着基岩破坏程度。随着岩芯采取率减小,意味着基岩破坏越严重,储水面积增加,从而富水性越强。
1.4岩性组合指数
由抽水钻孔资料可知,风化基岩岩性不同,富水性不同。根据不同岩性组合,构造岩性组合指数r,数值越大,富水性越强。
r=∑rimi/∑mi(2)
式中ri为岩性类别;mi为岩石厚度,m。
1.5脆性岩厚度比
脆性岩通过岩层破裂释放岩石内部张力,裂隙的发育程度较高;塑性岩释放压力的方式通常为塑性形变,岩石破坏程度不高,因此可用脆性岩厚度与岩层总厚度的比值来表示风化程度,比值越大,富水性越强。
1.6地形地貌
矿区风沙滩起伏较小,煤层覆岩主要为砂岩,降雨补给充足,有利于水源的存储。中部地带为沟谷地带,自然降雨等水源不易流失,经地表汇入煤层上覆岩,形成强富水性。其余地带覆岩主要为黄土,且呈现沟壑状分布,降雨难以存储,较难渗入地下,不利于水源补给,富水性较差。以数值3,2,1分别对松散沙层、沟谷及黄土丘陵地貌进行量化处理。
1.7隔水层厚度
隔水层是透水性较差的岩层和土层,由致密的岩石或黏土构成,由于空隙较小,导致水源不易透过。
2预测模型构建
2.1模型结构
多模型融合的风化基岩富水性预测是利用xgboost模型构造高级特征,然后基于stacking方式融合随机森林和softmax完成对富水性类别预测。融合模型由数据处理模块、特征选择模块、特征构造模块和富水性预测模块组成(圖1)。数据处理模块对钻孔数据进行缺失值填补、归一化和富水性类别编码;特征选择模块使用方差过滤和交叉递归特征消除算法确定影响风化基岩富水性的最优特征子集;特征构造模块使用筛选的最优子集训练xgboost[13-14]模型,利用xgboost模型构造高级特征,基于stacking[15]集成策略融合不同分类器对构造的高级特征进行训练。为克服传统集成模型融合时使用简单集成加权平均的缺点,富水性预测模块第1层使用随机森林分类算法和softmax算法相结合,分别得到模型对分类结果的预测概率,同时softmax算法抑制随机森林分类算法存在的过拟合问题,第2层将首层的输出作为输入,训练softmax多分类器,即可得到风化基岩富水性的类别。
2.1.1对输入原始数据进行处理
删除异常值,使用随机森林算法填补缺失值,并进行归一化处理,按照单位涌水量的大小将富水性分为3类,得到新的数据集d1和特征集f1。
2.1.2特征选取
使用方差过滤和交叉递归特征消除算法对特征集f1进行特征筛选,得到新的数据集d2和特征集f2。
2.1.3特征构造
利用数据集d2和特征集f2训练xgboost模型,根据样本点在xgboost各棵树中叶子结点的位置进行one-hot编码构造出新的数据集d3和特征集f3。
2.1.4富水性预测
基于stacking集成策略,利用d3和f3训练随机森林分类算法和softmax算法,得到对应的各个类别的预测概率值,纵向拼接不同模型的预测概率值,作为输入训练softmax多分类模型,得到富水性类别。
2.2特征选择模块
利用方差过滤和交叉递归特征消除算法选择影响风化基岩富水性最优特征子集。计算每个特征的方差,设定方差阈值为0,选择方差大于0的特征,得到新的特征集合y={f1,f2,…,fn},使用交叉递归特征消除算法从y筛选出特征子集y*。利用特征集合训练评估器,剔除特征重要性最低的特征,直到所需的特征数量为止。50f41e50-e541-49da-9c77-bb6e1b4440dc
2.3特征构造模块
在风化基岩钻孔数据集样本数一定的情况下,数据集的质量和有效特征的数量对模型最终的预测结果起决定性的作用[16-17]。根据样本点在xgboost中每棵树模型叶节点的索引位置,对位置进行编码,构造出新特征。xgboost基于前一棵树的残差通过不断迭代构建多棵串行决策树以减小残差值,初始时根节点包含样本集所有样本点,经过决策树之后,叶子节点仅包含单一类别样本点,从根节点到叶子结点的决策过程即为寻找多个特征间隐含关系的过程,隐藏的多元高级特征即为区分各个样本点的特征。以原始风化基岩富水性数据集d为例,d={x,y},x为样本集合,包含5个样本点x={a,b,c,d,e};y为富水性标签集合,包含3类标签y={0,1,2}分别代表弱富水性、中等富水性和强富水性。f代表x中每个样本的特征集,包含了7个原始特征f={f1,f2,f3,f4,f5,f6,f7}。根据xgboost模型特征构造算法,以包含3棵决策树{t1,t2,t3}为例(图2),展示了数据集d基于构造算法生成f1的过程,其中w={w1,w2,w3,w4,w5,w6,w7}为当前分裂节点特征的特征值。
在xgboost分裂过程中,从根节点到叶子节点不断分支的过程即为样本的分类过程,也是不同特征间组合高级特征的过程。例如t1树中(f11
多模型融合风化基岩富水性预测
本文2022-10-30 01:22:40发表“农林鱼水论文”栏目。
本文链接:https://www.wenmi123.com/article/348262.html