基于LIBS法的测定铁矿石中硅、铝、钙、镁含量研究

(整期优先)网络出版时间:2024-01-27
/ 4

基于LIBS法的测定铁矿石中硅、铝、钙、镁含量研究

刘世涛

中国检验认证集团珠海有限公司  广东 珠海 519000

摘 要:本研究基于激光诱导击穿光谱(LIBS)法,探讨了铁矿石中硅(SiO2)、铝(Al2O3)、钙(CaO)和镁(MgO)含量的测定方法。采集了来自澳大利亚、南非、哈萨克斯坦和智利四个国家的244个铁矿石样品,代表了12个不同种类。通过LIBS测量,获取了这些样品的光谱数据,涵盖了180~970nm波长范围内的12814个数据点。在实验中,使用商用的LIBS仪器进行测量,通过调Q的Nd:YAG激光器,波长为1064nm,激光能量设置为30mJ,延迟时间为1μs,频率为5Hz。

关键词:LIBS;测定铁矿石;元素含量

引言:

铁矿石是重要的冶金原料,其成分对冶金过程和最终产品的质量产生重要影响。因此,准确测定铁矿石中SiO2、Al2O3、CaO和MgO等元素的含量对冶金工业至关重要。近年来,激光诱导击穿光谱法作为一种快速、无损、在线的分析技术,被广泛应用于金属矿石和合金的成分分析。

1. 实验部分

1.1 铁矿石样品采集与制备

收集了来自澳大利亚、南非、哈萨克斯坦和智利这四个国家的共计244个铁矿石样品,代表了12个不同种类。根据GB/T 10322.1-2014的标准,制备了这些样品用于化学分析。表格1展示了铁矿石的类别、数量以及主要元素含量范围。

在进行LIBS测量前,使用聚乙烯塑料环对铁矿石粉末样品进行聚拢,并在压片机中施加30吨的压力,以制备成饼状。为了降低元素浓度分布和物理性质差异引起的基体效应,在测量前通过5×5矩阵的方式采集光谱,每个位置进行5次连续激发并累计为一个光谱。这样,244个铁矿石样品总共获得了244个LIBS光谱。

1.2 LIBS仪器与光谱采集

采用商用的LIBS仪器(ChemrevaL 3764,TSI公司),其激光源为调Q的Nd:YAG激光器,波长为1064nm,激光能量设置为30mJ,延迟时间为1μs,频率为5Hz。

1.3 数据处理

1.3.1 VI-BP-ANN

将铁矿石LIBS光谱按照80%和20%的比例随机划分为训练集和测试集。在训练集上,使用5折交叉验证优化VI-BP-ANN模型的参数,包括光谱预处理、使用OOB误差优化RF模型的参数(ntree和mtry)、通过变量重要性打分确定最佳RF模型、对BP-ANN模型进行5折交叉验证优化神经元个数等步骤。最终,得到了一个基于变量重要性的BP-ANN模型,用于预测铁矿石中SiO2、Al2O3、CaO和MgO的含量[1]

1.3.2 PLS、RF和SVM

为了验证VI-BP-ANN模型的定量分析能力,构建了PLS、RF和SVM模型,使用全光谱数据作为输入变量。这些模型用于预测铁矿石中SiO2、Al2O3、CaO和MgO的含量。模型优化采用了相似的数据集划分和参数调整策略。

1.4 软件运行环境

数据预处理、变量重要性测量和BP-ANN建模使用了Pirouette(Infometrix, Inc.)和Python 3.8.3(Scikit-learn 0.23.1)。实验在11th Gen Intel Core i7-1165G7 CPU @ 2.80GHz和Intel Iris Xe Graphics GPU,16GB DDR3 3200MHz内存的计算机环境中完成。

通过以上步骤,建立了一套完整的实验流程,用于LIBS光谱数据的采集、处理和建模,以实现对铁矿石中SiO2、Al2O3、CaO和MgO含量的准确预测。

2. 结果与讨论

2.1 LIBS光谱

铁矿石的LIBS光谱涵盖了180~970nm波长范围内的12814个数据点,其中包含Si、Al、Ca、Mg等元素的特征发射线。铁矿石中Fe的特征发射谱线数量多且强度高,部分Ca、Mg、Si和Al的特征发射线会受到光谱干扰。例如, Ca II 373.69nm受到Fe I 373.332nm的干扰, Si I 390.552nm受到Fe I 390.295nm的干扰。Al I 308.215nm和Al I 309.271nm的特征发射线强度较低,容易被噪声掩盖。此外,部分元素的特征峰还存在自吸收现象,如Mg I 517.268nm。

由于铁矿石LIBS光谱中存在基体效应、光谱干扰和自吸收现象,因此在进行多变量回归分析之前,有必要对原始光谱进行预处理和变量优化。

2.2 光谱预处理

为了优化铁矿石LIBS光谱的性能,采用了平滑、多元散射校正(MSC)、归一化、归一化+MSC、归一化+平滑这五种预处理方法。这些方法用于处理铁矿石LIBS光谱,通过降低脉冲波动和样品不稳定烧蚀对光谱数据的影响,以及消除不同散射水平引起的光谱差异。

不同预处理方法的性能通过5-折交叉验证进行比较,使用R²和RMSECV进行评估。在考虑输入变量对模型的影响时,在每种预处理方法下对隐藏神经元个数进行了优化,以确保模型的最佳性能。

与原始光谱相比,平滑预处理后,SiO₂和Al₂O₃含量的VI-BP-ANN模型性能有所提高,而对于CaO和MgO含量的模型有更差的性能表现。对于MSC的预处理方法,除了MgO外,SiO₂、Al₂O₃、CaO含量的模型性能都表现更好。通过归一化预处理方法后,所有模型的性能都得到明显提高。将平滑和MSC预处理方式与归一化结合后,两种组合的预处理方式相较于原始光谱,除了CaO含量模型外,其余模型的性能都有所提高。与单一的归一化预处理方法相比,模型的性能都出现了不同程度的降低,R²降低,RMSECV增大。这表明,对于定量分析铁矿石中的SiO₂、Al₂O₃、CaO和MgO,归一化相较于其他预处理方法和原始光谱表现更佳。此时的RMSECV最小,R²最大,SiO₂、Al₂O₃、CaO和MgO的RMSECV和R²分别为0.8612 wt%和0.9027,0.1763 wt%和0.9149,0.1128 wt%和0.9421,0.2748 wt%和0.9841。归一化在模型性能中发挥主导作用,过多的预处理方式可能使原始光谱信息失真,从而导致定量精度降低[2]。在实验中将归一化预处理方法应用于SiO₂、Al₂O₃、CaO和MgO的分析。

采用RF构建的模型降低了决策树之间的相关性,同时对异常值和噪声数据具有高容忍度,表现出良好的泛化能力和准确性,特别在高维数据应用中发挥关键作用。在RF模型中,有两个关键参数:(1)ntree:森林中决策树的数量;(2)mtry:在树的生长过程中每个节点分枝时随机选择的特征数。

2.3 RF参数优化

通过对SiO₂、Al₂O₃、CaO和MgO的OOB误差进行研究分析,可以发现在不同ntree取值下,随着mtry的变化,OOB误差呈现相似的变化趋势。对于SiO₂和MgO的分析,在mtry增大时,OOB误差先降低后增大。对于Al₂O₃,OOB误差随着mtry的增大呈现不断波折上升的趋势。而CaO的OOB误差在mtry的变化下呈现波动的趋势,可能与铁矿石样品本身的特性和元素含量范围有关。

具体而言,对于SiO₂,当ntree=300,mtry=7时,OOB误差最小为0.1453。对于Al₂O₃,当ntree=800,mtry=0.5时,OOB误差最小为0.0974。而对于CaO,当ntree=100,mtry=5时,OOB误差最小为0.0309。对于MgO,当ntree=500,mtry=3时,OOB误差最小为0.0083。

这些结果表明在RF模型中,通过合理选择ntree和mtry的取值,可以获得最小的OOB误差,从而提高对SiO₂、Al₂O₃、CaO和MgO的定量分析性能

2.4 变量重要性阈值和神经元优化

为了减少输入 BP-ANN 模型的变量,根据变量重要性对光谱特征进行了重新排序,通过变量重要性阈值对输入 BP-ANN 模型的变量进行控制。考虑到输入变量的变化对模型最佳神经元数量的影响。实验充分利用数据集考察模型的性能,通过 5-CV 对神经元个数(30~50)进行优化,R^2 和 RMSECV 作为评价指标。表1—表4 分别为 SiO2、CaO、MgO 和 Al2O3 的 BP-ANN 模型在不同变量重要性阈值(变量数)下计算 5 次的平均结果。

不同变量重要性阈值下的 BP-ANN 模型性能(SiO2)见表1。当使用原始光谱(12814)作为输入变量时,此时的最优神经元个数为40,RMSECV 平均值为0.042 0wt%,R^2 为0.9997。在变量重要性阈值 0~0.001 的范围内,随着变量重要性阈值的不断降低,变量数增加,训练集的 RMSECV 呈现降低的趋势,R^2 逐渐增加。测试集的 RMSEP 先增加后在0.51~0.52 wt%范围内波动,R^2 先降低之后在0.94~0.95 之间波动。时间方面,建模时间随着输入变量数的增多而持续增加,当变量重要性阈值为0.001 时,建模时间最短,为3min 32s,此时 RMSEP 最低,模型性能最好[3]

表1 不同变量重要性阈值的 BP-ANN 模型性能(SiO2)

变量重要性阈值

0.001

0.0005

0.0002

0.0001

0.00005

0.00002

0.00001

0

变量数

163

335

733

930

1215

340

930

607

最佳神经元个数

30

44

46

44

32

34

38

34

训练集 R^2

0.9813

0.9864

0.9927

0.9931

0.9934

0.9939

0.9946

0.9996

训练集 RMSECV/wt%

0.3292

0.2818

0.2190

0.2023

0.1885

0.1808

0.1604

0.0584

测试集 R^2

0.9700

0.9701

0.9567

0.9440

0.9410

0.9409

0.9401

0.9406

测试集 RMSEP/wt%

0.3785

0.3772

0.4521

0.5178

0.5408

0.5401

0.5283

0.5199

时间

3min 32s

6min 37s

11min 49s

14min 32s

18min 58s

28min 56s

39min 55s

329min 6s

不同变量重要性阈值下的 BP-ANN 模型性能(CaO)见表2,随着变量增多,RMSECV 逐渐减小,R^2 不断增大。测试集的 RMSEP 先降低后增加,阈值为0.0001 时,最佳神经元个数34,此时的模型性能最佳,建模时间较短。

表2 不同变量重要性阈值的 BP-ANN 模型性能(CaO)

变量重要性阈值

0.001

0.0005

0.0002

0.0001

0.00005

0.00002

0.00001

0

变量数

97

133

224

262

297

459

682

738

最佳神经元个数

36

46

34

40

38

34

32

38

训练集 R^2

0.9821

0.9833

0.9848

0.9850

0.9855

0.9869

0.9879

0.9887

训练集 RMSECV/wt%

0.0608

0.0583

0.0563

0.0555

0.0544

0.0524

0.0516

0.0502

测试集 R^2

0.9690

0.9727

0.9794

0.9796

0.9801

0.9799

0.9801

0.9793

测试集 RMSEP/wt%

0.0759

0.0732

0.0666

0.0655

0.0649

0.0650

0.0640

0.0645

时间

13s

13s

20s

25s

29s

47s

54s

1min 16s

不同变量重要性阈值下的 BP-ANN 模型性能(MgO)见表3,随着输入变量的增多,训练集的 R^2 逐渐增加,RMSECV 逐渐减小。测试集的 RMSEP 先减小后增加,阈值为0.0001 时,最佳神经元个数为44,此时模型性能最佳。

表3 不同变量重要性阈值的 BP-ANN 模型性能(MgO)

变量重要性阈值

0.001

0.0005

0.0002

0.0001

0.00005

0.00002

0.00001

0

变量数

109

215

362

506

599

835

1263

1126

最佳神经元个数

30

32

38

44

42

30

42

44

训练集 R^2

0.9876

0.9889

0.9895

0.9897

0.9901

0.9907

0.9911

0.9923

训练集 RMSECV/wt%

0.0304

0.0289

0.0280

0.0274

0.0268

0.0261

0.0255

0.0245

测试集 R^2

0.9665

0.9676

0.9704

0.9700

0.9705

0.9703

0.9707

0.9705

测试集 RMSEP/wt%

0.0421

0.0402

0.0388

0.0393

0.0389

0.0392

0.0388

0.0389

时间

13s

14s

21s

26s

29s

45s

59s

1min 34s

不同变量重要性阈值下的 BP-ANN 模型性能(Al2O3)见表4,随着变量的增多,训练集的 R^2 逐渐增加,RMSECV 逐渐减小。测试集的 RMSEP 先减小后增加,阈值为0.0001 时,最佳神经元个数为38,此时模型性能最佳。

表4 不同变量重要性阈值的 BP-ANN 模型性能(Al2O3)

变量重要性阈值

0.001

0.0005

0.0002

0.0001

0.00005

0.00002

0.00001

0

变量数

121

174

272

367

444

588

822

742

最佳神经元个数

32

32

36

38

32

40

38

36

训练集 R^2

0.9818

0.9843

0.9869

0.9876

0.9885

0.9888

0.9896

0.9915

训练集 RMSECV/wt%

0.0451

0.0425

0.0398

0.0387

0.0373

0.0369

0.0356

0.0333

测试集 R^2

0.9634

0.9636

0.9639

0.9628

0.9633

0.9637

0.9635

0.9637

测试集 RMSEP/wt%

0.0591

0.0586

0.0583

0.0591

0.0586

0.0581

0.0583

0.0582

时间

11s

13s

19s

24s

28s

44s

57s

1min 16s

从表1—表4 中可以看出,当变量重要性阈值逐渐降低时,输入变量的数量增加,模型的训练集拟合效果逐渐提高,但测试集的预测效果先提高后波动。当阈值为0.0001 时,模型在测试集上的性能最佳,此时的 RMSEP 最低,R^2 最高。此外,随着输入变量的增加,模型的建模时间逐渐增加。在实际应用中,可以根据具体需求选择适当的变量重要性阈值,以平衡模型的预测性能和建模时间。

3.结束语

通过对近红外光谱和气象数据的联合建模,成功构建了SiO2、CaO、MgO 和Al2O3四种矿石成分的预测模型。通过对比不同建模方法的结果,BP-ANN 模型在矿石成分预测中表现出较好的性能,具有较高的预测精度和泛化能力。在 BP-ANN 模型中,通过对输入变量的变量重要性进行排序和选择,可以减少模型的复杂度,提高模型的解释性和建模效率。通过调整变量重要性阈值,可以平衡模型的预测性能和建模时间。因此,BP-ANN 模型在矿石成分预测中具有较好的应用前景。

参考文献:

[1]刘曙,金悦,苏飘,闵红,安雅睿,吴晓红.变量重要性-反向传播人工神经网络辅助激光诱导击穿光谱测定铁矿石中硅、铝、钙和镁含量[J].光谱学与光谱分析,2023,43(10):3132-3142.

[2]云作敏,金丽.电感耦合等离子体发射光谱法测定铁矿石中硅、磷、锰、钙、镁、铝、钛[J].矿产勘查,2010,1(S1):184-186.

[3]陈加希,王劲榕.ICP—AES法同时测定铁矿石中钙、镁、硅、铝、锰、钛六元素[J].云南冶金,1998(01):55-57.