红外光谱数据结合系统聚类和判别分析鉴别中药材的类别和产地

(整期优先)网络出版时间:2021-12-02
/ 3


红外光谱数据结合系统聚类和判别分析鉴别中药材的类别和产地

王子泉 高洁 李祺 杨晶

山东协和学院 山东省济南市 250109


摘要:在近红外和中红外光谱照射下的中药材所呈现的光谱特性可以用来鉴别中药材的种类和产地。运用系统聚类分析和逐步判别分析算法,该模型对中草药种类与产地做了鉴别性研究,能简单、快速地得到的结果且较为合理。

关键字:近、中红外光谱;中药材鉴定;系统聚类;逐步判别分析



不同种类的药材在近、中红外光谱的照射下,呈现的差异较为明显;但中药材具有明显的道地性;因此,相同的药材因地理位置的不同所呈现的光谱特性也会有所差异;现结合中药材的红外光谱数据,通过系统聚类分析和逐步判别分析进行鉴定中药材的种类和产地。

1中红外光谱数据结合聚类分析鉴别中药材的种类

通过研究各种分类方法,我们选择了聚类分析。因为我们对中药材的分类属于预先不知道聚类数量的情况,因此,主要是利用系统聚类分析对中药材进行分类处理。其次是利用SPSS Statistic软件进行系统聚类分析。

样本间距离与类间距离的选择,我们使用了各样本间距离和各类间距离分别组合,根据各种组合情况下的谱系图和距离系数肘部法则修正图的差异,得到最佳的两个组合为:组间联接-平方欧氏距离、中位数聚类法-平方欧氏距离。并通过谱系图和距离系数肘部法则修正图互相验证确定分类数为3。

随后进行了随机抽样验证从三类药材中分别随机抽取10个编码的药材,做出中红外光谱数据分析图。发现聚类效果存在某些误差,分析产生误差的原因,发现是因为我们利用了整个频谱做了分析,但不同频段的吸光度差异不相同,差异小的频段会削弱聚类分析的效果,因此下一步我们对模型进行了改进。

改进优化模型。选用吸光度幅度和波峰波谷变化比较明显的652cm-1:1700cm-1波段的吸光度数据重新在“中位数聚类法-平方欧氏距离”组合下做聚类分析,得到了更好的聚类效果和频谱效果。通过以下方面分析三种药材各自的光谱特征:

1.各类药材的中红外光谱曲线的峰位、峰形。2.吸光度的变化范围。3.吸收峰主要集中的波段,吸收峰的峰强。4.峰强的差异。

不同种类药材各自的光谱特征的差异性分析:

三类中药材的中红外光谱曲线的峰位、峰形均各自基本一致,这也验证了本文模型的正确性;2.三类吸收峰基本都集中在652~1700cm-1和2700~3700cm-1两个波段内,其余波段的吸光度比较低,均在0.03AU以下。3.三类中药材的吸光度范围不同4.强差异各有不同。

2中红外光谱数据结合判别分析法鉴别中药材的产地

根据某种中药材的中红外光谱数据对未知产地的药材进行道地性鉴定。

这属于根据所研究个体的观察指标来推断个体属于何种类型,判别分析对于大数据量的多情况处理效果更佳,比逻辑回归更稳定,从而确定采用判别分析法用来鉴定中药材的产地较为合理。在已知样本的容量大、样本指标变量多的情况下,需要首先逐步判别筛选出有统计意义的变量,因此,使用逐步判别分析最佳。

3近、中红外数据结合聚类分析鉴别中药材的产地

依旧使用逐步判别分析法,分别在中红外波段与近红外波段中截取吸光度差异最明显的两个小波段的光谱数据做为训练数据,对未知的样本进行鉴别,得到鉴别结果,同时得到模型正确率。

以近红外波段6500~7000cm-1和9000~10000cm-1两个波段的部分光谱数据做为训练数据,对未知的样本进行鉴别。

3-1 利用近红外光谱10种药材的产地鉴别结果表

No

4

15

22

30

34

45

74

114

170

209

OP

17

11

1

2

16

3

4

10

9

14

以中红外波段1000~1450cm-1、1550~1750cm-1和2700~3600cm-1三个波段的部分光谱数据做为训练数据,对未知的样本进行鉴别。

3-2 利用中红外光谱10种药材的产地鉴别结果表

No

4

15

22

30

34

45

74

114

170

209

OP

7

11

1

2

16

3

4

10

9

14

将中红外波段与近红外波段的鉴别结果放在一起进行对比分析,10种药材的产地鉴别结果有两处不同。

NO

461a88efcba5b4_html_c325c1e2df0efdbf.png

15

22

30

34

461a88efcba5b4_html_f8485362bb87e83d.png 5

74

114

170

209

OP

17

11

1

2

16

10

4

10

9

14

OP

7

11

1

2

16

3

4

10

9

14

将通过近红外和中红外的光谱数据进行相互验证。同时以近红外波段6500~7000cm61a88efcba5b4_html_e5a3483efa5b80ec.png 1和中红外1000~1450cm61a88efcba5b4_html_e5a3483efa5b80ec.png 1、2700~3600cm61a88efcba5b4_html_53f841d869501f50.png 1共三个波段的部分光谱数据为训练数据,对10个未知样本进行鉴别。

10种药材的产地最终鉴别结果表

No

4

15

22

30

34

45

74

114

170

209

OP

17

11

1

2

16

3

4

10

9

14

以上三种鉴定方法可以起到对模型进行相互验证的作用,特别是在药材样本量不够充足的情况下,同时结合近红外和中红外的光谱数据进行相互验证效果极佳。

4近红外光谱数据结合聚类分析鉴定中药材的类别和产地

多种不同药材的近红外光谱数据,其中部分药材的种类和产地已知,部分药材的种类和产地未知,基于前期的处理,还是使用了判别分析法,通过上一部分的处理得知,样本数量少会直接影响预测判定结果,因此,需要选择对有产地、无种类的所有药材进行种类鉴定,然后在此数据基础上,分别对A类、B类和C类内的中药材进行产地鉴别。

对药材类别进行鉴定。通过药品的近红外光谱数据,其中部分药品的分类已知,分析其光谱曲线的特征后,以7000~10000cm-1波段的部分光谱数据做为训练数据,每隔5cm-1取一个样本点,共计600个频数点,对产地未知的中药材进行进行类别判定即可得出所有药品的判定结果。

4-1 药材的类别最终鉴定结果表

No

94

109

140

278

308

330

347

Class

1

1

1

3

3

3

2

分别对A类、B类和C类内的中药材进行产地鉴别。以整个近红外波段的部分光谱数据做为训练数据,每隔5cm-1取一个样本点,分别鉴别A类、B类和C类中药材的产地即可得出所有药品的判定结果。

4-2药材的类别与产地最终鉴别结果表

No

94

109

140

278

308

330

347

Class

1

1

1

3

3

3

2

OP

1

3

1

1

3

4

11

模型验证。将已知产地的药材作为模型验证依据,带入模型后正确率均在87%以上,说明模型建立基本合理。

5模型的应用

此模型可应用于中药材的种类和产地的鉴别,该模型识别的正确率均在87%以上,说明以上模型的建立基本合理,该模型为鉴别中药材的种类和产地提供了一种简单、快速且准确率高的新方法。

6结语

以上是基于近、中红外光谱数据以及光谱特性,通过系统聚类分析和判别分析法,对中药材的类别和产地进行鉴别,在得到鉴别结果的同时还能保证(及得到)模型得正确率。因此,此模型可广泛应用于红外光谱数据鉴定中药材的类别及产地的问题。

7 参考文献

[1]韩中庚,数学建模方法及其应用,北京:高等教育出版社,2017.

[2]司守奎编著,数学建模算法与应用,北京:国防工业出版社,2017.

[3]姜启源、谢金星、叶俊编著,数学模型,北京:高等教育出版社,2018.

[4]张文彤编著,SPSS统计分析基础课程,北京:高等教育出版社,2017.



1