基于光谱特征对中药材进行鉴别分析

(整期优先)网络出版时间:2021-11-25
/ 2

基于光谱特征对中药材进行鉴别分析

李云辉 温啸林 纪小龙 张燕

山东协和学院工学院 山东济南 250107

摘要:本文针对不同中药材在近红外,中红外光谱的照射下,会表现出不同的光谱特征这一特点,基于对附件中数据挖掘分析并借助于MATLAB、EXCEL、SPSS等软件,得出不同药材在相同的波数下的吸光度比较,相同药材在不同地区的吸光度比较以及相同药材在相同地区不同波数下的吸光度进行比较,并具体分析中药材的种类与吸光度的关系。通过对附件的数据分析,建立了地区模拟光谱图;通过对各类中药材各地区的光谱特征数据进行分析、汇总、数据拟合后建立模型,从而达到对中药材快速分类,以及对中药材的药理属性快速辨别目的。

关键词:中药材鉴别;光谱特征; 聚类分析

一、问题分析

问题的背景:中药材的道地性以产地为主要指标,产地的鉴别对于药材品质鉴别尤为重要。当样本量不够充足时,我们可以通过近红外和中红外的光谱数据相互验证来对中药材产地进行综合鉴别

针对问题一:首先利用MATLAB软件对附件1的数据进行可视化处理,对处理后的电线图进行数据剔除,得出各种类中药在不同波数下的吸光度变化曲线图,但由于红外光谱反映的是化合物分子震动的信息,且药材的化学组成复杂,因此只从吸光度的的变化曲线图谱无法对不同的药材进行区分,于是我们借助于数学分析,并对光谱进行平滑处理、基准矫正等光谱处理,然后利用SPSS对数据进行二阶聚类和K-均值聚类法,得出附件1中的药材大致分为三类,且二阶聚类得出的标准欧式距离不同,可分辨药材的差异性。

针对问题二:本文首先将同一地区不同中药在相同波数下的吸光度进行数据归纳拟合,求得相同地区在相同波数下平均吸光度的均值,整合出一个地区均值光谱数学模型,然后将均值数据导入SPSS进行特征光谱波段提取,将提取后的特征波段与附件2中的未知地区药材的吸光度进行线性和非线性的相关性系数运算,进而推断附件2中未知的药材产地,并分析模型误差。

MATLAB将OP为标签的16组近红外波长数据进行光谱特征波长处理,得出16个光谱特征波长,然后将16个光谱特征波长与OP空白组中各近红外光谱数据进行相似度对比,从而得出附件4中OP空白组的各编号药材的产地

二、问题重述

2.1问题的提出

附件1、附件2、分别是某些中药材的近红外或中红外光谱数据,根据这些数据解决以下问题:

问题一:研究不同种类药材的特征和差异性

问题二:分析不同产地药材的特征和差异性并鉴别药材的产地

2.2附件数据预处理

本题的附件数据基数庞大,附件1~4包含了中药材的近红外和中红外光谱数据。根据附件1给出的数据,经过分析,附件1的中红外光谱数据,通过MATLAB先进行数据剔除,删掉了三条异常吸光度数据,然后进行数据预处理,利用中红外光谱数据进行平滑处理、基准矫正等光谱处理、二阶聚类和k均值聚类以及附件三中的中、近红外波段整合、EXCEL数据处理

三、问题假设和符号说明

1.光照时间相同 2.光照接触面积相同

3.光照仪器相同 4.药材新鲜程度相同

符号说明

1.NO表示药材编号 2.LASS表示中药材的类别 3.OP表示该种类药材产四、模型的建立与求解

4.1问题一模型的建立与求解

对于问题一本文先对数据进行优化处理,利用MATLAB先将附录1给出的数据进行可视化的处理,大部分的数据具有一定的规律,只有少数的数据跳动的幅度较大,因此我们可以初步的推断同种中药材的中红外光谱数据具有相同的规律。本文利用SPSS进行数据的二阶聚类和K-均值聚类,先将附录1导入SPSS,然后利用K-均值聚类,最大迭代次数为15,统计初始聚类中心和每个个案的聚类信息,缺失值选项为成列排除个案,本文经过多次数据巡回分析得出,当聚类数为3时,导出的个案数目与可视化后的附件1数据相拟合,最终导出最终聚类中心之间的距离和为每个聚类中的个案数目。

再次将附件1中的数据导入SPSS,利用二阶聚类对光谱数据点线图进行平滑处理、连续分类、自动确定最大值、离群值处理选中适用噪声处理,噪声处理百分比为:25%。导出自动聚类、聚类分布、质心和频率和模型概要及聚类质量,并对不同组之间的中药材从BIC(施瓦兹贝叶斯准则)和个案数以及质心的分布中得出附件1的药材种类为三种

在以上分析中,由于二阶聚类对与附件1中的中药材有较好的聚类效果,且聚类结论几乎解释了聚类组合中的百分比,因此,将附件1中的数据作为输入数据,标准欧式距离作为距离参数。得出不同的药材被中红外照射后的吸光度数据聚类后的数据数值到中心点的标准欧式距离不同,可以得出药材的种类有差异,附件1中的药材种类大致可分为3类。

4.2问题二的模型建立与求解

对于问题二,本文首先利用EXCEL将附件2中已知地区的药材进行分类汇总,然后将求出同一地区的药材在相同频数的照射下,各类药材吸光度的平均值,

将未知产地药材进行单独提取,将整合后的表格导入SPSS求得未知药材的光谱数据与各类药材的平均吸光度数据进行双变量相关性分析,导入变量V1~V26,统计平均值和标准差,成对排除缺失值个案。协方差可以表示两个变量的总体误差,而方差是值表示一个变量,本文中两组数据经MATLAB数据可视化处理后,在同一地区中红外波段的照射下,不同的药材可以直观的看出,连续波数与吸光度呈现一种线性变化趋势,由皮尔逊相关系数看出它们的线性关系。肯德尔(非线性)相关系数可以将n各同类的统计对象按特点属性排序,其他属性乱序,求得同属性和异属性之差与总对数的比值,所以本文利用皮尔逊(线性)系数为主要参照系数,以肯德尔(非线性)相关系数为为验证参照系数,将未知地区和已知地区的特征参照光谱数据进行双尾显著性检验。

在双变量双尾显著性检验结果中,本文先将检验结果导出为EXCEL,然后简化得出皮尔逊(线性)相关系数最优解,肯德尔(非线性)相关系数,以肯德尔相关系数为参考对象,对皮尔逊相关系数进行对比检验,最终得出附件2中的未知地区的药材所属地。

[参考文献]

[1]彭惜媛.12种种子类药材多级红外光谱分析与鉴定[D].佳木斯大学,2015.

[2]于旭峰.近红外光谱快速预测田间马铃薯植叶含水率[D].云南师范大学,2021.

[3]岑忠用,雷顺新,雷蕾,严军,张晖英.近红外光谱法鉴别6种根茎类中药材[J].华中农业大学学报,2021,40(03):271-277.

第一作者简介:李云辉,男,汉,山西,2000.01,专科 研究方向: 数学模型的建立和应用。

指导老师:张燕,女,副教授,1980.09,硕士研究生,研究方向:物理学、数学建模等。