多变量分析在烟草质量评价中的应用

(整期优先)网络出版时间:2023-01-07
/ 2

多变量分析在烟草质量评价中的应用

赵海娟

河南中烟工业有限责任公司安阳卷烟厂 河南 安阳 455000

摘要:多元统计分析是从经典统计学发展而来的一个分支,是一种综合性的分析方法。它用数理统计的方法研究多个对象和指标在相关情况下的统计规律。多元统计分析的主要内容包括均值向量和协方差矩阵的假设检验、多元方差分析、线性回归与相关、多元线性回归与相关、典型相关分析、主成分分析、因子分析、对应分析、判别分析和聚类分析。值得注意的是,大多数方法都是建立在指标向量服从多元正态分布的前提下。

关键词:烟草质量;多变量分析;聚类分析;判别分析;主成分分析;

近些年来,多变量分析在烟草质量评价分析中的应用越来越多,文章对多变量分析的常用方法,如典型相关分析、聚类分析、判别分析、主成分分析、因子分析、通径分析在烟草质量评价分析中的应用逐一进行阐释。

一、烟草学应用多元统计的必然性

多元统计在烟草学中应用的重要性体现在两个方面:第一、烟草学具有客观多元性。烟草的种植系统、加工系统、消费系统都是复杂的多组分系统。生态环境、烟草品种、种植措施、工艺等诸多因素,共同影响烟草产品的产量与质量;经济的、管理的、医学的诸多因素,共同影响烟草产品的营销和经营水平。多元统计恰恰就是专门面向多组分系统的数据分析方法。另外,当今科学方法论的发展趋势之一是更加重视科学研究的整体性和全面性,为了展现一个多组分系统中变量之间错综复杂的关系模式与格局,新型多元统计分析方法不断涌现。第二、多元统计优于一元统计。与一元统计相比,多元统计分析易于发现处理间细微判别,对事物的认识更深刻,更接近事物本来面目。多元统计在烟草学中应用的必要性也体现在两个方面。一方面,数据采集手段与方法(环境因子传感器技术、数字图像处理和遥感等波谱技术、DNA测序及基因芯片技术等)进展迅速,自动化与半自动化测量仪器应用越来越广泛,多元数据的获取更加便利,数据量日益增多,这已成为烟草学理论研究和技术开发的常态,客观上要求采用多元统计的数据分析方法。另一方面,烟草营销和经营领域与农学等领域不同,通常无法开展控制条件下的随机化试验研究,只有流水帐式的事实数据。对于此类数据,只有采用多元统计方法,才能在错综复杂的大量数据矿产中挖掘出有价值的信息,阐明不同变量之间的关系,评价各个变量对营销和经营的重要性,探寻变量间作用模式和分布格局。从现在往前推二三十年,在烟草学中应用多元统计遭遇以下障碍:受到研究手段和仪器设备限制,试验重复次数少或者样品数目小,测定项目少,难以获得大样本数据;计算复杂,凭借人工方式或者计算器辅助方式难以完成,必须使用计算机软件,而软件数量少且价格高;分析结果有时不易解读,基本假定时常难以验证。目前形势已发生了很大变化。经典多元统计分析方法在生物学、生态学和农学中的应用已经是常态,而且,随着数据分析新方法的不断出现,各种商用和免费的计算机多元统计软件也同步推出,互联网突破了统计新技术传播的时间和空间限制,大大方便了推广应用。统计软件的多元作图和可视化功能增强,在很大程度上增加了原始数据和分析结果的易读性和直观性。重抽样技术的兴起和普及,在较大程度上突破了一些基本假定的限制。除传统时间序列统计分析领域继续进步外,生态系统固有的空间变异属性受到了前所未有的重视,短短几十年内,空间统计学自诞生以来就一直飞速发展。所有这些都为我国烟草学领域广泛应用多元统计创造了良好条件,我们应该与时俱进,主动认识它,了解它,这对提升烟草学研究和生产水平具有重要意义。

二、多变量分析在烟草质量评价中的运用

1.主成分分析。通俗地讲,主成分分析就是将复杂的多元数据进行简化,把多个相互关联的指标简化成少数几个相互独立的综合指标,而且,这些综合指标最大程度地保留了原来数据的信息。一个变量的信息量常用其方差表示,全部变量的方差总和就是多元数据的信息总量。用最简单的统计语言描述基本原理就是,首先寻找变量的线性组合中最大方差的那一个,称为第一主成分;接着,在剩余信息中寻找方差最大的、并且与第一主成分独立的变量线性组合,称为第二主成分;如此反复,直到剩余信息等于零为止。可以使用协方差矩阵或者相关系数矩阵计算主成分,这两种计算方法获得的结果并不相同。使用协方差矩阵意味着变量的信息量大小完全取决于其方差大小,而且,当变量量纲不同时,产生分析结果不易解释问题;使用相关系数矩阵则意味着不同变量的信息量相同,并且消除了量纲不同的干扰。主成分的主要用途如下:作为一种化简即所谓降维技术,构造综合指标;在二维或者三维空间中实现多元数据的可视化;作为其它多元统计分析的数据源,可与其他方法共同使用,例如回归分析、因子分析、聚类分析、判别分析、均值向量协方差检验、典型相关分析等,亦可进行综合性评价。

2.聚类分析。聚类分析是根据物以类聚的思路,对样品或者指标(即变量)进行分类的一种多元统计分析方法。聚类分析属于数值分类的范畴,是一种探索性数据挖掘技术。样品聚类分析是在事先不知道应分多少类的情况下,进行探索性分析,对观察对象即样品依据某些数量特征适当分类。变量聚类分析是在事先不知道应分多少类的情况下,进行探索性分析,对观察对象的数量特征直接分类。样品分类的常用距离有:欧氏距离,马氏距离,闵可夫斯基距离等,样品间距离越小则划入同一类的可能性越大,反之亦然。指标分类的常用相似系数有:夹角余弦,相关系数,指标间相似性越大则划入同一类的可能性越大 。上述情形只限于连续型变量,对于二值变量组成的多元数据,最好构造特殊的距离或者相似系数 。为消去变量量纲不同或者变异幅度不同的影响,样品聚类时,要对变量进行标准差标准化或者极差标准化变换,而变量聚类时,同样要对样品进行标准化变换。

3.判别分析。判别分析是在多元数据中全部样品分类明确的条件下,建立判别函数和判别准则的一种多元统计分析方法。它的终极目标是根据一个新样品的多指标测量结果,即多变量观测值,判断它归属于已知类型中的哪一类。判别分析在烟草上有广泛应用,例如,根据遭受病害或者虫害的烟草植株或者器官或者组织的多个症状,诊断病害或者虫害的种类。根据烟叶或者烟丝的多个理化特性,识别其产地或者产品类别。根据烟草 DNA 指纹,识别其基因型身份等。

4. 典型相关分析。典型相关分析是研究两组变量之间线性相关的一种多元统计方法,通常用于研究初级阶段的探索性简化分析。用于典型相关分析的多元数据,事先必须将测定指标即变量,按照自然属性划分为两组。若两组变量地位相同,则可以把典型相关看作是研究它们之间相互关联的一种分析方法。若两组变量有依赖关系,则可以认为典型相关能够通过自变量组解释依变量组的变化。烟草学的不少实际问题可归结为典型相关研究,如烟草性状与环境因素之间的相关,育种目标性状和选择性状之间的关系,烟草两组性状,如物理性状和化学性状之间的相关等 。

5.其它多元统计方法。还有很多其它多元统计方法可以应用于烟草学理论研究与技术开发,限于篇幅无法一一介绍。例如,典型变量分析用于剖析多个变量对类别间差异的作用格局 ,多元方差分析用于检验试验处理间的多变量综合差异,对应分析在卡平方独立性检验的基础上深入解析行变量和列变量的相互依存格局 ,因子分析用于发现对现有观测变量起到制约或者主导作用的一组潜变量 。

总之,现在的统计分析软件基本能满足多元统计分析工作,但是软件的功能要相互补充,如用MINITAB软件进行均值向量和协方差阵的假设检验无法得到检验功效,此时需配合使用SPSS软件方可得到检验功效。

参考文献:

[1]何萍.多元统计分析.2017.

[2]李焕文,浅谈多变量分析在烟草质量评价中的应用.2021.