基于聚类分析的葡萄酒分级评价

/ 2


基于聚类分析的葡萄酒分级评价

姚伟欣 1, 周英琦 2, 宋振富 3

1.华北理工大学冶金与能源学院,河北 唐山 063000; 2.华北理工大学外国语学院,河北 唐山 063000; 3.华北理工大学经济学院,河北 唐山 063000

随着葡萄酒产品大量涌入市场,为更好的适应不同层次的消费水平对葡萄酒进行分级评价,据此建立包括氨基酸、蛋白质、VC含量等27个酿酒葡萄理化指标和葡萄酒质量两方面的酿酒葡萄分级评价体系。对酿酒葡萄理化指标数据标准化处理,根据欧式距离矩聚类分析,以每一类葡萄酒样品评分的算术平均分作为质量得分进行分级,分级结果较为中肯,可推广至市面上大部分葡萄酒的分级评价中。

关键词:葡萄酒质量评价、聚类分析、欧式距离、分级评价

0引言

目前市面上确定葡萄酒质量的方法大致为由多位评酒员对葡萄酒样本分别进行品评打分,得分求和确定对应葡萄酒质量。但评价结果受时间、地点、温度,甚至评酒员个人因素等影响,导致评价结果可能产生偏差。随着琳琅满目的葡萄酒产品涌入市场,为了适应不同消费阶层,需要提高葡萄酒评价结果的可信度,并对葡萄酒进行合理的分级分析,使评价结果更加准确和公正。针对以上问题,建立模型对葡萄酒进行分级评价。

1模型的建立与求解

1.1建立评价指标体系

首先分为红、白两种酿酒葡萄进行等级评定。建立酿酒葡萄的指标分析体系,分为酿酒葡萄的27个理化指标和葡萄酒的质量两个方面。然后将酿酒葡萄理化指标数据进行统一量纲处理,转置同一数量级的指标数据求解欧式距离矩阵。最后进行聚类分析,由于评酒员对葡萄酒的品评打分会在一定程度上反应葡萄酒的质量,选择结果更可信的那一组评价数据,对聚类结果按类别求其平均分,分别确定红、白酿酒葡萄的等级。

以出汁率、果梗比、可溶固形物、果皮颜色、干物质含量、百粒质量、PH值、果穗质量、葡萄总黄酮、固酸比、可滴定酸、DPPH自由基、蛋白质、白葱芦醇、氨基酸、黄酮醇、花色苷、还原糖、酒石酸、总酚、苹果酸、多酚氧化酶活力、柠檬酸作为酿酒葡萄分级指标。考虑到聚类结果的准确性与针对性,对于一级指标中存在二级指标的氨基酸、白藜芦醇、黄酮醇和还原糖采用其二级指标数据进行聚类分析。

1.2样本点两两间的欧式距离

为了消除样本数据与数据之间量纲与量纲单位的影响,对红、白酿酒葡萄原始指标数据分别进行Z-Score标准化去量纲处理,统一分别用红、白酿酒葡萄指标数据Z-Score值衡量,经过处理后的数据5fe2abcc7dd36_html_3146f3dc93e3faf7.gif 处于同一量级,增大指标数据之间的可比性。将Z-Score标准化后的酿酒葡萄指标数据进行转置,数据转置结果见。假设在n维空间中,5fe2abcc7dd36_html_a4b891a7c68a31b2.gif5fe2abcc7dd36_html_a7fb6d12c0f0401.gif ,则欧式距离指的就是在n维空间中两个点之间的真实距离,欧式距离越小,相似度就大,反之越小。红、白葡萄酒两两样本点欧式距离方程:

5fe2abcc7dd36_html_bbde40125da65cc7.gif(1)

其中:5fe2abcc7dd36_html_17d75bb25acbbbb.gif 为第一次取样时的转置数据,5fe2abcc7dd36_html_dc469dc3db0413d2.gif 为之后取样的转置数据。

将转置后的数据导入MATLAB软件计算红、白葡萄酒两两样本点的欧式距离,生成距离矩阵。

1.3聚类分析法对红、白酿酒葡萄分级

根据已知红、白葡萄酒样本点之间的欧式距离对红、白葡萄酒样本理化指标分别进行聚类分析,计算每一个新样本点(未知)到历史样本点(已知)距离,然后将新样本的类别预测为与其最相似的历史样本点的类别。或将新样本的类别预测为与其最相似的多个历史样本点中最多距离,判别的基本思想是将距离越近的样本分为一类,距离越大的样本分为不同类。

根据聚类图可以看出,将红葡萄酒分为四类比较合适,将白葡萄酒分为四类比较合适。对于分类后的葡萄酒样品,计算每一类样本评酒员评分结果的总和作为其质量数。计算第二组评分数据中每类样品质量数的算术平均值作为得分,比较每一类的平均值的大小进行分级。评分均值最大一类的为一级,依次排序。经计算得红白葡萄酒的分级结果如下:

表1红酿酒葡萄聚类结果


红葡萄酒样品

得分

级别

第一类

3

74.6

一级

第二类

2、4、5、6、7、9、10、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27

71.02609

二级

第三类

1、8

67.05

三级

第四类

11

61.6

四级

表2 白酿酒葡萄聚类结果


白葡萄酒样品

得分

级别

第一类

15

78.4

一级

第二类

27

77

二级

第三类

1、2、3、4、5、6、7、8、9、10、11、12、13、14、16、17、18、19、20、21、22、23、25、26、28

76.456

三级

第四类

24

76.1

四级

2结语

本文对提供的葡萄酒评价结果进行显著性分析时,没有忽略数据的非正态性,使用了非参数检验;在对葡萄酒分级时考虑了全部的包括二级指标在内的酿酒葡萄指标,较全面的考虑了不同指标的影响;在分析酿酒葡萄与葡萄酒理化指标对葡萄酒质量影响时,分别考虑了葡萄酒指标与芳香物质指标,分别得到了这两个部分对葡萄酒质量的影响,最终得到了红白葡萄酒的分级结果。本文利用多元统计分析,用于统计量较大,多变量对多变量的问题分析。所建立的分级算法可以应用推广到食品相关产业的质量检测中,能够在提高食品生产质量和食品质量检测精度上提供一定的参考。

参考文献:

[1]姜启源编.数学模型[M].北京:高等教育出版社.1987.

[2]胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计,2007,(4):11-13.

[3]王俊玉编著.葡萄酒的品评[M].呼和浩特:内蒙古人民出版社.2005.

[4]国锋,孟永彪.基于模糊评价方法对煤炭质量分级评价研究[J].数学的实践与认识,2019(7):1-8.