山东协和学院 山东 济南 250107
摘要:人口老龄化加剧,阿尔茨海默病病人逐年上升,医疗系统面临越来越严峻的挑战,早期是治疗的黄金时间,早发现、早治疗,可以控制病情发展。影像检查可辅助诊断,如头CT(薄层扫描)可显示脑皮质萎缩明显,特别是海马及内侧颞叶,支持AD的临床诊断。MRI对检测皮质下血管改变(例如关键部位梗死)和提示有特殊疾病(如多发性硬化、进行性核上性麻痹、多系统萎缩、皮质基底节变性、朊蛋白病、额颞叶痴呆等)的改变更敏感。
关键词:阿尔茨海默病、SVM
前言
阿尔茨海默病是一种致死性的神经退行性疾病,65岁以上的人群发病率高,且发病率随着年龄逐渐增高。通过CT和MRI的图像来判断是否患病。随着科学技术的发展,医学影像技术也在快速发展,通过脑图像自动判断来辅助医生诊断,以此来提高诊断的效率和准确性,因此此类系统发展空间非常大。
1.SVM算法原理
SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。如下图所示, 即为分离超平面,对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的。
在推导之前,先给出一些定义。假设给定一个特征空间上的训练数据集
其中, 为第
个特征向量,
为类标记,当它等于+1时为正例;为-1时为负例。再假设训练数据集是线性可分的。
几何间隔:对于给定的数据集T和超平面 ,定义超平面关于样本点
的几何间隔为
超平面关于所有样本点的几何间隔的最小值为
实际上这个距离就是我们所谓的支持向量到超平面的距离。
根据以上定义,SVM模型的求解最大分割超平面问题可以表示为以下约束最优化问题
将约束条件两边同时除以 ,得到
因为 都是标量,所以为了表达式简洁起见,令
得到
又因为最大化 ,等价于最大化
,也就等价于最小化
(1/2是为了后面求导以后形式简洁,不影响结果),因此SVM模型的求解最大分割超平面问题又可以表示为以下约束最优化问题
这是一个含有不等式约束的凸二次规划问题,可以对其使用拉格朗日乘子法得到其对偶问题(dual problem)。
首先,我们将有约束的原始目标函数转换为无约束的新构造的拉格朗日目标函数
其中 为拉格朗日乘子,且
。现在我们令
当样本点不满足约束条件时,即在可行解区域外:
此时,将 设置为无穷大,则
也为无穷大。
当满本点满足约束条件时,即在可行解区域内:
此时, 为原函数本身。于是,将两种情况合并起来就可以得到我们新的目标函数
于是原约束问题就等价于
为求解过程好做,我们需要使用拉格朗日函数对偶性,将最小和最大的位置交换一下,这样就变成了:
要有 ,需要满足两个条件:
① 优化问题是凸优化问题
② 满足KKT条件
首先,本优化问题显然是一个凸优化问题,所以条件一满足,而要满足条件二,即要求
为了得到求解对偶问题的具体形式,令 对
和
的偏导为0,可得
将以上两个等式带入拉格朗日目标函数,消去 和
, 得
求 对
的极大,即是对偶问题
把目标式子加一个负号,将求解极大转换为求解极小
现在我们的优化问题变成了如上的形式。对于这个问题,我们有更高效的优化算法,即序列最小优化(SMO)算法。
前面的推导都是假设满足KKT条件下成立的,KKT条件如下
另外,根据前面的推导,还有下面两个式子成立
由此可知在 中,至少存在一个
(反证法可以证明,若全为0,则
,矛盾),对此
有
因此可以得到
对于任意训练样本 ,总有
或者
。若
,则该样本不会在最后求解模型参数的式子中出现。若
,则必有
,所对应的样本点位于最大间隔边界上,是一个支持向量。这显示出支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需要保留,最终模型仅与支持向量有关。
“软间隔”的概念,即允许某些点不满足约束
采用hinge损失,将原优化问题改写为
其中 为“松弛变量”,
,即一个hinge损失函数。C>0称为惩罚参数,C值越大,对分类的惩罚越大。线性支持向量机学习算法如下:
输入:训练数据集 其中,
,
;
输出:分离超平面和分类决策函数
选择惩罚参数C>0,构造并求解凸二次规划问题
得到最优解
(2)计算
选择 的一个分量
满足条件
,计算
(3)求分离超平面
分类决策函数:
2.非线性SVM算法原理
核函数表示,通过一个非线性转换后的两个实例间的内积。具体地, 是一个函数,或正定核,意味着存在一个从输入空间到特征空间的映射
,对任意输入空间中的
,有
在线性支持向量机学习的对偶问题中,用核函数 替代内积,求解得到的就是非线性支持向量机
综合以上讨论,我们可以得到非线性支持向量机学习算法如下:
输入:训练数据集 其中,
,
;
输出:分离超平面和分类决策函数
(1)选取适当的核函数 和惩罚参数C>0,构造并求解凸二次规划问题
得到最优解
(2)计算
选择 的一个分量
满足条件
,计算
(3)分类决策函数:
介绍一个常用的核函数——高斯核函数
对应的SVM是高斯径向基函数分类器,在此情况下,分类决策函数为
3.结语
本文提出了SVM在阿尔茨海默病诊断中的应用,阐述了SVM的基本原理,为阿尔茨海默病的早期诊断做了技术基础。但是疾病的诊断是一个复杂且庞大的工程,需要我们不断地创新。
参考文献:
R. Brookmeyer, E. Johnson, K. Ziegler-Graham et al., "Forecasting the global burden ofAlzheimer's disease," Alzheimer's and Dementia, 3(3), 186- 191 (2007).
[2] P. D. Sloane, S. Zimmerman, c. Suchindran et al., "The public health :mpact of Alzheimer'sdisease, 2000 -2050: potential implication of treatment advances," Annual Review of PublicHealth, 23(1), 213-231 (2002).