核酸序列分类的两种方法比较

(整期优先)网络出版时间:2024-06-29
/ 2

核酸序列分类的两种方法比较

薛申芳

(广州工商学院,广东 佛山 510850)

摘要:该文对核酸(RNA)序列分类问题进行了讨论。对已给定的两类核酸序列,把未分类的核酸序列进行归属分类。在讨论中,把RNA序列的单码子、二码子、三码子特征统一进行考虑,作为 84维空间向量,分别建立了相似度模型和单隐含层BP神经网络模型,并利用MATLAB软件,对单隐含层神经单元个数分别取N=42、84、168进行了计算。结果显示,两种模型对未分类序列分类结果的一致率,N=84时可达到90%,N=42、168时可达到80%,这在一定程度上说明了两种模型的一致性和有效性。关于BP神经网络单隐含层神经单元只给了三种不同的个数选取,尽管所得到的分类结果有所不同,但差别不是很大,关于这一点也是一个不断在探索的问题。

关键词数学建模;RNA序列分类;相似度;神经网络

1核酸序列分类模型及求解

现在针对两类RNA序列片段,其中A,B类各有个,C为未分类有个,下面通过提取所有基码子特征,分别采用相关度分析与计算以及采用BP神经网络两种算法,去分别讨论未分类的个RNA序列是属于A类或B类或既不属于A也不属于B类,且把结果进行比较。 记

:第个基码子(简称基码),

:为某RNA序列中基码出现频率();

为A类第个RNA序列基码子频率向量();

为A类ARNA序列基码子平均频率向量;

为B类第个RNA序列基码子频率向量();

为B类ARNA序列基码子平均频率向量;

为C未分类第个RNA序列基码子频率向量()。

1.1相关度模型及其求解

的相关度();

的相关度();

,且越接近于1时,向量的夹角越小,即越接近于同向平行,此时就有较好的相关度,据此把C未分类第个RNA序列分别归为A或B类或归属不能确定,这里给定归类尺度为:若

,且C,则C未分类第个RNA序列归为A类;

,且C,则C未分类第个RNA序列归为B类;

,且C,则C未分类第个RNA序列归属不能确定。

1.2 BP神经网络模型及其求解

   BP神经网络模型中,取三层神经网络,一个输入层(84个神经单元),一个隐含层(个神经单元),一个输出层(一个神经单元)。记

为输入层输入向量;

为隐含层向量;

:输入层第个神经元到隐含层第个神经元的权值();

权值矩阵;

:隐含层第个神经元到输入层的权值();

权值矩阵;

:为输出层输出值;

:为第个学习样本实际的输出值;

:为第个学习样本期望输出值,其中

:输入层到第一隐含层的传递函数,,这里取

:隐含层到输出层的传递函数,,这里取(线性函数);

表示第()个学习样本平方型误差;

训练全局输出误差,(训练目标误差);

),即采用误差的梯度下降算法,为学习率;

),即采用误差的梯度下降算法,为学习率。

计算中,取采用梯度下降优化算法训练函数traingd,训练步数取1200,神经网络训练目标误差限取为0.01,即取,取学习率0.5;隐含层单元个数分别取为42、84、168,再利用MATLAB对训练好的网络对未分类序列进行模拟计算。

分类标准规定为:当),输出值时认为C未分类第个RNA序列属于A类,输出值时认为C未分类第个RNA序列属于B类,其它情况认为不能确定。

2 两种模型计算结果比较与结果讨论

以上两种模型的计算结果看出,N=84时,10个未分类序列,前9个分类相同,只有最后一个不同,即分类结果的一致率可以达到90%;N=42时,10个未分类序列,前8个分类相同,只有最后两个不同,即分类结果的一致率可以达到80%;N=168时,10个未分类序列,分类结果只有第3个和第8个不同,即分类结果的一致率也为80%。另外还可以看出,神经网络模型计算法中隐含层神经单元个数的选取不同所得到的结果不同,N=84时与相关度模型分类结果的一致率最高(90%),N=42、168时的一致率均为80%。

关于单隐含层神经单元个数的合适选取一直在探讨的问题,如何选取单隐含层神经单元个数去保证算法的稳定性、分类准确率,不但与输入、输出神经单元个数有关,还与神经网络算法和具体问题有关。

关于两种模型的计算结果分类标准是主观给定的,若在合理的范围内给定不同的标准,得到的分类结果会有所不同。

3 结论

以上就对给定的已知两类核算序列,对未分类核酸序列的分类问题,分别建立了相关度模型和BP神经网络模型,且进行了相应地计算和求解,结果显示两种模型对未分类核算序列的分类结果一致率可以达到80%以上,由于神经网络方法的单隐含层神经单元的个数取法,会直接影响方法的结果,当单隐含层神经单元的个数取N=84时要比N=42和168时与相关度方法结果相同率高,说明了两种模型和方法在较好程度上的一致性。

参考文献:

[1] 马超.应用 LDA 模型的 DNA 序列分类方法[J],福建电脑,2020.36(2),35-37.

[2] 敖丽敏,罗存金. 基于神经网络集成的DNA序列分类方法研究[J],计算机仿真,2012,29(6).

作者简介:

薛申芳(1957-),男(汉),河北威县人,博士,教授,研究方向为应用数学、信息技术、卫星自主导航。

基金项目:2022 年度广东省普通高校重点科研平台和项目(2022ZDZX1037);