机器学习及其算法和发展研究

(整期优先)网络出版时间:2022-03-17
/ 2

机器学习及其算法和发展研究

王一君

四川大学国家双创示范基地,四川省成都市, 610044

摘要:在现代化信息技术的支持下,计算机技术为智能人工技术发展奠定良好基础。以计算机技术为支持的智能计算技术涉及了统计学、逼近论、算法复杂论以及凸分论等学科知识,可通过计算机技术,利用自身的学习经验,在自我系统中不断完善自身性能。以计算机规律性信息数据为支持,在计算机中找到规律性信息,获取知识经验,实现计算机技术的智能化,使得计算机向人工智能方向发展。

关键词:机器学习;算法;生产;理论

目前,机器学习走过了70多年曲折而又光辉的历程,是学界与业界研究与应用的一个热点和焦点。以深度学习为代表的机器学习是当前最接近人类大脑的智能学习方法和认知过程,充分借鉴了人脑的多分层结构、神经元的连接交互、分布式稀疏存储和表征、信息的逐层分析处理机制,自适应、自学习的强大并行信息处理能力,在语音、图像识别等方面取得了突破性进展,在诸多应用领域取得巨大商业成功。

1机器学习分类内容

1.1监督学习

监督学习以人为方式标注目标,初始训练数据是监督学习中需收集的必然数据。监督学习能够将机器自身泛化能力充分发挥出来,可以有效解决分类和回归问题。这种监督学习经典算法为卷积神经网络、多层感知机和逻辑回归等。经典方式由BN、SVN、KNN以及CBR等组成。由标注特征对机器展开数据集训练,使其能够学习对不同事物的合理划分,以学习的方式对规则、规律数据进行预测。

1.2无监督学习

无监督学习中,机器在未标记样本数据时,不进行的训练,开展无监督学习。无监督学习可以在机器学习中及时区分一些原理相似性概念,无监督学习可以和人类一样学习需要的知识。这种无监督的学习经典性算法分为深度置信网络、受限玻尔兹曼机、自动编码器等内容,在解决聚类问题上有广泛的应用。

2机器学习经典性算法

2.1决策树算法

决策树算法整体形状为树状结构的预测模型,将实际中的例子以根节点开始,排列到叶节点,将实际例子进行科学分类,对应节点是实例的分类。决策树算法是将以分裂和剪枝方式,采用ID3、C4.5、CART等算法,开展决策树型学习。该算法是自上而下的算法,每节点分类效果选择最优属性,将节点下分2个以上节点,重复该过程,确保其决策树能够准确开展分类训练集,相应属性被自身使用过。在实际分类学习中,叶节点对应一个类,归叶节点所属,节点汇总有多类样本,可针对叶节点中的样本数量,找到样本数量最多类别。要解决回归类屋内,可以对数量值取平均数支持工作。

2.2随机森林算法

决策树中有分裂属性和剪枝控制树;但是,不能合理控制树不平衡现象,可通过创建多分裂器和回归器,科学地提高分类和预测精度,随机森林算法是多决策树{h(X,k)}组成多个分类器和回归器。其中,不同{(k)}互相独立,同分布随机向量。得到得分,针对其分类,以投票形式,获取最多一类输出向量X标签,在回归问题中,计算不同得分的平均数,作为最终决断。

2.3人工神经网络算法

人工神经网络受生物学启发,以神经元理论为支持组成复杂网络。人工神经网络与其具有相似性,也是由简单的单元密切连接组成,每一单元具有一定实值输入,产生单一实数值输出。在人工神经网络中,模型具有多样化特点,不同模型之间的差异表现在途径、结构、运行方式、算法及应用等方面。常见模型为多层前向神经网络MLFN、自组织神经网络、SOM及ART等。人工神经网络算法重点在于构造阈值逻辑单元,每一值单元为单个对象,可输入加权系数量,求和,若求和达到或超过某一阈值,则输出一个量。

2.4SVM算法

该算法支持向量机法,主要以统计学理论为支持开展工作。该学习算法中,SVM技术自动支持,可以寻找分类良好的向量创建分类器,可以最大化类和类的间隔。该技术具有良好的适应能力和区分能力。但是,这种SVM算法具有自身的要求,需要不同类域边界样本类别支持分类结果。支持向量机算法需要H(d)超平面将训练过程中集中的数据进行统一处理,将数据分散开来,将类域边界垂直H(d)平面,确保方向距离最大。由此,H(d)的SVM算法也叫做最大边缘散发。其中,最优的平面必须是超平面,将两类科学隔开;但是并不分开,仅确保分类间隔最大化。分类间隔达到最大化后,可实现对模型实际推广能力的合理控制。SVM算法可解决二次规划问题,以SVM算法为支持,可实现解决二次规划问题,以SVM-light、SMO、Chunking为支持,可以实现智能控制。

2.5Boosting和Bagging算法

Boosting算法的优势在于能够充分提高学习算法准确性,采用Boosting算法建立预测函数系统,采用科学方式组合为预测函数,将弱学习算法不断优化,转化为强学习算法。Ada Boost属于Boosting中的基础性算法,Boosting中多数扩展都需要Ada Boost给予必要支持,Ada Boost自身结论适用于其他Boosting算法。Ada Boost是理想给定弱学习算法和训练集。Boosting算法是在其他机器学习基础上主要提高算法精度和性能的方式。在回归分析中,不需构建高拟合精度和预测能力的回归算法,仅需构建效果高于随机猜测的粗糙算法就能高效完成工作内容。应不断调用基础算法,获取拟合和预测误差对应组合的回归模型。Boosting算法可在线形回归、神经网络、SVM等中应,有效提高精度。

Bagging属于自举聚合,和Boosting具有相似性。Bagging是给定一弱学习算法和一训练集。Bagging及Boosting两种技术具有差异性。其中,Bagging训练集随机选择,不同训练集相互独立关系。而Boosting训练集选择并不独立,Bagging各预测函数无权重,可并行生成,而Boosting本身具备权重,按顺序生成。Boosting从弱学习开展,集成具体学习期,进而给出合理地学习结果。Bagging学习效果受集成学习期各学习期相关性和学习效果影响较大。神经网络自身耗时较大,Bagging可通过并行训练优化时间消耗[1]。

3机器学习的发展

著名的Alpha Go和李世石的围棋大战,以Alpha Go 4∶1获胜结束,从此人们感受到了人工智能的科技性,更关注人工智能的发展。此事件说明机器学习能力很强,可以推动人们拥有深层次机器学习的美好展望。在类脑计算机认识技术支持下,机器学习势必会得到更好的发展。此基础地上要为高阶段发展做准备,深入研究机器学习的性能、结构、学习以及功能模型。取代弱人工智能,提高其智能性。在不久的将来,机器学习势必能够将人类的认知、学习、思考、推理等结合起来,强化能力[2]。要不断升级、优化、完善人工智能,推动先进科学技术持续发展。

4结束语

以深度学习为代表的机器学习作为人工智能的一个重要分支,目前在诸多领域取得了巨大进展,并且展示出强大的发展潜力,但是更应该看到,人工智能仍然处理初级阶段,机器学习仍然主要依赖监督学习,还没有跨越弱人工智能,并且作为机器学习模型基础的人脑认知研究还有诸多空白需要填补、机器学习理论本身巫需新的突破、计算机科学技术及相关学科领域的发展与支撑与有待于进一步加强,因此,对于机器学习,我们任重而道远。

参考文献:

[1]王琦,操晓春.“深度学习”还能走多远?[J].中国计算机学会通讯,2015,(8).60-62.

[3]王井东,张婷,罗杰波.Cvpr2015[J].中国计算机学会通讯,2015,(8).72-74.