简介:于复杂的数据库进行快速调度,不仅需要多服务器合作,同时也可能涉及多个数据库之间的数据筛选与查找,而问题的难点在于,不同的数据库在计算机语句设置方面也是不同的,这就意味着查询和筛选的规则以及具体的语言逻辑存在着差异性,这种差异也会影响数据有效调度的效率。基于以上问题,笔者提出一种新的数据库调度方法,其主要基于数据相互混沌的特征,实现复杂数据库的调度。通过并行数据调度技术与混沌优先级因子两种方式的有机结合投入到具体的寻优调度计算中,不仅能够快速将混沌特征进行获取,同时能够结合时间序列计算出具体的数据节点的任务量,最终建立优化模型。结果表明,这一改进模型对于复杂数据库的数据调度有一定的积极作用。
简介:用户访问数据中往往存在大量无用或与当前信息挖掘无关的数据,我们通过数据清洗从挖掘对象中去除不相关的数据,并实现了用户识别、会话识别、格式化等步骤,对WEB信息进行预处理,为进一步的操作提供了较好的数据格式,提高了挖掘效率。同时,因特网上的信息往往具有非结构化或半结构化特性,难以得到传统数据挖掘技术的支持,我们通过事务识别技术解决了这一问题,将访问序列组织成逻辑单元以表示事务或用户会话,将所有事务组成一个事务数据库,识别出事务后就可以利用对传统数据挖掘的方法对WEB数据进行挖掘:事务识别技术有多种实现形式,不同形式有不同的应用场合,本文根据特定挖掘任务,实现了以时间维来分割事务的算法,并给出了一些实验数据。
简介:大数据是毋庸置疑的技术趋势和话题焦点,但是多数情况下,可能人们都太纠结大数据“是什么?不是什么?”,这让话题看起来永远都不会有结论。而本书作者另辟蹊径,在另外的角度上对这一趋势进行解读,即什么才是大数据的正确之路。现在我们就好像身处大数据技术演进的寒武纪时代,在这个技术变革时期,各种技术粉墨登场,快速演化。而这恰恰是人们对现有大数据技术一切疑惑和模棱两可观点的源头,也正是作者在开篇第1章和结尾表述的观点。因为我们身处变革当中,所以很好理解为什么作者并不急于回答“大数据是什么“。只要翻翻这本书,你一定会发现它和市面上其它大数据书籍的不同。