学科分类
/ 25
500 个结果
  • 简介:摘要:针对目前市场上已有的桌面文件整理软件不够智能化,不能根据文件文本信息进行分类的问题,根据文件的标题和文本内容,开发出了一款基于凝聚层次模型 分类的智能化桌面文件整理软件。算法适用于用户使用初期零散文件较多的情况,将散乱的桌面文件自动划分为不同的类别,并整理成对应的文件夹;分类算法适用于用户后期零散文件继续增加的情况,将各文件匹配到对应文件夹。实验结果表明,在短文本,且样本数量较少的情况下,上述算法能很好地对桌面文件进行类别的划分,和分类的准确率分别达到了90%和86.77%。该软件能很好地解决桌面文件整理问题。

  • 标签: 桌面文件整理文本信息凝聚层次聚类词袋模型
  • 简介:摘要:德语是德国的官方语言,也是欧盟境内使用人数最多的母语,全世界约有2亿人使用德语进行交流,庞大的德语使用人群贡献了不计其数的德语数字化文本信息。与汉语、英语等语言相比,目前国内外对德语文本挖掘的研究较少,还远未成熟,准确性不令人满意。其中,德语文本研究仍处于起步阶段,目前尚未见国内外有系统的德语文本方法研究,而当前较为成熟的汉语和英语文本方法无法直接应用于德语文本

  • 标签: 特征词配对 德语 文本聚类方法
  • 简介:11月8日是记者节,编辑部的小编们需要将自己的办公桌整理得漂漂亮亮,好拍一些办公室时尚的艺术照,自个儿美美.

  • 标签: 整理 桌面 办公桌 编辑部 艺术照
  • 简介:关系数据的算法对于传播研究意义重大,首先运用迭代系统隐喻个体结构的变化,用输出与状态的包含距离表示关系的非对称同时也确定拥有最高结构等级序列的节点来代表簇;再将Hausdorff距离引入DBSCAN算法,使得同结构节点进行合并的加和算子和层次上卷的并算子变得可压缩。运用复杂网络研究人员的数据对算法的有效性进行了评估,分层后的人员合作网具有不同的网络结构特征;关键层次2网络中的传播效率高;互惠关系在知识传播中的作用最大。新的发现证明算法通过引入Hutchinson算子的可压缩测度Hausdorff距离使得网络结构对传播效果的影响得以体现,该算法的设计思路是正确的。

  • 标签: 关系的非对称性 HAUSDORFF距离 并算子 凝聚层次聚类
  • 简介:摘要:以当前航迹数据应用现状及未来对平均航迹的需求作为研究背景,通过对雷达数据的航迹特征分析,采用FastDTW算法以及平均距离度量方法对航迹距离进行计算,建立航迹相似性度量模型,并运用改进的经典层次算法对航迹进行,最后提出平均航迹构造算法,完成平均航迹的构造。

  • 标签: 航迹数据 FastDTW算法 层次聚类 平均航迹
  • 简介:作为籍中最重要的“副文本”形式,籍序跋对于研究有重要意义.相对于其他文体的序跋研究,籍序跋研究是个短板.本文从历代词籍的资料整理与研究现状两个方面对其做一梳理,并展望了研究前景.

  • 标签: 词籍 序跋 副文本
  • 简介:根据"喝"在现代汉语各方言点中使用情况的不同,大致可以把这类分为六个演变层次.汉语十大方言中,官话、晋语和徽语演变较快;吴语、湘语和赣语保留了中古和近代的词汇现象;客家话和闽语较多地保留了中古的词汇现象;粤语则保留了上古的词汇现象;而南宁平话最为特殊,能找到从上古一直到近代的词汇现象."喝"演变的总体趋势是自北向南依次放慢,以长江为界,长江以北演变得快,长江以南演变得慢,而沿江流域处于过渡地带.

  • 标签: 方言 喝类词 演变
  • 简介:摘要:以某省南部六个市2016-2018年的用电情况为例进行分析,研究用户用电负荷的平稳性,结果表明该地区用户的用电分布不均衡,当前时段区间的设置不适合变化的负荷。基于时段划分问题遵循的原则,本文采用层次法,结合负荷变化特征,对其时段划分进行优化,以反映负荷的峰谷特性,促进用户对峰谷分时电价机制的响应,提高其实施效果。

  • 标签: 时段划分 层次聚类 峰谷分时电价 负荷特征
  • 简介:摘要本文建立配电网综合评估两层评价体系,指标层包括安全性、可靠性、持续性、效率和效益等五大指标,各指标评价因素由电网负荷、网架结构、设备类型等组成。对各评价因素进行灰色聚类分析,进而评估各因素所属评价集,然后进行多层次模糊评价,得到配电网综合评估结果,能够为电力企业配电网规划建设提供综合评估和决策参考。

  • 标签:
  • 简介:一直以来,语言的层次性研究多集中于语音史领域,词汇史领域的研究成果很少。其实词汇的层次性亦十分明显,尤其是在有着众多方言的中国。文章以汉语中一组基本“和”为考察对象,根据它们在现代汉语方言中的分布,同时结合它们历时的演变轨迹,粗略地将它们在现代汉语方言中的分布作了六个层次的划分,并对这种词汇层次的复杂性作了解释。

  • 标签: 汉语方言 词汇 层次“和类词”分布 演变
  • 简介:传统的Markov链模型是一种简单而有效的预测模型,该模型存在着预测准确率低,存储复杂度高等缺点。改进的基于的Markov链预测模型,利用用户访问特征和人们浏览网页与时间高度相关的思想来改善模型,建立了基于用户访问特征和时间段的Markov预测模型并进行了模拟实验和结果分析。

  • 标签: 聚类 预测模型
  • 简介:文档在Web文本挖掘中占有重要地位.是聚类分析在文本处理领域的应用。文章介绍了基于向量空间模型文本表示方法,分析并优化了向量空间模型中特征词条权重的评价函数,使基于距离的相似性度量更为准确。重点分析了Web文档中普遍使用的基于划分的k-means算法.对于k-means算法随机选取初始中心的缺陷.详细介绍了采用基于最大最小距离法的原则,结合抽样技术思想,来稳定初始中心的选取,改善结果。

  • 标签: 文档聚类 K-MEANS算法 向量空间模型 权重评价函数 最大最小距离
  • 简介:摘要针对网络数据的海量性和相对无序性,定义了多层次话题语义结构模型,基于多层次话题语义模型,对经典的SinglePass算法做出了改进,包括使用子话题质心来代表子话题内的文档、AverageLink比较策略、进行类似于K均值算法的重调整的方法、子话题和话题的双层次语义结构。在实验过程中对比了在线话题的算法的性能,确定了层次化在线话题方法,形成有机统一的热点话题模型,具有较高的应用价值和研究价值。

  • 标签: Single Pass 话题 聚类 语义结构
  • 简介:摘要在移动“互联网+”的时代,为了更加方便快捷的进行信息搜集和商业检查,一种自助式劳务众包平台服务模式“拍照赚钱”应运而生。

  • 标签:
  • 简介:由于工具书编纂队伍庞大,工作流程上又多头并进,所以工具书编纂过程中难免会出现内容交叉重复问题。为了减少工具书查重的工作量,文章提出了一种基于文本的查重方法。试验表明,分层算法可用于大型工具书词条查重工作,它对工具书编纂中解决词条交叉重复问题是有效的。

  • 标签: 文本聚类 特征词 交叉重复 工具书查重
  • 简介:摘要本文对HTML文件标准进行介绍,进而就HTML文件文本信息预处理技术具体的应用策略进行探讨,希望通过这一技术的合理应用,促进项目文本结构组成的有效解析,从HTML文件文本中提炼主体文本,发挥该文本的应用价值。

  • 标签: HTML文件 树形结构 预处理技术
  • 简介:最近有点烦.为了工作每天都抱着电脑整理资料.可是从网上找到的资料复制到记事本时总是不太规范,每次整理起来都非常麻烦。于是找到一款名为“文本整理器”的工具。有了它工作就方便很多了。

  • 标签: 整理 文本 记事本 电脑
  • 简介:实用人物传记记叙传主事迹往往不止一件,这些事件多散落在传主人生的不同时期和不同领域中。命题者常常抓住这一文体特征,在所命制的试题题干中出现"哪些""哪几个"等词眼,考查我们对重要信息的筛选、整合能力。

  • 标签: 信息筛选 整合能力 文本 人物传记 文体特征 命题者
  • 简介:解答文学文本阅读题,只要能抓住七个关键,就可以游刃有余.这七个关键按照主次轻重和使用频率的高低,可分为两个级别.一级关键包括人物、情节和主题;二级关键包括铺垫、线索、呼应、过渡.解答问题时首先考虑从一级关键入手;当一级关键不能圆满解答问题时,由二级关键做补充.

  • 标签: 文本阅读 解答 关键词