简介:随着“互联网+”概念的普及,网络上的资源随之成倍增长.面对庞大的数据资源,传统的搜索引擎Baidu、Google等已经不能满足人们对于特定信息的获取需求.作为搜索引擎抓取数据的重要组成部分,网络爬虫的作用非常重要.本文主要介绍了网络爬虫的概念、组成模块以及工作流程,在通用爬虫的基础上提出一种聚焦型网络爬虫系统,以python和相应的第三方库为主要工具,通过定义采集函数和给定豆瓣网最新上映电影的网址,快速搜索该网址某电影的影评信息,对页面内链接和外链接进行有效爬取.然后,再对获取到的数据进行分词处理,根据关键词的出现频率生成词云.实验结果表明,该聚焦型爬虫系统能够将所有影评信息以JSON格式存储到本地,并通过词云直观的展示出来.
简介:提出了一种基于激光束光斑圆心位置偏移计算的导轨直线度测量方法,能够实现对导轨直线度的测量.从激光干涉仪发射出一束激光,打到安装在导轨移动靶标上的平面反射镜,激光束反射回来最终被CCD相机接收,获得光斑图像,多次等距离移动平面反射镜,采集光斑图片.利用hough变换检测图像中的光斑圆弧,提取光斑圆心像素坐标,采用黑白棋盘格标定法得到物理坐标,根据被测导轨上各测量位置获取的光斑圆心与初始位置光斑圆心的偏移量,由最小二乘法求得被测导轨的直线度误差.将实验结果与三坐标测量机的测量结果对比可知,我们提出的测量方法的测量精度为40μm,具有较高的可行性.