基于 Excel的数据检测和统计分析

(整期优先)网络出版时间:2020-06-10
/ 2

基于 Excel的数据检测和统计分析

闻兵工

61287部队;四川 成都 610036

摘要:本软件是为了提高工作效率,解决数据格式不统一、数据统计分析困难、数据使用不方便等问题而开发。这个软件是利用excel文件进行编辑数据,存储模板和存储变量,继承了excel的优点,实现了动态对动态的目的,软件功能简单、灵活、实用。

关键字:大数据时代、检测模板文件、信息模板文件、Excel

Excel based data detection and statistical analysis

61287 troops :WenBingGong

Abstract: This software is to improve work efficiency, to solve the data format disagree, data statistical analysis difficulties, data use inconvenient and other problems developed.This software uses excel file editing data, stored template and stored variables. It inherits the advantages of excel and achieves the purpose of dynamic to dynamic. The software functions are simple, flexible, practical.

Keywords: big data era, detection template file, information template file, Excel

引言:

大数据时代带来的不仅仅是数据技术的进步和服务市场的增长,它影响到我们生活的方方面面,但是大数据并不在“大”,而在于“有用”。要做到数据有用,就必须考虑数据的时效性,数据的准确性,数据的归类和存储,数据的统计分析等[1]。作为数据的生产和服务单位,我们可以通过收集数据、生产数据、处理数据、统计分析数据等手段,为用户提供更好的服务,为领导决策提供准确依据,所以简单、灵活、实用、满足任务需求的数据的检测和统计分析工具非常有用。

一、需求分析和开发工具选择

随着国家改革的推进,各种收集信息的表格越来越多,不同的部门表格不同,很多表格基础信息相同,只是表格样式不同,而且任务不同时,表格也不同,数据收集后,统计分析很困难,最让统计者尴尬的是填表信息不正确,同时这些表格随着时间和任务的变化,很快被新的表格取代,数据的准确性和利用率不高,本软件就是为了解决这些问题而设计。

开发工具选择:1、原始数据文件,模板文件、变量文件、成果文件都是Excel文件。因为Excel 文件是本单位经常使用文件,并且Excel可以进行各种数据的处理、统计分析和辅助决策操作,优点主要有三个方面:(1)具有强大的函数计算功能:它的内部函数包括对数函数、三角函数、工程函数、字符串函数及逻辑函数等等,它支持公式的编辑、复制、粘贴;同时还支持Visual Basic编程,通过宏和VisualBasic可以定义用户自定义函数[2] [3]。(2)具有强大的数据库功能:可以对数据进行修改、插入、删除、查询、替换、排序、筛选、链接等操作。(3)计算结果自动更新:更改原始数据后,计算结果自动更新。2、开发语言选择Python,对Excel操控用openpyxl模块。选择Python的原因是Python开发效率非常高,可移植性好,可扩展性强,可嵌入性灵活,最重要的是它是高级编程语言[4] [5],当你用Python语言编写程序的时候,你无需考虑诸如如何管理你的程序使用的内存一类的底层细节。

二、结构设计

一般软件的特点:输入数据必须是标准的格式,输出数据是固定的格式,信息获取多数用LineText、CheckBox等对话框工具,这种程序的特点是固定对固定,界面美观,软件开发容易,但是适应性很差,程序安装收费、扩展功能困难,所以软件处理的数据文件都是Excel文件,编辑好后的Excel文件作为一个变量,传入数据检测和统计分析软件中,然后软件在进行检测和统计分析。软件使用到的文件有:检测模板文件、信息模板文件、变量模板文件。这些模板文件可以动态变化更改,例如检测模板文件,检测模板文件是以列为单位,检测对应上交数据文件中的数据是否符合要求,检测模板的定义和数据库建模时属性设置相似,不同的是,检测模板文件定义的是复合定义或限定的填写内容,复合定义的名称是唯一的,例如:“sdd612870036”是复合定义,表示这列数据只能填写信息模板文件“sdd612870036xinxi”内对应的内容,如果检测内容类型不多,可以直接在检测模板中限定填写内容,如图1所示:

5ee0a0c989553_html_4235665da62c0519.gif

图1:软件结构设计

软件设计的原则是动态对动态,即:输入数据是动态的,输出数据也是动态的。软件设计中通过对检测模板文件和信息模板文件的自定义设计,适应原始数据文件的动态变化,检测后,实现原始数据文件格式统一的目的。再通过对变量模板文件进行自定义流程和变量设置,从而实现对数据动态分析,由于统计分析结果和使用者的使用目的有关,建议分析变量用文件形式的输入,但是如果变量模板文件信息涉密,建议用list变量替代变量模板文件,通过更改变量list,实现统计分析功能的扩展。

三、软件程序实现

软件实现时,程序是变量动态分析为主,变量固定分析为辅助,函数输入的变量尽量用文件动态提供,这样工具才能适用性更强。如果需要用list替换变量模板文件,建议用公用变量list替换,list格式:[["身份号","人员类别","在位情况"], ["在位","在外"],.……]。程序具体功能如图2所示:

5ee0a0c989553_html_9878ea3367bfc5b9.jpg

图2:检测功能

如上图所示,程序很多功能是通用功能,程序工作时,提示信息在text框显示,同时生成一个Excel文件,Excel文件内有多个sheet,例如,规则检查,检测完毕,text框中显示错误信息,同时一个与按键同名的excel文件(规则检查.xlsx),规则检查.xlsx内有两个sheet,一个sheet是错误数据在原始数据对应位置显示,另一个sheet,一行表示一个错误,一行内容有:错的行号,错的列号,错的值,修改完后可以替换原始数据文件。动作是实现多个功能的自动化,动作是利用excel编写任务流程,然后执行该excel文件。

四、总结

本软件开发坚持简单实用、方便快捷、动态对动态的原则,借鉴了arcgis软件模型构建器以及oracel表格管理的思维,用户可以自定义设置, 文件编辑,模板设置和变量输入都是选择Excel文件,继承了Excel的所有优点,具有数据库的管理的特点,这种程序开发速度快,成本很低,一个任务下达后,只要定义好一个流程或规则,其他人可以直接使用该软件检查数据、统计分析数据,通用性强,并且还可以根据任务需求对功能再扩展。

参考文献:

[1] 车永刚.科学计算程序性能分析与优化关键技术研究[D].国防科学技术大学,2004.

[2] 邱宁.Excel电子表格与数据库的数据转换[J].计算机应用与软件,2004,10:24—25.

[3] 冯民 高绍强 用excel宏程序提取fbd期刊数据的简易编程[J]. 中国科技期刊研究. 2015年9月第26卷第9期

[4] 姜安印 冯龙飞 基于Python 的长文本比较研究[J]. ·前沿与热点, 2018(02):067-073

[5] 张若愚.Python科学计算(第2版)[M].北京:清华大学出版社,2016:732.

作者简介:闻兵工,男,汉族,研究生,贵州平坝,1979年11月出生,61287部队工程师,主要研究方向:航空摄影。